Sobre as vulnerabilidades reportadas nos microdados do INEP

Gabriel H. Nunes

24 Feb 2022 6 minutos de leitura

A divulgação de dados estatísticos, incluindo microdados, é objeto de estudo e de preocupação da comunidade científica há mais de quatro décadas. Em artigo publicado em 1977, Dalenius argumentou que “a proliferação de sistemas de informação computacional serviu, sem dúvida, para aumentar a preocupação do público com os sistemas de informação estatística”, em tradução livre. No mesmo artigo, Dalenius discorreu sobre os riscos de divulgações acidentais, dado os crescentes volume e detalhamento dos dados estatísticos sendo produzidos:

Another decisive event is represented by the change that has taken place in the field statistics, with respect to the volume and detail of statistics produced, thus enhancing the risks for accidental disclosures.

Dalenius (1977)¹

Não obstante, Dalenius se posicionou contrário à noção de eliminação de divulgações estatísticas, particularmente devido às restrições não razoáveis que deveriam ser impostas sobre os dados divulgados. Para Dalenius, a eliminação de divulgações só seria possível com a eliminação de estatísticas como um todo.

A reasonable starting point is to discard the notion of elimination of disclosure. Two arguments for doing so are: i. it would be unrealistic to aim at elimination: such a goal is not operationally feasible; ii. it would place unreasonable restrictions on the kind of statistics that can be released; it may be argued that elimination of disclosure is possible only by elimination of statistics.

Dalenius (1977)¹

Como solução, Dalenius propôs a noção de controle de divulgações estatísticas.

Ao final da década de 1990, Sweeney identificou sérias vulnerabilidades nos dados agregados do Censo Demográfico dos Estados Unidos de 1990. Com apenas a combinação do ZIP code (equivalente ao CEP brasileiro), gênero, e data de nascimento, 87% da população americana reportada naquele Censo era unicamente identificável.

Além disso, Sweeney apontou que a combinação de dados do Censo Demográfico com outras bases de dados publicamente disponíveis permitiria “vincular diagnóstico, procedimentos e medicamentos a indivíduos particularmente nomeados” em bases de dados de saúde.

Dentre as conclusões do artigo publicado por Sweeney em 2000, que exemplificou de forma clara os problemas apontados por Dalenius, destaca-se que a “prática de desidentificação de dados e de generalização ad hoc não são suficientes para tornar os dados anônimos”:

Evidence is provided in this document that this practice of de-identifying data and of ad hoc generalization are not sufficient to render data anonymous because combinations of attributes often combine uniquely to re-identify individuals.

Sweeney (2000)²

Desde então, a comunidade científica desenvolveu diversos métodos para o controle de divulgações estatísticas. Muitos foram demonstrados falhos, sendo necessária constante reavaliação dos riscos à privacidade por parte dos órgãos responsáveis por divulgações estatísticas.

Um exemplo recente foi a completa reformulação da divulgação estatística realizada pelo Escritório do Censo dos Estados Unidos para a divulgação dos dados referentes ao Censo Demográfico de 2020. Iniciada há aproximadamente dez anos, essa reformulação adaptou o estado-da-arte em controle de divulgações estatísticas às publicações do Censo Demográfico. E, como esperado, foi recebida com diferentes níveis de entusiasmo por parte dos utilizadores dos dados finais.

No Brasil, e particularmente no caso do INEP, vulnerabilidades nos microdados divulgados já haviam sido apontadas em 2015 por Queiroz e Motta.³ Nesse artigo, os pesquisadores foram capazes de se re-identificar na base de dados do Censo da Educação Superior, especificamente na tabela referente aos docentes. Além disso, Queiroz e Motta realizaram análises de risco disponibilizadas pela ferramenta ARX, demonstrando a amplitude do problema.

Em nosso trabalho realizado na UFMG, consideramos as tabelas referentes aos discentes do Censo Escolar, as quais reportam informações de aproximadamente 50 milhões de estudantes por todo o Brasil. Diferentemente de Queiroz e Motta, consideramos não só o risco de re-identificação, mas também o risco de inferência de atributos considerados sensíveis, como aqueles relacionados a informações econômicas ou de saúde.

Importante destacar que nosso trabalho foi baseado em fundamentos matemáticos sólidos⁴ e resultados experimentais reprodutíveis.⁵ Ademais, teria sido realizado independentemente da existência de interesse por parte do INEP ou da assinatura do TED entre o INEP e a UFMG. Como apontado anteriormente, a divulgação de dados estatísticos é objeto de estudo e de preocupação da comunidade científica há mais de quatro décadas.

Pessoalmente, considero divulgações estatísticas de suma importância para o desenvolvimento social, econômico, e científico do país. Entretanto, essas divulgações devem ser realizadas de maneira responsável e segura. Como apontado por Dalenius, ao citar Barabba, o controle de divulgação estatística busca “o objetivo geral de encontrar um equilíbrio razoável entre ‘o direito à privacidade’ e ‘a necessidade de saber’”.

… the overall objective of striking a reasoned balance between ’the right to privacy’ and ’the need to know’.

Barabba (1975)⁶

Assim como o Escritório do Censo dos Estados Unidos enfrentou e enfrenta resistência devido à reformulação realizada para a divulgação dos dados referentes ao Censo Demográfico de 2020, era de se esperar resistência a qualquer alteração que viesse a ser realizada pelo INEP. Pessoalmente, considero essa resistência importante como forma de fomentar a discussão pública necessária em torno do que se espera de órgãos públicos no que se refere ao direito à privacidade e ao direito à transparência. Esses são direitos fundamentais a uma sociedade democrática, mas que também são, por muitas vezes, antagônicos.

Entretanto, ataques de ordem pessoal aos pesquisadores envolvidos no trabalho realizado na UFMG devido à decisão recentemente publicizada pelo INEP não passam de tentativas de intimidação e de se encontrar bodes expiatórios. Em um contexto nacional de constantes ataques à ciência, à educação, e aos direitos individuais e coletivos, vilipendiar o trabalho científico sério e rigoroso executado em nossas Universidades é também um desserviço à sociedade e não apenas ao desenvolvimento científico do país, mas também ao desenvolvimento econômico e social.

Àqueles interessados em discutir os resultados reportados em nossos trabalhos e possíveis alternativas à divulgação dos microdados estatísticos pelo INEP, estou aberto à interlocução.

Dalenius, T. (1977). Towards a methodology for statistical disclosure control. statistik Tidskrift, 15(429-444):2–1. ↩︎ ↩︎
Sweeney, L. (2000). Simple Demographics Often Identify People Uniquely. ↩︎
Queiroz, M. and Motta, G. (2015). Privacidade e Transparência no Setor público: Um Estudo de Caso da Publicação de Microdados do INEP. In XV Simposio Brasileiro em Seguranca da Informacao e de Sistemas Computacionais-SBSeg. ↩︎
Alvim, M. S., Chatzikokolakis, K., McIver, A., Morgan, C., Palamidessi, C., and Smith, G. (2020). The Science of Quantitative Information Flow. Springer. ↩︎
Nunes, G. H. (2021). A formal quantitative study of privacy in the publication of official educational censuses in Brazil. Universidade Federal de Minas Gerais. ↩︎
Barabba, V. P. (1975). The right to privacy and the need to know. In: U.S. Bureau of the Census: A numerator and denominator for measuring change. Technical Paper 37. Government Printing Office, Washington, D.C. ↩︎

Gabriel H. Nunes

Doutorando em Ciência da Computação

Físico e Cientista da Computação

Sobre as vulnerabilidades reportadas nos microdados do INEP

Gabriel H. Nunes

Doutorando em Ciência da Computação

Relacionados