Desafios para a implementação da Lei Geral de Proteção de Dados Pessoais

Entrou em vigor na última sexta-feira, 18 de setembro de 2020, a LGPD, Lei Geral de Proteção de Dados Pessoais - Lei N° 13.709, de agosto de 2018.

Inspirada na GDPR, General Data Protection Regulation (Regulamento Geral de Proteção de Dados), implementada em maio de 2018 na União Europeia, a LGPD tem por objetivo proteger os direitos fundamentais de liberdade e de privacidade dos indivíduos, inclusive nos meios digitais.

Junto às diversas garantias individuais no que se refere à coleta, ao armazenamento, ao tratamento, e à exclusão de dados pessoais ou sensíveis por parte do Estado e de empresas privadas, a nova legislação também traz consigo dúvidas, inclusive de caráter técnico e científico.


Lista de Conteúdos


A (in)definição de anonimização na LGPD

Um primeiro problema é a definição subjetiva de anonimização dada pela LGPD, particularmente ao associar meios técnicos razoáveis, mas indefinidos, ao que será ou não considerado dado anonimizado pela LGPD.

anonimização: utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo;

– Artigo 5, inciso XI, da LGPD.

Mas por qual motivo seria tão importante ter uma definição clara e precisa de anonimização? De acordo com o Artigo 12 da LGPD, dados anonimizados deixam de ser considerados dados pessoais, ou seja, perdem as garantias dadas pela nova legislação.

Os dados anonimizados não serão considerados dados pessoais para os fins desta Lei, salvo quando o processo de anonimização ao qual foram submetidos for revertido, utilizando exclusivamente meios próprios, ou quando, com esforços razoáveis, puder ser revertido.

– Artigo 12 da LGPD.

O mesmo Artigo 12, em seu parágrafo 1, tenta atribuir fatores objetivos ao termo razoável, incluido custo e tempo necessários para reverter o processo de anonimização, além da utilização exclusiva de meios próprios.

Entretanto, a LGPD não dispõe sobre valores concretos de custo e tempo para reverter um processo de anonimização, nem sobre o que seria considerado como meio próprio. Por exemplo, seria a utilização de computação em nuvem, a cada dia mais acessível tanto do ponto de vista técnico quanto do financeiro, considerada um meio próprio?

§ 1º A determinação do que seja razoável deve levar em consideração fatores objetivos, tais como custo e tempo necessários para reverter o processo de anonimização, de acordo com as tecnologias disponíveis, e a utilização exclusiva de meios próprios.

– Artigo 12 da LGPD.

De acordo com o parágrafo 3 do Artigo 12, assim como o Artigo 55-J da LGPD, compete à Autoridade Nacional de Proteção de Dados, ANPD, dentre outras atividades, normatizar e regulamentar a proteção de dados pessoais.

Dessa forma, cabe à ANPD decidir sobre a real razoabilidade dos métodos de anonimização atualmente disponíveis, o que traria a necessária clareza à legislação. Entretanto, a ANPD ainda não foi criada e nem há prazo para que seja colocada em funcionamento.

§ 3º A autoridade nacional poderá dispor sobre padrões e técnicas utilizados em processos de anonimização e realizar verificações acerca de sua segurança, ouvido o Conselho Nacional de Proteção de Dados Pessoais.

– Artigo 12 da LGPD.

Anonimizar é possível?

Além das indefinições legais que deverão ser esclarecidas pela ANPD em relação a quais métodos de anonimização são ou não razoáveis, é importante ressaltar que o campo de estudo sobre privacidade e, mais especificamente, sobre anonimização de dados, é recente e está em constante evolução.

Conforme a literatura científica atual sobre provacidade de dados, muitos dos métodos amplamente utilizados para anonimização de dados são comprovadamente falhos.

Por exemplo, deidentificar os dados, isto é, remover informações como nome ou códigos únicos de identificação, como CPF ou RG, não garante a privacidade. Dadas outras informações presentes no banco de dados ou informações auxiliares facilmente obtidas em redes sociais ou mecanismos de pesquisa na Internet, é possível, e muitas vezes simples, reidentificar indivíduos cujos dados foram deidentificados.

Outro método semelhante, a pseudonimização, é o único método explicitamente mencionado e definido em todo o texto da LGPD. De acordo com o Artigo 13, a pseudonimização seria um método aceitável no contexto de realização de estudos em saúde pública, dadas restrições de segurança como o tratamento exclusivo dentro do órgão de pesquisa e em ambiente controlado e seguro.

Na realização de estudos em saúde pública, os órgãos de pesquisa poderão ter acesso a bases de dados pessoais, que serão tratados exclusivamente dentro do órgão e estritamente para a finalidade de realização de estudos e pesquisas e mantidos em ambiente controlado e seguro, conforme práticas de segurança previstas em regulamento específico e que incluam, sempre que possível, a anonimização ou pseudonimização dos dados, bem como considerem os devidos padrões éticos relacionados a estudos e pesquisas.

§ 4º Para os efeitos deste artigo, a pseudonimização é o tratamento por meio do qual um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo, senão pelo uso de informação adicional mantida separadamente pelo controlador em ambiente controlado e seguro.

– Artigo 13 da LGPD.

Na prática, a pseudonimização é apenas uma deidentificação seguida pela atribuição de um código individual a cada registro da base de dados, sendo que as informações removidas pela deidentificação não são excluídas, mas armazenadas em outra base de dados, de acesso restrito, juntamente com os respectivos códigos individuais.

Dessa forma, a pseudonimização permite ao controlador dos dados remapear as informações sensíveis aos respectivos indivíduos, uma propriedade importante para pesquisas em saúde pública.

Entretanto, as garantias de privacidade presentes no parágrafo 4 do Artigo 13 da LGPD são equivocadas, sendo que dados pseudonimizados são, pelo menos, tão vulneráveis quanto dados deidentificados.

Outros métodos falhos de anonimização

Em 1998, Samarati e Sweeney publicaram o método de k-anonimização1, até hoje utilizado e implementado em ferramentas de auxílio à anonimização de dados. Resumidamente, trata-se de agrupar os registros em grupos de ao menos k indivíduos, um valor arbitrário, de modo a impedir a existência de registros únicos em uma base de dados, uma vulnerabilidade presente no método de deidentificação.

Entretanto, a k-anonimização também é vulnerável a ataques de composição, nos quais informações auxiliares são utilizadas para a reidentificação de indivíduos. Nesse caso, é possível realizar a reidentificação indireta, o que a princípio violaria até mesmo a definição subjetiva de anonimização dada pela LGPD.

Assim como a k-anonimização, outros métodos semelhantes foram propostos e, eventualmente, demonstrados falhos. Esses métodos são conhecidos como métodos sintáticos, uma vez que atuam sobre a estrutura dos dados. Outra abordagem para o problema da anonimização é dada pelos métodos semânticos, os quais independem da estrutura dos dados e são considerados mais robustos e promissores.

Reconstrução de bases de dados

Antes de tratarmos dos métodos semânticos, é importante abordarmos uma ideia equivocada mas frequentemente considerada suficiente para a proteção da privacidade de dados individuais.

Especialmente no meio estatístico, é uma prática comum realizar agregações de dados. Por exemplo, a partir de um banco de dados que contenha informações sobre a idade dos indivíduos, é possível gerar um histograma no qual, para cada valor de idade, tem-se quantas pessoas presentes no banco de dados apresentam aquela idade.

Apesar de que essas agregações aparentam desfazer o vínculo entre os indivíduos e suas informações pessoais, Dinur e Nissim demonstraram em 20032 que é possível reconstruir a base de dados original a partir de um conjunto sub-linear de informações agregadas.

Ou seja, apenas agregar os dados também não é suficiente para garantir a privacidade das informações pessoais. É necessário anonimizar.

Privacidade diferencial

O problema da anonimização efetiva de dados individuais não ocorre apenas no Brasil. Até o Censo de 2010, o Escritório do Censo dos Estados Unidos utilizava métodos sintáticos para a proteção da privacidade dos indivíduos.

Entretanto, a demonstração da possibilidade de reconstrução de bases de dados em 2003, juntamente com as vulnerabilidades conhecidas dos métodos sintáticos, deixaram clara a necessidade de soluções alternativas.

Foi apenas em 2006, com o desenvolvimento da privacidade diferencial por Dwork e colaboradores3, que essa alternativa surgiu. Trata-se de um método semântico, ou seja, independente da estrutura dos dados, baseado na introdução de ruído controlado aos dados originais. Além disso, o método foi definido com garantias de privacidade demonstradas matematicamente, uma novidade para a área.

Desde então, o Escritório do Censo dos Estados Unidos vem desenvolvendo um método próprio baseado na privacidade diferencial e que será aplicado pela primeira vez no Censo de 2020. Entretanto, não se trata de uma bala de prata aplicável a toda e qualquer situação, sendo na verdade repleto de especificidades necessárias ao cumprimento da legislação que rege o mandato Escritório do Censo.

Outro método baseado na privacidade diferencial e amplamente utilizado na indústria é a privacidade diferencial local. Com versões implementadas por empresas como Apple, IBM, Google, e Microsoft, a privacidade diferencial local é inviável exceto para bancos de dados com muitos registros, como aqueles mantidos por essas empresas. Caso contrário, a quantidade de ruído introduzido é capaz de inviabilizar o uso dos dados.

Como fica a Lei de Acesso à Informação?

Outro problema trazido pela LGPD e que deve vir a ser resolvido apenas com a atuação da ANPD, é o equilíbrio entre a LGPD e a LAI, Lei de Acesso à Informação - Lei N° 12.527, de novembro de 2011.

Dentre as garantias dadas pela LAI, estão o acesso à informação primária, íntegra, autêntica, e atualizada, conforme definição dos termos dada no Artigo 4 da LAI.

VII autenticidade: qualidade da informação que tenha sido produzida, expedida, recebida ou modificada por determinado indivíduo, equipamento ou sistema;

VIII integridade: qualidade da informação não modicada, inclusive quanto à origem, trânsito e destino;

IX primariedade: qualidade da informação coletada na fonte, com o máximo de detalhamento possível, sem modicações.

– Artigo 4 da LAI.

É evidente que todo e qualquer método de anonimização de dados atentaria contra as garantias de integridade e primariedade como definidas na LAI.

Além disso, um questionamento recorrente à utilização da privacidade diferencial é o fato de que o método se baseia na introdução de ruído aos dados originais. Ou seja, os dados resultantes do processo de anonimização não seriam, de fato, dados reais, mas desvios em torno dos valores reais.

A depender do objetivo de uso dos dados, ou da legislação vigente, a publicação de dados anonimizados com o uso de privacidade diferencial poderia tornar os dados inúteis ou, ainda, incompatíveis com a legislação.

Estudo de casos sobre privacidade e transparência na publicação de dados

A partir dessa breve análise sobre a LGPD, a LAI, e os métodos de anonimização atualmente mais utilizados, ficam evidentes alguns dos desafios para a implementação da Lei Geral de Proteção de Dados Pessoais.

Parte das questões em aberto serão resolvidas pela ANPD, quando estabelecida, mas muito ainda depende do contínuo desenvolvimento do campo de estudo sobre privacidade.

Durante a semana de 17 a 21 de fevereiro de 2020, ocorreu a 9ª Escola de Verão em Computação do Departamento de Ciência da Computação da UFMG. Dentre as palestras realizadas, tive o prazer de apresentar, como membro do Laboratório INSCRYPT, a palestra Estudo de casos sobre privacidade e transparência na publicação de dados.

Nessa palestra, abordamos algumas das técnicas de anonimização de dados e suas vantagens e desvantagens, e apresentamos casos reais de indivíduos que foram reidentificados, tanto no Brasil quanto no mundo.


  1. Samarati, P., & Sweeney, L. (1998). Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression. ↩︎

  2. Dinur, I., & Nissim, K. (2003, June). Revealing information while preserving privacy. In Proceedings of the twenty-second ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems (pp. 202-210). ↩︎

  3. Dwork, C., McSherry, F., Nissim, K., & Smith, A. (2006, March). Calibrating noise to sensitivity in private data analysis. In Theory of cryptography conference (pp. 265-284). Springer, Berlin, Heidelberg. ↩︎

Avatar
Gabriel H. Nunes
Mestrando em Ciência da Computação

Físico e Cientista da Computação

Relacionados