<a href="https://colab.research.google.com/github/sebavassou/aula001py_mba/blob/main/EticaIA/C%C3%B3pia_de_Anonimiza%C3%A7%C3%A3o_e_pseudonimiza%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ética da IA - Explorando soluções computacionais (toy example)



## Anonimização vs pseudonimização de dados

*   Anonimização é o processo de remover informações que poderiam identificar um indivíduo, tornando impossível tal identificação. Uma vez que os dados estão anonimizados, não podem ser revertidos para sua forma original.
*   Pseudonimização, por outro lado, substitui identificadores diretos (como nome e CPF) por pseudônimos ou identificadores alternativos. Este processo permite que, sob condições controladas, os dados possam ser revertidos à sua forma original.

Os códigos em Python abaixo ilustram a diferença entre essas duas abordagens (através de exemplos fictícios simplificados).

## Anonimização

Note que a Anonimização:
* Remove completamente os identificadores pessoais
* Agrega ou generaliza informações (ex: idade específica → faixa etária)
* É irreversível
* Se bem-feita, torna impossível identificar um indivíduo

In [2]:
from datetime import datetime

class AnonimizacaoDados:
    def __init__(self):

        # Dados originais dos pacientes
        self.dados_pacientes = [
            {
                "nome": "João Silva",
                "cpf": "123.456.789-00",
                "data_nasc": "1980-05-15",
                "email": "joao.silva@email.com",
                "diagnostico": "Hipertensão",
                "cidade": "São Paulo",
                "salario": 5000.00,
                "telefone": "(11) 98765-4321"
            },
            {
                "nome": "Maria Santos",
                "cpf": "987.654.321-00",
                "data_nasc": "1992-08-23",
                "email": "maria.santos@email.com",
                "diagnostico": "Diabetes",
                "cidade": "Rio de Janeiro",
                "salario": 7000.00,
                "telefone": "(21) 98765-4321"
            }
        ]

    # Generaliza dado: idade -> faixa etária
    def _calcular_faixa_etaria(self, data_nasc):
        nascimento = datetime.strptime(data_nasc, "%Y-%m-%d")
        idade = (datetime.now() - nascimento).days // 365

        if idade < 20: return "0-20"
        elif idade < 40: return "21-40"
        elif idade < 60: return "41-60"
        else: return "60+"

    # Generaliza dado: salário -> faixa salarial
    def _calcular_faixa_salarial(self, salario):
        if salario < 3000: return "Até 3000"
        elif salario < 6000: return "3001-6000"
        elif salario < 10000: return "6001-10000"
        else: return "Acima de 10000"

    # Generaliza dado: cidade -> região
    def _obter_regiao(self, cidade):
        regioes = {
            "São Paulo": "Sudeste",
            "Rio de Janeiro": "Sudeste",
            "Salvador": "Nordeste",
            "Porto Alegre": "Sul"
        }
        return regioes.get(cidade, "Não especificada")

    def anonimizar_dados(self):
        """
        Anonimização: Remove completamente informações pessoais e
        generaliza dados de forma irreversível
        """
        dados_anonimizados = []

        for paciente in self.dados_pacientes:
            dados_anonimo = { "faixa_etaria": self._calcular_faixa_etaria(paciente["data_nasc"]),
                "regiao": self._obter_regiao(paciente["cidade"]),
                "faixa_salarial": self._calcular_faixa_salarial(paciente["salario"]),
                "diagnostico": paciente["diagnostico"]
            }
            dados_anonimizados.append(dados_anonimo)

        # Apaga os dados originais
        self.dados_pacientes = []

        return dados_anonimizados

    def obter_dados_originais(self):
        return self.dados_pacientes

# Demonstração
if __name__ == "__main__":
    processador = AnonimizacaoDados()

    print("\nDados Originais (antes da anonimização):")
    print(processador.obter_dados_originais())

    print("\nDados anonimizados:")
    dados_anonimizados = processador.anonimizar_dados() # chama o método que anonimiza os dados
    for paciente in dados_anonimizados:
        print(paciente)

    print("\nTentativa de recuperação dos dados originais após anonimização:")
    print(processador.obter_dados_originais())


Dados Originais (antes da anonimização):
[{'nome': 'João Silva', 'cpf': '123.456.789-00', 'data_nasc': '1980-05-15', 'email': 'joao.silva@email.com', 'diagnostico': 'Hipertensão', 'cidade': 'São Paulo', 'salario': 5000.0, 'telefone': '(11) 98765-4321'}, {'nome': 'Maria Santos', 'cpf': '987.654.321-00', 'data_nasc': '1992-08-23', 'email': 'maria.santos@email.com', 'diagnostico': 'Diabetes', 'cidade': 'Rio de Janeiro', 'salario': 7000.0, 'telefone': '(21) 98765-4321'}]

Dados anonimizados:
{'faixa_etaria': '41-60', 'regiao': 'Sudeste', 'faixa_salarial': '3001-6000', 'diagnostico': 'Hipertensão'}
{'faixa_etaria': '21-40', 'regiao': 'Sudeste', 'faixa_salarial': '6001-10000', 'diagnostico': 'Diabetes'}

Tentativa de recuperação dos dados originais após anonimização:
[]


No exemplo ilustrativo acima, após anonimização, os dados originais foram eliminados em definitivo. Além disso, a generalização impede a identificação por meio de cruzamento de dados com outras bases.
Não se aplica mais a LGPD.

## Pseudonimização

Note que a pseudonimização:
* Substitui dados por pseudônimos
* Mantém mais detalhes dos dados originais
* É reversível sob condições controladas
* Mantém a utilidade dos dados para análises mais detalhadas

In [4]:
import hashlib

class PseudonimizacaoDados:
    def __init__(self):
        self.mapeamento_pseudonimos = {} # dicionário que vai mapear os pseudônimos aos dados originais (deveria ser guardado em segurança)

        # Dados originais
        self.dados_pacientes = [
            {
                "nome": "João Silva",
                "cpf": "123.456.789-00",
                "data_nasc": "1980-05-15",
                "email": "joao.silva@email.com",
                "diagnostico": "Hipertensão",
                "cidade": "São Paulo",
                "telefone": "(11) 98765-4321"
            },
            {
                "nome": "Maria Santos",
                "cpf": "987.654.321-00",
                "data_nasc": "1992-08-23",
                "email": "maria.santos@email.com",
                "diagnostico": "Diabetes",
                "cidade": "Rio de Janeiro",
                "telefone": "(21) 98765-4321"
            }
        ]

    def pseudonimizar_dados(self):
        """
        Pseudonimização: Substitui dados identificáveis por pseudônimos
        que podem ser revertidos com acesso ao dicionário de mapeamento.
        """
        dados_pseudonimizados = []

        for paciente in self.dados_pacientes:
            # Cria identificador único usando hash
            identificador = hashlib.sha256(
                (paciente["nome"] + paciente["cpf"]).encode()
            ).hexdigest()[:8]

            self.mapeamento_pseudonimos[identificador] = paciente # Armazena dados no dicionário de mapeamento

            # Substitui dados pessoais por pseudônimos
            dados_pseudo = {
                "id_paciente": identificador,
                "data_nasc": paciente["data_nasc"],
                "diagnostico": paciente["diagnostico"],
                "cidade": paciente["cidade"]
            }
            dados_pseudonimizados.append(dados_pseudo)

        self.dados_pacientes = [] # Apaga o conjunto de dados original (mas antes um mapeamento foi criado!)

        return dados_pseudonimizados

    # Recupera os dados originais usando o dicionário de mapeamento
    def recuperar_dados_originais(self, identificador):
        if identificador in self.mapeamento_pseudonimos:
            return self.mapeamento_pseudonimos[identificador]
        return "Identificador não encontrado"

# Demonstração
if __name__ == "__main__":
    processador = PseudonimizacaoDados()

    print("\nDados Originais (antes da pseudonimização):")
    for paciente in processador.dados_pacientes:
        print(paciente)

    # Processo de pseudonimização
    dados_pseudonimizados = processador.pseudonimizar_dados()

    print("\nDados Pseudonimizados:")
    for paciente in dados_pseudonimizados:
        print(paciente)

    # Tentativa de recuperação via identificador e tabela de mapeamento
    id_exemplo = dados_pseudonimizados[0]["id_paciente"]
    print(f"\nTentando recuperar dados originais, após pseudonimização, com acesso ao mapeamento:")
    dados_recuperados = processador.recuperar_dados_originais(id_exemplo)
    print(dados_recuperados)


Dados Originais (antes da pseudonimização):
{'nome': 'João Silva', 'cpf': '123.456.789-00', 'data_nasc': '1980-05-15', 'email': 'joao.silva@email.com', 'diagnostico': 'Hipertensão', 'cidade': 'São Paulo', 'telefone': '(11) 98765-4321'}
{'nome': 'Maria Santos', 'cpf': '987.654.321-00', 'data_nasc': '1992-08-23', 'email': 'maria.santos@email.com', 'diagnostico': 'Diabetes', 'cidade': 'Rio de Janeiro', 'telefone': '(21) 98765-4321'}

Dados Pseudonimizados:
{'id_paciente': '5e6c1fbf', 'data_nasc': '1980-05-15', 'diagnostico': 'Hipertensão', 'cidade': 'São Paulo'}
{'id_paciente': '4c3582de', 'data_nasc': '1992-08-23', 'diagnostico': 'Diabetes', 'cidade': 'Rio de Janeiro'}

Tentando recuperar dados originais, após pseudonimização, com acesso ao mapeamento:
{'nome': 'João Silva', 'cpf': '123.456.789-00', 'data_nasc': '1980-05-15', 'email': 'joao.silva@email.com', 'diagnostico': 'Hipertensão', 'cidade': 'São Paulo', 'telefone': '(11) 98765-4321'}


Neste segundo exemplo ilustrativo, após a pseudonimização, os códigos hash (pseudônimos) foram guardados junto dos dados pessoais em um dicionário de mapeamento. O dicionário liga cada código aos respectivos dados pessoais. Isso pode ser necessário caso a organização ainda precise tratar esses dados.

Note que não seria possível obter os dados originais diretamente. Mas, com acesso ao mapeamento, isso é possível. Logo, o processo é reversível. Em um exemplo real, esse dicionário de mapeamento deveria ser mantido em ambiente seguro. Ainda assim, como os dados pessoais não foram eliminados em definitivo, ainda estão sob a tutela da LGPD.