In [None]:
# Notebook: Limpeza de Dados Pessoais para Projetos de Machine Learning (Conformidade LGPD, PL 2338, ANPD e NIST)

"""
Este notebook apresenta um fluxo completo e profissional para a detecção, anonimização e remoção de dados pessoais em conformidade com normas regulatórias:

- LGPD (Lei 13.709/2018)
- PL 2338/2023
- Diretrizes da ANPD
- NIST Privacy Framework

**Objetivo:** Utilizar técnicas baseadas em LLM (Large Language Models), SQLAlchemy e Pandas para:
- Detectar dados pessoais não apenas por nomes de colunas, mas pelo conteúdo das células
- Automatizar o descarte, anonimização ou substituição de campos sensíveis
- Garantir a privacidade e segurança de dados na fase de EDA em projetos de Machine Learning

Este processo respeita os princípios da minimização, necessidade, finalidade e transparência conforme a LGPD.
"""

# 1. Conectar ao banco e listar tabelas
from sqlalchemy import create_engine, inspect
import pandas as pd

engine = create_engine('postgresql://usuario:senha@host:porta/banco')
inspector = inspect(engine)
tabelas = inspector.get_table_names()
print("Tabelas disponíveis:", tabelas)

# 2. Função para carregar e inspecionar os primeiros registros
AMOSTRA = 100

def carregar_tabela(tabela):
    query = f"SELECT * FROM {tabela} LIMIT {AMOSTRA}"
    return pd.read_sql_query(query, con=engine)

# 3. Detecção Inteligente com LLM (simulação)
"""
Aqui você pode usar uma API de LLM como OpenAI, Mistral, Claude, etc.
Para cada coluna da tabela, analisamos os 100 primeiros valores e pedimos à LLM que classifique se o conteúdo se refere a dados pessoais (nome, CPF, telefone, etc).
"""
from openai import OpenAI

# Simulação (ajuste com sua chave e endpoint)
# openai.api_key = "sua-chave"

# Detectar colunas sensíveis
import random

def simular_identificacao_llm(df):
    sensiveis = []
    for col in df.columns:
        exemplo = df[col].dropna().astype(str).sample(min(5, len(df))).tolist()
        prompt = f"""
        Diga se a seguinte lista de dados representa informações pessoais identificáveis sob a LGPD. 
        Dados: {exemplo} 
        Se sim, retorne 'sensível', caso contrário 'não'.
        """
        # Aqui seria a chamada real:
        # response = openai.ChatCompletion.create(...)
        # Simulação de resposta (em produção, substitua pela API):
        if any('email' in val or '@' in val or '-' in val for val in exemplo):
            sensiveis.append(col)
    return sensiveis

# 4. Processo Completo por Tabela

base_final = {}

for tabela in tabelas:
    df = carregar_tabela(tabela)
    print(f"\nProcessando tabela: {tabela} (linhas: {len(df)}, colunas: {len(df.columns)})")
    colunas_sensiveis = simular_identificacao_llm(df)

    print(f"Colunas sensíveis detectadas: {colunas_sensiveis}")
    df_limpo = df.drop(columns=colunas_sensiveis)

    base_final[tabela] = df_limpo
    print(f"Tabela '{tabela}' limpa e pronta para EDA com {df_limpo.shape[1]} colunas.")

# 5. Justificativa e Conformidade
"""
Cada passo foi projetado com base em princípios legais e boas práticas:

- **Identificação de dados sensíveis via conteúdo:** muitos campos podem estar mal rotulados (ex: "contato1" conter CPF ou e-mail).
- **Limpeza antes do uso:** garante que modelos de ML não sejam treinados indevidamente com dados pessoais, evitando vazamentos e infrações legais.
- **LLM como ferramenta de apoio:** traz inteligência contextual para além da regex ou validações manuais.

Este processo pode ser registrado via logs para auditoria, e validado junto à equipe jurídica e de compliance.
"""

# 6. Próximos Passos (recomendados)
"""
- Integrar com ferramenta de lineage e rastreamento (como Great Expectations ou SodaSQL)
- Documentar o dicionário de dados com marcação de sensibilidade
- Versão em produção deve anonimizar ao invés de excluir (para manter consistência de schema)
- LLMs podem ser refinados com exemplos específicos do seu domínio
"""
