# Auditoria de Dados Pessoais - LGPD

Este notebook demonstra t√©cnicas de identifica√ß√£o, classifica√ß√£o e anonimiza√ß√£o de dados pessoais (PII) em conformidade com a Lei Geral de Prote√ß√£o de Dados.

## Objetivos

1. Gerar dados de exemplo com PII
2. Escanear e identificar dados pessoais
3. Classificar por n√≠vel de risco
4. Aplicar diferentes t√©cnicas de anonimiza√ß√£o
5. Validar a efic√°cia da anonimiza√ß√£o

## Conceitos LGPD

- **Dado Pessoal**: Informa√ß√£o relacionada a pessoa natural identificada ou identific√°vel
- **Dado Sens√≠vel**: Origem racial, convic√ß√£o religiosa, opini√£o pol√≠tica, dado de sa√∫de, biom√©trico
- **Anonimiza√ß√£o**: Utiliza√ß√£o de meios t√©cnicos para impossibilitar a identifica√ß√£o do titular

In [None]:
# Imports
import sys
from pathlib import Path

# Adicionar diret√≥rio raiz ao path
sys.path.insert(0, str(Path.cwd().parent))

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from faker import Faker

# Configura√ß√µes
pd.set_option('display.max_columns', None)
plt.style.use('seaborn-v0_8-whitegrid')

print("Bibliotecas carregadas!")

## 1. Gera√ß√£o de Dados de Exemplo

Vamos criar um dataset fict√≠cio simulando dados de uma empresa com diversos tipos de PII.

In [None]:
# Gerar dados sint√©ticos
fake = Faker('pt_BR')
np.random.seed(42)

n_records = 100

df = pd.DataFrame({
    'id': range(1, n_records + 1),
    'nome_completo': [fake.name() for _ in range(n_records)],
    'cpf': [fake.cpf() for _ in range(n_records)],
    'rg': [f"{np.random.randint(10000000, 99999999)}-{np.random.randint(0,9)}" for _ in range(n_records)],
    'email': [fake.email() for _ in range(n_records)],
    'telefone': [fake.phone_number() for _ in range(n_records)],
    'endereco': [fake.address().replace('\n', ', ') for _ in range(n_records)],
    'cep': [fake.postcode() for _ in range(n_records)],
    'data_nascimento': [fake.date_of_birth(minimum_age=18, maximum_age=70).strftime('%d/%m/%Y') for _ in range(n_records)],
    'salario': [round(np.random.uniform(1500, 25000), 2) for _ in range(n_records)],
    'cargo': [fake.job() for _ in range(n_records)],
    'departamento': np.random.choice(['TI', 'RH', 'Financeiro', 'Comercial', 'Opera√ß√µes'], n_records),
    'data_admissao': [fake.date_between(start_date='-10y', end_date='today').strftime('%d/%m/%Y') for _ in range(n_records)]
})

print(f"Dataset criado: {len(df)} registros, {len(df.columns)} colunas")
print(f"\nColunas: {df.columns.tolist()}")
df.head()

In [None]:
# Salvar dados para uso posterior
output_path = Path('../data/input/dados_funcionarios.csv')
output_path.parent.mkdir(parents=True, exist_ok=True)
df.to_csv(output_path, index=False)
print(f"Dados salvos em: {output_path}")

## 2. Scan de Dados Pessoais (PII)

In [None]:
from src.scanners import PIIScanner, ScanResult

# Inicializar scanner
scanner = PIIScanner()

# Executar scan
result = scanner.scan(df, source_name='dados_funcionarios.csv')

print("=" * 60)
print("RESULTADO DO SCAN")
print("=" * 60)
print(f"Fonte: {result.source_name}")
print(f"Linhas: {result.total_rows:,}")
print(f"Colunas analisadas: {result.columns_scanned}")
print(f"PIIs encontrados: {len(result.pii_found)}")

In [None]:
# Resumo por n√≠vel de risco
print("\nResumo por N√≠vel de Risco:")
for level, count in result.risk_summary.items():
    if count > 0:
        emoji = {'critico': 'üî¥', 'alto': 'üü†', 'medio': 'üü°', 'baixo': 'üü¢'}.get(level, '‚ö™')
        print(f"  {emoji} {level.upper()}: {count} campos")

In [None]:
# Detalhes dos PIIs encontrados
print("\nDetalhes dos PIIs Encontrados:")
print("-" * 80)

pii_data = []
for pii in result.pii_found:
    print(f"[{pii.risk_level.value.upper():8}] {pii.column:20} | {pii.pii_type.value:15} | {pii.count} ocorr√™ncias")
    pii_data.append({
        'coluna': pii.column,
        'tipo': pii.pii_type.value,
        'risco': pii.risk_level.value,
        'ocorrencias': pii.count
    })

df_pii = pd.DataFrame(pii_data)

In [None]:
# Visualiza√ß√£o: PIIs por N√≠vel de Risco
risk_order = ['critico', 'alto', 'medio', 'baixo']
risk_colors = {'critico': '#d62728', 'alto': '#ff7f0e', 'medio': '#ffbb78', 'baixo': '#2ca02c'}

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras por risco
risk_counts = df_pii['risco'].value_counts().reindex(risk_order).fillna(0)
colors = [risk_colors[r] for r in risk_counts.index]
axes[0].bar(risk_counts.index, risk_counts.values, color=colors)
axes[0].set_xlabel('N√≠vel de Risco')
axes[0].set_ylabel('Quantidade de Campos')
axes[0].set_title('Campos com PII por N√≠vel de Risco')

# Gr√°fico de pizza por tipo
type_counts = df_pii['tipo'].value_counts()
axes[1].pie(type_counts.values, labels=type_counts.index, autopct='%1.1f%%')
axes[1].set_title('Distribui√ß√£o por Tipo de PII')

plt.tight_layout()
plt.show()

In [None]:
# Recomenda√ß√µes
print("\nRecomenda√ß√µes de Tratamento:")
print("-" * 60)
for rec in result.recommendations:
    print(f"‚Ä¢ {rec}")

## 3. T√©cnicas de Anonimiza√ß√£o

Vamos explorar diferentes t√©cnicas dispon√≠veis.

In [None]:
from src.anonymizers import DataAnonymizer

anonymizer = DataAnonymizer()

# Exemplo de dados para demonstra√ß√£o
exemplo = df.iloc[0].copy()
print("Dados Originais:")
print(f"  CPF: {exemplo['cpf']}")
print(f"  Nome: {exemplo['nome_completo']}")
print(f"  Email: {exemplo['email']}")
print(f"  Sal√°rio: {exemplo['salario']}")

In [None]:
# T√©cnica 1: Mascaramento
print("\n=== MASCARAMENTO ===")
print("Oculta parte dos caracteres mantendo formato reconhec√≠vel")
print(f"  CPF original:   {exemplo['cpf']}")
print(f"  CPF mascarado:  {anonymizer.mask_value(exemplo['cpf'], visible_chars=3)}")
print(f"  Email original: {exemplo['email']}")
print(f"  Email mascarado: {anonymizer.mask_value(exemplo['email'], visible_chars=3)}")

In [None]:
# T√©cnica 2: Hash
print("\n=== HASH (SHA-256) ===")
print("Transforma em hash irrevers√≠vel, √∫til para chaves √∫nicas")
print(f"  CPF original: {exemplo['cpf']}")
print(f"  CPF hash:     {anonymizer.hash_value(exemplo['cpf'], truncate=12)}")
print(f"  Nome hash:    {anonymizer.hash_value(exemplo['nome_completo'], truncate=12)}")

In [None]:
# T√©cnica 3: Pseudonimiza√ß√£o
print("\n=== PSEUDONIMIZA√á√ÉO ===")
print("Substitui por identificador artificial mantendo consist√™ncia")
print(f"  Nome original: {exemplo['nome_completo']}")
print(f"  Pseud√¥nimo:    {anonymizer.pseudonymize(exemplo['nome_completo'], prefix='Funcionario')}")

In [None]:
# T√©cnica 4: Generaliza√ß√£o
print("\n=== GENERALIZA√á√ÉO ===")
print("Reduz precis√£o dos dados")
print(f"  Sal√°rio original:    R$ {exemplo['salario']:,.2f}")
print(f"  Sal√°rio generalizado: {anonymizer.generalize_numeric(exemplo['salario'], bin_size=5000)}")

In [None]:
# T√©cnica 5: Supress√£o
print("\n=== SUPRESS√ÉO ===")
print("Remove completamente o dado")
print(f"  Endere√ßo original: {exemplo['endereco'][:50]}...")
print(f"  Endere√ßo suprimido: {anonymizer.suppress_value(exemplo['endereco'])}")

In [None]:
# T√©cnica 6: Ru√≠do (para dados num√©ricos)
print("\n=== RU√çDO ESTAT√çSTICO ===")
print("Adiciona varia√ß√£o aleat√≥ria mantendo distribui√ß√£o")
print(f"  Sal√°rio original: R$ {exemplo['salario']:,.2f}")
for i in range(3):
    noisy = anonymizer.add_noise(exemplo['salario'], percentage=10)
    print(f"  Com ru√≠do (¬±10%): R$ {noisy:,.2f}")

## 4. Anonimiza√ß√£o Completa do Dataset

In [None]:
# Configura√ß√£o de anonimiza√ß√£o baseada na an√°lise
config = {
    # Cr√≠ticos - Hash ou supress√£o
    'cpf': {'method': 'hash', 'truncate': 12},
    'rg': {'method': 'hash', 'truncate': 12},
    
    # Altos - Pseudonimiza√ß√£o ou mascaramento
    'nome_completo': {'method': 'pseudonymize', 'prefix': 'Colaborador'},
    'email': {'method': 'mask', 'visible_chars': 3},
    'telefone': {'method': 'mask', 'visible_chars': 4},
    
    # M√©dios - Generaliza√ß√£o
    'endereco': {'method': 'suppress'},
    'cep': {'method': 'mask', 'visible_chars': 5},
    'data_nascimento': {'method': 'generalize'},  # Mant√©m s√≥ o ano
    
    # Sens√≠veis - Generaliza√ß√£o ou ru√≠do
    'salario': {'method': 'noise', 'percentage': 15}
}

print("Configura√ß√£o de Anonimiza√ß√£o:")
for col, cfg in config.items():
    print(f"  {col}: {cfg['method']}")

In [None]:
# Aplicar anonimiza√ß√£o
df_anon = anonymizer.anonymize_dataframe(df.copy(), config)

print("\nDataset Anonimizado:")
df_anon.head()

In [None]:
# Compara√ß√£o: Antes vs Depois
print("\n" + "=" * 80)
print("COMPARA√á√ÉO: ANTES vs DEPOIS DA ANONIMIZA√á√ÉO")
print("=" * 80)

cols_comparar = ['nome_completo', 'cpf', 'email', 'telefone', 'salario', 'endereco']

for col in cols_comparar:
    print(f"\n{col.upper()}:")
    print(f"  Antes: {str(df[col].iloc[0])[:60]}")
    print(f"  Depois: {str(df_anon[col].iloc[0])[:60]}")

## 5. Valida√ß√£o da Anonimiza√ß√£o

In [None]:
# Re-escanear dados anonimizados
result_anon = scanner.scan(df_anon, source_name='dados_anonimizados.csv')

print("=" * 60)
print("SCAN DO DATASET ANONIMIZADO")
print("=" * 60)
print(f"PIIs encontrados: {len(result_anon.pii_found)}")
print(f"\nResumo por N√≠vel de Risco:")
for level, count in result_anon.risk_summary.items():
    if count > 0:
        print(f"  {level.upper()}: {count}")

In [None]:
# Compara√ß√£o: Riscos Antes vs Depois
print("\n" + "=" * 60)
print("REDU√á√ÉO DE RISCO")
print("=" * 60)

for level in ['critico', 'alto', 'medio', 'baixo']:
    antes = result.risk_summary.get(level, 0)
    depois = result_anon.risk_summary.get(level, 0)
    reducao = antes - depois
    pct = (reducao / antes * 100) if antes > 0 else 0
    print(f"  {level.upper():8}: {antes} ‚Üí {depois} ({'-' if reducao > 0 else '+'}{abs(reducao)} | {pct:.0f}% redu√ß√£o)")

In [None]:
# Verificar utilidade estat√≠stica dos dados (exemplo: sal√°rio)
print("\n" + "=" * 60)
print("PRESERVA√á√ÉO DA UTILIDADE ESTAT√çSTICA")
print("=" * 60)

print("\nSal√°rio - Estat√≠sticas Descritivas:")
print(f"{'M√©trica':<15} {'Original':>15} {'Anonimizado':>15} {'Diferen√ßa':>15}")
print("-" * 60)

metricas = ['mean', 'std', 'min', 'max', 'median']
for m in metricas:
    orig = getattr(df['salario'], m)()
    anon = getattr(df_anon['salario'], m)()
    diff = abs(orig - anon) / orig * 100
    print(f"{m:<15} {orig:>15,.2f} {anon:>15,.2f} {diff:>14.1f}%")

In [None]:
# Visualiza√ß√£o: Distribui√ß√£o Antes vs Depois
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma de sal√°rios
axes[0].hist(df['salario'], bins=20, alpha=0.5, label='Original', color='blue')
axes[0].hist(df_anon['salario'], bins=20, alpha=0.5, label='Anonimizado', color='orange')
axes[0].set_xlabel('Sal√°rio (R$)')
axes[0].set_ylabel('Frequ√™ncia')
axes[0].set_title('Distribui√ß√£o de Sal√°rios: Original vs Anonimizado')
axes[0].legend()

# Boxplot comparativo
data_box = pd.DataFrame({
    'Original': df['salario'],
    'Anonimizado': df_anon['salario']
})
data_box.boxplot(ax=axes[1])
axes[1].set_ylabel('Sal√°rio (R$)')
axes[1].set_title('Compara√ß√£o de Distribui√ß√£o')

plt.tight_layout()
plt.show()

## 6. Gera√ß√£o de Relat√≥rio de Auditoria

In [None]:
from src.reporters import LGPDReporter

# Gerar relat√≥rio HTML
reporter = LGPDReporter()
report_path = reporter.generate_audit_report([result])

print(f"\nRelat√≥rio de auditoria gerado: {report_path}")
print("Abra o arquivo HTML no navegador para visualizar o relat√≥rio completo.")

In [None]:
# Salvar dados anonimizados
output_anon = Path('../data/output/dados_funcionarios_anonimizado.csv')
output_anon.parent.mkdir(parents=True, exist_ok=True)
df_anon.to_csv(output_anon, index=False)
print(f"Dados anonimizados salvos: {output_anon}")

## 7. Conclus√µes e Boas Pr√°ticas

### T√©cnicas Recomendadas por Tipo de Dado

| Tipo de Dado | Risco | T√©cnica Recomendada |
|--------------|-------|---------------------|
| CPF, CNPJ, RG | Cr√≠tico | Hash SHA-256 |
| Nome completo | Alto | Pseudonimiza√ß√£o |
| Email | Alto | Mascaramento ou Hash |
| Telefone | Alto | Mascaramento |
| Endere√ßo | M√©dio | Supress√£o ou Generaliza√ß√£o |
| Data de nascimento | M√©dio | Generaliza√ß√£o (s√≥ ano) |
| Sal√°rio | M√©dio | Ru√≠do estat√≠stico |

### Princ√≠pios LGPD Aplicados

1. **Minimiza√ß√£o**: Coletar apenas dados necess√°rios
2. **Adequa√ß√£o**: Tratamento compat√≠vel com a finalidade
3. **Necessidade**: Limitar ao m√≠nimo necess√°rio
4. **Qualidade**: Garantir exatid√£o e atualiza√ß√£o
5. **Seguran√ßa**: Medidas t√©cnicas de prote√ß√£o

### Pr√≥ximos Passos

- Implementar processo de auditoria peri√≥dica
- Automatizar pipeline de anonimiza√ß√£o
- Integrar com sistemas de governan√ßa de dados
- Documentar bases legais para cada tratamento