# üìä An√°lise de Dados - PIIGuardian

Este notebook apresenta a an√°lise explorat√≥ria dos dados para o desafio
de detec√ß√£o de dados pessoais do Hackathon Participa DF.

## Objetivos
1. Entender a distribui√ß√£o dos tipos de dados pessoais
2. Analisar padr√µes de formata√ß√£o
3. Identificar casos desafiadores

In [None]:
# Imports
import sys
sys.path.insert(0, '..')

import json
import pandas as pd
import matplotlib.pyplot as plt
from collections import Counter

# Configura√ß√µes
plt.style.use('seaborn-v0_8-whitegrid')
pd.set_option('display.max_colwidth', 100)

In [None]:
# Carrega dados de exemplo
with open('../data/sample_pedidos.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

df = pd.DataFrame(data['data'])
print(f"Total de registros: {len(df)}")
df.head()

In [None]:
# An√°lise de distribui√ß√£o de PII
pii_counts = df['expected_has_pii'].value_counts()

fig, ax = plt.subplots(figsize=(8, 5))
pii_counts.plot(kind='bar', ax=ax, color=['green', 'red'])
ax.set_title('Distribui√ß√£o de Registros com/sem PII')
ax.set_xlabel('Cont√©m PII')
ax.set_ylabel('Quantidade')
plt.tight_layout()
plt.show()

In [None]:
# An√°lise de tipos de entidades
entity_types = []
for entities in df['expected_entities']:
    for entity in entities:
        entity_types.append(entity['type'])

type_counts = Counter(entity_types)
print("Distribui√ß√£o de tipos de PII:")
for pii_type, count in type_counts.most_common():
    print(f"  {pii_type}: {count}")

In [None]:
# Comprimento dos textos
df['text_length'] = df['text'].apply(len)

fig, ax = plt.subplots(figsize=(10, 5))
df['text_length'].hist(bins=20, ax=ax, edgecolor='black')
ax.set_title('Distribui√ß√£o do Comprimento dos Textos')
ax.set_xlabel('N√∫mero de caracteres')
ax.set_ylabel('Frequ√™ncia')
plt.tight_layout()
plt.show()

print(f"Comprimento m√©dio: {df['text_length'].mean():.0f} caracteres")
print(f"Comprimento m√°ximo: {df['text_length'].max()} caracteres")

## Conclus√µes

1. Os dados cont√™m uma mistura de registros com e sem PII
2. Os tipos mais comuns s√£o CPF, telefone e email
3. Os textos s√£o relativamente curtos (t√≠pico de formul√°rios)