# üîÑ Transforma√ß√£o de Dados - Seguran√ßa P√∫blica SP

Este notebook realiza a **transforma√ß√£o** dos dados brutos extra√≠dos do portal da SSP-SP.

## Objetivos:
- Carregar CSVs brutos de `data/raw/`
- Padronizar nomes de colunas
- Limpar e tratar dados
- Criar coluna `taxa_crime_por_100k`
- Categorizar tipos de crime
- Salvar dados processados em `data/processed/`

---

## 1. Importar Bibliotecas e Fun√ß√µes de Transforma√ß√£o

In [None]:
# Importar bibliotecas necess√°rias
import sys
import os
from pathlib import Path
from datetime import datetime
import pandas as pd
import numpy as np
import logging

# Adicionar o diret√≥rio src ao path
sys.path.append(str(Path().resolve().parent / 'src'))

# Importar fun√ß√µes de transforma√ß√£o
from transform import (
    clean_column_names,
    remove_duplicates,
    handle_missing_values,
    normalize_dates,
    categorize_crimes,
    aggregate_by_region,
    calculate_crime_rate,
    validate_data
)

# Configurar logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

print("‚úÖ Bibliotecas e fun√ß√µes de transforma√ß√£o importadas com sucesso!")

## 2. Configurar Diret√≥rios e Caminhos

In [None]:
# Definir diret√≥rios do projeto
PROJECT_ROOT = Path().resolve().parent
DATA_RAW_DIR = PROJECT_ROOT / 'data' / 'raw'
DATA_PROCESSED_DIR = PROJECT_ROOT / 'data' / 'processed'
DATA_INTERIM_DIR = PROJECT_ROOT / 'data' / 'interim'

# Criar diret√≥rios se n√£o existirem
DATA_PROCESSED_DIR.mkdir(parents=True, exist_ok=True)
DATA_INTERIM_DIR.mkdir(parents=True, exist_ok=True)

print(f"üìÅ Diret√≥rio de dados brutos: {DATA_RAW_DIR}")
print(f"üìÅ Diret√≥rio de dados processados: {DATA_PROCESSED_DIR}")
print(f"üìÅ Diret√≥rio de dados intermedi√°rios: {DATA_INTERIM_DIR}")

## 3. Carregar Dados Brutos

In [None]:
# Listar arquivos CSV dispon√≠veis em data/raw
csv_files = list(DATA_RAW_DIR.glob('*.csv'))

print(f"üìÇ Arquivos CSV encontrados em data/raw/: {len(csv_files)}\n")
for i, file in enumerate(csv_files, 1):
    size_kb = file.stat().st_size / 1024
    print(f"  {i}. {file.name} ({size_kb:.2f} KB)")

# Carregar o arquivo de exemplo criado no notebook de extra√ß√£o
arquivo_exemplo = DATA_RAW_DIR / "exemplo_dados_ssp_2024.csv"

if arquivo_exemplo.exists():
    df_raw = pd.read_csv(arquivo_exemplo, sep=';', encoding='utf-8-sig')
    print(f"\n‚úÖ Arquivo carregado: {arquivo_exemplo.name}")
    print(f"üìä Dimens√µes: {df_raw.shape[0]} linhas x {df_raw.shape[1]} colunas")
    print(f"\nüìã Primeiras 5 linhas:")
    display(df_raw.head())
else:
    print(f"\n‚ö†Ô∏è Arquivo de exemplo n√£o encontrado!")
    print("Execute primeiro o notebook '1_extracao.ipynb'")

## 4. Etapa 1: Padronizar Nomes de Colunas

Usando a fun√ß√£o `clean_column_names()` para:
- Converter para min√∫sculas
- Remover acentos
- Substituir espa√ßos por underscores
- Remover caracteres especiais

In [None]:
# Verificar nomes de colunas antes da transforma√ß√£o
print("üìã Colunas ANTES da padroniza√ß√£o:")
print(df_raw.columns.tolist())

# Aplicar fun√ß√£o de limpeza de nomes de colunas
df_transformed = clean_column_names(df_raw)

print("\n‚úÖ Colunas AP√ìS a padroniza√ß√£o:")
print(df_transformed.columns.tolist())

# Compara√ß√£o lado a lado
print("\nüìä Compara√ß√£o:")
for old, new in zip(df_raw.columns, df_transformed.columns):
    if old != new:
        print(f"  {old:<20} ‚Üí {new}")
    else:
        print(f"  {old:<20} (sem altera√ß√£o)")

print(f"\n‚úÖ Padroniza√ß√£o de nomes de colunas conclu√≠da!")
df_transformed.head()

## 5. Etapa 2: Remover Duplicatas

Usando a fun√ß√£o `remove_duplicates()` para identificar e remover registros duplicados:

In [None]:
# Verificar duplicatas antes da remo√ß√£o
duplicatas_antes = df_transformed.duplicated().sum()
print(f"üîç Registros duplicados encontrados: {duplicatas_antes}")

# Remover duplicatas
registros_antes = len(df_transformed)
df_transformed = remove_duplicates(df_transformed)
registros_depois = len(df_transformed)

print(f"\nüìä Registros ANTES: {registros_antes:,}")
print(f"üìä Registros DEPOIS: {registros_depois:,}")
print(f"üóëÔ∏è  Registros removidos: {registros_antes - registros_depois:,}")

if registros_antes == registros_depois:
    print("\n‚úÖ Nenhuma duplicata encontrada!")
else:
    print(f"\n‚úÖ {registros_antes - registros_depois} duplicatas removidas com sucesso!")

## 6. Etapa 3: Tratar Valores Ausentes

Usando a fun√ß√£o `handle_missing_values()` com diferentes estrat√©gias:

In [None]:
# Verificar valores ausentes
print("üîç Valores ausentes por coluna:")
valores_nulos = df_transformed.isnull().sum()
print(valores_nulos)

total_nulos = valores_nulos.sum()
print(f"\nüìä Total de valores ausentes: {total_nulos}")

if total_nulos > 0:
    # Aplicar estrat√©gia de preenchimento com zero (para dados de criminalidade)
    # Pode usar 'drop', 'fill_zero', 'fill_mean', 'fill_median'
    df_transformed = handle_missing_values(df_transformed, strategy='fill_zero')
    print("\n‚úÖ Valores ausentes preenchidos com zero")
else:
    print("\n‚úÖ Nenhum valor ausente encontrado!")

# Verificar novamente
print("\nüîç Verifica√ß√£o p√≥s-tratamento:")
print(df_transformed.isnull().sum())

## 7. Etapa 4: Categorizar Tipos de Crime

Usando a fun√ß√£o `categorize_crimes()` para agrupar crimes em categorias:

In [None]:
# Verificar tipos de crime √∫nicos
print("üîç Tipos de crime √∫nicos no dataset:")
print(df_transformed['tipo_crime'].unique())
print(f"\nTotal de tipos diferentes: {df_transformed['tipo_crime'].nunique()}")

# Aplicar categoriza√ß√£o
df_transformed = categorize_crimes(df_transformed, crime_column='tipo_crime')

# Verificar distribui√ß√£o por categoria
print("\nüìä Distribui√ß√£o por Categoria de Crime:")
distribuicao = df_transformed.groupby('categoria_crime').agg({
    'ocorrencias': 'sum',
    'vitimas': 'sum'
}).sort_values('ocorrencias', ascending=False)

print(distribuicao)

# Visualizar
print(f"\n‚úÖ Nova coluna 'categoria_crime' criada!")
print(f"\nüìã Amostra dos dados:")
df_transformed[['tipo_crime', 'categoria_crime', 'ocorrencias']].head(10)

## 8. Etapa 5: Criar Coluna Taxa de Crime por 100k Habitantes

Usando a fun√ß√£o `calculate_crime_rate()` para calcular a taxa de criminalidade:

In [None]:
# Criar dataset de popula√ß√£o (dados aproximados para demonstra√ß√£o)
# Em produ√ß√£o, voc√™ carregaria dados reais do IBGE ou outra fonte oficial

populacao_sp = {
    'municipio': ['S√£o Paulo', 'Campinas', 'Santos', 'Guarulhos', 'Ribeir√£o Preto'],
    'populacao': [12396372, 1223237, 433153, 1291771, 711825]  # Dados aproximados
}

df_populacao = pd.DataFrame(populacao_sp)

print("üìä Dados de Popula√ß√£o:")
print(df_populacao)
print()

# Verificar munic√≠pios antes do merge
print(f"üîç Munic√≠pios no dataset de criminalidade: {df_transformed['municipio'].unique()}")
print(f"üîç Munic√≠pios no dataset de popula√ß√£o: {df_populacao['municipio'].unique()}")

# Aplicar c√°lculo de taxa de criminalidade
df_transformed = calculate_crime_rate(df_transformed, df_populacao)

print("\n‚úÖ Coluna 'taxa_criminalidade' criada!")
print(f"\nüìã Amostra com as novas colunas:")
df_transformed[['municipio', 'tipo_crime', 'ocorrencias', 'populacao', 'taxa_criminalidade']].head(10)

## 9. Valida√ß√£o dos Dados Transformados

Usando a fun√ß√£o `validate_data()` para verificar a integridade:

In [None]:
# Validar dados transformados
validation_results = validate_data(df_transformed)

print("="*60)
print("üìä RELAT√ìRIO DE VALIDA√á√ÉO DOS DADOS TRANSFORMADOS")
print("="*60)

print(f"\n1Ô∏è‚É£ Total de Registros: {validation_results['total_registros']:,}")

print(f"\n2Ô∏è‚É£ Total de Colunas: {len(validation_results['colunas'])}")
print("   Colunas:", ", ".join(validation_results['colunas']))

print(f"\n3Ô∏è‚É£ Valores Nulos:")
if sum(validation_results['valores_nulos'].values()) == 0:
    print("   ‚úÖ Nenhum valor nulo encontrado!")
else:
    for col, count in validation_results['valores_nulos'].items():
        if count > 0:
            print(f"   - {col}: {count}")

print(f"\n4Ô∏è‚É£ Duplicatas: {validation_results['duplicatas']}")

print(f"\n5Ô∏è‚É£ Estat√≠sticas Descritivas:")
print(df_transformed[['ocorrencias', 'vitimas', 'taxa_criminalidade']].describe())

print("\n" + "="*60)

## 10. Visualiza√ß√£o dos Dados Transformados

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (16, 10)

# Criar visualiza√ß√µes
fig, axes = plt.subplots(2, 2, figsize=(18, 12))

# Gr√°fico 1: Taxa de Criminalidade por Munic√≠pio
taxa_por_municipio = df_transformed.groupby('municipio')['taxa_criminalidade'].mean().sort_values(ascending=True)
taxa_por_municipio.plot(kind='barh', ax=axes[0, 0], color='darkred')
axes[0, 0].set_title('Taxa de Criminalidade M√©dia por Munic√≠pio (por 100k hab)', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Taxa por 100k habitantes', fontsize=11)
axes[0, 0].set_ylabel('Munic√≠pio', fontsize=11)

# Gr√°fico 2: Distribui√ß√£o por Categoria de Crime
categoria_crimes = df_transformed.groupby('categoria_crime')['ocorrencias'].sum().sort_values(ascending=False)
colors = ['#e74c3c', '#3498db', '#f39c12', '#2ecc71']
axes[0, 1].pie(categoria_crimes, labels=categoria_crimes.index, autopct='%1.1f%%', 
               colors=colors, startangle=90)
axes[0, 1].set_title('Distribui√ß√£o por Categoria de Crime', fontsize=14, fontweight='bold')

# Gr√°fico 3: Top 10 Tipos de Crime
top_crimes = df_transformed.groupby('tipo_crime')['ocorrencias'].sum().sort_values(ascending=False).head(10)
top_crimes.plot(kind='bar', ax=axes[1, 0], color='steelblue')
axes[1, 0].set_title('Top 10 Tipos de Crime (Total de Ocorr√™ncias)', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Tipo de Crime', fontsize=11)
axes[1, 0].set_ylabel('N√∫mero de Ocorr√™ncias', fontsize=11)
axes[1, 0].tick_params(axis='x', rotation=45)

# Gr√°fico 4: Evolu√ß√£o Mensal
evolucao_mensal = df_transformed.groupby('mes')['ocorrencias'].sum()
axes[1, 1].plot(evolucao_mensal.index, evolucao_mensal.values, marker='o', 
                linewidth=2.5, markersize=8, color='darkgreen')
axes[1, 1].fill_between(evolucao_mensal.index, evolucao_mensal.values, alpha=0.3, color='lightgreen')
axes[1, 1].set_title('Evolu√ß√£o Mensal de Ocorr√™ncias', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('M√™s', fontsize=11)
axes[1, 1].set_ylabel('N√∫mero de Ocorr√™ncias', fontsize=11)
axes[1, 1].grid(True, alpha=0.3)
axes[1, 1].set_xticks(range(1, 11))

plt.tight_layout()
plt.show()

print("‚úÖ Visualiza√ß√µes criadas com sucesso!")

## 11. Salvar Dados Processados em `data/processed/`

Salvando os dados transformados em m√∫ltiplos formatos:

In [None]:
# Definir nome do arquivo de sa√≠da
timestamp = datetime.now().strftime('%Y%m%d')
output_filename = f"dados_processados_ssp_{timestamp}"

# 1. Salvar em CSV
csv_path = DATA_PROCESSED_DIR / f"{output_filename}.csv"
df_transformed.to_csv(csv_path, index=False, encoding='utf-8-sig')
print(f"‚úÖ CSV salvo: {csv_path}")
print(f"   Tamanho: {csv_path.stat().st_size / 1024:.2f} KB")

# 2. Salvar em Parquet (mais eficiente)
parquet_path = DATA_PROCESSED_DIR / f"{output_filename}.parquet"
df_transformed.to_parquet(parquet_path, index=False)
print(f"\n‚úÖ Parquet salvo: {parquet_path}")
print(f"   Tamanho: {parquet_path.stat().st_size / 1024:.2f} KB")

# 3. Salvar vers√£o agregada por munic√≠pio
df_agregado = aggregate_by_region(df_transformed, region_col='municipio')
agregado_path = DATA_PROCESSED_DIR / f"dados_agregados_municipio_{timestamp}.csv"
df_agregado.to_csv(agregado_path, index=False, encoding='utf-8-sig')
print(f"\n‚úÖ Dados agregados salvos: {agregado_path}")
print(f"   Tamanho: {agregado_path.stat().st_size / 1024:.2f} KB")

print(f"\nüìä Total de registros processados: {len(df_transformed):,}")
print(f"üìä Total de colunas: {len(df_transformed.columns)}")

## 12. Salvar Metadados da Transforma√ß√£o

In [None]:
import json

# Criar metadados da transforma√ß√£o
metadata_transformacao = {
    'data_processamento': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'notebook': '2_transformacao.ipynb',
    'arquivo_origem': 'exemplo_dados_ssp_2024.csv',
    'arquivos_saida': [
        f"{output_filename}.csv",
        f"{output_filename}.parquet",
        f"dados_agregados_municipio_{timestamp}.csv"
    ],
    'transformacoes_aplicadas': [
        'Padroniza√ß√£o de nomes de colunas',
        'Remo√ß√£o de duplicatas',
        'Tratamento de valores ausentes (fill_zero)',
        'Categoriza√ß√£o de tipos de crime',
        'C√°lculo de taxa de criminalidade por 100k habitantes',
        'Agrega√ß√£o por munic√≠pio'
    ],
    'dados_processados': {
        'total_registros': int(len(df_transformed)),
        'total_colunas': int(len(df_transformed.columns)),
        'colunas': list(df_transformed.columns),
        'periodo': {
            'ano': int(df_transformed['ano'].iloc[0]),
            'mes_inicio': int(df_transformed['mes'].min()),
            'mes_fim': int(df_transformed['mes'].max())
        }
    },
    'qualidade': {
        'valores_nulos': int(df_transformed.isnull().sum().sum()),
        'duplicatas': int(df_transformed.duplicated().sum()),
        'registros_validos': int(len(df_transformed))
    },
    'estatisticas': {
        'total_ocorrencias': int(df_transformed['ocorrencias'].sum()),
        'total_vitimas': int(df_transformed['vitimas'].sum()),
        'taxa_media_criminalidade': float(df_transformed['taxa_criminalidade'].mean()),
        'municipios_analisados': int(df_transformed['municipio'].nunique()),
        'tipos_crime': int(df_transformed['tipo_crime'].nunique())
    }
}

# Salvar metadados
metadata_path = DATA_PROCESSED_DIR / f'metadata_transformacao_{timestamp}.json'
with open(metadata_path, 'w', encoding='utf-8') as f:
    json.dump(metadata_transformacao, f, indent=2, ensure_ascii=False)

print(f"‚úÖ Metadados salvos em: {metadata_path}")
print(f"\nüìã Resumo da Transforma√ß√£o:")
print(json.dumps(metadata_transformacao, indent=2, ensure_ascii=False))

## 13. Resumo e Pr√≥ximos Passos

### ‚úÖ Resumo da Transforma√ß√£o

Neste notebook, realizamos as seguintes transforma√ß√µes:

1. ‚úÖ **Padroniza√ß√£o de Nomes de Colunas** - Converteu para min√∫sculas, removeu acentos e caracteres especiais
2. ‚úÖ **Remo√ß√£o de Duplicatas** - Identificou e removeu registros duplicados
3. ‚úÖ **Tratamento de Valores Ausentes** - Preencheu valores nulos com zeros
4. ‚úÖ **Categoriza√ß√£o de Crimes** - Agrupou tipos de crime em categorias (Violentos, Patrimoniais, Tr√¢nsito, Outros)
5. ‚úÖ **C√°lculo da Taxa de Criminalidade** - Criou coluna `taxa_criminalidade` por 100k habitantes
6. ‚úÖ **Agrega√ß√£o por Munic√≠pio** - Gerou dataset resumido por regi√£o
7. ‚úÖ **Valida√ß√£o de Dados** - Verificou integridade e qualidade dos dados
8. ‚úÖ **Visualiza√ß√µes** - Criou gr√°ficos para an√°lise explorat√≥ria
9. ‚úÖ **Salvamento de Dados** - Exportou para CSV e Parquet em `data/processed/`
10. ‚úÖ **Metadados** - Registrou informa√ß√µes sobre o processo de transforma√ß√£o

### üìä Resultados Obtidos

- **Dados limpos e padronizados**
- **Taxa de criminalidade por 100k habitantes calculada**
- **Categoriza√ß√£o de crimes aplicada**
- **Dados prontos para an√°lise e carga**

### üìù Pr√≥ximos Passos

1. **Carga (Load)**: Execute o notebook `3_carga.ipynb` para carregar os dados em um banco de dados
2. **An√°lise**: Use o notebook `4_analise_dados.ipynb` para an√°lises explorat√≥rias avan√ßadas
3. **Visualiza√ß√µes**: Crie dashboards e relat√≥rios com os dados processados

### üìÇ Arquivos Gerados

- `data/processed/dados_processados_ssp_YYYYMMDD.csv` - Dados completos em CSV
- `data/processed/dados_processados_ssp_YYYYMMDD.parquet` - Dados em formato Parquet
- `data/processed/dados_agregados_municipio_YYYYMMDD.csv` - Dados agregados por munic√≠pio
- `data/processed/metadata_transformacao_YYYYMMDD.json` - Metadados do processo

In [None]:
# Verificar todos os arquivos criados
print("="*60)
print("üìÇ ARQUIVOS CRIADOS NA TRANSFORMA√á√ÉO")
print("="*60)

print(f"\nüìÅ Diret√≥rio: {DATA_PROCESSED_DIR}\n")
for file in sorted(DATA_PROCESSED_DIR.glob('*')):
    size_kb = file.stat().st_size / 1024
    print(f"  üìÑ {file.name:<50} ({size_kb:,.2f} KB)")

print("\n" + "="*60)
print("‚úÖ TRANSFORMA√á√ÉO CONCLU√çDA COM SUCESSO!")
print("="*60)
print("\nüéØ Dados transformados e prontos para:")
print("   1. Carga em banco de dados (notebook 3_carga.ipynb)")
print("   2. An√°lise explorat√≥ria avan√ßada (notebook 4_analise_dados.ipynb)")
print("   3. Cria√ß√£o de dashboards e visualiza√ß√µes")
print("\nüöÄ Pr√≥ximo passo: Execute o notebook '3_carga.ipynb'")