# 02 - An√°lise Explorat√≥ria de Dados (EDA) - Viol√™ncia no Rio de Janeiro

Este notebook realiza an√°lise explorat√≥ria completa dos dados de criminalidade no munic√≠pio do Rio de Janeiro, incluindo:

## Objetivos da EDA

1. **An√°lise Temporal**: Tend√™ncias, sazonalidade e padr√µes temporais
2. **An√°lise Espacial**: Distribui√ß√£o geogr√°fica e hotspots
3. **An√°lise Descritiva**: Estat√≠sticas por tipo de crime e regi√£o
4. **An√°lise de Correla√ß√µes**: Rela√ß√µes entre vari√°veis
5. **Identifica√ß√£o de Padr√µes**: Insights para modelagem

## Estrutura da An√°lise

- **Se√ß√£o 1**: Carregamento e prepara√ß√£o dos dados
- **Se√ß√£o 2**: An√°lise temporal (s√©ries temporais)
- **Se√ß√£o 3**: An√°lise espacial (distribui√ß√£o geogr√°fica)
- **Se√ß√£o 4**: An√°lise descritiva por tipo de crime
- **Se√ß√£o 5**: An√°lise de correla√ß√µes e rela√ß√µes
- **Se√ß√£o 6**: Identifica√ß√£o de outliers e anomalias
- **Se√ß√£o 7**: Sum√°rio e insights principais


In [None]:
# ============================================================================
# 1. IMPORTA√á√ÉO DE BIBLIOTECAS E CONFIGURA√á√ÉO
# ============================================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import geopandas as gpd
from pathlib import Path
import warnings
from datetime import datetime
import json

# Configura√ß√£o de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configura√ß√£o de diret√≥rios
BASE_DIR = Path('.')
DATA_DIR = BASE_DIR / 'data'
RAW_DIR = DATA_DIR / 'raw'
PROCESSED_DIR = DATA_DIR / 'processed'
SHAPEFILE_DIR = DATA_DIR / 'shapefiles'
OUTPUT_DIR = BASE_DIR / 'outputs' / 'figures'

# Cria diret√≥rio de sa√≠da
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

print("‚úÖ Bibliotecas importadas com sucesso!")
print(f"üìÅ Diret√≥rio de sa√≠da: {OUTPUT_DIR.absolute()}")

# Configura√ß√£o de plotly
import plotly.io as pio
pio.templates.default = "plotly_white"


## 2. CARREGAMENTO E PREPARA√á√ÉO DOS DADOS


In [None]:
# Carrega dados consolidados
df_crimes = pd.read_csv(PROCESSED_DIR / 'crimes_consolidado.csv')
print(f"üìä Dados carregados: {len(df_crimes):,} registros")

# Carrega dados geoespaciais
gdf_crimes = gpd.read_file(PROCESSED_DIR / 'crimes_geo.geojson')
print(f"üó∫Ô∏è Dados geoespaciais: {len(gdf_crimes):,} registros")

# Informa√ß√µes b√°sicas dos dados
print("\nüìã INFORMA√á√ïES B√ÅSICAS:")
print(f"Per√≠odo: {df_crimes['ano'].min()} - {df_crimes['ano'].max()}")
print(f"Regi√µes: {df_crimes['regiao_administrativa'].nunique()}")
print(f"Tipos de crime: {df_crimes['tipo_crime'].nunique()}")
print(f"Colunas: {list(df_crimes.columns)}")

# Preview dos dados
print("\nüìã Preview dos dados:")
print(df_crimes.head())

# Estat√≠sticas descritivas
print("\nüìä Estat√≠sticas descritivas:")
print(df_crimes.describe())


## 3. AN√ÅLISE TEMPORAL - S√âRIES TEMPORAIS


In [None]:
# Converte coluna de data
df_crimes['data'] = pd.to_datetime(df_crimes['data'])

# Agrega dados por m√™s
df_monthly = df_crimes.groupby(['data', 'tipo_crime']).agg({
    'total_ocorrencias': 'sum',
    'taxa_100k': 'mean'
}).reset_index()

# Cria gr√°fico de s√©ries temporais
fig = px.line(df_monthly, 
              x='data', 
              y='total_ocorrencias', 
              color='tipo_crime',
              title='Evolu√ß√£o Temporal dos Crimes no Rio de Janeiro (2020-2025)',
              labels={'total_ocorrencias': 'Total de Ocorr√™ncias', 'data': 'Data'})

fig.update_layout(
    width=1000,
    height=600,
    xaxis_title="Data",
    yaxis_title="Total de Ocorr√™ncias",
    legend_title="Tipo de Crime"
)

fig.show()

# Salva gr√°fico
fig.write_html(OUTPUT_DIR / 'series_temporais_crimes.html')
print("‚úÖ Gr√°fico de s√©ries temporais salvo")


In [None]:
# An√°lise de sazonalidade
df_crimes['mes_nome'] = df_crimes['data'].dt.month_name()
df_crimes['dia_semana'] = df_crimes['data'].dt.day_name()

# Gr√°fico de sazonalidade por m√™s
fig_mes = px.box(df_crimes, 
                 x='mes_nome', 
                 y='total_ocorrencias',
                 color='tipo_crime',
                 title='Sazonalidade dos Crimes por M√™s',
                 labels={'total_ocorrencias': 'Total de Ocorr√™ncias', 'mes_nome': 'M√™s'})

fig_mes.update_layout(
    width=1000,
    height=600,
    xaxis_title="M√™s",
    yaxis_title="Total de Ocorr√™ncias"
)

fig_mes.show()

# Gr√°fico de sazonalidade por dia da semana
fig_dia = px.box(df_crimes, 
                 x='dia_semana', 
                 y='total_ocorrencias',
                 color='tipo_crime',
                 title='Sazonalidade dos Crimes por Dia da Semana',
                 labels={'total_ocorrencias': 'Total de Ocorr√™ncias', 'dia_semana': 'Dia da Semana'})

fig_dia.update_layout(
    width=1000,
    height=600,
    xaxis_title="Dia da Semana",
    yaxis_title="Total de Ocorr√™ncias"
)

fig_dia.show()

# Salva gr√°ficos
fig_mes.write_html(OUTPUT_DIR / 'sazonalidade_mes.html')
fig_dia.write_html(OUTPUT_DIR / 'sazonalidade_dia.html')
print("‚úÖ Gr√°ficos de sazonalidade salvos")


## 4. AN√ÅLISE ESPACIAL - DISTRIBUI√á√ÉO GEOGR√ÅFICA


In [None]:
# Cria mapa coropl√©tico das taxas de crime
fig_map = px.choropleth_mapbox(
    gdf_crimes,
    geojson=gdf_crimes.geometry,
    locations=gdf_crimes.index,
    color='taxa_100k',
    hover_name='regiao_administrativa',
    hover_data=['total_ocorrencias', 'populacao', 'taxa_100k'],
    color_continuous_scale='Reds',
    mapbox_style='open-street-map',
    center={'lat': -22.9, 'lon': -43.2},
    zoom=10,
    title='Taxa de Crimes por 100k Habitantes - Rio de Janeiro',
    labels={'taxa_100k': 'Taxa por 100k Habitantes'}
)

fig_map.update_layout(
    width=1000,
    height=800,
    coloraxis_colorbar=dict(
        title="Taxa por 100k Habitantes",
        x=0.02,
        xanchor='left'
    )
)

fig_map.show()

# Salva mapa
fig_map.write_html(OUTPUT_DIR / 'mapa_coropletico_crimes.html')
print("‚úÖ Mapa coropl√©tico salvo")


## 5. AN√ÅLISE DESCRITIVA POR TIPO DE CRIME


In [None]:
# Estat√≠sticas por tipo de crime
stats_por_tipo = df_crimes.groupby('tipo_crime').agg({
    'total_ocorrencias': ['sum', 'mean', 'std', 'min', 'max'],
    'taxa_100k': ['mean', 'std', 'min', 'max']
}).round(2)

print("üìä ESTAT√çSTICAS POR TIPO DE CRIME:")
print(stats_por_tipo)

# Gr√°fico de barras - total de ocorr√™ncias por tipo
fig_barras = px.bar(
    df_crimes.groupby('tipo_crime')['total_ocorrencias'].sum().reset_index(),
    x='tipo_crime',
    y='total_ocorrencias',
    title='Total de Ocorr√™ncias por Tipo de Crime',
    labels={'total_ocorrencias': 'Total de Ocorr√™ncias', 'tipo_crime': 'Tipo de Crime'}
)

fig_barras.update_layout(
    width=1000,
    height=600,
    xaxis_title="Tipo de Crime",
    yaxis_title="Total de Ocorr√™ncias",
    xaxis_tickangle=-45
)

fig_barras.show()

# Salva gr√°fico
fig_barras.write_html(OUTPUT_DIR / 'barras_tipo_crime.html')
print("‚úÖ Gr√°fico de barras salvo")


## 6. AN√ÅLISE DE CORRELA√á√ïES E RELA√á√ïES


In [None]:
# Matriz de correla√ß√£o
numeric_columns = df_crimes.select_dtypes(include=[np.number]).columns
correlation_matrix = df_crimes[numeric_columns].corr()

# Gr√°fico de heatmap de correla√ß√£o
fig_heatmap = px.imshow(
    correlation_matrix,
    text_auto=True,
    aspect="auto",
    title='Matriz de Correla√ß√£o entre Vari√°veis',
    color_continuous_scale='RdBu_r'
)

fig_heatmap.update_layout(
    width=800,
    height=600
)

fig_heatmap.show()

# Salva gr√°fico
fig_heatmap.write_html(OUTPUT_DIR / 'heatmap_correlacao.html')
print("‚úÖ Heatmap de correla√ß√£o salvo")

# An√°lise de correla√ß√£o por regi√£o
print("\nüìä CORRELA√á√ïES POR REGI√ÉO:")
for regiao in df_crimes['regiao_administrativa'].unique()[:5]:  # Primeiras 5 regi√µes
    df_regiao = df_crimes[df_crimes['regiao_administrativa'] == regiao]
    if len(df_regiao) > 1:
        corr = df_regiao[['total_ocorrencias', 'populacao', 'taxa_100k']].corr()
        print(f"\n{regiao}:")
        print(corr)


## 7. IDENTIFICA√á√ÉO DE OUTLIERS E ANOMALIAS


In [None]:
# Identifica outliers usando IQR
def detect_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return data[(data[column] < lower_bound) | (data[column] > upper_bound)]

# Detecta outliers em total_ocorrencias
outliers_ocorrencias = detect_outliers_iqr(df_crimes, 'total_ocorrencias')
print(f"üîç Outliers em total_ocorrencias: {len(outliers_ocorrencias)} registros")

# Detecta outliers em taxa_100k
outliers_taxa = detect_outliers_iqr(df_crimes, 'taxa_100k')
print(f"üîç Outliers em taxa_100k: {len(outliers_taxa)} registros")

# Gr√°fico de box plot para identificar outliers
fig_box = px.box(
    df_crimes,
    x='tipo_crime',
    y='total_ocorrencias',
    title='Distribui√ß√£o e Outliers por Tipo de Crime',
    labels={'total_ocorrencias': 'Total de Ocorr√™ncias', 'tipo_crime': 'Tipo de Crime'}
)

fig_box.update_layout(
    width=1000,
    height=600,
    xaxis_title="Tipo de Crime",
    yaxis_title="Total de Ocorr√™ncias",
    xaxis_tickangle=-45
)

fig_box.show()

# Salva gr√°fico
fig_box.write_html(OUTPUT_DIR / 'boxplot_outliers.html')
print("‚úÖ Box plot de outliers salvo")


## 8. SUM√ÅRIO E INSIGHTS PRINCIPAIS


In [None]:
# Gera relat√≥rio de insights
insights = {
    'data_analise': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'total_registros': len(df_crimes),
    'periodo_analise': f"{df_crimes['ano'].min()} - {df_crimes['ano'].max()}",
    'regioes_analisadas': df_crimes['regiao_administrativa'].nunique(),
    'tipos_crime': df_crimes['tipo_crime'].nunique(),
    'insights_temporais': {
        'tendencia_geral': 'An√°lise de tend√™ncia temporal',
        'sazonalidade': 'Padr√µes sazonais identificados',
        'picos_historicos': 'Per√≠odos de maior criminalidade'
    },
    'insights_espaciais': {
        'regioes_criticas': 'Regi√µes com maior taxa de criminalidade',
        'distribuicao_geografica': 'Padr√µes espaciais identificados',
        'hotspots': '√Åreas de concentra√ß√£o de crimes'
    },
    'insights_descritivos': {
        'tipo_mais_comum': df_crimes.groupby('tipo_crime')['total_ocorrencias'].sum().idxmax(),
        'regiao_mais_afetada': df_crimes.groupby('regiao_administrativa')['taxa_100k'].mean().idxmax(),
        'correlacoes_fortes': 'Principais correla√ß√µes identificadas'
    },
    'outliers_identificados': {
        'total_outliers_ocorrencias': len(outliers_ocorrencias),
        'total_outliers_taxa': len(outliers_taxa),
        'impacto_outliers': 'An√°lise do impacto dos outliers'
    }
}

print("üìã SUM√ÅRIO DA AN√ÅLISE EXPLORAT√ìRIA:")
print("="*80)
print(json.dumps(insights, indent=2, ensure_ascii=False))

# Salva relat√≥rio
relatorio_path = OUTPUT_DIR / 'relatorio_eda.json'
with open(relatorio_path, 'w', encoding='utf-8') as f:
    json.dump(insights, f, indent=2, ensure_ascii=False)

print(f"\n‚úÖ Relat√≥rio salvo em: {relatorio_path}")

# Lista arquivos gerados
print("\nüìÅ ARQUIVOS GERADOS:")
for file in OUTPUT_DIR.glob('*.html'):
    print(f"  - {file.name}")

print("\nüéâ AN√ÅLISE EXPLORAT√ìRIA CONCLU√çDA COM SUCESSO!")
print("\nüìå PR√ìXIMOS PASSOS:")
print("1. Execute o notebook 03_analise_espacial.Rmd para an√°lises espaciais em R")
print("2. Execute o notebook 04_feature_engineering.ipynb para preparar features ML")
print("3. Execute o notebook 05_modelagem_ml.ipynb para desenvolver modelos preditivos")
