In [None]:
import sys
from pathlib import Path
sys.path.insert(0, str(Path.cwd() / 'src'))

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from mintic_project.data_loader import procesar_siniestros

# Configurar matplotlib para mejor visualización
%matplotlib inline
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (14, 6)

print('✓ Librerías cargadas exitosamente')

## 1. Descargar y limpiar datos

In [None]:
# Descargar y procesar datos
print('Descargando y procesando datos...')
df1, df2 = procesar_siniestros(directorio_salida='data', limite_registros=10000)
print(f'\n✓ Datasets descargados y procesados')

## 2. Exploración inicial

In [None]:
print('Dataset 1 - Información general:')
print(f'Shape: {df1.shape}')
print(f'\nColumnas:\n{df1.columns.tolist()}')
print(f'\nTipos de datos:\n{df1.dtypes}')
print(f'\nPrimeras filas:')
df1.head()

In [None]:
print('Dataset 2 - Información general:')
print(f'Shape: {df2.shape}')
print(f'\nColumnas:\n{df2.columns.tolist()}')
print(f'\nTipos de datos:\n{df2.dtypes}')
print(f'\nPrimeras filas:')
df2.head()

## 3. Análisis de Siniestros por Jornada

In [None]:
# Siniestros por jornada (si existe la columna)
if 'jornada' in df1.columns:
    jornada_counts = df1['jornada'].value_counts()
    print('Siniestros por jornada:')
    print(jornada_counts)
    
    fig, ax = plt.subplots(figsize=(10, 5))
    jornada_counts.plot(kind='bar', ax=ax, color='steelblue')
    ax.set_title('Distribución de Siniestros por Jornada')
    ax.set_ylabel('Cantidad')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

## 4. Análisis por Día de la Semana

In [None]:
if 'dia_semana' in df1.columns:
    dia_counts = df1['dia_semana'].value_counts()
    print('Siniestros por día de la semana:')
    print(dia_counts)
    
    fig, ax = plt.subplots(figsize=(10, 5))
    dia_counts.plot(kind='bar', ax=ax, color='coral')
    ax.set_title('Distribución de Siniestros por Día de la Semana')
    ax.set_ylabel('Cantidad')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

## 5. Análisis por Género (si disponible)

In [None]:
if 'genero' in df1.columns:
    genero_counts = df1['genero'].value_counts()
    print('Siniestros por género:')
    print(genero_counts)
    
    fig, ax = plt.subplots(figsize=(8, 5))
    genero_counts.plot(kind='pie', ax=ax, autopct='%1.1f%%')
    ax.set_title('Distribución de Siniestros por Género')
    plt.tight_layout()
    plt.show()

## 6. Distribución de Edades

In [None]:
if 'edad' in df1.columns:
    # Filtrar edades válidas
    edades_validas = df1['edad'].dropna()
    edades_validas = edades_validas[(edades_validas >= 0) & (edades_validas <= 120)]
    
    print(f'Edad - Estadísticas:')
    print(edades_validas.describe())
    
    fig, ax = plt.subplots(figsize=(12, 5))
    ax.hist(edades_validas, bins=30, color='green', edgecolor='black')
    ax.set_title('Distribución de Edades en Siniestros')
    ax.set_xlabel('Edad')
    ax.set_ylabel('Frecuencia')
    plt.tight_layout()
    plt.show()

## 7. Análisis de Gravedad (Dataset 2)

In [None]:
if 'gravedad' in df2.columns:
    gravedad_counts = df2['gravedad'].value_counts()
    print('Siniestros por gravedad:')
    print(gravedad_counts)
    
    fig, ax = plt.subplots(figsize=(10, 5))
    gravedad_counts.plot(kind='bar', ax=ax, color='darkred')
    ax.set_title('Distribución de Siniestros por Gravedad')
    ax.set_ylabel('Cantidad')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

## 8. Exportar datos procesados

In [None]:
# Los datos ya se guardan automáticamente, pero pueden exportarse en otros formatos
print('Archivos generados en la carpeta data/')
print('- siniestros_1_limpio.csv')
print('- siniestros_2_limpio.csv')
print('- reporte_limpieza.txt')

# Opcionalmente, guardar en Parquet (más eficiente)
# df1.to_parquet('data/siniestros_1_limpio.parquet')
# df2.to_parquet('data/siniestros_2_limpio.parquet')
# print('\n✓ También guardados en formato Parquet')