# Exploración de Datos C5 - Incidentes Viales CDMX

Este notebook explora los datos de incidentes viales del C5 usando pandas y numpy.

## Objetivos:
- Cargar y explorar el CSV de incidentes C5
- Limpiar y transformar datos
- Calcular estadísticas descriptivas
- Visualizar distribuciones


In [None]:
# Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configurar visualización
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
%matplotlib inline


In [None]:
# Cargar datos
csv_path = Path('../data/raw/incidentesc5.csv')

if csv_path.exists():
    print(f"Cargando: {csv_path}")
    df = pd.read_csv(csv_path, encoding='utf-8', low_memory=False)
    print(f"✓ Datos cargados: {len(df)} filas, {len(df.columns)} columnas")
else:
    print(f"✗ No se encontró el archivo: {csv_path}")
    print("Ejecuta primero: python backend/etl/download_c5.py")


In [None]:
# Exploración inicial
print("=== Información General ===")
print(df.info())
print("\n=== Primeras Filas ===")
df.head()


In [None]:
# Estadísticas descriptivas
print("=== Estadísticas Descriptivas ===")
df.describe()


In [None]:
# Verificar columnas disponibles
print("=== Columnas del Dataset ===")
for col in df.columns:
    print(f"- {col}")


In [None]:
# Análisis de tipos de incidentes (si existe la columna)
# TODO: Ajustar nombre de columna según el CSV real
if 'tipo_incidente' in df.columns:
    tipos = df['tipo_incidente'].value_counts()
    print("=== Top 10 Tipos de Incidentes ===")
    print(tipos.head(10))
    
    # Visualizar
    plt.figure(figsize=(12, 6))
    tipos.head(10).plot(kind='barh')
    plt.title('Top 10 Tipos de Incidentes')
    plt.xlabel('Cantidad')
    plt.tight_layout()
    plt.show()
else:
    print("Columna 'tipo_incidente' no encontrada. Verificar nombres de columnas.")


In [None]:
# Análisis por alcaldía (si existe la columna)
if 'alcaldia' in df.columns:
    alcaldias = df['alcaldia'].value_counts()
    print("=== Top 10 Alcaldías con Más Incidentes ===")
    print(alcaldias.head(10))
    
    # Visualizar
    plt.figure(figsize=(12, 6))
    alcaldias.head(10).plot(kind='barh')
    plt.title('Top 10 Alcaldías con Más Incidentes')
    plt.xlabel('Cantidad')
    plt.tight_layout()
    plt.show()
else:
    print("Columna 'alcaldia' no encontrada.")


In [None]:
# Análisis temporal (si existe columna de fecha)
# TODO: Ajustar nombre de columna según el CSV real
date_cols = ['fecha_hora', 'fecha', 'fecha_creacion']
date_col = None
for col in date_cols:
    if col in df.columns:
        date_col = col
        break

if date_col:
    df[date_col] = pd.to_datetime(df[date_col], errors='coerce')
    df['anio'] = df[date_col].dt.year
    df['mes'] = df[date_col].dt.month
    df['hora'] = df[date_col].dt.hour
    
    # Distribución por año
    print("=== Distribución por Año ===")
    print(df['anio'].value_counts().sort_index())
    
    # Distribución por hora del día
    print("\n=== Distribución por Hora del Día ===")
    horas = df['hora'].value_counts().sort_index()
    print(horas)
    
    # Visualizar distribución por hora
    plt.figure(figsize=(12, 6))
    horas.plot(kind='bar')
    plt.title('Distribución de Incidentes por Hora del Día')
    plt.xlabel('Hora')
    plt.ylabel('Cantidad')
    plt.xticks(rotation=0)
    plt.tight_layout()
    plt.show()
else:
    print("No se encontró columna de fecha. Verificar nombres de columnas.")


In [None]:
# Estadísticas con numpy
if 'hora' in df.columns:
    horas_array = df['hora'].dropna().values
    
    print("=== Estadísticas de Hora (usando numpy) ===")
    print(f"Media: {np.mean(horas_array):.2f}")
    print(f"Mediana: {np.median(horas_array):.2f}")
    print(f"Desviación estándar: {np.std(horas_array):.2f}")
    print(f"Mínimo: {np.min(horas_array)}")
    print(f"Máximo: {np.max(horas_array)}")
    print(f"Percentil 25: {np.percentile(horas_array, 25):.2f}")
    print(f"Percentil 75: {np.percentile(horas_array, 75):.2f}")
