# Análisis Exploratorio Inicial - Dengue Perú 2000-2024

Este notebook realiza el análisis exploratorio inicial del dataset de vigilancia epidemiológica de dengue.

## Objetivos:
- Cargar y explorar la estructura de los datos
- Identificar valores faltantes y anomalías
- Analizar distribución temporal y geográfica
- Visualizar patrones preliminares

In [None]:
# Importar librerías
import sys
from pathlib import Path

# Agregar directorio raíz al path
ROOT_DIR = Path.cwd().parent.parent
sys.path.append(str(ROOT_DIR))

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from config import RAW_DATA_DIR, REGIONES_OBJETIVO, PLOT_CONFIG

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

print("✓ Librerías importadas correctamente")

## 1. Carga de Datos

Cargaremos una muestra inicial para explorar la estructura sin sobrecargar la memoria.

In [None]:
# Cargar primeras 10,000 filas para exploración inicial
data_path = RAW_DATA_DIR / 'dengue_2000_2024.csv'

print(f"Cargando datos desde: {data_path}")
print("Cargando muestra inicial (10,000 registros)...\n")

df_sample = pd.read_csv(data_path, nrows=10000, low_memory=False)

print(f"✓ Muestra cargada: {len(df_sample):,} registros")
print(f"✓ Columnas: {len(df_sample.columns)}")

## 2. Exploración de Estructura

In [None]:
# Información general
print("=" * 60)
print("INFORMACIÓN GENERAL DEL DATASET")
print("=" * 60)
df_sample.info()

In [None]:
# Primeras filas
print("\nPrimeras 5 filas del dataset:")
df_sample.head()

In [None]:
# Nombres de columnas
print("Columnas disponibles:")
print("\n".join(f"  {i+1}. {col}" for i, col in enumerate(df_sample.columns)))

## 3. Análisis de Valores Faltantes

In [None]:
# Valores faltantes
missing = df_sample.isnull().sum()
missing_pct = (missing / len(df_sample)) * 100

missing_df = pd.DataFrame({
    'Columna': missing.index,
    'Valores Faltantes': missing.values,
    'Porcentaje': missing_pct.values
}).sort_values('Valores Faltantes', ascending=False)

print("\nVALORES FALTANTES POR COLUMNA:")
print(missing_df[missing_df['Valores Faltantes'] > 0])

## 4. Análisis de Regiones Objetivo

In [None]:
# Filtrar por regiones objetivo (si existe columna departamento)
if 'departamento' in df_sample.columns:
    print("\nREGIONES EN LA MUESTRA:")
    regiones_count = df_sample['departamento'].value_counts()
    print(regiones_count.head(10))
    
    # Verificar presencia de regiones objetivo
    print("\nREGIONES OBJETIVO PRESENTES:")
    for region in REGIONES_OBJETIVO:
        count = df_sample[df_sample['departamento'].str.upper() == region].shape[0]
        print(f"  {region}: {count:,} registros")
else:
    print("Columna 'departamento' no encontrada. Revisar nombres de columnas.")

## 5. Análisis Temporal

In [None]:
# Distribución por año
if 'ano' in df_sample.columns or 'año' in df_sample.columns:
    year_col = 'ano' if 'ano' in df_sample.columns else 'año'
    
    print("\nDISTRIBUCIÓN POR AÑO:")
    year_dist = df_sample[year_col].value_counts().sort_index()
    print(year_dist)
    
    # Visualización
    plt.figure(figsize=(14, 6))
    year_dist.plot(kind='bar', color='steelblue')
    plt.title('Distribución de Casos por Año (Muestra)', fontsize=14, fontweight='bold')
    plt.xlabel('Año')
    plt.ylabel('Número de Registros')
    plt.xticks(rotation=45)
    plt.grid(axis='y', alpha=0.3)
    plt.tight_layout()
    plt.show()
else:
    print("Columna de año no encontrada")

## 6. Estadísticas Descriptivas

In [None]:
# Estadísticas de columnas numéricas
print("\nESTADÍSTICAS DESCRIPTIVAS:")
df_sample.describe()

## 7. Conclusiones Preliminares

Basado en este análisis exploratorio inicial:

1. **Estructura de datos**: [Completar después de ejecutar]
2. **Calidad de datos**: [Completar después de ejecutar]
3. **Cobertura temporal**: [Completar después de ejecutar]
4. **Cobertura geográfica**: [Completar después de ejecutar]
5. **Próximos pasos**: Cargar dataset completo y realizar limpieza de datos