# Etapa 1: Ingesta y Validaci√≥n de Datos

## Objetivo
Cargar los datos abiertos del MINSA sobre casos de dengue, validar su integridad y documentar las caracter√≠sticas del dataset.

## Dataset
- **Fuente:** Datos abiertos del MINSA (datos.gob.pe)
- **Archivo:** `datos_abiertos_vigilancia_dengue_2000_2024.csv`
- **Periodo:** 2000 - 2024
- **Regi√≥n piloto:** Loreto

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

print("‚úÖ Librer√≠as importadas correctamente")

## 1. Carga de Datos

Cargaremos el archivo CSV con los datos de dengue del MINSA.

In [None]:
# Ruta del archivo
ruta_datos = r'C:\nebula\dengue_analytics_peru\data\raw\datos_abiertos_vigilancia_dengue_2000_2024.csv'

# Cargar datos con el separador correcto (punto y coma)
print("üìÇ Cargando datos...")
df_dengue = pd.read_csv(ruta_datos, sep=';', encoding='utf-8')

print(f"‚úÖ Datos cargados exitosamente")
print(f"üìä Total de registros: {len(df_dengue):,}")
print(f"üìã Total de columnas: {len(df_dengue.columns)}")

## 2. Exploraci√≥n Inicial del Dataset

In [None]:
# Mostrar las primeras filas
print("\nüìã Primeras 10 filas del dataset:")
df_dengue.head(10)

In [None]:
# Informaci√≥n general del dataset
print("\nüìä Informaci√≥n general del dataset:")
df_dengue.info()

In [None]:
# Nombres de las columnas
print("\nüìù Columnas del dataset:")
for i, col in enumerate(df_dengue.columns, 1):
    print(f"{i}. {col}")

## 3. Validaci√≥n de Datos

Verificaremos la calidad de los datos: valores nulos, tipos de datos, rangos v√°lidos.

In [None]:
# An√°lisis de valores nulos
print("\nüîç An√°lisis de valores nulos:")
nulos = df_dengue.isnull().sum()
porcentaje_nulos = (nulos / len(df_dengue)) * 100

df_nulos = pd.DataFrame({
    'Columna': nulos.index,
    'Valores Nulos': nulos.values,
    'Porcentaje (%)': porcentaje_nulos.values
})

df_nulos[df_nulos['Valores Nulos'] > 0].sort_values('Valores Nulos', ascending=False)

In [None]:
# Estad√≠sticas descriptivas de columnas num√©ricas
print("\nüìà Estad√≠sticas descriptivas:")
df_dengue.describe()

In [None]:
# An√°lisis de departamentos √∫nicos
print("\nüó∫Ô∏è Departamentos en el dataset:")
departamentos = df_dengue['departamento'].value_counts()
print(f"Total de departamentos: {len(departamentos)}")
print("\nTop 10 departamentos con m√°s casos:")
print(departamentos.head(10))

In [None]:
# An√°lisis de a√±os disponibles
print("\nüìÖ A√±os disponibles en el dataset:")
anos = df_dengue['ano'].value_counts().sort_index()
print(f"Rango de a√±os: {anos.index.min()} - {anos.index.max()}")
print(f"Total de a√±os: {len(anos)}")

In [None]:
# An√°lisis de tipos de dengue
print("\nü¶ü Tipos de dengue registrados:")
tipos_dengue = df_dengue['enfermedad'].value_counts()
print(tipos_dengue)

## 4. Filtrado para Regi√≥n Piloto: LORETO

In [None]:
# Filtrar datos solo para Loreto
print("\nüéØ Filtrando datos para el departamento de LORETO...")
df_loreto = df_dengue[df_dengue['departamento'] == 'LORETO'].copy()

print(f"‚úÖ Datos filtrados para Loreto")
print(f"üìä Total de registros en Loreto: {len(df_loreto):,}")
print(f"üìà Porcentaje del total: {(len(df_loreto)/len(df_dengue)*100):.2f}%")

In [None]:
# An√°lisis de provincias en Loreto
print("\nüèòÔ∏è Provincias en Loreto:")
provincias_loreto = df_loreto['provincia'].value_counts()
print(f"Total de provincias: {len(provincias_loreto)}")
print("\nCasos por provincia:")
print(provincias_loreto)

In [None]:
# An√°lisis temporal en Loreto
print("\nüìÖ Distribuci√≥n temporal en Loreto:")
casos_por_ano_loreto = df_loreto['ano'].value_counts().sort_index()
print(casos_por_ano_loreto)

## 5. Visualizaci√≥n Preliminar

In [None]:
# Gr√°fico de casos por a√±o en Loreto
plt.figure(figsize=(14, 6))
casos_por_ano_loreto.plot(kind='bar', color='steelblue', edgecolor='black')
plt.title('Casos de Dengue por A√±o en Loreto (2000-2024)', fontsize=16, fontweight='bold')
plt.xlabel('A√±o', fontsize=12)
plt.ylabel('N√∫mero de Casos', fontsize=12)
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Gr√°fico de casos por provincia en Loreto
plt.figure(figsize=(12, 6))
provincias_loreto.plot(kind='barh', color='coral', edgecolor='black')
plt.title('Casos de Dengue por Provincia en Loreto', fontsize=16, fontweight='bold')
plt.xlabel('N√∫mero de Casos', fontsize=12)
plt.ylabel('Provincia', fontsize=12)
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

## 6. Resumen de la Etapa 1

### ‚úÖ Logros:
1. Datos cargados exitosamente desde el archivo CSV del MINSA
2. Validaci√≥n de integridad de datos completada
3. Filtrado de datos para la regi√≥n piloto (Loreto)
4. An√°lisis exploratorio inicial realizado

### üìä Hallazgos Clave:
- Total de registros en el dataset completo
- Total de registros en Loreto
- Rango temporal: 2000-2024
- Provincias identificadas en Loreto

### üîú Pr√≥ximos Pasos:
- **Etapa 2:** Limpieza y estandarizaci√≥n de datos
- Manejo de valores faltantes
- Estandarizaci√≥n de formatos
- Validaci√≥n de ubigeos

In [None]:
# Guardar dataset filtrado de Loreto (opcional)
# ruta_salida = r'C:\nebula\dengue_analytics_peru\data\processed\dengue_loreto_raw.csv'
# df_loreto.to_csv(ruta_salida, index=False, encoding='utf-8')
# print(f"‚úÖ Dataset de Loreto guardado en: {ruta_salida}")