# Datos del estudiante
### Nombre: Jonnathan Campoberde
### Materia: Machine Learning
### Curso: Abril 2024-2025

# Introducción

En la presente actividad se usaran los pasos recomendados en la metodología KDD (Knowledge Discovery in Databases) con el objetivo de analizar los datos del Dengue de dos ciudades San Juan e Iquitos obtenidos de driven data para la competicion "DengAI: Predicting Disease Spread"  

# Fases del Proyecto según KDD

## Fase 1: Comprensión del Negocio y Definición del Problema

### Análisis del Contexto:
La fiebre del dengue es una enfermedad transmitida por mosquitos que ocurre en las partes tropicales y subtropicales del mundo. En casos leves, los síntomas son similares a los de la gripe: fiebre, erupción cutánea y dolor muscular y articular. En casos graves, la fiebre del dengue puede causar hemorragias graves, presión arterial baja e incluso la muerte.

Debido a que es transmitida por mosquitos, la dinámica de transmisión del dengue está relacionada con variables climáticas como la temperatura y la precipitación. Aunque la relación con el clima es compleja, un número creciente de científicos sostiene que el cambio climático probablemente provocará cambios en la distribución que tendrán importantes implicaciones para la salud pública en todo el mundo.

En los últimos años, la fiebre del dengue se ha estado propagando. Históricamente, la enfermedad ha sido más prevalente en el sudeste asiático y las islas del Pacífico. Hoy en día, muchos de los casi medio billón de casos por año ocurren en América Latina.

### Definición del Problema: 
El objetivo de DengAI es predecir el número de casos de dengue en una semana particular basado en datos climáticos y ubicación. Existe un conjunto de datos de entrenamiento y un conjunto de datos de prueba. MAE (Error Absoluto Medio) es una métrica utilizada para calcular la puntuación y el conjunto de datos de entrenamiento abarca 28 años de valores semanales para 2 ciudades (1456 semanas). Los datos de prueba son más pequeños y abarcan 5 y 3 años (dependiendo de la ciudad).

Esta problematica ha sido abordada debido a que, la fiebre del dengue es una enfermedad transmitida por mosquitos que ocurre en las partes tropicales y subtropicales del mundo. Debido a que es transmitida por mosquitos, la transmisión está relacionada con variables climáticas y meteorológicas.

## Fase 2: Comprensión de los Datos

## Recopilación de Datos
Los datos a ser usados a lo largo del analisis fueron proporcionados por driven data, los cuales contienen multiples caracteristicas de la ciudad, datos meteorologicos relacionadas a la problematica de los mosquitos del dengue, los mismos que se pueden encontrar en la siguiente enlace https://erdem.pl/2020/07/deng-ai-how-to-approach-data-science-competitions-eda

### Descripción de los datos

| Columna                           | Descripción                                                        |
|-----------------------------------|--------------------------------------------------------------------|
| city                              | Abreviaturas de ciudades: sj para San Juan e iq para Iquitos       |
| week_start_date                   | Fecha dada en formato yyyy-mm-dd                                   |
| station_max_temp_c                | Temperatura máxima                                                 |
| station_min_temp_c                | Temperatura mínima                                                 |
| station_avg_temp_c                | Temperatura promedio                                               |
| station_precip_mm                 | Precipitación total                                                |
| station_diur_temp_rng_c           | Rango de temperatura diurna                                        |
| precipitation_amt_mm              | Precipitación total                                                |
| reanalysis_sat_precip_amt_mm      | Precipitación total                                                |
| reanalysis_dew_point_temp_k       | Temperatura media del punto de rocío                               |
| reanalysis_air_temp_k             | Temperatura media del aire                                         |
| reanalysis_relative_humidity_percent | Humedad relativa media                                             |
| reanalysis_specific_humidity_g_per_kg | Humedad específica media                                           |
| reanalysis_precip_amt_kg_per_m2   | Precipitación total                                                |
| reanalysis_max_air_temp_k         | Temperatura máxima del aire                                        |
| reanalysis_min_air_temp_k         | Temperatura mínima del aire                                        |
| reanalysis_avg_temp_k             | Temperatura promedio del aire                                      |
| reanalysis_tdtr_k                 | Rango de temperatura diurna                                        |
| ndvi_se                           | Píxel al sureste del centroide de la ciudad                        |
| ndvi_sw                           | Píxel al suroeste del centroide de la ciudad                       |
| ndvi_ne                           | Píxel al noreste del centroide de la ciudad                        |
| ndvi_nw                           | Píxel al noroeste del centroide de la ciudad                       |


## Exploración de Datos Preliminar
Un análisis exploratorio para comprender la estructura y la calidad de los datos, identificar posibles sesgos y evaluar la idoneidad de los datos.

### Importación de librerías necesarias para el análisis

In [None]:
import pandas as pd
import numpy as np

In [None]:
# Introducción

In [5]:
df = pd.read_csv('dengue_features_train.csv')
df.head()

Unnamed: 0,city,year,weekofyear,week_start_date,ndvi_ne,ndvi_nw,ndvi_se,ndvi_sw,precipitation_amt_mm,reanalysis_air_temp_k,...,reanalysis_precip_amt_kg_per_m2,reanalysis_relative_humidity_percent,reanalysis_sat_precip_amt_mm,reanalysis_specific_humidity_g_per_kg,reanalysis_tdtr_k,station_avg_temp_c,station_diur_temp_rng_c,station_max_temp_c,station_min_temp_c,station_precip_mm
0,sj,1990,18,1990-04-30,0.1226,0.103725,0.198483,0.177617,12.42,297.572857,...,32.0,73.365714,12.42,14.012857,2.628571,25.442857,6.9,29.4,20.0,16.0
1,sj,1990,19,1990-05-07,0.1699,0.142175,0.162357,0.155486,22.82,298.211429,...,17.94,77.368571,22.82,15.372857,2.371429,26.714286,6.371429,31.7,22.2,8.6
2,sj,1990,20,1990-05-14,0.03225,0.172967,0.1572,0.170843,34.54,298.781429,...,26.1,82.052857,34.54,16.848571,2.3,26.714286,6.485714,32.2,22.8,41.4
3,sj,1990,21,1990-05-21,0.128633,0.245067,0.227557,0.235886,15.36,298.987143,...,13.9,80.337143,15.36,16.672857,2.428571,27.471429,6.771429,33.3,23.3,4.0
4,sj,1990,22,1990-05-28,0.1962,0.2622,0.2512,0.24734,7.52,299.518571,...,12.2,80.46,7.52,17.21,3.014286,28.942857,9.371429,35.0,23.9,5.8
