## Estructura del dataset
Total de registros: 820
Columnas totales: 18
Variables relevantes: síntomas, temperatura, análisis de sangre, y resultado final.

## Diccionario
- id_paciente: ID del paciente, sirve como identificador único para cada registro.
- fecha_inicio_fiebre: Fecha de inicio de la fiebre. Indica cuándo comenzaron los síntomas febriles.
- lugar_residencia:Lugar de residencia del paciente, podría ser útil para análisis geográficos o epidemiológicos.
- dias_con_fiebre: Días desde el inicio de los síntomas. Representa el tiempo que ha pasado desde que el paciente comenzó a presentar signos de la enfermedad.
- temperatura_actual: Temperatura corporal actual del paciente, probablemente en grados Celsius.
- globulos_blancos:Recuento de glóbulos blancos (White Blood Cells). Un valor alterado puede indicar infección o inflamación.
- dolor_cabeza_severo:Presencia de dolor de cabeza severo.
- dolor_detras_ojos: Dolor detrás de los ojos, un síntoma común del dengue. Probablemente también binario.
- dolor_articular_muscular: Dolores articulares y musculares. Otro síntoma característico del dengue.
- sabor_metalico_boca: Sabor metálico en la boca. No es un síntoma tan común, pero puede estar presente.
- perdida_apetito: Pérdida de apetito. Frecuente en pacientes con fiebre o enfermedades virales.
- dolor_abdominal: Dolor abdominal.
- nauseas_vomitos: Náuseas o vómitos. Común en infecciones virales y particularmente en dengue.
- diarrea: Diarrea. Otro síntoma que puede presentarse con el dengue.
- hemoglobina: Nivel de hemoglobina en la sangre. Un nivel bajo puede indicar anemia o hemorragia.
- hematocrito: Mide el porcentaje de glóbulos rojos en la sangre. Importante para detectar concentración de sangre o signos de shock.
- plaquetas:Conteo de plaquetas. En dengue suele disminuir considerablemente, por lo que es un indicador clave.
- dengue: Etiqueta que indica si el paciente fue diagnosticado con dengue o no. Es la variable objetivo (target) para modelos de predicción.

## 1. Carga y preprocesamiento inicial de los datos

In [2]:
import pandas as pd

df = pd.read_csv('Dengue-worldwide-dataset-modified-es.csv')

print(df.isnull().sum())

id_paciente                 0
fecha_inicio_fiebre         0
lugar_residencia            0
dias_con_fiebre             7
temperatura_actual          1
globulos_blancos            0
dolor_cabeza_severo         0
dolor_detras_ojos           0
dolor_articular_muscular    0
sabor_metalico_boca         0
perdida_apetito             0
dolor_abdominal             0
nauseas_vomitos             0
diarrea                     0
hemoglobina                 1
hematocrito                 0
plaquetas                   0
dengue                      0
dtype: int64


In [3]:
# Imputar valores nulos con la mediana
df['dias_con_fiebre'].fillna(df['dias_con_fiebre'].median(), inplace=True)
df['temperatura_actual'].fillna(df['temperatura_actual'].median(), inplace=True)
df['hemoglobina'].fillna(df['hemoglobina'].median(), inplace=True)

# Verificar si quedan valores nulos en esas columnas
print("Valores nulos después de imputar:")
print(df[['dias_con_fiebre', 'temperatura_actual', 'hemoglobina']].isnull().sum())

# Guardar el DataFrame modificado
df.to_csv('Dengue-worldwide-dataset-modified-es-project.csv', index=False)

Valores nulos después de imputar:
dias_con_fiebre       0
temperatura_actual    0
hemoglobina           0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['dias_con_fiebre'].fillna(df['dias_con_fiebre'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['temperatura_actual'].fillna(df['temperatura_actual'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work 

## 2. Preparación de los datos para el modelo de Machine Learning

In [4]:
import pandas as pd

# Cargar el archivo CSV original con los datos ya limpios
df = pd.read_csv('Dengue-worldwide-dataset-modified-es-project.csv')

# Creamos una copia del DataFrame para no modificar el original accidentalmente
df_ml = df.copy()

# Lista de columnas que contienen respuestas tipo "yes"/"no"
columnas_binarias = [
    'dolor_cabeza_severo',
    'dolor_detras_ojos',
    'dolor_articular_muscular',
    'sabor_metalico_boca',
    'perdida_apetito',
    'dolor_abdominal',
    'nauseas_vomitos',
    'diarrea',
    'dengue'  # también es binaria y la usaremos como variable objetivo
]

# Convertimos los valores: 'yes' -> 1 y 'no' -> 0
df_ml[columnas_binarias] = df_ml[columnas_binarias].replace({'yes': 1, 'no': 0})

# Verificamos los primeros registros de estas columnas para asegurarnos que la conversión fue correcta
print(df_ml[columnas_binarias].head())

# Guardamos el DataFrame modificado
df_ml.to_csv('Dengue-worldwide-dataset-modified-es-project-ml.csv', index=False)


   dolor_cabeza_severo  dolor_detras_ojos  dolor_articular_muscular  \
0                    1                  0                         0   
1                    0                  1                         1   
2                    1                  0                         0   
3                    1                  1                         0   
4                    1                  0                         0   

   sabor_metalico_boca  perdida_apetito  dolor_abdominal  nauseas_vomitos  \
0                    1                1                1                0   
1                    0                0                0                0   
2                    1                1                1                1   
3                    0                0                0                0   
4                    0                0                0                1   

   diarrea  dengue  
0        1       1  
1        0       0  
2        0       1  
3        0       0  
4    

  df_ml[columnas_binarias] = df_ml[columnas_binarias].replace({'yes': 1, 'no': 0})


## 3. División del dataset en entrenamiento y prueba

In [5]:
from sklearn.model_selection import train_test_split

#Leemos el archivo CSV modificado
df_ml = pd.read_csv('Dengue-worldwide-dataset-modified-es-project-ml.csv')

#X son los síntomas que el usuario marca en el formulario.
#y es la variable que queremos predecir: si tiene dengue o no.
X = df_ml[[
    'dias_con_fiebre', 'dolor_cabeza_severo', 'dolor_detras_ojos', 'dolor_articular_muscular',
    'sabor_metalico_boca', 'perdida_apetito', 'dolor_abdominal',
    'nauseas_vomitos', 'diarrea'
]]
y = df_ml['dengue']

#Dividimos el dataset: el 80% se usa para entrenar el modelo y el 20% para probarlo.
#random_state asegura que siempre se dividan igual para resultados reproducibles.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## 4. Creación y entrenamiento del modelo de Machine Learning

In [6]:
from sklearn.ensemble import RandomForestClassifier

#Creamos el modelo de Random Forest con 100 árboles y lo entrenamos con los datos de entrenamiento.
clf = RandomForestClassifier(n_estimators=100, random_state=42)

# Entrenar el modelo con los datos de entrenamiento
clf.fit(X_train, y_train)

## 5. Evaluación del modelo

In [7]:
from sklearn.metrics import classification_report

# Realizar predicciones con los datos de prueba
y_pred = clf.predict(X_test)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))

# Obtener las probabilidades de predicción para la clase positiva
y_prob = clf.predict_proba(X_test)[:, 1]

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        64
           1       0.99      1.00      1.00       100

    accuracy                           0.99       164
   macro avg       1.00      0.99      0.99       164
weighted avg       0.99      0.99      0.99       164



## 6. Clasificación del riesgo basado en las probabilidades de predicción

In [8]:
# Funcion que convierte la probabilidad de dengue en una clasificacion
def convertir_riesgo(prob):
    if prob < 0.3:
        return 'bajo'
    elif prob < 0.7:
        return 'medio'
    else:
        return 'alto'

# Aplicar la función a todas las probabilidades
riesgos = [convertir_riesgo(p) for p in y_prob]

## 7. Guardar el modelo entrenado

In [9]:
import joblib

# Guardar el modelo entrenado en un archivo para su uso posterior
joblib.dump(clf, 'modelo_binario_dengue.pkl')

['modelo_binario_dengue.pkl']