# Modelado de Sequías con Machine Learning

Este notebook construye un modelo de clasificación para identificar eventos de sequía utilizando datos climáticos previamente limpiados y preparados.

El flujo de trabajo incluye:

- Carga del dataset limpio  
- Definición de la variable objetivo para representar sequías  
- Selección de variables predictoras  
- División del dataset en entrenamiento y prueba  
- Entrenamiento de un modelo de Machine Learning  
- Evaluación mediante métricas de clasificación  
- Visualización de la importancia de las variables  




In [None]:
# importamos las librerias necesarias
import pandas as pd
from pathlib import Path

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt

In [None]:
# Paso 1: Cargamos el dataset limpio
BASE_DIR = Path("..").resolve()     

# Carpeta donde se guardan los datasets limpios
data_path = BASE_DIR / "DataClean" / "master"

# Cargar el dataset "wide" (TEMP, HUMEDAD, LLUVIA, VIENTO)
df = pd.read_parquet(data_path / "master_dataset_final_wide.parquet")


In [None]:
# Paso 2: Crear variable binaria de sequía
# Se considera sequía cuando la lluvia es menor a 5 mm
df["drought_label"] = (df["LLUVIA"] < 5).astype(int)

df["drought_label"].value_counts()


In [None]:
# Paso 3: Selección de features
X = df[["TEMP", "HUMEDAD", "LLUVIA", "VIENTO"]]
y = df["drought_label"]

X.head()


In [None]:
# Paso 4: Crear división de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

X_train.shape, X_test.shape


In [None]:
# Paso 5: Entrenar Random Forest
model = RandomForestClassifier(n_estimators=200, random_state=42)
model.fit(X_train, y_train)


In [None]:
# Paso 6: Predicciones
y_pred = model.predict(X_test)

print("REPORTE DE CLASIFICACIÓN:\n")
print(classification_report(y_test, y_pred))

print("\nMATRIZ DE CONFUSIÓN:\n")
print(confusion_matrix(y_test, y_pred))


In [None]:
# Paso 7: Visualización
importances = model.feature_importances_

plt.figure(figsize=(7,4))
plt.bar(X.columns, importances)
plt.title("Importancia de Variables para Detectar Sequías")
plt.xlabel("Variables")
plt.ylabel("Importancia")
plt.show()
