In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 📌 Cargar los datos
data = pd.read_csv('../data/processed/weather_classification_data.csv')

# 📌 Aplicar One-Hot Encoding en 'location'
data = pd.get_dummies(data, columns=['location'])

# 📌 Seleccionar features dinámicamente después de get_dummies()
features = ['temperature', 'humidity', 'wind_speed', 'atmospheric_pressure', 
            'uv_index', 'visibility_(km)'] + list(data.filter(like='location_').columns)

# 📌 Separar features y target
target = 'precipitation_(%)'
X = data[features]
y = data[target]

# 📌 Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 📌 Escalar los datos (opcional, pero recomendable)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 📌 Entrenar RandomForestRegressor
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 📌 Hacer predicciones
y_pred = model.predict(X_test)

# 📌 Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse:.2f}')
print(f'R² Score: {r2:.2f}')


Mean Squared Error: 232.38
R² Score: 0.77


## 🔹 Conclusiones Finales

1️⃣ **Uso de One-Hot Encoding en `location`**  
   - Se aplicó `pd.get_dummies(data, columns=['location'])` porque `location` es categórica pero no tiene un orden jerárquico.
   - Esto evita que el modelo interprete una relación incorrecta entre ubicaciones.

2️⃣ **Selección de características basada en datos reales**  
   - Se excluyeron `weather_type`, `season` y `cloud_cover` para hacer que el modelo aprenda únicamente a partir de variables meteorológicas medibles.
   - Esto permite que el modelo sea más útil en escenarios reales donde queremos predecir la lluvia sin depender de etiquetas climáticas.

3️⃣ **Modelo de `RandomForestRegressor` optimizado**  
   - Se dividió el dataset en entrenamiento y prueba con `train_test_split()`.
   - Se aplicó `StandardScaler()` para mejorar la estabilidad del modelo (aunque los árboles no lo necesitan estrictamente).
   - Se entrenó y evaluó el modelo con `mean_squared_error` y `r2_score` para medir su rendimiento.
