[volver](main.ipynb)

# Fase 4: Modelado

## 1- Selección de la Técnica de Modelado

Para nuestros objetivos, podemos considerar varios tipos de modelos:

* **Modelos de clasificación** para predecir variables categóricas, como RainTomorrow.
* **Modelos de regresión** para predecir variables numéricas, como WindGustSpeed.

Elegimos una técnica de clasificación para predecir si mañana lloverá (RainTomorrow) y una técnica de regresión para predecir la velocidad de las ráfagas de viento (WindGustSpeed).

## 2- Diseño del Test

Dividimos el conjunto de datos en conjuntos de entrenamiento y prueba para evaluar el desempeño de los modelos.


In [12]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore') # apagamos los warnigs

# Cargar el conjunto de datos
datos_finales = pd.read_csv('weatherAUS-fase-03.csv')

from sklearn.model_selection import train_test_split

# Dividir el conjunto de datos en entrenamiento y prueba
X = datos_finales.drop(columns=['RainTomorrow'])
y_clasificacion = datos_finales['RainTomorrow']
y_regresion = datos_finales['WindGustSpeed']

X_train_clas, X_test_clas, y_train_clas, y_test_clas = train_test_split(X, y_clasificacion, test_size=0.3, random_state=42)
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X, y_regresion, test_size=0.3, random_state=42)


## 3- Construcción del Modelo

Construimos un modelo de clasificación utilizando un Árbol de Decisión y un modelo de regresión utilizando una Regresión Lineal.

### Modelo de Clasificación: Árbol de Decisión

In [13]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# Entrenamiento del modelo de clasificación
modelo_clasificacion = DecisionTreeClassifier(random_state=42)
modelo_clasificacion.fit(X_train_clas, y_train_clas)

# Predicciones y evaluación del modelo de clasificación
y_pred_clas = modelo_clasificacion.predict(X_test_clas)
accuracy_clas = accuracy_score(y_test_clas, y_pred_clas)

print(f"Precisión del modelo de clasificación: {accuracy_clas:.2f}")
print(classification_report(y_test_clas, y_pred_clas))


Precisión del modelo de clasificación: 0.79
              precision    recall  f1-score   support

           0       0.87      0.86      0.87     30659
           1       0.51      0.53      0.52      8299

    accuracy                           0.79     38958
   macro avg       0.69      0.69      0.69     38958
weighted avg       0.79      0.79      0.79     38958



### Modelo de Regresión: Regresión Lineal


In [14]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Entrenamiento del modelo de regresión
modelo_regresion = LinearRegression()
modelo_regresion.fit(X_train_reg, y_train_reg)

# Predicciones y evaluación del modelo de regresión
y_pred_reg = modelo_regresion.predict(X_test_reg)
mse_reg = mean_squared_error(y_test_reg, y_pred_reg)
r2_reg = r2_score(y_test_reg, y_pred_reg)

print(f"Error cuadrático medio del modelo de regresión: {mse_reg:.2f}")
print(f"Coeficiente de determinación (R^2) del modelo de regresión: {r2_reg:.2f}")

Error cuadrático medio del modelo de regresión: 0.00
Coeficiente de determinación (R^2) del modelo de regresión: 1.00


## 4- Evaluación del Modelo

Evaluamos el desempeño de los modelos utilizando métricas adecuadas:

### Modelo de Clasificación:

* Precisión
* Matriz de confusión
* Reporte de clasificación (precisión, recall, f1-score)

### Modelo de Regresión:

* Error cuadrático medio (MSE)
* Coeficiente de determinación (R²)

## 5- Ajuste del Modelo

Si los modelos iniciales no tienen un buen desempeño, podemos ajustar los hiperparámetros o probar con otros algoritmos más complejos, como bosques aleatorios (Random Forest) o máquinas de soporte vectorial (SVM).

In [15]:
# Ajuste de hiperparámetros para el modelo de clasificación (Random Forest)
from sklearn.ensemble import RandomForestClassifier

# Ajuste de hiperparámetros utilizando búsqueda en cuadrícula
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42), param_grid=param_grid, cv=3, n_jobs=-1, verbose=2)
grid_search.fit(X_train_clas, y_train_clas)

# Mejor modelo y su evaluación
best_model_clas = grid_search.best_estimator_
y_pred_clas = best_model_clas.predict(X_test_clas)
accuracy_clas = accuracy_score(y_test_clas, y_pred_clas)

print(f"Precisión del mejor modelo de clasificación: {accuracy_clas:.2f}")
print(classification_report(y_test_clas, y_pred_clas))


Fitting 3 folds for each of 81 candidates, totalling 243 fits
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=  14.1s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=  14.3s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=  14.6s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=2, n_estimators=200; total time=  29.2s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=2, n_estimators=200; total time=  29.4s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=2, n_estimators=200; total time=  29.5s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=5, n_estimators=100; total time=  15.2s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=5, n_estimators=100; total time=  15.3s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=5, n_estimators=100; total time=  13.8s
[CV] END max_depth=10, min_sa

## Resumen del Modelado

### Selección de Técnicas de Modelado:

* Clasificación con Árbol de Decisión para predecir RainTomorrow.
* Regresión Lineal para predecir WindGustSpeed.

### Diseño del Test:

* Dividimos el conjunto de datos en entrenamiento y prueba.

### Construcción de Modelos:

* Entrenamos los modelos de clasificación y regresión.

### Evaluación de Modelos:

* Evaluamos los modelos utilizando métricas adecuadas.

### Ajuste del Modelo:

* Realizamos ajustes de hiperparámetros para mejorar el desempeño del modelo.

## Informe de Modelado

**Objetivo:** Construir y evaluar modelos para predecir condiciones climáticas favorables para deportes de viento.

### Modelos Construidos:

* Clasificación con Árbol de Decisión y Random Forest para RainTomorrow.
* Regresión Lineal para WindGustSpeed.

### Evaluación:

* Modelo de clasificación: Precisión y reporte de clasificación.
* Modelo de regresión: Error cuadrático medio y coeficiente de determinación (R²).

### Conclusión:

Los modelos han sido construidos y evaluados. Ajustes adicionales pueden mejorar el desempeño.