# Modelado
Se utiliza el mismo dataset que en el TP2, manteniendo el mismo conjunto de entrenamiento y de evaluación, así como las métricas de evaluación "precision" y "recall".

En base a una comparación entre los distintos modelos, la cual se explica más adelante, se elige "bosques aleatorios" como método de clasificación.

Se aclara que se trabajó con los valores por defecto ya que la búsqueda de hiperparámetros optimizados consumía demasiado tiempo y recursos (a un punto crítico que comprometía el funcionamiento de la operación).

In [7]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, precision_score, recall_score

In [2]:
# Cargo los datasets de entrenamiento y prueba
X_train = pd.read_csv('X_train.csv')
y_train = pd.read_csv('y_train.csv')
X_test = pd.read_csv('X_test.csv')
y_test = pd.read_csv('y_test.csv')

In [4]:
# Creo el modelo de Bosque Aleatorio
modeloBA = RandomForestClassifier(random_state=42)

# Entrenamiento
modeloBA.fit(X_train, y_train.values.ravel())

RandomForestClassifier(random_state=42)

In [5]:
# Predicción del modelo final entrenado
y_pred_modeloBA = modeloBA.predict(X_test)

# Evaluación

In [14]:
# Evaluación del modelo

# Precisión
precision_modeloBA = precision_score(y_test, y_pred_modeloBA)

# Recall
recall_modeloBA = recall_score(y_test, y_pred_modeloBA)

# Imprimo los resultados
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred_modeloBA))

print(f"\nPrecisión del modelo de bosque aleatorio: {precision_modeloBA:.4f}")
print(f"Recall del modelo de bosque aleatorio: {recall_modeloBA:.4f}")

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred_modeloBA))

print("\nExactitud del modelo:")
print(f'Accuracy: {accuracy_score(y_test, y_pred_modeloBA):.4f}')

Matriz de Confusión:
[[24329  1015]
 [ 3582  3511]]

Precisión del modelo de bosque aleatorio: 0.7757
Recall del modelo de bosque aleatorio: 0.4950

Reporte de clasificación:
              precision    recall  f1-score   support

         0.0       0.87      0.96      0.91     25344
         1.0       0.78      0.49      0.60      7093

    accuracy                           0.86     32437
   macro avg       0.82      0.73      0.76     32437
weighted avg       0.85      0.86      0.85     32437


Exactitud del modelo:
Accuracy: 0.8583


- Clase 0 (No llueve): una precisión de 0.87 y un recall de 0.96 indican que el modelo es muy bueno para predecir los días en que no lloverá.

- Clase 1 (Lluvia): la precisión indica una probabilidad del 78% de que el modelo acierte cunado indica que el día siguiente va a llover. La recall de 0.46, detecta menos de la mitad de los días en que realmente llueve.

Fortalezas y debilidades del modelo de bosques aleatorios:


- Ventajas:
    - Facil de implementar.
    - Más simple que SVC y CatBoost y suele requerir menos tiempo de ajuste y entrenamiento.
    - Al promediar múltiples árboles de decisión, reduce el sobreajuste del modelo de árbol de clasificación.
    - Robustez y buena precisión en la mayoría de los casos.
    - Se podría agregar que maneja bien tanto variables numéricas como categóricas, en este caso los conjuntos de datos ya tenían una codificación de estas realizadas en el TP2.
    - Puede manejar fácilmente datasets grandes y con muchas características debido que entrenar cada árbol de forma paralela e independiente uno de otro.
    - Permite estimar la importancia de cada característica, lo que puede ser útil para entender cuáles variables son más relevantes en la predicción de la lluvia.


- Desventajas:
    - La combinación de múltiples árboles puede hacer que el modelo sea menos interpretable que un solo árbol de decisión.
    - Requiere más tiempo de computación que un solo árbol.
    - Probablemente menos preciso que CatBoost, especialmente cuando hay interacciones complejas entre características.
    
    
En resumen, creo que era el modelo que más apropiado considerando rendimiento y simplicidad.

# Conclusiones

In [16]:
import pandas as pd

# Métricas del modelo base
accuracy_base = 0.76
precision_base = 0.46
recall_base = 0.46
f1_base = 0.46

# Métricas del modelo kNN
accuracy_knn = 0.81
precision_knn = 0.65
recall_knn = 0.32
f1_knn = 0.43

# Métricas del modelo de regresión logística
accuracy_logreg = 0.85
precision_logreg = 0.72
recall_logreg = 0.50
f1_logreg = 0.59

# Métricas del modelo de bosque aleatorio
accuracy_modeloBA = 0.86
precision_modeloBA = 0.78
recall_modeloBA = 0.49
f1_modeloBA = 0.6

# Armado de tabla comparativa
data = {
    'Modelo': ['Modelo Base', 'kNN', 'Regresión Logística', 'Bosque Aleatorio'],
    'Exactitud (Accuracy)': [accuracy_base, accuracy_knn, accuracy_logreg, accuracy_modeloBA],
    'Precisión (Precision)': [precision_base, precision_knn, precision_logreg, precision_modeloBA],
    'Recall': [recall_base, recall_knn, recall_logreg, recall_modeloBA],
    'F1-Score': [f1_base, f1_knn, f1_logreg, f1_modeloBA]
}

# Convertir a DataFrame
df_comparativa = pd.DataFrame(data)

# Mostrar la tabla comparativa
df_comparativa

Unnamed: 0,Modelo,Exactitud (Accuracy),Precisión (Precision),Recall,F1-Score
0,Modelo Base,0.76,0.46,0.46,0.46
1,kNN,0.81,0.65,0.32,0.43
2,Regresión Logística,0.85,0.72,0.5,0.59
3,Bosque Aleatorio,0.86,0.78,0.49,0.6


# Comparación entre modelos:


El modelo de bosque aleatorio tiene mejores indicadores en todos los aspectos:
- La mayor exactitud (0.86), lo que indica que realiza la mayor cantidad de predicciones correctas.
- Con una precisión de 0.78, es el mejor en términos de asegurar que cuando predice lluvia, tiene una alta probabilidad de acertar.

# Conclusión final:

El modelo de bosque aleatorio es el mejor. Aunque la mejora en la exactitud sobre la regresión logística es marginal (0.86 vs 0.85), una precisión mayor significa que el modelo es más confiable cuando predice un día de lluvia. Además, el F1-Score es el más alto, lo que sugiere que maneja mejor el equilibrio entre detectar los días de lluvia y evitar falsos positivos.

# Resumen de los hallazgos más relevantes obtenidos durante todo el proceso desde el TP1 al TP3:
    
Del TP1 rescato:

- La importancia de observar los datos para obtener información más bien descriptiva. Por ejemplo:

    - La ciudad de CoffsHarbour registró la mayor cantidad de precipitación en un solo día, con 371 mm, lo que indica un evento de lluvia extrema. 
    - Nhil se identificó como la ciudad con la menor cantidad total de lluvias registradas, lo que podría sugerir condiciones más áridas.

- Se puede extraer cierto conocimiento preliminar para análisis más abstractos y complejos. Eso es, mediante la observación de gráficos, se puede intuir cierta relación entre atributos y tenerlas en cuenta al momento de elegir cuales usar en métodos de predicción. Por ejemplo: la relación entre humedad y que llueve el mismo día.

En los TPs 2 y 3 se trabajó con modelos que permiten captar las relaciones entre los datos y resumirlas a métricas que nos dan una idea de que tan bien cada modelo explica las relaciones entre variables de entrada y un resultado. En el caso particular de los datos con los que se trabajó, se vió que modelos más complejos arrojaron mejores resultados.

In [17]:
import pickle

# Guardo el modelo de bosque aleatorio en formato pickle
with open('modelo_bosqueAleatorio.pkl', 'wb') as file:
    pickle.dump(modeloBA, file)