### Modelado y Evaluación

#### Utilizaremos el mismo dataset que en el TP2, manteniendo el mismo conjunto de entrenamiento y de evaluación, así como las métricas de evaluación definidas anteriormente. Seleccionar uno de los siguientes clasificadores vistos en las clases 6 y 7:
* SVC
* Árbol de clasificación
* Bosques aleatorios
* CatBoost


Dado el problema de predecir si va a llover mañana, utilizaremos Bosques Aleatorios debido a las siguientes razones:

- **Robustez y estabilidad:** Los Bosques Aleatorios combinan múltiples árboles de decisión, lo que reduce el riesgo de sobreajuste y mejora la capacidad de generalización.
- **Manejo de datos desbalanceados:** Dado que existe un desbalance en el dataset, Bosques Aleatorios puede manejar esta situación mucho mejor que otros modelos.
- **Importancia de características:** Proporciona una medida de importancia para cada característica, lo que puede ser útil para interpretar el modelo.

##### Importación de data

In [16]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import recall_score, balanced_accuracy_score
import pandas as pd
from sklearn.model_selection import GridSearchCV

train_data = pd.read_csv('./dataset/train_data.csv')
test_data = pd.read_csv('./dataset/test_data.csv')

##### Separación de información

In [17]:
y_train = train_data['RainTomorrow']  # Variable objetivo
X_train = train_data.drop(columns=['RainTomorrow'])  # Todas las demás columnas son características

y_test = test_data['RainTomorrow']
X_test = test_data.drop(columns=['RainTomorrow'])  # Todas las demás columnas son características


##### Creacion y entrenamiento de Bosques Aleatorios

In [18]:
# Crear el modelo de Bosques Aleatorios con los parámetros por defecto
model = RandomForestClassifier(random_state=42)

# Entrenar el modelo
model.fit(X_train, y_train)


##### Predicciones y evaluación

In [19]:
# Hacer predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular Recall
recall = recall_score(y_test, y_pred)

# Calcular Balanced Accuracy
balanced_accuracy = balanced_accuracy_score(y_test, y_pred)

print(f"Recall: {recall:.4f}")
print(f"Balanced Accuracy: {balanced_accuracy:.4f}")


Recall: 0.4815
Balanced Accuracy: 0.7201


#### Discuta las fortalezas y debilidades del modelo elegido en el contexto específico de este problema.


##### Fortalezas:

1. **Capacidad para manejar grandes cantidades de datos**:
   - Los Bosques Aleatorios pueden manejar datasets con un gran número de características y observaciones sin problemas, lo cual es beneficioso en un problema como el de predicción de lluvia, donde múltiples factores (como la temperatura, humedad, presión atmosférica, etc.) pueden influir en la predicción.

2. **Robustez ante el sobreajuste**:
   - A diferencia de los árboles de decisión simples, los Bosques Aleatorios son menos propensos a sobreajustarse a los datos de entrenamiento debido a la combinación de múltiples árboles. Esto mejora la capacidad del modelo para generalizar a nuevos datos, lo cual es crucial para un problema como la predicción de lluvia, donde se busca un modelo que funcione bien en diferentes escenarios meteorológicos.

3. **Manejo de la varianza en los datos**:
   - El método de bagging utilizado por los Bosques Aleatorios reduce la varianza en el modelo, haciendo que las predicciones sean más estables y menos sensibles a pequeñas variaciones en los datos de entrada.

4. **Importancia de características**:
   - Este modelo proporciona información sobre la importancia de cada característica, lo cual es útil para entender qué factores son más influyentes en la predicción de lluvia. Esto puede ser valioso para ajustar el modelo con un conjunto más optimizado de características.

##### Debilidades:

1. **Interpretabilidad**:
   - Aunque los Bosques Aleatorios proporcionan información sobre la importancia de las características, el modelo en sí es difícil de interpretar. Esto significa que, aunque el modelo pueda predecir si va a llover, puede ser difícil para los usuarios comprender cómo se llegó a esa predicción o cuáles fueron los factores determinantes.

2. **Requerimientos computacionales**:
   - Los Bosques Aleatorios pueden ser computacionalmente costosos, especialmente con un gran número de árboles y características. Esto puede ser un inconveniente si se trabaja con recursos limitados o si se necesita realizar predicciones en tiempo real.

3. **Ajuste de hiperparámetros**:
   - Los Bosques Aleatorios tienen varios hiperparámetros que pueden requerir ajuste para obtener un rendimiento óptimo. Este proceso puede ser complejo y consumir tiempo, especialmente si se realiza una búsqueda exhaustiva de hiperparámetros.

4. **Rendimiento en condiciones extremas**:
   - En condiciones meteorológicas extremas o atípicas, el modelo podría no generalizar tan bien si estos escenarios no están bien representados en los datos de entrenamiento. Aunque es menos propenso al sobreajuste, sigue existiendo el riesgo de que no capture adecuadamente patrones inusuales.

##### Conclusión:

El modelo de Bosques Aleatorios es una opción robusta y generalmente efectiva para predecir si va a llover mañana, especialmente dada su capacidad para manejar grandes volúmenes de datos y múltiples características. Sin embargo, la falta de interpretabilidad y los mayores requerimientos computacionales son aspectos a considerar, especialmente si se busca una solución más transparente o que funcione eficientemente en un entorno de recursos limitados. Si estas limitaciones son críticas, podría ser útil considerar otros modelos o enfoques complementarios.


### Conclusiones



#### Construya una tabla comparativa con los resultados de los diferentes modelos y el modelo base. ¿Cuál fue el mejor modelo y por qué?

|Model                  |Recall  |Balanced Accuracy|
|-----------------------|--------|-----------------|
|Base                   |0.4668  |0.6558           |
|KNN                    |0.4228  |0.6459           |
|Regresión Logística    |0.5048  |0.7246           |
|Random Forest          |0.4815  |0.7201           |

Regresión Logística es el mejor modelo entre los evaluados:
- **Mejor Recall: 0.5048**, lo que indica que es el mejor en detectar los días en los que realmente va a llover.
- **Mejor Balanced Accuracy: 0.7246**, lo que muestra un buen equilibrio en el rendimiento del modelo en diferentes clases.
Por lo tanto, la Regresión Logística parece ser la opción más adecuada, dado que optimiza tanto la capacidad para detectar días de lluvia como el equilibrio en la precisión general del modelo.

#### Resuma los hallazgos más relevantes obtenidos durante todo el proceso desde el TP1 al TP3.

##### **Hallazgos del TP1**

1. **Exploración Inicial de Datos**:
   - Se exploró el conjunto de datos sobre lluvias en Australia para entender la distribución de características y la variable objetivo.
   - Se identificaron patrones preliminares y se realizaron análisis descriptivos para comprender las variables.

2. **Preprocesamiento**:
   - Se llevaron a cabo tareas de limpieza de datos, como manejo de valores faltantes y codificación de variables categóricas.
   - Se prepararon los datos para el modelado, asegurando que las características estuvieran en un formato adecuado para los algoritmos de machine learning.

3. **Conclusiones sobre el dataset**
* A mayor temperatura, menor humedad.
* A mayor temperatura, y menor humedad, menor probabilidad de lluvia.
* Hay una fuerte vinculación entre Presión y Velocidad del Viento.
* Se observa una alta estacionalidad en los valores de temperaturas en las ciudades analizadas.
* No se observa una estacionalidad marcada respecto de la cantidad de días de lluvia por mes.

##### **Hallazgos del TP2**

1. **Implementación de Modelos**:
   - Se implementaron varios clasificadores: K-Nearest Neighbors (KNN), Regresión Logística y modelo base.
   - Los modelos fueron evaluados utilizando **Recall** y **Balanced Accuracy** como métricas principales.

2. **Evaluación de Modelos**:
   - La **Regresión Logística** ofrecio el mejor equilibrio entre recall y balanced accuracy.
   - Se identificaron fortalezas y debilidades de cada modelo.

##### **Hallazgos del TP3**

1. **Entrenamiento de modelo**:
   - Se entreno un modelo de Bosques Aleatorios utilizando los parametros por default.
   - Se evaluo su rendimiento utilizando las metricas de **Recall** y **Balanced Accuracy** al igual que los modelos del TP2, con el fin de crear una tabla comparativa entre estos.

2. **Resultados Finales**:
   - La **Regresión Logística** demostró ser el mejor modelo con el mayor recall (0.5048) y balanced accuracy (0.7246).
   - **Bosques Aleatorios** también mostró un buen rendimiento, pero con un recall ligeramente inferior al de la Regresión Logística.

##### **Conclusión General**

- **Regresión Logística** es la opción más efectiva para predecir la lluvia, ofreciendo el mejor equilibrio entre la capacidad de identificar días de lluvia y la precisión general.
- Los Bosques Aleatorios también son competitivos, pero no superan a la Regresión Logística en términos de recall.
- Se identificaron y ajustaron los parámetros de los modelos para mejorar su rendimiento y eficiencia durante el proceso de modelado.

Estos hallazgos destacan la importancia de seleccionar y ajustar adecuadamente los modelos para lograr un equilibrio entre la capacidad predictiva y la eficiencia.


#### Guarde en formato pickle el mejor modelo, seleccionado según su criterio.
Al ser **Regresión Logística** el mejor modelo, este ya esta guardado en la carpeta models desde el TP2. Por lo cual no es necesario generar el codigo para guardarlo en este TP.