# Trabajo Práctico 2: Predicción de tormenta en base de Datos Meteorológicos 

### Integrantes

- Andrioli, Facundo
- Pérez, José

### Preparación de Datos: 

1. Lea el dataset limpio que se guardó en el TP1 (punto 2 de conclusiones)

In [2]:
import pandas as pd

# Cargamos el conjunto de datos
file = 'weatherAUS_output.csv'
df = pd.read_csv(file)

2. Realice una codificación adecuada de variables categóricas si es necesario, utilizando técnicas como One-Hot 
Encoding según corresponda. 

In [3]:
# Identificamos las columnas categóricas
categorical_columns = df.select_dtypes(include=['object']).columns

# Aplicamos One-Hot Encoding a las columnas categóricas
df_encoded = pd.get_dummies(df, columns=categorical_columns, drop_first=True)

# Mostramos las primeras filas del dataset transformado
print(df_encoded.head())

   MinTemp  MaxTemp  Rainfall  Evaporation  Sunshine  WindGustSpeed  \
0     12.7     15.8       0.8          1.4       7.8           35.0   
1      6.2     15.1       0.0          1.8       2.1           20.0   
2      5.3     15.9       0.0          1.4       8.0           30.0   
3     11.3     15.7       0.0          1.4       1.5           52.0   
4      7.6     11.2      16.2          4.6       1.1           46.0   

   WindSpeed9am  WindSpeed3pm  Humidity9am  Humidity3pm  ...  WindDir3pm_NNW  \
0          13.0          15.0         75.0         52.0  ...           False   
1           2.0          11.0         81.0         56.0  ...           False   
2           6.0          13.0         71.0         46.0  ...           False   
3          15.0          22.0         62.0         62.0  ...            True   
4          17.0          13.0         83.0         88.0  ...           False   

   WindDir3pm_NW  WindDir3pm_S  WindDir3pm_SE  WindDir3pm_SSE  WindDir3pm_SSW  \
0          

3. Separe el dataset en entrenamiento y prueba (70% entrenamiento, 30% prueba).

In [4]:
from sklearn.model_selection import train_test_split

# Definimos las características (X) y el objetivo (y)
X = df_encoded.drop('RainTomorrow', axis=1)
y = df_encoded['RainTomorrow']

# Separamos el dataset en entrenamiento (70%) y prueba (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Datos de train y de test
print("Valores de X_train:",X_train.size)
print("Valores de y_train:",y_train.size)
print("Valores de X_test:",len(X_test))
print("Valores de y_test:",len(y_test))

Valores de X_train: 352834092
Valores de y_train: 99502
Valores de X_test: 42644
Valores de y_test: 42644


4. Normalice o estandarice los atributos numéricos para asegurar que todas las variables tengan la misma escala.

In [5]:
from sklearn.preprocessing import StandardScaler

# Identificamos las columnas numéricas
numerical_columns = X_train.select_dtypes(include=['float64', 'int64']).columns

# Creamos una instancia del StandardScaler
scaler = StandardScaler()

# Ajustamos el escalador a los datos de entrenamiento y transformamos los datos de entrenamiento
X_train[numerical_columns] = scaler.fit_transform(X_train[numerical_columns])

# Utilizamos el mismo escalador para transformar los datos de prueba
X_test[numerical_columns] = scaler.transform(X_test[numerical_columns])

# Mostramos las primeras filas del conjunto de entrenamiento transformado
print(X_train.head())


        MinTemp   MaxTemp  Rainfall  Evaporation  Sunshine  WindGustSpeed  \
5426  -0.728788 -1.024421 -0.136110    -0.529909 -0.727728      -1.583889   
75590  1.160302  0.576340 -0.277473    -0.529909 -1.276662       0.281685   
9368   0.098664  1.250345 -0.277473     0.171888  1.111201       0.558067   
73772 -0.822462 -0.813794 -0.277473    -0.529909 -1.276662       0.212590   
3398   0.286012 -0.855920 -0.230352    -0.572442 -1.249215      -1.583889   

       WindSpeed9am  WindSpeed3pm  Humidity9am  Humidity3pm  ...  \
5426      -1.572602      2.009055     1.458635     0.935639  ...   
75590      0.113636      0.794151     0.783584     1.270228  ...   
9368      -0.336027      0.794151    -2.955154    -2.123465  ...   
73772      0.563299      0.131476    -0.203027    -0.880704  ...   
3398       1.575042      1.015042     0.523950     1.557019  ...   

       WindDir3pm_NNW  WindDir3pm_NW  WindDir3pm_S  WindDir3pm_SE  \
5426            False          False         False         

### Modelado y Evaluación:

1. Determine dos métricas de evaluación que considere importante medir para este problema. Justifique su elección.

#### Error cuadrático medio (MSE)

El MSE mide la media de los cuadrados de los errores, es decir, la diferencia entre los valores predichos y los valores reales. Penaliza los errores grandes más severamente que los pequeños debido al cuadrado de los errores. Esto es útil cuando quieres evaluar la precisión de las predicciones y el impacto de errores grandes en el modelo.

#### Raíz del error cuadrático medio (RMSE)

El RMSE es la raíz cuadrada del MSE y proporciona una medida de la magnitud de los errores en las mismas unidades que la variable objetivo. Esto facilita la interpretación de los errores y la comparación con la escala de los datos. Es útil para evaluar el rendimiento del modelo de manera más intuitiva, ya que el RMSE tiene la misma unidad que las predicciones.

2. Implemente un modelo de base usando como predicción que determine que llueve mañana si hoy llueve, y si hoy no llueve
mañana no va a llover. 

In [21]:
from sklearn.metrics import accuracy_score, confusion_matrix

def base_model(rain_today):
  return rain_today

# Predecir con el modelo de base
y_pred_base = base_model(X_test['RainToday'].astype(int)) 

# Evaluar el modelo de base
accuracy = accuracy_score(y_test, y_pred_base)
conf_matrix = confusion_matrix(y_test, y_pred_base)

print(f"Exactitud del modelo base: {accuracy}")
print("Matriz de confusión:")
print(conf_matrix)

Exactitud del modelo base: 0.7605759309633243
Matriz de confusión:
[[27997  5141]
 [ 5069  4437]]


3. Implemente y entrene un modelo de k Nearest Neighbors (kNN) para predecir si va a llover mañana. Utilice la 
distancia euclidiana como medida de distancia entre vecinos.Ajuste el parámetro k utilizando técnicas como la 
validación cruzada (5 folds) para optimizar el rendimiento del modelo (utilice como función de optimización una de las 
métricas definidas en el punto anterior). 

In [19]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.impute import SimpleImputer


# Imputar los valores faltantes usando la media
imputer = SimpleImputer(strategy='mean')
X_train_imputed = imputer.fit_transform(X_train)
X_test_imputed = imputer.transform(X_test)

# Definir el rango de valores para k
param_grid = {'n_neighbors': list(range(1, 11))}

# Crear el objeto KNeighborsClassifier
knn = KNeighborsClassifier()

# Crear el objeto GridSearchCV con validación cruzada (5 folds) y la métrica de evaluación (Exactitud)
grid_search = GridSearchCV(estimator=knn, param_grid=param_grid, cv=5, scoring='accuracy')

# Ajustar el GridSearchCV a los datos de entrenamiento
grid_search.fit(X_train_imputed, y_train)

# Obtener el mejor valor de k
best_k = grid_search.best_params_['n_neighbors']
print(f"Mejor valor de k: {best_k}")

# Obtener el mejor modelo
best_knn = grid_search.best_estimator_

# Realizar predicciones en el conjunto de prueba
y_pred = best_knn.predict(X_test_imputed)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Exactitud del modelo kNN con k={best_k}: {accuracy}")

4. Implemente y entrene un modelo de regresión logística para predecir la misma variable objetivo.

5. Evalúe los dos modelos con las métricas definidas al principio. Discuta las fortalezas y debilidades de cada enfoque 
en el contexto específico de este problema comparándolos con el modelo de base.

### Conclusiones:

1. Resuma los hallazgos más relevantes obtenidos.

2. Guarde los conjuntos de entrenamiento y evaluación para el siguiente TP en archivos `csv`.

3. Guarde en formato pickle el mejor modelo, seleccionado según su criterio.