In [4]:
# Importación de librerías necesarias
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, roc_auc_score, confusion_matrix, ConfusionMatrixDisplay

import matplotlib.pyplot as plt
import seaborn as sns

In [5]:

#rLeemos el csv
data = pd.read_csv("AusDataForRainPred.csv")

In [6]:
data.head()

Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,...,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RainTomorrow
0,2008-12-01,Albury,13.4,22.9,0.6,,,W,44.0,W,...,71.0,22.0,1007.7,1007.1,8.0,,16.9,21.8,No,No
1,2008-12-02,Albury,7.4,25.1,0.0,,,WNW,44.0,NNW,...,44.0,25.0,1010.6,1007.8,,,17.2,24.3,No,No
2,2008-12-03,Albury,12.9,25.7,0.0,,,WSW,46.0,W,...,38.0,30.0,1007.6,1008.7,,2.0,21.0,23.2,No,No
3,2008-12-04,Albury,9.2,28.0,0.0,,,NE,24.0,SE,...,45.0,16.0,1017.6,1012.8,,,18.1,26.5,No,No
4,2008-12-05,Albury,17.5,32.3,1.0,,,W,41.0,ENE,...,82.0,33.0,1010.8,1006.0,7.0,8.0,17.8,29.7,No,No


## Preparación de los datos:
Vamos a seleccionar un subconjunto específico de columnas y conviertir el DataFrame resultante en un array de NumPy.

**iloc[]:** Es un método de pandas que permite la selección por índices de posición (filas y columnas).

El **:** antes de la coma significa que seleccionas todas las filas.

los **[1,2,3,4,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21]** después de la coma significa que seleccionas las columnas con los índices especificados. En este caso, las columnas con índices 1, 2, 3, 4, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, y 21.

El **-1** después de la coma significa que seleccionas la última columna. En pandas, un índice negativo cuenta desde el final hacia el principio.

In [7]:
x = data.iloc[:,[1,2,3,4,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21]].values
y = data.iloc[:,-1].values

In [8]:
print(x)

[['Albury' 13.4 22.9 ... 16.9 21.8 'No']
 ['Albury' 7.4 25.1 ... 17.2 24.3 'No']
 ['Albury' 12.9 25.7 ... 21.0 23.2 'No']
 ...
 ['Uluru' 5.4 26.9 ... 12.5 26.1 'No']
 ['Uluru' 7.8 27.0 ... 15.1 26.0 'No']
 ['Uluru' 14.9 nan ... 15.0 20.9 'No']]


#### Etiquetas para los ejes X e Y
**.unique()** es un método de pandas que devuelve los valores únicos de la serie. En este caso, devolverá una lista de los valores únicos presentes en la columna RainTomorrow, que son las clases de nuestro problema de clasificación.

In [10]:
class_names = data['RainTomorrow'].unique()

### Y como matriz bidimensional
El **reshape** es un método de NumPy que permite cambiar la forma de un array sin cambiar sus datos. La forma del array se especifica mediante una tupla de dimensiones.

**Descomposición de y.reshape(-1, 1):**
y: Es el array original que contiene la variable objetivo.
.reshape(): Es el método de NumPy utilizado para cambiar la forma del array.
-1: Este valor indica que el tamaño de esta dimensión debe ser inferido a partir del tamaño original del array y el tamaño de la otra dimensión especificada. En este caso, -1 permite que NumPy determine automáticamente el número correcto de filas basado en el tamaño del array original.
1: Este valor indica que la nueva forma debe tener exactamente una columna.

In [11]:
y =  y.reshape(-1,1)
print(y)

[['No']
 ['No']
 ['No']
 ...
 ['No']
 ['No']
 [nan]]


### Manejo valores faltantes en tus datos (x e y)
El **SimpleImputer**  que se utiliza para imputar (sustituir, rellenar) valores faltantes en los datos.

Los parámetros utilizados son:

**missing_values=np.nan**: Especifica que los valores faltantes en los datos están representados como np.nan (valores NaN de NumPy).

**strategy='most_frequent'**: Especifica que la estrategia de imputación será reemplazar los valores faltantes con el valor más frecuente (la moda) de la columna.

**fit_transform(x)**: Ajusta el imputador a x y luego transforma x reemplazando los valores faltantes con la moda de cada columna.

In [12]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan, strategy='most_frequent')
X = imputer.fit_transform(x)
Y = imputer.fit_transform(y)

In [13]:
print(X)

[['Albury' 13.4 22.9 ... 16.9 21.8 'No']
 ['Albury' 7.4 25.1 ... 17.2 24.3 'No']
 ['Albury' 12.9 25.7 ... 21.0 23.2 'No']
 ...
 ['Uluru' 5.4 26.9 ... 12.5 26.1 'No']
 ['Uluru' 7.8 27.0 ... 15.1 26.0 'No']
 ['Uluru' 14.9 20.0 ... 15.0 20.9 'No']]


In [14]:
print(Y)

[['No']
 ['No']
 ['No']
 ...
 ['No']
 ['No']
 ['No']]


### Transformar variables categóricas en variables numéricas.
El **LabelEncoder** asigna un número único a cada categoría en las columnas categóricas y a la variable de destino Y.

Se crea objetos LabelEncoder para cada columna categórica y para la variable de destino (Y).

y se transforma las variables categóricas en números enteros utilizando cada objeto LabelEncoder.

In [15]:
from sklearn.preprocessing import LabelEncoder
le1 = LabelEncoder()
X[:,0] = le1.fit_transform(X[:,0])
le2 = LabelEncoder()
X[:,4] = le2.fit_transform(X[:,4])
le3 = LabelEncoder()
X[:,6] = le3.fit_transform(X[:,6])
le4 = LabelEncoder()
X[:,7] = le4.fit_transform(X[:,7])
le5 = LabelEncoder()
X[:,-1] = le5.fit_transform(X[:,-1])
le6 = LabelEncoder()
Y = le6.fit_transform(Y)

  y = column_or_1d(y, warn=True)


In [16]:
print(X)

[[2 13.4 22.9 ... 16.9 21.8 0]
 [2 7.4 25.1 ... 17.2 24.3 0]
 [2 12.9 25.7 ... 21.0 23.2 0]
 ...
 [41 5.4 26.9 ... 12.5 26.1 0]
 [41 7.8 27.0 ... 15.1 26.0 0]
 [41 14.9 20.0 ... 15.0 20.9 0]]


In [17]:
Y = Y.reshape(-1,1)
print(Y)

[[0]
 [0]
 [0]
 ...
 [0]
 [0]
 [0]]


In [18]:
Y = np.array(Y,dtype=float)
print(Y)

[[0.]
 [0.]
 [0.]
 ...
 [0.]
 [0.]
 [0.]]


### Normalización de los datos:

**StandardScaler**: Es una técnica común para escalar características (variables) de manera que tengan una media de 0 y una desviación estándar de 1. Esto es útil para algoritmos que asumen que las características están centradas alrededor de cero y tienen la misma escala.

**sc.fit_transform(X):** fit_transform primero ajusta (calcula la media y la desviación estándar) a los datos de entrada X y luego transforma X utilizando estas estadísticas para centrar los datos alrededor de cero y escalarlos.

In [19]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit_transform(X)

In [20]:
# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

## Métricas de Evaluación de Modelos

Las métricas de evaluación como precisión, recall, y F1-score son esenciales para entender diferentes aspectos del rendimiento del modelo. Aquí demostramos cómo calcular estas métricas.



In [21]:
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# Calcular métricas
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_pred)

print(f"Accuracy: {accuracy:.2f}")
print(f"Recall: {recall:.2f}")
print(f"Precision: {precision:.2f}")
print(f"F1 Score: {f1:.2f}")
print(f"ROC AUC Score: {roc_auc:.2f}")


  return fit_method(estimator, *args, **kwargs)


Accuracy: 0.85
Recall: 0.49
Precision: 0.76
F1 Score: 0.59
ROC AUC Score: 0.72


Estas métricas indican un alto desempeño del modelo en el conjunto de prueba, reflejando su capacidad para predecir correctamente tanto las clases positivas como las negativas.


### Explicación de las Métricas de Evaluación y sus Resultados

En el contexto de la validación y evaluación de modelos de machine learning, es fundamental entender qué mide cada métrica y cómo interpretar los resultados obtenidos. A continuación, se presentan las definiciones y el análisis de las métricas de evaluación: Accuracy, Recall, Precision, F1 Score y ROC AUC Score, junto con sus resultados específicos.

#### Accuracy (Precisión)
**Definición:**
La precisión es la proporción de predicciones correctas realizadas por el modelo sobre el total de predicciones. Es una métrica global que indica qué tan bien está funcionando el modelo en general.

$$
\text{Accuracy} = \frac{\text{TP + TN}}{\text{TP + TN + FP + FN}}
$$

Donde:
- TP: Verdaderos Positivos
- TN: Verdaderos Negativos
- FP: Falsos Positivos
- FN: Falsos Negativos

**Resultado: 0.85**
- **Interpretación:** La exactitud es del 85%, lo que indica que el 85% de las predicciones son correctas en general. Es una buena medida, pero no nos dice la historia completa, especialmente si hay un desequilibrio entre las clases.

#### Recall (Sensibilidad o Tasa de Verdaderos Positivos)
**Definición:**
El recall mide la capacidad del modelo para identificar todas las instancias positivas. Es especialmente importante en contextos donde no detectar una instancia positiva tiene un alto costo.

$$
\text{Recall} = \frac{\text{TP}}{\text{TP + FN}}
$$

**Resultado: 0.49**
- **Interpretación:** El recall es del 49%, lo que significa que el modelo identifica correctamente el 49% de todos los casos positivos. Un valor bajo de recall indica que el modelo podría estar perdiendo muchos casos positivos.

#### Precision (Precisión o Valor Predictivo Positivo)
**Definición:**
La precisión mide la exactitud de las predicciones positivas del modelo. Indica la proporción de verdaderos positivos sobre todas las predicciones positivas.

$$
\text{Precision} = \frac{\text{TP}}{\text{TP + FP}}
$$

**Resultado: 0.76**
- **Interpretación:** La precisión es del 76%, lo que significa que del total de casos que el modelo predice como positivos, el 76% realmente son positivos. Una precisión del 76% es decente, pero podría ser mejor.

#### F1 Score
**Definición:**
El F1 Score es la media armónica de la precisión y el recall. Proporciona una única métrica que equilibra la precisión y el recall, especialmente útil cuando se necesita un balance entre ambas.

$$
\text{F1 Score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision + Recall}}
$$

**Resultado: 0.59**
- **Interpretación:** El F1 Score es del 59%. Al combinar precision y recall, nos da una idea del equilibrio entre ambas métricas. Un valor del 59% sugiere un equilibrio moderado entre precision y recall.

#### ROC AUC Score (Área bajo la curva ROC)
**Definición:**
El ROC AUC Score mide la capacidad del modelo para distinguir entre clases. La curva ROC traza la tasa de verdaderos positivos frente a la tasa de falsos positivos en varios umbrales de clasificación.

$$
\text{AUC} = \int_{\text{ROC}} \text{d(ROC)}
$$

**Resultado: 0.72**
- **Interpretación:** El ROC AUC Score es del 72%. Indica que el modelo tiene una capacidad razonable para distinguir entre las clases positiva y negativa. Un valor del 72% sugiere un rendimiento decente pero puede haber margen de mejora.

### Conclusión
Se puede decir que el modelo tiene una exactitud bastante alta, pero podría estar perdiendo algunos casos positivos (bajo recall), además de eso la precisión es decente, pero podría mejorarse para reducir falsos positivos, por otro lado el equilibrio entre precisión y recall (F1 Score) es moderado y el modelo tiene una capacidad razonable para distinguir entre clases según el área bajo la curva ROC. Abria que investigar mas si la ing. de caracteristicas en que sectores se puede mejorar y que sucederia si se aplican diferentes algoritmos. Y por ultimo decir que esto mas o menos se pudo observar cuando vimos la matriz de confusión en notebook anterior