# Laboratorio de evaluación de modelos de aprendizaje supervisado

Realice los siguientes ejercicios para consolidar sus conocimientos y comprensión de la evaluación de modelos de aprendizaje supervisado.

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Evaluación de modelos de regresión

In [4]:
from sklearn.datasets import fetch_california_housing #Cambio de base de datos porque load_boston estaba removido del sckit_learn

data = fetch_california_housing()

X = pd.DataFrame(data["data"], columns=data["feature_names"])
y = pd.DataFrame(data["target"], columns=['MEDV'])

data = pd.concat([X, y], axis=1)

## 1. Divida este conjunto de datos en conjuntos de train (80%) y de test (20%).

El campo `MEDV` representa el valor medio de las viviendas ocupadas por sus propietarios (en miles de dólares) y es la variable objetivo que queremos predecir.

In [16]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.metrics import accuracy_score, balanced_accuracy_score, precision_score, f1_score, recall_score, confusion_matrix
from sklearn.linear_model import LinearRegression

In [6]:
# Your code here
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Display the results
(X_train.shape, X_test.shape), (y_train.shape, y_test.shape)

(((16512, 8), (4128, 8)), ((16512, 1), (4128, 1)))

## 2. Entrene un modelo `LinearRegression` en este conjunto de datos y genere predicciones tanto en el conjunto de entrenamiento como en el de prueba.

In [9]:
# Your code here
model = LinearRegression()
model.fit(X_train, y_train)

# Generar predicciones en el conjunto de entrenamiento y prueba
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

y_train_pred[:5], y_test_pred[:5]

(array([[1.93725845],
        [2.48910616],
        [2.64735483],
        [1.56589492],
        [1.61312839]]),
 array([[0.71912284],
        [1.76401657],
        [2.70965883],
        [2.83892593],
        [2.60465725]]))

## 3. Calcule e imprima R-cuadrado tanto para el conjunto de entrenamiento como para el de prueba.

In [11]:
# Your code here
r2_train = r2_score(y_train, y_train_pred)

r2_test = r2_score(y_test, y_test_pred)

r2_train, r2_test

(0.6125511913966952, 0.575787706032451)

## 4. Calcule e imprima el error cuadrático medio para el conjunto de entrenamiento y de prueba.

In [17]:
# Your code here
mse_train = mean_squared_error(y_train, y_train_pred)
mse_test = mean_squared_error(y_test, y_test_pred)

mse_train, mse_test

(0.5179331255246699, 0.5558915986952442)

## 5. Calcule e imprima el error medio absoluto para el conjunto de entrenamiento y de prueba.

In [15]:
# Your code here
mae_train = mean_absolute_error(y_train, y_train_pred)

mae_test = mean_absolute_error(y_test, y_test_pred)

mae_train, mae_test

(0.5286283596581924, 0.5332001304956556)

## Evaluación del modelo de clasificación

In [18]:
from sklearn.datasets import load_iris

data = load_iris()

X_c = pd.DataFrame(data["data"], columns=data["feature_names"])
y_c = pd.DataFrame(data["target"], columns=["class"])

data = pd.concat([X, y], axis=1)

## 6. Divida este conjunto de datos en conjuntos de train (80%) y de test (20%).

El campo `class` representa el tipo de flor y es la variable objetivo que querremos predecir.

In [25]:
#! pip install plotly
from sklearn.metrics import accuracy_score, balanced_accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

In [20]:
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.figure(figsize=(8,8))
pd.options.plotting.backend = "plotly"
sns.set(rc={'figure.figsize':(6,6)});

<Figure size 800x800 with 0 Axes>

In [21]:
# Your code here
iris_data = load_iris()

X_c = pd.DataFrame(iris_data["data"], columns=iris_data["feature_names"])
y_c = pd.DataFrame(iris_data["target"], columns=["class"])

# Dividir el conjunto de datos en entrenamiento y prueba (80/20)
X_train_c, X_test_c, y_train_c, y_test_c = train_test_split(X_c, y_c, test_size=0.2, random_state=42)


## 7. Entrene un modelo `LogisticRegression` en este conjunto de datos y genere predicciones tanto en el conjunto de entrenamiento como en el de prueba.

In [24]:
# Your code here
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression(max_iter=200, random_state=42)
logistic_model.fit(X_train_c, y_train_c.values.ravel())

y_train_pred_c = logistic_model.predict(X_train_c)
y_test_pred_c = logistic_model.predict(X_test_c)

y_train_pred_c[:5], y_test_pred_c[:5]  # Mostrar las primeras 5 predicciones para ambos conjuntos

(array([0, 0, 1, 0, 0]), array([1, 0, 2, 1, 1]))

## 8. Calcule e imprima la puntuación de precisión tanto para el conjunto de entrenamiento como para el de pruebas.

    Esta función resuelve los ejercicios 8,9,10,11,12 y 13.

In [26]:
# Your code here
accuracy_train = accuracy_score(y_train_c, y_train_pred_c)
accuracy_test = accuracy_score(y_test_c, y_test_pred_c)

# Cálculo de la precisión balanceada para el conjunto de entrenamiento y prueba
balanced_accuracy_train = balanced_accuracy_score(y_train_c, y_train_pred_c)
balanced_accuracy_test = balanced_accuracy_score(y_test_c, y_test_pred_c)

# Cálculo de la precisión por clase (precision) para el conjunto de entrenamiento y prueba
precision_train = precision_score(y_train_c, y_train_pred_c, average='weighted')
precision_test = precision_score(y_test_c, y_test_pred_c, average='weighted')

# Cálculo del recall para el conjunto de entrenamiento y prueba
recall_train = recall_score(y_train_c, y_train_pred_c, average='weighted')
recall_test = recall_score(y_test_c, y_test_pred_c, average='weighted')

# Cálculo de la puntuación F1 para el conjunto de entrenamiento y prueba
f1_train = f1_score(y_train_c, y_train_pred_c, average='weighted')
f1_test = f1_score(y_test_c, y_test_pred_c, average='weighted')

# Cálculo de la matriz de confusión para el conjunto de prueba
conf_matrix = confusion_matrix(y_test_c, y_test_pred_c)

## 9. Calcule e imprima la puntuación de precisión equilibrada tanto para el conjunto de entrenamiento como para el de pruebas.

In [27]:
# Cálculo de la precisión balanceada para el conjunto de entrenamiento y prueba
balanced_accuracy_train = balanced_accuracy_score(y_train_c, y_train_pred_c)
balanced_accuracy_test = balanced_accuracy_score(y_test_c, y_test_pred_c)

## 10. Calcule e imprima la puntuación de precisión tanto para el conjunto de entrenamiento como para el de prueba.

In [28]:
# Your code here
# Cálculo de la precisión por clase (precision) para el conjunto de entrenamiento y prueba
precision_train = precision_score(y_train_c, y_train_pred_c, average='weighted')
precision_test = precision_score(y_test_c, y_test_pred_c, average='weighted')

## 11. Calcule e imprima la puntuación de recuerdo tanto para el conjunto de entrenamiento como para el de prueba.

In [29]:
# Your code here
recall_train = recall_score(y_train_c, y_train_pred_c, average='weighted')
recall_test = recall_score(y_test_c, y_test_pred_c, average='weighted')

## 12. Calcule e imprima la puntuación F1 tanto para el conjunto de entrenamiento como para el de prueba.

In [30]:
# Your code here
f1_train = f1_score(y_train_c, y_train_pred_c, average='weighted')
f1_test = f1_score(y_test_c, y_test_pred_c, average='weighted')

## 13. Generar matrices de confusión tanto para el conjunto de entrenamiento como para el de pruebas.

In [31]:
# Your code here
conf_matrix = confusion_matrix(y_test_c, y_test_pred_c)

## Bonus: Para cada uno de los conjuntos de datos de este laboratorio, intente entrenar con algunos de los otros modelos que ha aprendido, vuelva a calcular las métricas de evaluación y compare para determinar qué modelos funcionan mejor en cada conjunto de datos.

In [None]:
# Your code here