# Laboratorio de evaluación de modelos de aprendizaje supervisado

Realice los siguientes ejercicios para consolidar sus conocimientos y comprensión de la evaluación de modelos de aprendizaje supervisado.

In [5]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Evaluación de modelos de regresión

In [None]:
from sklearn.datasets import load_boston

data = load_boston()

X = pd.DataFrame(data["data"], columns=data["feature_names"])
y = pd.DataFrame(data["target"], columns=['MEDV'])

data = pd.concat([X, y], axis=1)

## 1. Divida este conjunto de datos en conjuntos de train (80%) y de test (20%).

El campo `MEDV` representa el valor medio de las viviendas ocupadas por sus propietarios (en miles de dólares) y es la variable objetivo que queremos predecir.

In [13]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.metrics import accuracy_score, balanced_accuracy_score, precision_score, f1_score, recall_score, confusion_matrix

In [14]:
# Separate the features and the target variable
X = data.drop('MEDV', axis=1)
y = data['MEDV']

# Split the dataset into training (80%) and testing (20%) sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## 2. Entrene un modelo `LinearRegression` en este conjunto de datos y genere predicciones tanto en el conjunto de entrenamiento como en el de prueba.

## 3. Calcule e imprima R-cuadrado tanto para el conjunto de entrenamiento como para el de prueba.

In [None]:
from sklearn.linear_model import LinearRegression

# Initialise linear regression model
model = LinearRegression()

# Train the model on the training data
model.fit(X_train,y_train)

#Generate predictions on the training data
y_train_pred = model.predict(X_train)

# Generate predictions on the testing data
y_test_pred = model.predict(X_test)

In [None]:
# Evaluate the R2 score for the training and testing data
train_r2 = r2_score(y_train, y_train_pred)
test_r2 = r2_score(y_test, y_test_pred)

# Print the evaluation results
print(f"R-squared (R2) Training Set Performance: {train_r2}")
print(f"R-squared (R2)Test Set Performance: {test_r2}")

## 4. Calcule e imprima el error cuadrático medio para el conjunto de entrenamiento y de prueba.

In [None]:
# Evaluate the MSE for the training and testing data

train_mse = mean_squared_error(y_train, y_train_pred)
test_mse = mean_squared_error(y_test, y_test_pred)

# Print the evaluation results
print(f"Mean Squared Error Training Set Performance(MSE): {train_mse}")
print(f"Mean Squared Error Test Set Performance (MSE): {test_mse}")

## 5. Calcule e imprima el error medio absoluto para el conjunto de entrenamiento y de prueba.

In [None]:
# Evaluate the model: Mean Absolute Error (MAE)
train_mae = mean_absolute_error(y_train, y_train_pred)
test_mae = mean_absolute_error(y_test, y_test_pred)

print(f"Mean Absolute Error Training Set Performance (MAE): {train_mae}")
print(f"Mean Absolute Error Testing Set Performance (MAE): {test_mae}")

## Evaluación del modelo de clasificación

In [None]:
from sklearn.datasets import load_iris
data = load_iris()
print(data.DESCR)

In [None]:

X_c = pd.DataFrame(data["data"], columns=data["feature_names"])
y_c = pd.DataFrame(data["target"], columns=["class"])
data = pd.concat([X_c, y_c], axis=1)
data.head(10)

## 6. Divida este conjunto de datos en conjuntos de train (80%) y de test (20%).

El campo `class` representa el tipo de flor y es la variable objetivo que querremos predecir.

In [None]:
# Separate the features and the target variable
X = data.drop('class', axis=1)
y = data['class']

# Split the dataset into training (80%) and testing (20%) sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
#! pip install plotly

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.figure(figsize=(8,8))
pd.options.plotting.backend = "plotly"
sns.set(rc={'figure.figsize':(6,6)});

## 7. Entrene un modelo `LogisticRegression` en este conjunto de datos y genere predicciones tanto en el conjunto de entrenamiento como en el de prueba.

In [None]:
from sklearn.linear_model import LinearRegression

# Initialise linear regression model
model = LinearRegression()

# Train the model on the training data
model.fit(X_train,y_train)

#Generate predictions on the training data
y_train_pred = model.predict(X_train)

# Generate predictions on the testing data
y_test_pred = model.predict(X_test)

## 8. Calcule e imprima la puntuación de precisión tanto para el conjunto de entrenamiento como para el de pruebas.

    Esta función resuelve los ejercicios 8,9,10,11,12 y 13.

In [None]:
from sklearn.metrics import accuracy_score

# Calculate the accuracy score
train_accuracy = accuracy_score(y_train, y_train_pred)
test_accuracy = accuracy_score(y_test, y_test_pred)

# Print the accuracy scores
print("Training set accuracy:", train_accuracy)
print("Testing set accuracy:", test_accuracy)

## 9. Calcule e imprima la puntuación de precisión equilibrada tanto para el conjunto de entrenamiento como para el de pruebas.

In [None]:
from sklearn.metrics import balanced_accuracy_score

# Calculate the balanced accuracy score
train_balanced_accuracy = balanced_accuracy_score(y_train, y_train_pred)
test_balanced_accuracy = balanced_accuracy_score(y_test, y_test_pred)

# Print the balanced accuracy scores
print("Training set balanced accuracy:", train_balanced_accuracy)
print("Testing set balanced accuracy:", test_balanced_accuracy)

## 11. Calcule e imprima la puntuación de recuerdo tanto para el conjunto de entrenamiento como para el de prueba.

In [None]:
from sklearn.metrics import recall_score

# Calculate the recall score for each class and average them
train_recall = recall_score(y_train, y_train_pred, average='macro')
test_recall = recall_score(y_test, y_test_pred, average='macro')

# Print the recall scores
print("Training set recall:", train_recall)
print("Testing set recall:", test_recall)

## 12. Calcule e imprima la puntuación F1 tanto para el conjunto de entrenamiento como para el de prueba.

In [None]:
from sklearn.metrics import f1_score

# Calculate the F1 score for each class and average them
train_f1 = f1_score(y_train, y_train_pred, average='macro')
test_f1 = f1_score(y_test, y_test_pred, average='macro')

# Print the F1 scores
print("Training set F1 score:", train_f1)
print("Testing set F1 score:", test_f1)

## 13. Generar matrices de confusión tanto para el conjunto de entrenamiento como para el de pruebas.

In [None]:

from sklearn.metrics import confusion_matrix

# Generate confusion matrices
train_cm = confusion_matrix(y_train, y_train_pred)
test_cm = confusion_matrix(y_test, y_test_pred)

# Plot the confusion matrices
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.heatmap(train_cm, annot=True, fmt='d', cmap='Blues', ax=axes[0])
axes[0].set_title('Training Set Confusion Matrix')
axes[0].set_xlabel('Predicted')
axes[0].set_ylabel('Actual')

sns.heatmap(test_cm, annot=True, fmt='d', cmap='Blues', ax=axes[1])
axes[1].set_title('Testing Set Confusion Matrix')
axes[1].set_xlabel('Predicted')
axes[1].set_ylabel('Actual')

plt.show()

## Bonus: Para cada uno de los conjuntos de datos de este laboratorio, intente entrenar con algunos de los otros modelos que ha aprendido, vuelva a calcular las métricas de evaluación y compare para determinar qué modelos funcionan mejor en cada conjunto de datos.

In [None]:
# Your code here