# Laboratorio de evaluación de modelos de aprendizaje supervisado

Realice los siguientes ejercicios para consolidar sus conocimientos y comprensión de la evaluación de modelos de aprendizaje supervisado.

In [None]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Evaluación de modelos de regresión

In [None]:
from sklearn.datasets import load_boston

data = load_boston()

X = pd.DataFrame(data["data"], columns=data["feature_names"])
y = pd.DataFrame(data["target"], columns=['MEDV'])

data = pd.concat([X, y], axis=1)

## 1. Divida este conjunto de datos en conjuntos de train (80%) y de test (20%).

El campo `MEDV` representa el valor medio de las viviendas ocupadas por sus propietarios (en miles de dólares) y es la variable objetivo que queremos predecir.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.metrics import accuracy_score, balanced_accuracy_score, precision_score, f1_score, recall_score, confusion_matrix

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Tamaño del conjunto de entrenamiento: {X_train.shape[0]}")
print(f"Tamaño del conjunto de prueba: {X_test.shape[0]}")

## 2. Entrene un modelo `LinearRegression` en este conjunto de datos y genere predicciones tanto en el conjunto de entrenamiento como en el de prueba.

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

print("Primeras 5 predicciones en el conjunto de prueba:")
print(y_test_pred[:5])

## 3. Calcule e imprima R-cuadrado tanto para el conjunto de entrenamiento como para el de prueba.

In [None]:
from sklearn.metrics import r2_score

r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)

print(f"R-cuadrado en el conjunto de entrenamiento: {r2_train:.2f}")
print(f"R-cuadrado en el conjunto deprueba: {r2_test:.2f}")

## 4. Calcule e imprima el error cuadrático medio para el conjunto de entrenamiento y de prueba.

In [None]:
from sklearn.metrics import mean_squared_error

mse_train = mean_squared_error(y_train, y_train_pred)
mse_test = mean_squared_error(y_test, y_test_pred)

# Imprimir los resultados
print(f"Error Cuadratico Medio (MSE) en el conjunto de entrenamiento: {mse_train:.2f}")
print(f"Error Cuadrático Medio (MSE) en el conjunto de prueba:{mse_test:.2f}")

## 5. Calcule e imprima el error medio absoluto para el conjunto de entrenamiento y de prueba.

In [None]:
from sklearn.metrics import mean_absolute_error

mae_train = mean_absolute_error(y_train, y_train_pred)
mae_test = mean_absolute_error(y_test, y_test_pred)

print(f"Error Medio Absoluto (MAE) en el conjunto de entrenamiento: {mae_train:.2f}")
print(f"Error Medio Absoluto (MAE) en el conjunto de prueba: {mae_test:.2f}")

## Evaluación del modelo de clasificación

In [None]:
from sklearn.datasets import load_iris

data = load_iris()

X_c = pd.DataFrame(data["data"], columns=data["feature_names"])
y_c = pd.DataFrame(data["target"], columns=["class"])

data = pd.concat([X, y], axis=1)

## 6. Divida este conjunto de datos en conjuntos de train (80%) y de test (20%).

El campo `class` representa el tipo de flor y es la variable objetivo que querremos predecir.

In [None]:
#! pip install plotly

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.figure(figsize=(8,8))
pd.options.plotting.backend = "plotly"
sns.set(rc={'figure.figsize':(6,6)});

In [None]:
from sklearn.model_selection import train_test_split

X = data.drop(columns=["class"])
y = data["class"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Tamaño del conjunto de entrenamiento:")
print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")

print("Tamaño del conjunto de prueba:")
print(f"X_test: {X_test.shape}, y_test: {y_test.shape}")

## 7. Entrene un modelo `LogisticRegression` en este conjunto de datos y genere predicciones tanto en el conjunto de entrenamiento como en el de prueba.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

model = LogisticRegression(max_iter=200)

model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)

y_test_pred = model.predict(X_test)

print("Evaluación del modelo en el conjunto de entrenamiento:")
print(f"Precisión: {accuracy_score(y_train, y_train_pred):.2f}")
print("Reporte de clasificación:")
print(classification_report(y_train, y_train_pred))

print("Evaluación del modelo en el conjunto de prueba:")
print(f"Precisión: {accuracy_score(y_test, y_test_pred):.2f}")
print("Reporte de clasificación:")
print(classification_report(y_test, y_test_pred))

## 8. Calcule e imprima la puntuación de precisión tanto para el conjunto de entrenamiento como para el de pruebas.

    Esta función resuelve los ejercicios 8,9,10,11,12 y 13.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

model = LogisticRegression(max_iter=200)

model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

train_accuracy = accuracy_score(y_train, y_train_pred)
print(f"Precisión en el conjunto de entrenamiento: {train_accuracy:.2f}")

test_accuracy = accuracy_score(y_test, y_test_pred)
print(f"Precisión en el conjunto de prueba: {test_accuracy:.2f}")

## 9. Calcule e imprima la puntuación de precisión equilibrada tanto para el conjunto de entrenamiento como para el de pruebas.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import balanced_accuracy_score

model = LogisticRegression(max_iter=200)

model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

train_balanced_accuracy = balanced_accuracy_score(y_train, y_train_pred)
print(f"Precisi´n equilibrada en el conjunto de entrenamiento: {train_balanced_accuracy:.2f}")

test_balanced_accuracy = balanced_accuracy_score(y_test, y_test_pred)
print(f"Precisión equilibrada en el conjunto de prueba: {test_balanced_accuracy:.2f}")

## 10. Calcule e imprima la puntuación de precisión tanto para el conjunto de entrenamiento como para el de prueba.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

train_accuracy = accuracy_score(y_train, y_train_pred)
print(f"Precisión en el conjunto de entrenamiento: {train_accuracy:.2f}")

test_accuracy = accuracy_score(y_test, y_test_pred)
print(f"Precisión en el conjunto de prueba: {test_accuracy:.2f}")

## 11. Calcule e imprima la puntuación de recuerdo tanto para el conjunto de entrenamiento como para el de prueba.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import recall_score

model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

train_recall = recall_score(y_train, y_train_pred, average='weighted')
print(f"Recuerdo en el conjunto de entrenamiento: {train_recall:.2f}")

test_recall = recall_score(y_test, y_test_pred, average='weighted')
print(f"Recuerdo en el conjunto de prueba: {test_recall:.2f}")

## 12. Calcule e imprima la puntuación F1 tanto para el conjunto de entrenamiento como para el de prueba.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score

model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

train_f1 = f1_score(y_train, y_train_pred, average='weighted')
print(f"Puntuación F1 en el conjunto de entrenamiento: {train_f1:.2f}")

test_f1 = f1_score(y_test, y_test_pred, average='weighted')
print(f"Puntuación F1 en el conjunto de prueba: {test_f1:.2f}")

## 13. Generar matrices de confusión tanto para el conjunto de entrenamiento como para el de pruebas.

In [None]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

model = LogisticRegression(max_iter=200)

model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

train_conf_matrix = confusion_matrix(y_train, y_train_pred)
print("Matriz de confusión en el conjunto de entrenamiento:")
print(train_conf_matrix)

test_conf_matrix = confusion_matrix(y_test, y_test_pred)
print("Matriz de confusión en el conjunto de prueba:")
print(test_conf_matrix)

ConfusionMatrixDisplay(confusion_matrix=train_conf_matrix, display_labels=data["target_names"]).plot(cmap='Blues')
plt.title("Matriz de Confusión - Conjunto de Entrenamiento")
plt.show()

ConfusionMatrixDisplay(confusion_matrix=test_conf_matrix, display_labels=data["target_names"]).plot(cmap='Blues')
plt.title("Matriz de Confusión - Conjunto de Prueba")
plt.show()

## Bonus: Para cada uno de los conjuntos de datos de este laboratorio, intente entrenar con algunos de los otros modelos que ha aprendido, vuelva a calcular las métricas de evaluación y compare para determinar qué modelos funcionan mejor en cada conjunto de datos.

In [None]:
# Your code here