# Práctica 7: Ensemble Battle Royale

Inteligencia de Datos

Universidad Iberoamericana Ciudad de México

Creado por: Luis Norberto Zúñiga Morales

El objetivo de esta práctica es poner a prueba los distintos modelos de ensamble que hemos visto hasta el momento y compararlos con un modelo base que, en este caso, será regresión logística.

Empezamos cargando las librerías necesarias y los datos. Vamos a trabajar con el conjunto de datos Haberman's Survival que busca predecir la supervivencia de pacientes a los que les practicaron cirugía para remover cáncer de seno.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.metrics import recall_score, accuracy_score, f1_score, get_scorer_names, precision_score, confusion_matrix, ConfusionMatrixDisplay

from sklearn.linear_model import LogisticRegression

In [None]:
# cargar el dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv'
df = pd.read_csv(url, header=None, names = ['Age', 'OpYear', 'Nodes', 'Survival'])

In [None]:
df.head()

Unnamed: 0,Age,OpYear,Nodes,Survival
0,30,64,1,1
1,30,62,3,1
2,30,65,0,1
3,31,59,2,1
4,31,65,4,1


In [None]:
# ¿existen datos nulos?
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 306 entries, 0 to 305
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   Age       306 non-null    int64
 1   OpYear    306 non-null    int64
 2   Nodes     306 non-null    int64
 3   Survival  306 non-null    int64
dtypes: int64(4)
memory usage: 9.7 KB


## Análisis básico de los datos

In [None]:
plt.rcParams["figure.dpi"] = 800
plt.rcParams["figure.figsize"] = (8,8)

In [None]:
ax = df['Survival'].value_counts().plot(kind='barh', rot=0, fontsize='12')
# sort_index()
ax.set_xlabel("Frecuencia", fontsize=18)
ax.set_ylabel("Clase", fontsize=18)
ax.bar_label(ax.containers[0])

## Partición de los datos

In [None]:
# definir X y y
X = df.drop(columns = ['Survival'])
y = df.iloc[:,-1]

In [None]:
# train - test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.15, random_state = 42)

## Modelo Base: Regresión Logística

Definimos la función `get_scores()` que regresa un diccionario con las métricas de evaluación para los modelos entrenados.

In [None]:
def get_scores(y_true, y_pred):
  scores = {}
  scores['accuracy_score'] = accuracy_score(y_true, y_pred)
  scores['f1_score'] = f1_score(y_true, y_pred)
  scores['recall_score'] = recall_score(y_true, y_pred)
  scores['precision_score'] = precision_score(y_true, y_pred)

  return scores

In [None]:
# clf model and fit
clf = LogisticRegression()
clf.fit(X_train, y_train)

# predict
y_pred = clf.predict(X_test)

# scores
print(get_scores(y_test, y_pred))

{'accuracy_score': 0.6739130434782609, 'f1_score': 0.7945205479452054, 'recall_score': 0.8787878787878788, 'precision_score': 0.725}


## Ejercicios

Ya que tenemos el modelo base para comparar, lo que tienen que hacer en esta práctica es lo siguiente:

1. Con las mismas particiones de entrenamiento y prueba, definir y entrenar los siguientes modelos de ensamble:

  - Un clasificador votante con cuatro modelos base distintos.
  - Un clasificador basado en Árboles de Decisión.
  - Un clasificador basado en Bagging.
  - Un clasificador basado en AdaBoost.
  - Un clasificador basado en Gradient Boosting.
  - Un clasificador basado en Bosques Aleatorios.

La forma de entrenarlos se deja a su discreción. Además, para cada modelo deben mostrar la matriz de confusión que muestre los resultados de predicción para cada clase.

2. Al terminar de entrenar sus modelos. ¿Cuál fue el mejor resultado para cada métrica? En general, ¿cuál fue el mejor modelo? Justifiquen su respuesta.