# Modelos de ensamblaje

El término "ensamble" en el aprendizaje automático se refiere a un método que combina las predicciones de múltiples modelos de aprendizaje automático para mejorar la robustez y precisión del modelo final. En lugar de usar un solo modelo predictivo, los métodos de ensamble integran las predicciones de varios modelos. Hay varias razones por las que los métodos de ensamble son efectivos:

* Reducción de Varianza: Al combinar modelos, los métodos de ensamble pueden reducir la varianza. Un solo modelo puede tener un alto rendimiento en el conjunto de datos de entrenamiento pero puede no generalizar bien a nuevos datos. Al promediar los resultados de múltiples modelos, se reduce el riesgo de sobreajuste.

* Reducción de Sesgo: Algunos métodos de ensamble pueden ayudar a reducir el sesgo en el modelo final. Por ejemplo, al construir un modelo que aprende de los errores de un modelo anterior, como en los métodos de boosting.

* Mejora en las Predicciones: Los ensambles a menudo pueden lograr una mejor precisión predictiva en comparación con los modelos individuales. Esto se debe a que diferentes modelos pueden capturar diferentes patrones en los datos, y al combinarlos, se obtiene una visión más completa.

Tipos Principales de Ensamble

1. Bagging (Bootstrap Aggregating)
Bagging es un método de ensamble que mejora la estabilidad y precisión de los algoritmos de aprendizaje automático. Funciona de la siguiente manera:

* Bootstrap: Se crean múltiples conjuntos de entrenamiento mediante muestreo con reemplazo del conjunto de entrenamiento original. Esto significa que cada nuevo conjunto puede tener muestras repetidas y algunas pueden faltar.

* Entrenamiento Independiente: Se entrena un modelo (usualmente árboles de decisión) en cada uno de estos conjuntos de manera independiente.

* Agregación: Para la clasificación, se usa la votación mayoritaria (el resultado más frecuente entre todos los modelos) para la predicción final. En regresión, se promedian las predicciones.

El ejemplo más conocido de bagging es Random Forest, que mejora los árboles de decisión agregando aleatoriedad en la selección de las características en cada división, reduciendo así la correlación entre los árboles y mejorando la precisión general.

2. Boosting
Boosting es otro método de ensamble que crea una serie de modelos que se construyen de forma secuencial. Cada nuevo modelo se construye intentando corregir los errores del modelo anterior. Los pasos generales son:

* Modelo Inicial: Se entrena un modelo en el conjunto de datos.

* Corrección Iterativa: Se entrena cada nuevo modelo enfocándose en los casos que fueron mal clasificados o que presentaron errores en las predicciones anteriores.

* Peso a los Modelos: Cada modelo se pondera en función de su precisión, y luego se combinan para crear la predicción final.

Los algoritmos de boosting más conocidos incluyen AdaBoost y Gradient Boosting. El boosting es particularmente poderoso porque puede mejorar continuamente y manejar tanto sesgo como varianza en el conjunto de datos.

3. Random Forest
Random Forest es un tipo de algoritmo de bagging específico para árboles de decisión. Funciona de la siguiente manera:

* Creación de Múltiples Árboles: Se crean muchos árboles de decisión utilizando muestreo de bootstrap.

* Aleatoriedad en Características: En cada división de un árbol, se selecciona un subconjunto aleatorio de características. Esto asegura que los árboles sean diferentes y reduce el riesgo de sobreajuste.

* Votación o Promedio: Para la clasificación, se usa la votación mayoritaria de todos los árboles, y para la regresión, el promedio de sus predicciones.

* Random Forest es muy popular debido a su simplicidad, eficacia y la capacidad de manejar grandes conjuntos de datos con una buena precisión sin necesidad de ajuste fino de parámetros.


Estas técnicas son poderosas y se usan ampliamente en problemas de aprendizaje automático. Mientras que el **bagging y el Random Forest buscan reducir la varianza (y por lo tanto el sobreajuste), el boosting trabaja en reducir tanto el sesgo como la varianza**, ajustándose de manera iterativa a los errores difíciles.

In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
#from sklearn.metrics import accuracy_score, confusion_matrix, plot_confusion_matrix
from sklearn.ensemble import BaggingClassifier, AdaBoostClassifier, RandomForestClassifier

%matplotlib inline
plt.rcParams['figure.figsize'] = (16, 9)
plt.style.use('ggplot')

import warnings
warnings.filterwarnings('ignore')

In [5]:
url="/content/Fish.csv"
df = pd.read_csv(url)
df

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width
0,Bream,242.0,23.2,25.4,30.0,11.5200,4.0200
1,Bream,290.0,24.0,26.3,31.2,12.4800,4.3056
2,Bream,340.0,23.9,26.5,31.1,12.3778,4.6961
3,Bream,363.0,26.3,29.0,33.5,12.7300,4.4555
4,Bream,430.0,26.5,29.0,34.0,12.4440,5.1340
...,...,...,...,...,...,...,...
154,Smelt,12.2,11.5,12.2,13.4,2.0904,1.3936
155,Smelt,13.4,11.7,12.4,13.5,2.4300,1.2690
156,Smelt,12.2,12.1,13.0,13.8,2.2770,1.2558
157,Smelt,19.7,13.2,14.3,15.2,2.8728,2.0672


* Accuracy: es una medida útil, pero tiene sus limitaciones, especialmente en conjuntos de datos desbalanceados. Si tus clases están desbalanceadas (es decir, una clase es mucho más común que la otra), una alta precisión podría simplemente reflejar el desequilibrio de clases y no la habilidad real del modelo para hacer predicciones precisas

* Precisión (Precision): Proporción de identificaciones positivas que fueron realmente correctas.
* Recall (Sensibilidad): Proporción de positivos reales que fueron identificados correctamente.
* F1-Score: Media armónica de la precisión y el recall. Es útil cuando se busca un equilibrio entre precisión y recall.

**Curva ROC y Área bajo la Curva (AUC)**

[Imagen](https://www.bis.org/img/qtrly/qt1403z_es.gif)

La curva ROC (Receiver Operating Characteristic) y el AUC (Area Under the Curve) son especialmente útiles para evaluar el rendimiento de un modelo de clasificación.

* Curva ROC: Gráfica que muestra la relación entre la tasa de verdaderos positivos (sensibilidad) y la tasa de falsos positivos (1 - especificidad) para diferentes umbrales.
* AUC: Mide toda el área bajo la curva ROC. Un modelo perfecto tiene un AUC de 1, mientras que un modelo que hace predicciones aleatorias tendría un AUC de 0.5.

# Entrenamiento de Modelos

Antes de entrenar nuestro modelo, vamos a recordar el problema de nuestro primer árbol de decisión:

Un primer problema es que tenemos un data set desbalanceado en donde una clase está más representada que otras. Como resultado, podríamos tener un sobreajuste para las clases más representadas y subajuste para la clase principal (percha).

En este caso, usaremos nuestros métodos de ensamble para categorizar cada una de estas clases.

Recordemos que la precisión con el primer árbol fue de 0,78.

In [6]:
X = df.drop(["Species"], axis=1)
y = df["Species"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 42)

In [8]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.ensemble import BaggingClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

# Preparando los datos
X = df.drop('Species', axis=1)
y = df['Species']

# Codificar las etiquetas para que sean numéricas
le = LabelEncoder()
y_encoded = le.fit_transform(y)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

# Entrenar el modelo de Bagging
bagging = BaggingClassifier(random_state=42).fit(X_train, y_train)
y_pred = bagging.predict(X_test)

# Calcular las métricas
precision = precision_score(y_test, y_pred, average='macro')
recall = recall_score(y_test, y_pred, average='macro')
f1 = f1_score(y_test, y_pred, average='macro')
y_prob = bagging.predict_proba(X_test)
auc = roc_auc_score(y_test, y_prob, multi_class='ovr')

# Imprimir las métricas
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1-Score: {f1}")
print(f"AUC: {auc}")


Accuracy: 0.78125
Precision: 0.6785714285714286
Recall: 0.6666666666666666
F1-Score: 0.6722689075630253
AUC: 0.9227943631870701


In [9]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# Entrenar el modelo de Boosting
boosting = GradientBoostingClassifier(random_state=42).fit(X_train, y_train)
y_pred_boost = boosting.predict(X_test)

# Calcular las métricas para el modelo de Boosting
precision_boost = precision_score(y_test, y_pred_boost, average='macro')
recall_boost = recall_score(y_test, y_pred_boost, average='macro')
f1_boost = f1_score(y_test, y_pred_boost, average='macro')

# Para el AUC, necesitamos las probabilidades de clase
y_prob_boost = boosting.predict_proba(X_test)
auc_boost = roc_auc_score(y_test, y_prob_boost, multi_class='ovr')

# Imprimir las métricas para el modelo de Boosting
print(f"Accuracy (Boosting): {accuracy_score(y_test, y_pred_boost)}")
print(f"Precision (Boosting): {precision_boost}")
print(f"Recall (Boosting): {recall_boost}")
print(f"F1-Score (Boosting): {f1_boost}")
print(f"AUC (Boosting): {auc_boost}")


Accuracy (Boosting): 0.78125
Precision (Boosting): 0.8214285714285714
Recall (Boosting): 0.6666666666666666
F1-Score (Boosting): 0.7151260504201681
AUC (Boosting): 0.9496626494740342


In [10]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# Entrenar el modelo de Random Forest
random_forest = RandomForestClassifier(random_state=42).fit(X_train, y_train)
y_pred_rf = random_forest.predict(X_test)

# Calcular las métricas para el modelo de Random Forest
precision_rf = precision_score(y_test, y_pred_rf, average='macro')
recall_rf = recall_score(y_test, y_pred_rf, average='macro')
f1_rf = f1_score(y_test, y_pred_rf, average='macro')

# Para el AUC, necesitamos las probabilidades de clase
y_prob_rf = random_forest.predict_proba(X_test)
auc_rf = roc_auc_score(y_test, y_prob_rf, multi_class='ovr')

# Imprimir las métricas para el modelo de Random Forest
print(f"Accuracy (Random Forest): {accuracy_score(y_test, y_pred_rf)}")
print(f"Precision (Random Forest): {precision_rf}")
print(f"Recall (Random Forest): {recall_rf}")
print(f"F1-Score (Random Forest): {f1_rf}")
print(f"AUC (Random Forest): {auc_rf}")


Accuracy (Random Forest): 0.78125
Precision (Random Forest): 0.6785714285714286
Recall (Random Forest): 0.6666666666666666
F1-Score (Random Forest): 0.6722689075630253
AUC (Random Forest): 0.957575359785545


Para determinar cuál de los tres modelos de clasificación (Bagging, Boosting, Random Forest) es el mejor, debemos considerar todas las métricas que proporcionaste: Accuracy (Precisión), Precision, Recall, F1-Score y AUC. Vamos a compararlas:

Comparación de Métricas
* Accuracy (Precisión)

Todos los modelos tienen el mismo valor de accuracy: 0.78125. Esto significa que todos tienen la misma proporción de predicciones correctas sobre el total de casos.
* Precision

El modelo de Boosting tiene la mayor precisión (0.8214), seguido por Bagging y Random Forest, que tienen la misma precisión (0.6786). Una mayor precisión indica una menor cantidad de falsos positivos.
* Recall

Todos los modelos tienen el mismo recall (0.6667). El recall mide la capacidad del modelo para detectar los casos positivos.
* F1-Score

El modelo de Boosting tiene el F1-score más alto (0.7151), seguido por Bagging y Random Forest, que tienen el mismo F1-score (0.6723). El F1-score es una medida balanceada de precisión y recall.
* AUC

El Random Forest tiene el AUC más alto (0.9576), seguido muy de cerca por Boosting (0.9497) y luego Bagging (0.9228). El AUC mide la capacidad del modelo para distinguir entre las clases a través de todas las tasas de falsos positivos y verdaderos positivos.
Conclusión
* Mejor Rendimiento General: El modelo de Boosting parece tener el mejor rendimiento general, con la mayor precisión y F1-score, y un AUC muy cercano al más alto. Esto indica un buen equilibrio entre la reducción de falsos positivos y falsos negativos.

* Mejor en AUC: Si el AUC es tu principal preocupación (por ejemplo, si quieres maximizar la distinción entre clases a diferentes umbrales), el modelo de Random Forest tiene una ligera ventaja.

* Equilibrio General: Si consideras todas las métricas igualmente importantes, el modelo de Boosting parece ser el más equilibrado, ofreciendo un buen compromiso entre todas las métricas evaluadas.

En resumen, el modelo de Boosting parece ser la mejor opción basada en estas métricas, aunque la elección final también puede depender de factores específicos de tu problema, como la importancia relativa de minimizar falsos positivos frente a falsos negativos, o la necesidad de un modelo más interpretable.