<a href="https://colab.research.google.com/github/EAFIT-BI/Supervised-Learning-2025-I/blob/main/Modelos_de_ensamble.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelos de ensamble

Los modelos de ensamble utilizan la unión de varios modelos para mejorar el desempeño individual. Dentro los modelos generales de ensamble encontramos:

- Bagging (bootstrap)
- Bosques aleatorios (Random Forest)
- Boosting

In [11]:
import pandas as pd
# Leemos los datos
datos = pd.read_csv('auto-mpg.data-original',
                    sep = '\s+', header = None)
datos = datos.dropna()
# Asignamos los nombres a las columnas
datos.columns = ['mpg', 'cylinders', 'displacement',
                'horsepower', 'weight', 'acceleration',
                'model year', 'origin', 'car name']
# Cambiamos el índice por defecto
datos.set_index('car name', inplace = True)
# Visualizamos la información modificada
datos.head()

Unnamed: 0_level_0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin
car name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
chevrolet chevelle malibu,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0
buick skylark 320,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0
plymouth satellite,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0
amc rebel sst,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0
ford torino,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0


# Clasificador lineal

En este caso usaremos un regresor logístico para la clasificación.

In [12]:
# Separamos las variables predictoras de la variable objetivo
X = datos.drop('origin', axis = 1)
y = datos['origin']

In [13]:
# Particionamos en train y test
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.75, random_state = 27,
                         stratify = y)

In [14]:
# Preprocesamos los datos
from sklearn.preprocessing import StandardScaler
# Instanciamos el escalador
escalador = StandardScaler()
# Aplicamos al train y al test
escalador.fit_transform(X_train);

In [15]:
escalador.fit_transform(X_test);

In [16]:
from sklearn.linear_model import LogisticRegression
from scipy.stats import loguniform
from sklearn.model_selection import RandomizedSearchCV
# El modelo de regresión logística tiene dos hiperparámetros
# a considerar. La C y la penalización.
modelo = LogisticRegression(max_iter = 500,
                            solver = 'liblinear',
                           class_weight = 'balanced')

# Instanciamos la sintonización
distribucion = {'C': loguniform(0.001, 10),
            'penalty': ['l1', 'l2']}
grid_search = RandomizedSearchCV(estimator = modelo,
                                param_distributions = distribucion,
                                scoring = 'f1_weighted',
                                cv = 5)

In [17]:
# Hacemos la búsqueda
grid_search.fit(X_train, y_train)

# Visualizamos el mejor valor con los mejores hiperparámetros
print(f'Score y parámetros: {grid_search.best_score_, grid_search.best_params_}')

Score y parámetros: (np.float64(0.7749597625994435), {'C': np.float64(3.0279422506245397), 'penalty': 'l2'})
