# LAB | Ensemble Methods

**Load the data**

In this challenge, we will be working with the same Spaceship Titanic data, like the previous Lab. The data can be found here:

https://raw.githubusercontent.com/data-bootcamp-v4/data/main/spaceship_titanic.csv

Metadata

https://github.com/data-bootcamp-v4/data/blob/main/spaceship_titanic.md

In this Lab, you should try different ensemble methods in order to see if can obtain a better model than before. In order to do a fair comparison, you should perform the same feature scaling, engineering applied in previous Lab.

In [4]:
#Libraries
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier


In [2]:
spaceship = pd.read_csv("https://raw.githubusercontent.com/data-bootcamp-v4/data/main/spaceship_titanic.csv")
spaceship.head()

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False
3,0003_02,Europa,False,A/0/S,TRAPPIST-1e,33.0,False,0.0,1283.0,371.0,3329.0,193.0,Solam Susent,False
4,0004_01,Earth,False,F/1/S,TRAPPIST-1e,16.0,False,303.0,70.0,151.0,565.0,2.0,Willy Santantines,True


Now perform the same as before:
- Feature Scaling
- Feature Selection


In [5]:
# Supongamos que tienes algunas características numéricas que quieras escalar
numerical_features = spaceship.select_dtypes(include=['int64', 'float64']).columns

# Inicializar el escalador
scaler = StandardScaler()

# Ajustar y transformar las características numéricas
spaceship[numerical_features] = scaler.fit_transform(spaceship[numerical_features])

# Verifica las primeras filas para confirmar el escalado
spaceship.head()

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,0.702095,False,-0.337025,-0.284274,-0.287317,-0.273736,-0.266098,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,-0.333233,False,-0.173528,-0.278689,-0.245971,0.209267,-0.227692,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,2.01351,True,-0.272527,1.934922,-0.287317,5.634034,-0.223327,Altark Susent,False
3,0003_02,Europa,False,A/0/S,TRAPPIST-1e,0.287964,False,-0.337025,0.511931,0.32625,2.655075,-0.097634,Solam Susent,False
4,0004_01,Earth,False,F/1/S,TRAPPIST-1e,-0.885407,False,0.117466,-0.240833,-0.03759,0.223344,-0.264352,Willy Santantines,True


In [7]:
# Identificar características categóricas
categorical_features = spaceship.select_dtypes(include=['object']).columns

# Aplicar One-Hot Encoding a las categóricas
spaceship = pd.get_dummies(spaceship, columns=categorical_features, drop_first=True)

In [8]:


# Identificar nuevamente las características numéricas
numerical_features = spaceship.select_dtypes(include=['int64', 'float64']).columns

# Inicializar el escalador
scaler = StandardScaler()

# Ajustar y transformar las características numéricas
spaceship[numerical_features] = scaler.fit_transform(spaceship[numerical_features])

# Verificar el resultado
spaceship.head()

Unnamed: 0,Age,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Transported,PassengerId_0002_01,PassengerId_0003_01,PassengerId_0003_02,...,Name_Zinopus Spandisket,Name_Zinor Axlentindy,Name_Zinor Proorbeng,Name_Zinoth Lansuffle,Name_Zosmark Trattle,Name_Zosmark Unaasor,Name_Zosmas Ineedeve,Name_Zosmas Mormonized,Name_Zubeneb Flesping,Name_Zubeneb Pasharne
0,0.702095,-0.337025,-0.284274,-0.287317,-0.273736,-0.266098,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,-0.333233,-0.173528,-0.278689,-0.245971,0.209267,-0.227692,True,True,False,False,...,False,False,False,False,False,False,False,False,False,False
2,2.01351,-0.272527,1.934922,-0.287317,5.634034,-0.223327,False,False,True,False,...,False,False,False,False,False,False,False,False,False,False
3,0.287964,-0.337025,0.511931,0.32625,2.655075,-0.097634,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False
4,-0.885407,0.117466,-0.240833,-0.03759,0.223344,-0.264352,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False


**Perform Train Test Split**

In [9]:
# Supongamos que 'Transported' es tu variable objetivo
X = spaceship.drop(columns=['Transported'])  # Asegúrate de que este nombre "Transported" es correcto
y = spaceship['Transported']

In [10]:
# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Verificar la cantidad de datos en cada conjunto
print("Tamaño del conjunto de entrenamiento:", X_train.shape)
print("Tamaño del conjunto de prueba:", X_test.shape)

Tamaño del conjunto de entrenamiento: (6954, 23735)
Tamaño del conjunto de prueba: (1739, 23735)


**Model Selection** - now you will try to apply different ensemble methods in order to get a better model

- Bagging and Pasting

In [11]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# Carga de datos de ejemplo (puedes reemplazar con tus propios datos)
data = load_iris()
X, y = data.data, data.target

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Creación del modelo base
base_model = DecisionTreeClassifier()

# Creación de Bagging ensemble
bagging_model = BaggingClassifier(base_estimator=base_model,
                                  n_estimators=100,  # Número de modelos
                                  max_samples=0.8,   # Porcentaje de muestras para usar
                                  bootstrap=True,    # Activado para Bagging
                                  n_jobs=-1,         # Usa todos los núcleos del CPU
                                  random_state=42)

# Ajustar el modelo
bagging_model.fit(X_train, y_train)

# Evaluar
accuracy = bagging_model.score(X_test, y_test)
print(f"Precisión del modelo Bagging: {accuracy}")



Precisión del modelo Bagging: 1.0


In [12]:
pasting_model = BaggingClassifier(base_estimator=base_model,
                                  n_estimators=100,
                                  max_samples=0.8,
                                  bootstrap=False,   # Desactivado para Pasting
                                  n_jobs=-1,
                                  random_state=42)

# Ajustar el modelo
pasting_model.fit(X_train, y_train)

# Evaluar
accuracy_pasting = pasting_model.score(X_test, y_test)
print(f"Precisión del modelo Pasting: {accuracy_pasting}")

Precisión del modelo Pasting: 1.0




- Random Forests

In [13]:
# Cargar datos de ejemplo (puedes usar tus propios datos)
data = load_iris()
X, y = data.data, data.target

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [14]:
# Instanciación del modelo de Random Forest
rf_model = RandomForestClassifier(n_estimators=100,  # Número de árboles
                                  max_depth=None,    # Profundidad máxima de cada árbol
                                  bootstrap=True,    # Uso de Bagging (con reemplazo)
                                  n_jobs=-1,         # Usa todos los núcleos disponibles
                                  random_state=42)

# Ajustar el modelo al conjunto de entrenamiento
rf_model.fit(X_train, y_train)

In [15]:
# Precisión en el conjunto de prueba
accuracy = rf_model.score(X_test, y_test)
print(f"Precisión del modelo Random Forest: {accuracy}")

Precisión del modelo Random Forest: 1.0


- Gradient Boosting

In [18]:
from sklearn.ensemble import GradientBoostingClassifier
# Cargar datos de ejemplo (puedes usar tus propios datos)
data = load_iris()
X, y = data.data, data.target

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [19]:
# Instanciación del modelo de Gradient Boosting
gb_model = GradientBoostingClassifier(n_estimators=100,  # Número de estimadores
                                      learning_rate=0.1,  # Tasa de aprendizaje
                                      max_depth=3,       # Profundidad máxima de los árboles
                                      random_state=42)

# Ajustar el modelo al conjunto de entrenamiento
gb_model.fit(X_train, y_train)

In [20]:
# Precisión en el conjunto de prueba
accuracy = gb_model.score(X_test, y_test)
print(f"Precisión del modelo Gradient Boosting: {accuracy}")

Precisión del modelo Gradient Boosting: 1.0


- Adaptive Boosting

In [23]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
# Cargar datos de ejemplo (puedes usar tus propios datos)
data = load_iris()
X, y = data.data, data.target

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [24]:
# Crear el clasificador base
base_model = DecisionTreeClassifier(max_depth=1)  # Árbol de decisión de profundidad 1 (stump)

# Instanciación del modelo de AdaBoost
adaboost_model = AdaBoostClassifier(base_estimator=base_model,
                                    n_estimators=50,  # Número de modelos base
                                    learning_rate=1.0,  # Tasa de aprendizaje
                                    random_state=42)

# Ajustar el modelo al conjunto de entrenamiento
adaboost_model.fit(X_train, y_train)



In [25]:
# Precisión en el conjunto de prueba
accuracy = adaboost_model.score(X_test, y_test)
print(f"Precisión del modelo AdaBoost: {accuracy}")

Precisión del modelo AdaBoost: 1.0


Which model is the best and why?

In [None]:
#1. Random Forest
#Ventajas: Muy robusto y preciso. Funciona bien con datos de alta dimensionalidad y es menos propenso al sobreajuste que un solo árbol de decisión.
#Desventajas: Puede ser computacionalmente costoso y menos interpretable en comparación con un solo árbol de decisión.
#2. Gradient Boosting
#Ventajas: Alta precisión, especialmente para datos complejos. Captura bien las relaciones no lineales y las interacciones entre variables.
#Desventajas: Requiere mucho tiempo de entrenamiento y ajuste fino de hiperparámetros. Puede sobreajustar si no se maneja cuidadosamente.
#3. AdaBoost
#Ventajas: Bueno para mejorar la precisión de clasificadores débiles. Funciona bien en problemas de clasificación con ruido moderado.
#Desventajas: Puede ser sensible a los outliers y no es tan efectivo como Gradient Boosting si no se sintonizan adecuadamente los hiperparámetros.