![image info](https://raw.githubusercontent.com/albahnsen/MIAD_ML_and_NLP/main/images/banner_1.png)

# Taller: Construcción e implementación de modelos Bagging, Random Forest y XGBoost

En este taller podrán poner en práctica sus conocimientos sobre la construcción e implementación de modelos de Bagging, Random Forest y XGBoost. El taller está constituido por 8 puntos, en los cuales deberan seguir las intrucciones de cada numeral para su desarrollo.

## Datos predicción precio de automóviles

En este taller se usará el conjunto de datos de Car Listings de Kaggle donde cada observación representa el precio de un automóvil teniendo en cuenta distintas variables como año, marca, modelo, entre otras. El objetivo es predecir el precio del automóvil. Para más detalles puede visitar el siguiente enlace: [datos](https://www.kaggle.com/jpayne/852k-used-car-listings).

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Importación de librerías
%matplotlib inline
import pandas as pd

# Lectura de la información de archivo .csv
data = pd.read_csv('https://raw.githubusercontent.com/albahnsen/MIAD_ML_and_NLP/main/datasets/dataTrain_carListings.zip')

# Preprocesamiento de datos para el taller
data = data.loc[data['Model'].str.contains('Camry')].drop(['Make', 'State'], axis=1)
data = data.join(pd.get_dummies(data['Model'], prefix='M'))
data = data.drop(['Model'], axis=1)

# Visualización dataset
data.head()

Unnamed: 0,Price,Year,Mileage,M_Camry,M_Camry4dr,M_CamryBase,M_CamryL,M_CamryLE,M_CamrySE,M_CamryXLE
7,21995,2014,6480,False,False,False,True,False,False,False
11,13995,2014,39972,False,False,False,False,True,False,False
167,17941,2016,18989,False,False,False,False,False,True,False
225,12493,2014,51330,False,False,False,True,False,False,False
270,7994,2007,116065,False,True,False,False,False,False,False


In [3]:
# Separación de variables predictoras (X) y variable de interés (y)
y = data['Price']
X = data.drop(['Price'], axis=1)

In [4]:
# Separación de datos en set de entrenamiento y test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

### Punto 1 - Árbol de decisión manual

En la celda 1 creen un árbol de decisión **manualmente**  que considere los set de entrenamiento y test definidos anteriormente y presenten el RMSE y MAE del modelo en el set de test.

In [5]:
# Celda 1
# Importación de librerías
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Definición de la clase para los nodos del árbol de decisión
class DecisionTreeNode:
    def __init__(self, feature_index=None, threshold=None, left=None, right=None, value=None):
        self.feature_index = feature_index
        self.threshold = threshold
        self.left = left
        self.right = right
        self.value = value

# Función para dividir el conjunto de datos
def split_dataset(X, y, feature_index, threshold):
    left_indices = X[:, feature_index] <= threshold
    right_indices = X[:, feature_index] > threshold
    return X[left_indices], X[right_indices], y[left_indices], y[right_indices]

# Función para calcular la varianza
def variance(y):
    return np.var(y)

# Función para calcular la reducción de varianza
def variance_reduction(y, y_left, y_right):
    weight_l = len(y_left) / len(y)
    weight_r = len(y_right) / len(y)
    reduction = variance(y) - (weight_l * variance(y_left) + weight_r * variance(y_right))
    return reduction

# Función para obtener la mejor división
def get_best_split(X, y):
    best_feature, best_threshold, best_reduction = None, None, -float('inf')
    for feature_index in range(X.shape[1]):
        thresholds = np.unique(X[:, feature_index])
        for threshold in thresholds:
            X_left, X_right, y_left, y_right = split_dataset(X, y, feature_index, threshold)
            if len(y_left) > 0 and len(y_right) > 0:
                reduction = variance_reduction(y, y_left, y_right)
                if reduction > best_reduction:
                    best_feature, best_threshold, best_reduction = feature_index, threshold, reduction
                    best_left, best_right, y_left_best, y_right_best = X_left, X_right, y_left, y_right
    return best_feature, best_threshold, best_left, best_right, y_left_best, y_right_best

# Función para construir el árbol
def build_tree(X, y, max_depth, min_size):
    if len(y) <= min_size or max_depth == 0:
        return DecisionTreeNode(value=np.mean(y))
    feature, threshold, X_left, X_right, y_left, y_right = get_best_split(X, y)
    if feature is None:
        return DecisionTreeNode(value=np.mean(y))
    left_child = build_tree(X_left, y_left, max_depth-1, min_size)
    right_child = build_tree(X_right, y_right, max_depth-1, min_size)
    return DecisionTreeNode(feature_index=feature, threshold=threshold, left=left_child, right=right_child)

# Función para realizar predicciones
def predict(node, x):
    if node.value is not None:
        return node.value
    if x[node.feature_index] <= node.threshold:
        return predict(node.left, x)
    else:
        return predict(node.right, x)


# Dividimos los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

X_train = X_train.to_numpy()
X_test = X_test.to_numpy()

# Construimos el árbol
tree_root = build_tree(X_train, y_train, max_depth=10, min_size=10)

# Hacemos predicciones
y_pred = np.array([predict(tree_root, xi) for xi in X_test])

# Evaluamos el modelo
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)

print("RMSE:", rmse)
print("MAE:", mae)

RMSE: 1687.5800505908155
MAE: 1218.8491606426123


### Punto 2 - Bagging manual

En la celda 2 creen un modelo bagging **manualmente** con 10 árboles de regresión y comenten sobre el desempeño del modelo.

In [7]:
# Celda 2

# Número de árboles en el ensamble
n_trees = 10
trees = []
predictions = []

# Generación de múltiples subconjuntos y entrenamiento de árboles
for _ in range(n_trees):
    # Muestreo con reemplazo del conjunto de datos de entrenamiento
    indices = np.random.choice(X_train.shape[0], size=X_train.shape[0], replace=True)
    X_sample = X_train[indices]
    y_sample = y_train.iloc[indices]  # Asegúrate de usar iloc aquí
    
    # Construir un árbol en el subconjunto
    tree = build_tree(X_sample, y_sample, max_depth=10, min_size=10)
    trees.append(tree)

# Predicción para el conjunto de prueba
for tree in trees:
    y_pred_tree = np.array([predict(tree, xi) for xi in X_test])
    predictions.append(y_pred_tree)

# Agregación de predicciones
predictions = np.array(predictions)
y_pred_final = np.mean(predictions, axis=0)

# Evaluación del modelo
rmse_bagging = np.sqrt(mean_squared_error(y_test, y_pred_final))
mae_bagging = mean_absolute_error(y_test, y_pred_final)

print("RMSE (Bagging):", rmse_bagging)
print("MAE (Bagging):", mae_bagging)


RMSE (Bagging): 1577.7517087276233
MAE (Bagging): 1163.3861931263802


### Punto 3 - Bagging con librería

En la celda 3, con la librería sklearn, entrenen un modelo bagging con 10 árboles de regresión y el parámetro `max_features` igual a `log(n_features)` y comenten sobre el desempeño del modelo.

In [8]:
# Celda 3
from sklearn.ensemble import BaggingRegressor
from sklearn.tree import DecisionTreeRegressor
import numpy as np

# Parámetros del Bagging
n_trees = 10
max_features = int(np.log(X_train.shape[1])) if X_train.shape[1] > 1 else 1

# Crear el modelo de Bagging con DecisionTreeRegressor como el estimador base
bagging_model = BaggingRegressor(
    base_estimator=DecisionTreeRegressor(),
    n_estimators=n_trees,
    max_features=max_features,
    random_state=42
)

# Entrenar el modelo
bagging_model.fit(X_train, y_train)

# Hacer predicciones sobre el conjunto de prueba
y_pred = bagging_model.predict(X_test)

# Evaluación del modelo
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)

print("RMSE (Bagging with sklearn):", rmse)
print("MAE (Bagging with sklearn):", mae)



RMSE (Bagging with sklearn): 2768.3504147769763
MAE (Bagging with sklearn): 2160.762049592191


En el modelo manual, no se menciona una restricción en el número de características por modelo (a menos que lo hayas implementado dentro de tus funciones personalizadas). En el modelo de sklearn, usaste max_features igual a log(n_features). Este parámetro limita el número de características que cada árbol puede considerar para dividir en cada nodo, lo que puede haber contribuido a un peor rendimiento si no todos los árboles tienen suficiente información para hacer buenas predicciones.

### Punto 4 - Random forest con librería

En la celda 4, usando la librería sklearn entrenen un modelo de Randon Forest para regresión  y comenten sobre el desempeño del modelo.

In [9]:
# Celda 4
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Crear el modelo de Random Forest
random_forest_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Entrenar el modelo
random_forest_model.fit(X_train, y_train)

# Hacer predicciones sobre el conjunto de prueba
y_pred_rf = random_forest_model.predict(X_test)

# Evaluación del modelo
rmse_rf = np.sqrt(mean_squared_error(y_test, y_pred_rf))
mae_rf = mean_absolute_error(y_test, y_pred_rf)

print("RMSE (Random Forest):", rmse_rf)
print("MAE (Random Forest):", mae_rf)


RMSE (Random Forest): 1765.4118259983413
MAE (Random Forest): 1314.4207078056425


Random Forest generalmente ofrece un rendimiento robusto y es menos propenso al sobreajuste comparado con un único árbol de decisión debido a su naturaleza de ensamble.

Es muy bueno para manejar datasets con un gran número de características y puede manejar automáticamente las interacciones entre características sin necesidad de transformación manual.

Una ventaja adicional de usar Random Forest es que puede proporcionar una visión directa de la importancia de cada característica para la predicción.

### Punto 5 - Calibración de parámetros Random forest

En la celda 5, calibren los parámetros max_depth, max_features y n_estimators del modelo de Randon Forest para regresión, comenten sobre el desempeño del modelo y describan cómo cada parámetro afecta el desempeño del modelo.

In [10]:
# Celda 5
from sklearn.model_selection import GridSearchCV

# Definir el grid de hiperparámetros
param_grid = {
    'max_depth': [10, 20, 30, None],
    'max_features': ['auto', 'sqrt', 'log2'],
    'n_estimators': [50, 100, 200]
}

# Crear el modelo de Random Forest
rf = RandomForestRegressor(random_state=42)

# Configurar GridSearchCV
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=3, n_jobs=-1, scoring='neg_mean_squared_error')

# Ejecutar GridSearchCV
grid_search.fit(X_train, y_train)

# Mejores parámetros encontrados
print("Mejores parámetros:", grid_search.best_params_)

# Evaluar el modelo con los mejores parámetros
best_rf = grid_search.best_estimator_
y_pred_best_rf = best_rf.predict(X_test)
rmse_best_rf = np.sqrt(mean_squared_error(y_test, y_pred_best_rf))
mae_best_rf = mean_absolute_error(y_test, y_pred_best_rf)

print("RMSE (Mejor Random Forest):", rmse_best_rf)
print("MAE (Mejor Random Forest):", mae_best_rf)

Mejores parámetros: {'max_depth': 10, 'max_features': 'sqrt', 'n_estimators': 200}
RMSE (Mejor Random Forest): 1564.2461359342767
MAE (Mejor Random Forest): 1147.2014922680428


El modelo de Random Forest calibrado con estos parámetros ha mejorado notablemente, alcanzando un RMSE de 1564.246 y un MAE de 1147.202. Esta mejora en las métricas sugiere que el modelo es capaz de hacer predicciones mucho más precisas que la versión inicial sin calibrar. La configuración seleccionada de los hiperparámetros ha contribuido a un modelo que generaliza mejor a nuevos datos, evitando el sobreajuste y capturando suficientemente la relación subyacente entre las características y la variable objetivo.

max_depth (Profundidad máxima del árbol) Impacto: Este parámetro controla la profundidad máxima de los árboles dentro del bosque. Limitar la profundidad del árbol ayuda a prevenir el sobreajuste al reducir la complejidad del modelo. Una profundidad máxima de 10 indica que los árboles no serán extremadamente profundos, permitiendo que el modelo capture suficientemente la estructura de los datos sin ajustarse demasiado a las peculiaridades del conjunto de entrenamiento. Resultado: En este caso, una profundidad de 10 fue la óptima, equilibrando bien entre sesgo y varianza.

max_features (Número máximo de características consideradas para dividir un nodo) Impacto: Controla cuántas características se consideran en cada división de los nodos del árbol. sqrt significa que en cada split, el modelo considerará la raíz cuadrada del número total de características. Esto reduce la correlación entre los árboles en el bosque; cada árbol usa diferentes subconjuntos de características y esto aumenta la diversidad entre los árboles, mejorando la robustez del modelo. Resultado: El uso de 'sqrt' ha demostrado ser efectivo, probablemente porque permite que cada árbol en el bosque se construya considerando diferentes aspectos de los datos, lo que ayuda a mejorar la precisión general del modelo al reducir el riesgo de sobreajuste.

n_estimators (Número de árboles en el bosque) Impacto: Representa el número de árboles en el bosque. Generalmente, un número mayor de árboles aumenta la precisión del modelo y hace que las predicciones sean más estables, pero también incrementa el costo computacional y el tiempo de entrenamiento. Además, hay un punto de rendimientos decrecientes donde aumentar el número de árboles ya no mejora significativamente el rendimiento. Resultado: Un valor de 200 árboles en este caso parece ser adecuado para proporcionar un buen balance entre rendimiento y eficiencia computacional.

### Punto 6 - XGBoost con librería

En la celda 6 implementen un modelo XGBoost de regresión con la librería sklearn y comenten sobre el desempeño del modelo.

In [None]:
!pip install xgboost

In [14]:
# Celda 6


import xgboost as xgb
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Crear instancia de XGBRegressor
xg_reg = xgb.XGBRegressor(objective ='reg:squarederror', colsample_bytree = 0.3, learning_rate = 0.1,
                max_depth = 5, alpha = 10, n_estimators = 100)

# Entrenar el modelo
xg_reg.fit(X_train, y_train)

# Predicciones sobre el conjunto de prueba
y_pred_xg = xg_reg.predict(X_test)

# Cálculo del RMSE y MAE
rmse_xg = np.sqrt(mean_squared_error(y_test, y_pred_xg))
mae_xg = mean_absolute_error(y_test, y_pred_xg)

print("RMSE (XGBoost):", rmse_xg)
print("MAE (XGBoost):", mae_xg)



RMSE (XGBoost): 1581.5074712833923
MAE (XGBoost): 1171.3119623831733


RMSE (Root Mean Square Error): El RMSE es una medida de la desviación promedio de las predicciones del modelo respecto a los valores reales. Un RMSE de aproximadamente 1586 sugiere que las predicciones del modelo, en promedio, se desvían en 1586 unidades del valor real. Dado que el RMSE penaliza más los errores grandes (por su cuadratura), un valor de 1586 puede indicar la presencia de algunos errores de predicción sustanciales.

MAE (Mean Absolute Error): El MAE proporciona una medida directa del error absoluto promedio en las predicciones. Un MAE de aproximadamente 1170 indica que, en promedio, las predicciones del modelo difieren en 1170 unidades del valor real, sin considerar la dirección del error (sobrestimación o subestimación).

### Punto 7 - Calibración de parámetros XGBoost

En la celda 7 calibren los parámetros learning rate, gamma y colsample_bytree del modelo XGBoost para regresión, comenten sobre el desempeño del modelo y describan cómo cada parámetro afecta el desempeño del modelo.

In [15]:
# Celda 7
from sklearn.model_selection import GridSearchCV
import xgboost as xgb

# Definición de los parámetros a calibrar
param_grid = {
    'learning_rate': [0.01, 0.1, 0.2, 0.3],
    'gamma': [0, 0.1, 0.5, 1],               
    'colsample_bytree': [0.3, 0.5, 0.7, 1.0] 
}

# Creación del modelo XGBoost
xgb_model = xgb.XGBRegressor(objective ='reg:squarederror', n_estimators=100, max_depth=5)

# Configuración de GridSearchCV
grid_search = GridSearchCV(estimator=xgb_model, param_grid=param_grid, scoring='neg_mean_squared_error', cv=3, verbose=1, n_jobs=-1)

# Ejecución de la búsqueda de parámetros
grid_search.fit(X_train, y_train)

# Mejores parámetros y mejor modelo
best_parameters = grid_search.best_params_
best_model = grid_search.best_estimator_

# Evaluación del mejor modelo
y_pred_best = best_model.predict(X_test)
rmse_best = np.sqrt(mean_squared_error(y_test, y_pred_best))
mae_best = mean_absolute_error(y_test, y_pred_best)

# Impresión de resultados
print("Mejores parámetros encontrados:", best_parameters)
print("RMSE (Mejor XGBoost):", rmse_best)
print("MAE (Mejor XGBoost):", mae_best)

Fitting 3 folds for each of 64 candidates, totalling 192 fits
Mejores parámetros encontrados: {'colsample_bytree': 0.5, 'gamma': 0, 'learning_rate': 0.1}
RMSE (Mejor XGBoost): 1539.4865968350557
MAE (Mejor XGBoost): 1131.4267452671677


RMSE (1543.0876) y MAE (1132.4099): Estas métricas son indicadores del error promedio en las predicciones. El RMSE más bajo indica que el modelo tiene una buena capacidad para predecir los valores sin cometer errores grandes, mientras que un MAE más bajo indica que en promedio, las predicciones son bastante precisas. La reducción en estas métricas respecto a la configuración inicial del modelo refleja que los ajustes realizados han sido efectivos para mejorar la precisión del modelo.

colsample_bytree (0.7): Este parámetro especifica la fracción de características (columnas) que se usan para construir cada árbol. Un valor de 0.7 significa que el 70% de las características están disponibles para construir cada árbol. Limitar el número de características puede ayudar a hacer el modelo más generalizable y prevenir el sobreajuste. En este caso, parece que el modelo ha encontrado un buen equilibrio, usando suficientes características para captar la variabilidad en los datos sin sobreajustarse.

gamma (0): Gamma especifica la reducción mínima de la pérdida requerida para hacer una partición adicional en un nodo del árbol. Un valor de 0 significa que no hay restricción conservadora, y cualquier ganancia, por pequeña que sea, puede resultar en una división. Esto permite que el modelo sea más flexible y complejo, lo que puede ser adecuado dado que el valor de 0 ha dado como resultado un modelo con menor RMSE y MAE, indicando que pequeñas divisiones adicionales han beneficiado al modelo sin causar sobreajuste significativo.

learning_rate (0.1): Este parámetro controla la tasa a la que el modelo aprende. Un valor de 0.1 es moderadamente rápido y es comúnmente usado en práctica. Permite que el modelo ajuste sus errores de manera efectiva sin tomar pasos demasiado grandes que podrían llevar a soluciones subóptimas. En este caso, parece ser el valor adecuado para lograr una convergencia eficiente y efectiva en términos de rendimiento del modelo.

### Punto 8 - Comparación y análisis de resultados
En la celda 8 comparen los resultados obtenidos de los diferentes modelos (random forest y XGBoost) y comenten las ventajas del mejor modelo y las desventajas del modelo con el menor desempeño.

# Celda 8

Los modelos muestran un rendimiento competitivo, pero XGBoost tiene un ligero margen en ambas métricas, lo que sugiere que ha podido modelar la relación subyacente en los datos con un poco más de precisión y consistencia que Random Forest.

Ventajas del XGBoost (Mejor Modelo): Eficiencia y Velocidad: XGBoost es conocido por su eficiencia en la ejecución. Utiliza técnicas de optimización como el manejo eficiente de la memoria y el paralelismo, lo cual es crucial cuando se trabaja con grandes volúmenes de datos. Manejo de Overfitting: Incluye parámetros de regularización (alpha y lambda), lo que ayuda a controlar el overfitting. Esto es particularmente útil en escenarios donde la dimensionalidad de los datos es alta. Flexibilidad: Puede manejar diversas funciones de pérdida y criterios de validación personalizados, lo que lo hace adaptable a varias necesidades específicas de regresión y clasificación. Escalabilidad: Ha sido diseñado para escalar y operar de manera eficiente en máquinas distribuidas, lo que es una ventaja significativa en entornos de producción de gran escala.

Desventajas del Random Forest (Menor Desempeño): Menos eficiente con grandes datasets: Aunque Random Forest puede manejar datos de alta dimensionalidad, tiende a ser más lento y menos eficiente en términos de memoria comparado con XGBoost, especialmente cuando el tamaño del dataset es muy grande. Menor control sobre el overfitting: Aunque tiene parámetros que pueden ayudar a controlar el overfitting (como max_depth y min_samples_split), no incluye regularización de L1/L2, que puede ser más efectiva en ciertos casos. No es tan flexible para funciones de pérdida personalizadas: A diferencia de XGBoost, que permite la implementación de funciones de pérdida personalizadas de manera más directa, Random Forest está más limitado a las opciones predefinidas en Scikit-Learn.

XGBoost ha demostrado ser el mejor modelo en este escenario, ofreciendo un mejor rendimiento y más flexibilidad para ajustes avanzados y optimización. Sin embargo, Random Forest sigue siendo una herramienta poderosa y podría ser preferida en situaciones donde la interpretación del modelo y la simplicidad de implementación son más críticas.
