## Boosting en Python

A continuación veremos cómo podemos implementar este modelo en Python. Para ello, utilizaremos la librería `xgboost`.

### Boosting para clasificación

Para ejemplificar la implementación de un algoritmo de boosting para clasificación utilizaremos el mismo conjunto de datos que para el caso de los árboles de decisión y del random forest.

#### Paso 1. Lectura del conjunto de datos procesado

<small>

**¿Qué son las flores Iris?**  
> Las flores Iris son un género de plantas que incluyen unas 200 especies diferentes, conocidas por su belleza y variedad. Tienen flores grandes y vistosas, con una amplia gama de colores, que incluyen morado, blanco, amarillo, y azul. Se encuentran en muchas partes del mundo, especialmente en regiones templadas. Su nombre proviene de la diosa griega del arco iris, Iris.

**Dataset Iris:**  
> El dataset Iris contiene 150 muestras de flores de 3 especies diferentes de Iris, cada una con 4 características:

* Largo del sépalo  
* Ancho del sépalo  
* Largo del pétalo  
* Ancho del pétalo

>Las especies son:

* Iris setosa  
* Iris versicolor  
* Iris virginica  

>Este dataset se utiliza principalmente para problemas de clasificación multiclase: predecir a qué especie pertenece una flor basada en sus características. Es popular en machine learning para ilustrar y probar algoritmos de clasificación.

**⭐Nota:**  
Características = Variables independientes = Predictores = Atributos = Variables explicativas = Entradas

Etiquetas = Variables dependientes = Objetivos = Clases = Resultados = Salidas

In [11]:
# Explicación por Pasos de Ejecución en el flujo del código:

# ◯ Paso 1: 
#    Importación de las librerías necesarias
#       ✓ Importamos 'load_iris' de sklearn.datasets para cargar el conjunto de datos Iris,
#       ✓ y 'train_test_split' de sklearn.model_selection para dividir el conjunto de datos en entrenamiento y prueba.
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# ◯ Paso 2: 
#    Carga de los datos
#       ✓ Usamos 'load_iris' para cargar el conjunto de datos Iris. 
#       ✓ Los datos se cargan en formato DataFrame ya que hemos usado el parámetro 'as_frame=True'. 
#       ✓ 'X' contiene las características, 'y' las etiquetas.
X, y = load_iris(return_X_y = True, as_frame = True)

# ◯ Paso 3: 
#    Dividir los datos en conjunto de entrenamiento y conjunto de prueba
#       ✓ Utilizamos 'train_test_split' para dividir los datos en dos partes:
#       ✓ - 80% para entrenamiento (X_train, y_train)
#       ✓ - 20% para prueba (X_test, y_test)
#       ✓ Establecemos una semilla aleatoria (random_state=42) para asegurar la reproducibilidad de la división.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

# ◯ Paso 4: 
#    Mostrar las primeras filas del conjunto de entrenamiento
#       ✓ Usamos 'head()' para visualizar las primeras filas del conjunto de entrenamiento (X_train) y verificar su formato.
X_train.head()


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
22,4.6,3.6,1.0,0.2
15,5.7,4.4,1.5,0.4
65,6.7,3.1,4.4,1.4
11,4.8,3.4,1.6,0.2
42,4.4,3.2,1.3,0.2


El conjunto *train* lo utilizaremos para entrenar el modelo, mientras que con el *test* lo evaluaremos para medir su grado de efectividad. Además, no es necesario que las variables predictoras estén normalizadas, ya que los árboles de decisión que componen los modelos XGBoost no se ven afectados por la escala de los datos debido a la forma en la que funcionan: toman decisiones basadas en ciertos umbrales de características, independientemente de su escala.

Sin embargo, si se agregan otros modelos para hacer boosting que no sean árboles de decisión, es necesaria una estandarización de datos.

#### Paso 2: Inicialización y entrenamiento del modelo

In [None]:
# Explicación por Pasos de Ejecución en el flujo del código:

# ◯ Paso 1: 
#    Importación del clasificador XGBoost
#       ✓ Importamos 'XGBClassifier' desde la librería 'xgboost'. 
#       ✓ Este modelo se utiliza para clasificación, y es uno de los algoritmos de boosting 
#          más populares debido a su eficiencia y capacidad de manejo de grandes volúmenes de datos.
from xgboost import XGBClassifier

# ◯ Paso 2: 
#    Inicialización del modelo
#       ✓ Creamos una instancia del modelo 'XGBClassifier'. 
#       ✓ Establecemos un valor de 'random_state=42' para asegurar que los resultados sean reproducibles en futuras ejecuciones.
model = XGBClassifier(random_state = 42)

# ◯ Paso 3: 
#    Entrenamiento del modelo
#       ✓ Usamos el método 'fit' para entrenar el modelo con los datos de entrenamiento (X_train y y_train).
#       ✓ El modelo ajustará sus parámetros internos para aprender las relaciones entre las características y las etiquetas.
model.fit(X_train, y_train)

El tiempo de entrenamiento de un modelo dependerá, en primer lugar, del tamaño del conjunto de datos (instancias y características), y también de la tipología de modelo y su configuración.

#### Paso 3: Predicción del modelo

Una vez se ha entrenado el modelo, se puede utilizar para predecir con el conjunto de datos de prueba.

In [16]:
# Explicación por Pasos de Ejecución en el flujo del código:

# ◯ Paso 1: 
#    Realización de predicciones
#       ✓ Usamos el método 'predict' del modelo entrenado para hacer predicciones sobre los datos de prueba (X_test).
#       ✓ El modelo utiliza los predictores de X_test para predecir los valores de los objetivos (y_pred).
y_pred = model.predict(X_test)

# ◯ Paso 2: 
#    Mostrar las predicciones
#       ✓ Mostramos las predicciones realizadas por el modelo en 'y_pred'.
#       ✓ Estas son las predicciones de los objetivos para el conjunto de datos de prueba.
y_pred


array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0])

Con los datos en crudo es muy complicado saber si el modelo está acertando o no. Para ello, debemos compararlo con la realidad. Existe una gran cantidad de métricas para medir la efectividad de un modelo a la hora de predecir, entre ellas la **precisión** (*accuracy*), que es la fracción de predicciones que el modelo realizó correctamente.

In [None]:
# Explicación por Pasos de Ejecución en el flujo del código:

# ◯ Paso 1: 
#    Importación de la métrica de evaluación
#       ✓ Importamos 'accuracy_score' desde 'sklearn.metrics', que es una función utilizada para calcular la precisión del modelo.
#       ✓ Esta métrica nos indica qué tan bien el modelo ha clasificado los objetivos comparados con los valores reales.
from sklearn.metrics import accuracy_score

# ◯ Paso 2: 
#    Cálculo de la precisión del modelo
#       ✓ Usamos 'accuracy_score' para calcular la precisión del modelo.
#       ✓ Comparamos las predicciones (y_pred) con los valores reales (y_test) para obtener el porcentaje de aciertos del modelo.
#       ✓ La fórmula utilizada por 'accuracy_score' es:
#         Accuracy = (Número de predicciones correctas) / (Número total de predicciones)
#       ✓ Esto nos da el porcentaje de aciertos que el modelo ha tenido en el conjunto de prueba.
accuracy_score(y_test, y_pred)

1.0

El modelo es perfecto!

#### Paso 4: Guardado del modelo

Una vez tenemos el modelo que estábamos buscando (presumiblemente tras la optimización de hiperparámetros), para poder utilizarlo a futuro es necesario almacenarlo en nuestro directorio, junto a la semilla.

In [21]:
model.save_model("xgb_classifier_default_42.json")

Añadir un nombre explicativo al modelo es vital, ya que en el caso de perder el código que lo ha generado sabremos, por un lado, qué configuración tiene (en este caso ponemos `default` porque no hemos personalizado ninguno de los hiperparámetros del modelo, hemos dejado los que tiene por defecto la función) y además la semilla para replicar los componentes aleatorios del modelo, que en este caso lo hacemos añadiendo un número al nombre del archivo, el `42`.

### Boosting para regresión

Para ejemplificar la implementación de un algoritmo de boosting para regresión utilizaremos el mismo conjunto de datos que para el caso de los árboles de decisión y del random forest.

#### Paso 1. Lectura del conjunto de datos procesado

In [22]:
import pandas as pd

train_data = pd.read_csv("https://raw.githubusercontent.com/4GeeksAcademy/machine-learning-content/master/assets/clean_petrol_consumption_train.csv")
test_data = pd.read_csv("https://raw.githubusercontent.com/4GeeksAcademy/machine-learning-content/master/assets/clean_petrol_consumption_test.csv")

train_data.head()

Unnamed: 0,Petrol_tax,Average_income,Paved_Highways,Population_Driver_licence(%),Petrol_Consumption
0,8.0,4447,8577,0.5,464
1,7.5,4870,2351,0.5,414
2,8.0,5319,11868,0.5,344
3,7.0,4345,3905,0.7,968
4,7.5,3357,4121,0.5,628


In [23]:
X_train = train_data.drop(["Petrol_Consumption"], axis = 1)
y_train = train_data["Petrol_Consumption"]
X_test = test_data.drop(["Petrol_Consumption"], axis = 1)
y_test = test_data["Petrol_Consumption"]

El conjunto *train* lo utilizaremos para entrenar el modelo, mientras que con el *test* lo evaluaremos para medir su grado de efectividad. Además, no es necesario que las variables predictoras estén normalizadas, ya que los árboles de decisión que componen los modelos XGBoost no se ven afectados por la escala de los datos debido a la forma en la que funcionan: toman decisiones basadas en ciertos umbrales de características, independientemente de su escala.

Sin embargo, si se agregan otros modelos para hacer boosting que no sean árboles de decisión, es necesaria una estandarización de datos.

In [28]:
print(y_test)

0    631
1    587
2    577
3    591
4    460
5    704
6    525
7    640
8    410
9    566
Name: Petrol_Consumption, dtype: int64


#### Paso 2: Inicialización y entrenamiento del modelo

In [24]:
from xgboost import XGBRegressor

model = XGBRegressor(random_state = 42)
model.fit(X_train, y_train)

#### Paso 3: Predicción del modelo

Una vez se ha entrenado el modelo, se puede utilizar para predecir con el conjunto de datos de prueba.

In [25]:
y_pred = model.predict(X_test)
y_pred

array([642.72314, 583.89545, 604.52313, 655.17633, 507.17087, 598.1727 ,
       508.003  , 922.8301 , 569.5492 , 586.8937 ], dtype=float32)

Para calcular la efectividad del modelo utilizaremos el **error cuadrático medio** (*MSE*):

In [26]:
from sklearn.metrics import mean_squared_error

print(f"Error cuadrático medio: {mean_squared_error(y_test, y_pred)}")

Error cuadrático medio: 12462.193359375


#### Paso 4: Guardado del modelo

Una vez tenemos el modelo que estábamos buscando (presumiblemente tras la optimización de hiperparámetros), para poder utilizarlo a futuro es necesario almacenarlo en nuestro directorio, junto a la semilla.

In [27]:
model.save_model("xgb_regressor_default_42.json")

Añadir un nombre explicativo al modelo es vital, ya que en el caso de perder el código que lo ha generado sabremos, por un lado, qué configuración tiene (en este caso ponemos `default` porque no hemos personalizado ninguno de los hiperparámetros del modelo, hemos dejado los que tiene por defecto la función) y además la semilla para replicar los componentes aleatorios del modelo, que en este caso lo hacemos añadiendo un número al nombre del archivo, el `42`.