# Objetivo: Analizar a traves de ejemplos practicos el algoritmo de Aumento de Gradientes

## Algoritmo Aumento de Gradientes

Los clasificadores de aumento de gradiente son un grupo de algoritmos de Machine Learning que combinan muchos modelos de aprendizaje débiles para crear un modelo predictivo sólido. Los árboles de decisión se utilizan generalmente cuando se realiza un aumento de gradiente.

La biblioteca de Machine Learning de Python, Scikit-Learn , admite diferentes implementaciones de clasificadores que aumentan el gradiente, incluido XGBoost.

Repasaremos la teoría detrás de los modelos / clasificadores de aumento de gradiente y veremos dos formas diferentes de realizar la clasificación con clasificadores de aumento de gradiente en Scikit-Learn.

## Definición de términos

Para empezar, ¿qué es la clasificación? En el Machine Learning, hay dos tipos de problemas de aprendizaje supervisado : clasificación y regresión.

La clasificación se refiere a la tarea de otorgar características a un algoritmo de Machine Learning y hacer que el algoritmo coloque las instancias / puntos de datos en una de las muchas clases discretas. Las clases son de naturaleza categórica, no es posible que una instancia se clasifique como parcialmente una clase y parcialmente otra. Un ejemplo clásico de una tarea de clasificación es clasificar los correos electrónicos como «spam» o «no spam»; no hay un correo electrónico «un poco spam».

Las regresiones se realizan cuando la salida del modelo de Machine Learning es un valor real o un valor continuo. Un ejemplo de estos valores continuos sería «peso» o «longitud». Un ejemplo de una tarea de regresión es predecir la edad de una persona en función de características como altura, peso, ingresos, etc.

Los clasificadores de aumento de gradiente son tipos específicos de algoritmos que se utilizan para tareas de clasificación, como sugiere su nombre.

Las características son las entradas que se le dan al algoritmo de Machine Learning, las entradas que se utilizarán para calcular un valor de salida. En un sentido matemático, las características del conjunto de datos son las variables utilizadas para resolver la ecuación. La otra parte de la ecuación es la etiqueta o el objetivo, que son las clases en las que se categorizarán las instancias. Debido a que las etiquetas contienen los valores objetivo para el clasificador de Machine Learning, al entrenar un clasificador, debe dividir los datos en conjuntos de entrenamiento y prueba. El conjunto de entrenamiento tendrá objetivos / etiquetas, mientras que el conjunto de prueba no contendrá estos valores.

Scikit-Learn, o «sklearn», es una biblioteca de Machine Learning creada para Python, destinada a acelerar las tareas de Machine Learning al facilitar la implementación de algoritmos de Machine Learning. Tiene funciones fáciles de usar para ayudar a dividir datos en conjuntos de entrenamiento y prueba, así como a entrenar un modelo, hacer predicciones y evaluar el modelo.

## Cómo surgió el aumento de gradiente

La idea detrás del «aumento de gradiente» es tomar una hipótesis débil o un algoritmo de aprendizaje débil y hacer una serie de ajustes que mejorarán la solidez de la hipótesis / alumno. Este tipo de Impulso de hipótesis se basa en la idea de Probabilidad Aproximadamente Aprendizaje Correcto (PAC).

Este método de aprendizaje PAC investiga problemas de Machine Learning para interpretar qué tan complejos son, y se aplica un método similar a Hypothesis Boosting.

En el refuerzo de hipótesis, observa todas las observaciones en las que se entrena el algoritmo de Machine Learning y deja solo las observaciones que el método de Machine Learning clasificó con éxito, eliminando las otras observaciones. Se crea un nuevo alumno débil y se prueba en el conjunto de datos que se clasificaron de manera deficiente, y luego solo se conservan los ejemplos que se clasificaron con éxito.

Esta idea se realizó en el algoritmo Adaptive Boosting (AdaBoost). Para AdaBoost, muchos aprendices débiles se crean inicializando muchos algoritmos de árbol de decisión que solo tienen una sola división, como el «muñón» en la imagen de abajo.

El algoritmo pondera las instancias / observaciones en el conjunto de entrenamiento y se asigna más peso a las instancias que son difíciles de clasificar. Los alumnos más débiles se agregan al sistema secuencialmente y se les asigna a las instancias de capacitación más difíciles.

En AdaBoost, las predicciones se realizan por mayoría de votos, y las instancias se clasifican según la clase que recibe la mayor cantidad de votos de los estudiantes débiles.

Los clasificadores de aumento de gradiente son el método AdaBoosting combinado con minimización ponderada, después de lo cual se recalculan los clasificadores y las entradas ponderadas. El objetivo de los clasificadores Gradient Boosting es minimizar la pérdida o la diferencia entre el valor de clase real del ejemplo de entrenamiento y el valor de clase predicho. No es necesario comprender el proceso para reducir la pérdida del clasificador, pero funciona de manera similar al descenso de gradiente en una red neuronal.

Se realizaron refinamientos en este proceso y se crearon máquinas de aumento de gradiente .

En el caso de Gradient Boosting Machines, cada vez que se agrega un nuevo alumno débil al modelo, los pesos de los aprendices anteriores se congelan o cementan en su lugar, sin cambios a medida que se introducen las nuevas capas. Esto es distinto de los enfoques utilizados en AdaBoosting donde los valores se ajustan cuando se agregan nuevos alumnos.

El poder de las máquinas de aumento de gradiente proviene del hecho de que se pueden usar en más problemas de clasificación binaria, se pueden usar en problemas de clasificación de clases múltiples e incluso problemas de regresión.

## Teoría detrás de Gradient Boost

El clasificador de aumento de gradiente depende de una función de pérdida . Se puede utilizar una función de pérdida personalizada, y muchas funciones de pérdida estandarizadas son compatibles con clasificadores de aumento de gradiente, pero la función de pérdida tiene que ser diferenciable.

Los algoritmos de clasificación utilizan con frecuencia pérdidas logarítmicas, mientras que los algoritmos de regresión pueden utilizar errores al cuadrado. Los sistemas de aumento de gradiente no tienen que derivar una nueva función de pérdida cada vez que se agrega el algoritmo de aumento, sino que se puede aplicar al sistema cualquier función de pérdida diferenciable.

Los sistemas de aumento de gradiente tienen otras dos partes necesarias: un alumno débil y un componente aditivo. Los sistemas de aumento de gradiente utilizan árboles de decisión como sus aprendices débiles. Los árboles de regresión se utilizan para los estudiantes débiles, y estos árboles de regresión generan valores reales. Debido a que los resultados son valores reales, a medida que se agregan nuevos estudiantes al modelo, los resultados de los árboles de regresión se pueden sumar para corregir los errores en las predicciones.

El componente aditivo de un modelo de aumento de gradiente proviene del hecho de que los árboles se agregan al modelo con el tiempo, y cuando esto ocurre, los árboles existentes no se manipulan, sus valores permanecen fijos.

Se utiliza un procedimiento similar al descenso de gradiente para minimizar el error entre parámetros dados. Esto se hace tomando la pérdida calculada y realizando un descenso de gradiente para reducir esa pérdida. Posteriormente, se modifican los parámetros del árbol para reducir la pérdida residual.

La salida del nuevo árbol se agrega luego a la salida de los árboles anteriores utilizados en el modelo. Este proceso se repite hasta que se alcanza un número de árboles previamente especificado, o la pérdida se reduce por debajo de un cierto umbral.

## Pasos para aumentar el gradiente

Para implementar un clasificador de aumento de gradiente, necesitaremos llevar a cabo una serie de pasos diferentes. Necesitaremos:

* Encajar el modelo
* Ajustar los parámetros y los hiperparámetros del modelo
* Hacer predicciones
* Interpreta los resultados

Ajustar modelos con Scikit-Learn es bastante fácil, ya que normalmente solo tenemos que llamar al fit()comando después de configurar el modelo.

Sin embargo, ajustar los hiperparámetros del modelo requiere una toma de decisiones activa de nuestra parte. Hay varios argumentos / hiperparámetros que podemos ajustar para intentar obtener la mejor precisión para el modelo. Una de las formas en que podemos hacer esto es alterando la tasa de aprendizaje del modelo. Queremos comprobar el rendimiento del modelo en el conjunto de entrenamiento a diferentes velocidades de aprendizaje y luego usar la mejor velocidad de aprendizaje para hacer predicciones.

Las predicciones se pueden hacer en Scikit-Learn de manera muy simple usando la predict()función después de ajustar el clasificador. Querrá predecir las características del conjunto de datos de prueba y luego comparar las predicciones con las etiquetas reales. El proceso de evaluación de un clasificador generalmente implica verificar la precisión del clasificador y luego ajustar los parámetros / hiperparámetros del modelo hasta que el clasificador tenga una precisión con la que el usuario esté satisfecho.

## Diferentes clasificadores de aumento de gradiente mejorados

#### Aprendizaje penalizado

Se pueden utilizar ciertas restricciones para evitar el sobreajuste, según la estructura del árbol de decisiones. El tipo de árbol de decisión que se utiliza en el aumento de gradiente es un árbol de regresión, que tiene valores numéricos como hojas o pesos. Estos valores de peso se pueden regularizar utilizando los diferentes métodos de regularización, como los pesos de regularización L1 o L2, lo que penaliza el algoritmo de refuerzo radiante.

#### Restricciones de árboles

El árbol de decisión se puede restringir de numerosas formas, como limitar la profundidad del árbol, imponer un límite al número de hojas o nodes del árbol, limitar el número de observaciones por división y limitar el número de observaciones entrenadas. En general, cuantas más restricciones utilice al crear árboles, más árboles necesitará el modelo para ajustar correctamente los datos.

#### Muestreo aleatorio / Impulso estocástico

Tomar submuestras aleatorias del conjunto de datos de entrenamiento, una técnica conocida como aumento de gradiente estocástico, también puede ayudar a prevenir el sobreajuste. Esta técnica reduce esencialmente la fuerza de la correlación entre árboles.

Hay varias formas de submuestrear el conjunto de datos, como submuestrear columnas antes de cada división, submuestrear columnas antes de crear un árbol, como filas de submuestreo antes de crear un árbol. En general, el submuestreo a tasas grandes que no superen el 50% de los datos parece ser beneficioso para el modelo.

#### Actualizaciones ponderadas / por contracción

Debido a que las predicciones de cada árbol se suman, las contribuciones de los árboles pueden inhibirse o ralentizarse mediante una técnica llamada contracción. Se ajusta una «tasa de aprendizaje», y cuando se reduce la tasa de aprendizaje, se deben agregar más árboles al modelo. Esto hace que el modelo necesite más tiempo para entrenarse.

Existe una compensación entre la tasa de aprendizaje y la cantidad de árboles necesarios, por lo que tendrá que experimentar para encontrar los mejores valores para cada uno de los parámetros, pero los valores pequeños menores a 0.1 o valores entre 0.1 y 0.3 a menudo funcionan bien.

#### XGBoost

XGBoost es una versión refinada y personalizada de un sistema de árbol de decisiones que impulsa el gradiente, creado teniendo en cuenta el rendimiento y la velocidad. XGBoost en realidad significa «eXtreme Gradient Boosting» y se refiere al hecho de que los algoritmos y métodos se han personalizado para llevar el límite de lo que es posible para los algoritmos de aumento de gradiente.

## Implementación de un clasificador de aumento de gradiente

### Clasificador de refuerzo regular

Para empezar, debemos elegir un conjunto de datos en el que trabajar y, para este ejemplo, usaremos el conjunto de datos Titanic.

In [1]:
# Importando librerias(Bibliotecas)
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.ensemble import GradientBoostingClassifier

In [2]:
# carga de datos
train_data = pd.read_csv("train.csv")
test_data = pd.read_csv("test.csv")

In [3]:
test_data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [4]:
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Exploracion de datos

In [5]:
# Que columnas tienen el dataset?
train_data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [6]:
test_data.columns

Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [7]:
# Que tamaño tienen los datos? aparece numero de filas x columnas
train_data.shape

(891, 12)

In [8]:
test_data.shape

(418, 11)

In [9]:
# hay valores nulos en los datos?
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Se observa que hay valores nulos en Age, Cabin y Embared; como metodo de accion se puede imputar datos o en
su defecto eliminar registros, aunque estas dos ultimas acciones se deben analizar con precaucion toda vez que
puede afectar la alteracion de los resultados esperados.

In [10]:
test_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


Igualmente para test_data se observan datos nulos en algunas columnas

In [11]:
# Como se distribuyen las variables numericas
# count: conteo, mean: media, std: desviacion estandar, min: minimos, max: maximos, cuantiles: 25% - 50% - 75%
train_data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [12]:
test_data.describe()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,3.0,39.0,1.0,0.0,31.5
max,1309.0,3.0,76.0,8.0,9.0,512.3292


### Preparacion de datos para la informacion

Es posible que debamos hacer un procesamiento previo de los datos. Establezcamos el índice como PassengerIdy luego seleccionemos nuestras características y etiquetas. Nuestros datos de etiqueta, los ydatos son la Survivedcolumna. Así que crearemos su propio marco de datos y luego lo eliminaremos de las funciones.

In [13]:
y_train = train_data["Survived"]
train_data.drop(labels="Survived", axis=1, inplace=True)

Ahora tenemos que crear un nuevo conjunto de datos concatenados.

In [14]:
try:
    full_data = train_data.append(test_data)
except SomeException:
    print("Cuidado")

  full_data = train_data.append(test_data)


Eliminemos las columnas que no sean necesarias o útiles para el entrenamiento, aunque puede dejarlas y ver cómo afectan las cosas.

In [15]:
drop_columns = ["Name", "Age", "SibSp", "Ticket", "Cabin", "Parch", "Embarked"]
full_data.drop(labels=drop_columns, axis=1, inplace=True)

Cualquier dato de texto debe convertirse en números que nuestro modelo pueda usar, así que cambiemos eso ahora. También llenaremos las celdas vacías con 0

In [16]:
full_data = pd.get_dummies(full_data, columns=["Sex"])
full_data.fillna(value=0.0, inplace=True)

Dividamos los datos en conjuntos de entrenamiento y prueba

In [17]:
X_train = full_data.values[0:891]
X_test = full_data.values[891:]

Ahora escalaremos nuestros datos creando una instancia del escalador y escalando

In [18]:
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Ahora podemos dividir los datos en conjuntos de entrenamiento y prueba. También establezcamos una semilla (para que pueda replicar los resultados) y seleccionemos el porcentaje de datos para probar en

In [19]:
state = 12  
test_size = 0.30  
  
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train,  
    test_size=test_size, random_state=state)

Ahora podemos intentar establecer diferentes tasas de aprendizaje, de modo que podamos comparar el rendimiento del clasificador a diferentes tasas de aprendizaje.

In [20]:
lr_list = [0.05, 0.075, 0.1, 0.25, 0.5, 0.75, 1]

for learning_rate in lr_list:
    gb_clf = GradientBoostingClassifier(n_estimators=20, learning_rate=learning_rate, max_features=2, max_depth=2, random_state=0)
    gb_clf.fit(X_train, y_train)

    print("Learning rate: ", learning_rate)
    print("Accuracy score (training): {0:.3f}".format(gb_clf.score(X_train, y_train)))
    print("Accuracy score (validation): {0:.3f}".format(gb_clf.score(X_val, y_val)))

Learning rate:  0.05
Accuracy score (training): 0.801
Accuracy score (validation): 0.731
Learning rate:  0.075
Accuracy score (training): 0.814
Accuracy score (validation): 0.731
Learning rate:  0.1
Accuracy score (training): 0.812
Accuracy score (validation): 0.724
Learning rate:  0.25
Accuracy score (training): 0.835
Accuracy score (validation): 0.750
Learning rate:  0.5
Accuracy score (training): 0.864
Accuracy score (validation): 0.772
Learning rate:  0.75
Accuracy score (training): 0.875
Accuracy score (validation): 0.754
Learning rate:  1
Accuracy score (training): 0.875
Accuracy score (validation): 0.739


Estamos interesados principalmente en la precisión del clasificador en el conjunto de validación, pero parece que una tasa de aprendizaje de 0,5 nos da el mejor rendimiento en el conjunto de validación y un buen rendimiento en el conjunto de entrenamiento.

Ahora podemos evaluar el clasificador comprobando su precisión y creando una matriz de confusión. Creemos un nuevo clasificador y especifiquemos la mejor tasa de aprendizaje que descubrimos.

In [21]:
gb_clf2 = GradientBoostingClassifier(n_estimators=20, learning_rate=0.5, max_features=2, max_depth=2, random_state=0)
gb_clf2.fit(X_train, y_train)
predictions = gb_clf2.predict(X_val)

print("Confusion Matrix:")
print(confusion_matrix(y_val, predictions))

print("Classification Report")
print(classification_report(y_val, predictions))

Confusion Matrix:
[[142  19]
 [ 42  65]]
Classification Report
              precision    recall  f1-score   support

           0       0.77      0.88      0.82       161
           1       0.77      0.61      0.68       107

    accuracy                           0.77       268
   macro avg       0.77      0.74      0.75       268
weighted avg       0.77      0.77      0.77       268



### Clasificador XGBoost

Ahora experimentaremos con el clasificador XGBoost

In [26]:
# importamos las librerias
try:
    from xgboost import XGBClassifier
except ValueError:
    print("Cuidado!!!")

Dado que nuestros datos ya están preparados, solo necesitamos ajustar el clasificador con los datos de entrenamiento

In [28]:
try:
    xgb_clf = XGBClassifier()
    xgb_clf.fit(X_train, y_train)
except ValueError:
    print("Cuidado!!!")



In [29]:
score = xgb_clf.score(X_val, y_val)
print(score)

0.746268656716418


Alternativamente, puede predecir los X_valdatos y luego verificar la precisión con el y_valuso de accuracy_score. Debería darte el mismo tipo de resultado.

La comparación de la precisión de XGboost con la precisión de un clasificador de gradiente regular muestra que, en este caso, los resultados fueron muy similares. Sin embargo, este no siempre será el caso y, en diferentes circunstancias, uno de los clasificadores podría funcionar mejor que el otro. Intente variar los argumentos en este modelo para ver cómo difiere el resultado.

### Conclusión

Los modelos de aumento de gradiente son algoritmos poderosos que se pueden usar tanto para tareas de clasificación como de regresión. Los modelos de aumento de gradiente pueden funcionar increíblemente bien en conjuntos de datos muy complejos, pero también son propensos a sobreajustarse, lo que se puede combatir con varios de los métodos descritos anteriormente. Los clasificadores de aumento de gradiente también son fáciles de implementar en Scikit-Learn.