# Objetivo: Analizar a traves de ejemplos practicos el algoritmo de Aumento de Gradientes

## Algoritmo Aumento de Gradientes

Los clasificadores de aumento de gradiente son un grupo de algoritmos de Machine Learning que combinan muchos modelos de aprendizaje débiles para crear un modelo predictivo sólido. Los árboles de decisión se utilizan generalmente cuando se realiza un aumento de gradiente.

La biblioteca de Machine Learning de Python, Scikit-Learn , admite diferentes implementaciones de clasificadores que aumentan el gradiente, incluido XGBoost.

Repasaremos la teoría detrás de los modelos / clasificadores de aumento de gradiente y veremos dos formas diferentes de realizar la clasificación con clasificadores de aumento de gradiente en Scikit-Learn.

## Definición de términos

Para empezar, ¿qué es la clasificación? En el Machine Learning, hay dos tipos de problemas de aprendizaje supervisado : clasificación y regresión.

La clasificación se refiere a la tarea de otorgar características a un algoritmo de Machine Learning y hacer que el algoritmo coloque las instancias / puntos de datos en una de las muchas clases discretas. Las clases son de naturaleza categórica, no es posible que una instancia se clasifique como parcialmente una clase y parcialmente otra. Un ejemplo clásico de una tarea de clasificación es clasificar los correos electrónicos como «spam» o «no spam»; no hay un correo electrónico «un poco spam».

Las regresiones se realizan cuando la salida del modelo de Machine Learning es un valor real o un valor continuo. Un ejemplo de estos valores continuos sería «peso» o «longitud». Un ejemplo de una tarea de regresión es predecir la edad de una persona en función de características como altura, peso, ingresos, etc.

Los clasificadores de aumento de gradiente son tipos específicos de algoritmos que se utilizan para tareas de clasificación, como sugiere su nombre.

Las características son las entradas que se le dan al algoritmo de Machine Learning, las entradas que se utilizarán para calcular un valor de salida. En un sentido matemático, las características del conjunto de datos son las variables utilizadas para resolver la ecuación. La otra parte de la ecuación es la etiqueta o el objetivo, que son las clases en las que se categorizarán las instancias. Debido a que las etiquetas contienen los valores objetivo para el clasificador de Machine Learning, al entrenar un clasificador, debe dividir los datos en conjuntos de entrenamiento y prueba. El conjunto de entrenamiento tendrá objetivos / etiquetas, mientras que el conjunto de prueba no contendrá estos valores.

Scikit-Learn, o «sklearn», es una biblioteca de Machine Learning creada para Python, destinada a acelerar las tareas de Machine Learning al facilitar la implementación de algoritmos de Machine Learning. Tiene funciones fáciles de usar para ayudar a dividir datos en conjuntos de entrenamiento y prueba, así como a entrenar un modelo, hacer predicciones y evaluar el modelo.

## Cómo surgió el aumento de gradiente

La idea detrás del «aumento de gradiente» es tomar una hipótesis débil o un algoritmo de aprendizaje débil y hacer una serie de ajustes que mejorarán la solidez de la hipótesis / alumno. Este tipo de Impulso de hipótesis se basa en la idea de Probabilidad Aproximadamente Aprendizaje Correcto (PAC).

Este método de aprendizaje PAC investiga problemas de Machine Learning para interpretar qué tan complejos son, y se aplica un método similar a Hypothesis Boosting.

En el refuerzo de hipótesis, observa todas las observaciones en las que se entrena el algoritmo de Machine Learning y deja solo las observaciones que el método de Machine Learning clasificó con éxito, eliminando las otras observaciones. Se crea un nuevo alumno débil y se prueba en el conjunto de datos que se clasificaron de manera deficiente, y luego solo se conservan los ejemplos que se clasificaron con éxito.

Esta idea se realizó en el algoritmo Adaptive Boosting (AdaBoost). Para AdaBoost, muchos aprendices débiles se crean inicializando muchos algoritmos de árbol de decisión que solo tienen una sola división, como el «muñón» en la imagen de abajo.

El algoritmo pondera las instancias / observaciones en el conjunto de entrenamiento y se asigna más peso a las instancias que son difíciles de clasificar. Los alumnos más débiles se agregan al sistema secuencialmente y se les asigna a las instancias de capacitación más difíciles.

En AdaBoost, las predicciones se realizan por mayoría de votos, y las instancias se clasifican según la clase que recibe la mayor cantidad de votos de los estudiantes débiles.

Los clasificadores de aumento de gradiente son el método AdaBoosting combinado con minimización ponderada, después de lo cual se recalculan los clasificadores y las entradas ponderadas. El objetivo de los clasificadores Gradient Boosting es minimizar la pérdida o la diferencia entre el valor de clase real del ejemplo de entrenamiento y el valor de clase predicho. No es necesario comprender el proceso para reducir la pérdida del clasificador, pero funciona de manera similar al descenso de gradiente en una red neuronal.

Se realizaron refinamientos en este proceso y se crearon máquinas de aumento de gradiente .

En el caso de Gradient Boosting Machines, cada vez que se agrega un nuevo alumno débil al modelo, los pesos de los aprendices anteriores se congelan o cementan en su lugar, sin cambios a medida que se introducen las nuevas capas. Esto es distinto de los enfoques utilizados en AdaBoosting donde los valores se ajustan cuando se agregan nuevos alumnos.

El poder de las máquinas de aumento de gradiente proviene del hecho de que se pueden usar en más problemas de clasificación binaria, se pueden usar en problemas de clasificación de clases múltiples e incluso problemas de regresión.

## Teoría detrás de Gradient Boost

El clasificador de aumento de gradiente depende de una función de pérdida . Se puede utilizar una función de pérdida personalizada, y muchas funciones de pérdida estandarizadas son compatibles con clasificadores de aumento de gradiente, pero la función de pérdida tiene que ser diferenciable.

Los algoritmos de clasificación utilizan con frecuencia pérdidas logarítmicas, mientras que los algoritmos de regresión pueden utilizar errores al cuadrado. Los sistemas de aumento de gradiente no tienen que derivar una nueva función de pérdida cada vez que se agrega el algoritmo de aumento, sino que se puede aplicar al sistema cualquier función de pérdida diferenciable.

Los sistemas de aumento de gradiente tienen otras dos partes necesarias: un alumno débil y un componente aditivo. Los sistemas de aumento de gradiente utilizan árboles de decisión como sus aprendices débiles. Los árboles de regresión se utilizan para los estudiantes débiles, y estos árboles de regresión generan valores reales. Debido a que los resultados son valores reales, a medida que se agregan nuevos estudiantes al modelo, los resultados de los árboles de regresión se pueden sumar para corregir los errores en las predicciones.

El componente aditivo de un modelo de aumento de gradiente proviene del hecho de que los árboles se agregan al modelo con el tiempo, y cuando esto ocurre, los árboles existentes no se manipulan, sus valores permanecen fijos.

Se utiliza un procedimiento similar al descenso de gradiente para minimizar el error entre parámetros dados. Esto se hace tomando la pérdida calculada y realizando un descenso de gradiente para reducir esa pérdida. Posteriormente, se modifican los parámetros del árbol para reducir la pérdida residual.

La salida del nuevo árbol se agrega luego a la salida de los árboles anteriores utilizados en el modelo. Este proceso se repite hasta que se alcanza un número de árboles previamente especificado, o la pérdida se reduce por debajo de un cierto umbral.

## Pasos para aumentar el gradiente

Para implementar un clasificador de aumento de gradiente, necesitaremos llevar a cabo una serie de pasos diferentes. Necesitaremos:

* Encajar el modelo
* Ajustar los parámetros y los hiperparámetros del modelo
* Hacer predicciones
* Interpreta los resultados

Ajustar modelos con Scikit-Learn es bastante fácil, ya que normalmente solo tenemos que llamar al fit()comando después de configurar el modelo.

Sin embargo, ajustar los hiperparámetros del modelo requiere una toma de decisiones activa de nuestra parte. Hay varios argumentos / hiperparámetros que podemos ajustar para intentar obtener la mejor precisión para el modelo. Una de las formas en que podemos hacer esto es alterando la tasa de aprendizaje del modelo. Queremos comprobar el rendimiento del modelo en el conjunto de entrenamiento a diferentes velocidades de aprendizaje y luego usar la mejor velocidad de aprendizaje para hacer predicciones.

Las predicciones se pueden hacer en Scikit-Learn de manera muy simple usando la predict()función después de ajustar el clasificador. Querrá predecir las características del conjunto de datos de prueba y luego comparar las predicciones con las etiquetas reales. El proceso de evaluación de un clasificador generalmente implica verificar la precisión del clasificador y luego ajustar los parámetros / hiperparámetros del modelo hasta que el clasificador tenga una precisión con la que el usuario esté satisfecho.

## Diferentes clasificadores de aumento de gradiente mejorados

#### Aprendizaje penalizado

Se pueden utilizar ciertas restricciones para evitar el sobreajuste, según la estructura del árbol de decisiones. El tipo de árbol de decisión que se utiliza en el aumento de gradiente es un árbol de regresión, que tiene valores numéricos como hojas o pesos. Estos valores de peso se pueden regularizar utilizando los diferentes métodos de regularización, como los pesos de regularización L1 o L2, lo que penaliza el algoritmo de refuerzo radiante.

#### Restricciones de árboles

El árbol de decisión se puede restringir de numerosas formas, como limitar la profundidad del árbol, imponer un límite al número de hojas o nodes del árbol, limitar el número de observaciones por división y limitar el número de observaciones entrenadas. En general, cuantas más restricciones utilice al crear árboles, más árboles necesitará el modelo para ajustar correctamente los datos.

#### Muestreo aleatorio / Impulso estocástico

Tomar submuestras aleatorias del conjunto de datos de entrenamiento, una técnica conocida como aumento de gradiente estocástico, también puede ayudar a prevenir el sobreajuste. Esta técnica reduce esencialmente la fuerza de la correlación entre árboles.

Hay varias formas de submuestrear el conjunto de datos, como submuestrear columnas antes de cada división, submuestrear columnas antes de crear un árbol, como filas de submuestreo antes de crear un árbol. En general, el submuestreo a tasas grandes que no superen el 50% de los datos parece ser beneficioso para el modelo.

#### Actualizaciones ponderadas / por contracción

Debido a que las predicciones de cada árbol se suman, las contribuciones de los árboles pueden inhibirse o ralentizarse mediante una técnica llamada contracción. Se ajusta una «tasa de aprendizaje», y cuando se reduce la tasa de aprendizaje, se deben agregar más árboles al modelo. Esto hace que el modelo necesite más tiempo para entrenarse.

Existe una compensación entre la tasa de aprendizaje y la cantidad de árboles necesarios, por lo que tendrá que experimentar para encontrar los mejores valores para cada uno de los parámetros, pero los valores pequeños menores a 0.1 o valores entre 0.1 y 0.3 a menudo funcionan bien.

#### XGBoost

XGBoost es una versión refinada y personalizada de un sistema de árbol de decisiones que impulsa el gradiente, creado teniendo en cuenta el rendimiento y la velocidad. XGBoost en realidad significa «eXtreme Gradient Boosting» y se refiere al hecho de que los algoritmos y métodos se han personalizado para llevar el límite de lo que es posible para los algoritmos de aumento de gradiente.