# Capítulo 6
* Vecinos Más Cercanos (K-Nearest Neighbors) 
* Un Pequeño Ejemplo: Predicción de Incumplimiento de Préstamos 
* Métricas de Distancia 
* Codificador One Hot 
* Estandarización (Normalización, puntuaciones z) 
* Elección de K 
* KNN como Motor de Características 
* Modelos de Árbol (Tree Models)
* Un Ejemplo S Ejemplo Sencillo
* El Algoritmo de Partición Recursiva
* Medición de Homogeneidad o Impureza 
* Detener el Crecimiento del Árbol 
* Predicción de un Valor Continuo 
* Cómo se Utilizan los Árboles 
* Lecturas Adicionales 
* Bagging y el Bosque Aleatorio (Random Forest) 
* Bagging 
* Bosque Aleatorio 
* Importancia de Variables 
* Hiperparámetros 
* Boosting 
* El Algoritmo de Boosting 
* XGBoost 
* Regularización: Evitar el Sobreajuste 
* Hiperparámetros y Validación Cruzada    
* Resumen

# Aprendizaje Estadístico de Máquinas

Los avances recientes en estadística se han dedicado al desarrollo de técnicas automatizadas más potentes para modelado predictivo, tanto de regresión como de clasificación. Estos métodos, como los discutidos en el capítulo anterior, son métodos supervisados: se entrenan con datos donde se conocen los resultados y aprenden a predecir resultados en nuevos datos. Se incluyen bajo el paraguas del aprendizaje automático estadístico y se distinguen de los métodos estadísticos clásicos en que son impulsados por datos y no buscan imponer una estructura lineal u otra estructura general en los datos. El método de los k-vecinos más cercanos, por ejemplo, es bastante simple: clasifica un registro de acuerdo con cómo se clasifican registros similares. Las técnicas más exitosas y ampliamente utilizadas se basan en el aprendizaje de conjuntos aplicado a árboles de decisión. La idea básica del aprendizaje de conjuntos es usar muchos modelos para formar una predicción, en lugar de usar solo un modelo. Los árboles de decisión son una técnica flexible y automática para aprender reglas sobre las relaciones entre variables predictoras y variables de resultado. Resulta que la combinación del aprendizaje de conjuntos con árboles de decisión conduce a algunas de las técnicas de modelado predictivo más efectivas disponibles.
El desarrollo de muchas de las técnicas en el aprendizaje automático estadístico puede rastrearse hasta los estadísticos Leo Breiman (ver Figura 6-1) en la Universidad de California en Berkeley y Jerry Friedman en la Universidad de Stanford. Su trabajo, junto con el de otros investigadores en Berkeley y Stanford, comenzó con el desarrollo de modelos de árboles en 1984. El desarrollo posterior de métodos de conjunto como bagging y boosting en la década de 1990 estableció los fundamentos del aprendizaje automático estadístico.

![Captura de pantalla 2024-02-11 101210.png](attachment:288eaa2c-cb6e-49ba-9627-ea26f6d53347.png)

**Figura 6-1.** Leo Breiman, quien fue profesor de estadística en la UC Berkeley, estuvo a la vanguardia del desarrollo de muchas técnicas en el conjunto de herramientas de un científico de datos hoy en día.

### Aprendizaje automático versus estadísticas
En el contexto del modelado predictivo, ¿cuál es la diferencia entre el aprendizaje automático y las estadísticas? No hay una línea clara que divida las dos disciplinas. El aprendizaje automático tiende a centrarse más en el desarrollo de algoritmos eficientes que se escalen a grandes conjuntos de datos para optimizar el modelo predictivo. Las estadísticas, en general, prestan más atención a la teoría probabilística y a la estructura subyacente del modelo. Bagging y el bosque aleatorio (ver "Bagging y el Bosque Aleatorio" en la página 259), surgieron firmemente en el campamento de las estadísticas. Por otro lado, el boosting (ver "Boosting" en la página 270) ha sido desarrollado en ambas disciplinas, pero recibe más atención en el lado del aprendizaje automático. Independientemente de la historia, la promesa del boosting asegura que prosperará como una técnica tanto en estadísticas como en aprendizaje automático.

# Vecinos más cercanos (K-Nearest Neighbors)
La idea detrás de K-Nearest Neighbors (KNN) es muy simple. Para cada registro que se va a clasificar o predecir:
1. Encuentra K registros que tengan características similares (es decir, valores de predictores similares).
2. Para clasificación, averigua cuál es la clase mayoritaria entre esos registros similares y asigna esa clase al nuevo registro.
3. Para predicción (también llamada regresión KNN), encuentra el promedio entre esos registros similares y predice ese promedio para el nuevo registro. KNN es una de las técnicas de predicción/clasificación más simples: no hay un modelo que ajustar (como en la regresión). Esto no significa que usar KNN sea un procedimiento automático. Los resultados de la predicción dependen de cómo se escalan las características, cómo se mide la similitud y qué tan grande se establece K. Además, todos los predictores deben estar en forma numérica. Ilustraremos cómo usar el método KNN con un ejemplo de clasificación.

**Nota:** Esta y las secciones siguientes en este capítulo © 2020 Datastats, LLC, Peter Bruce, Andrew Bruce y Peter Gedeck; utilizadas con permiso.

### Términos clave para Vecinos más Cercanos (K-Nearest Neighbors)
**Vecino**
- Un registro que tiene valores de predictores similares a otro registro.
  
**Métricas de distancia**
- Medidas que resumen en un solo número qué tan lejos está un registro de otro.
  
**Estandarización**
- Restar la media y dividir por la desviación estándar.
Sinónimo
- Normalización
  
**Puntuación z**
- El valor que resulta después de la estandarización.
  
**K**
- El número de vecinos considerados en el cálculo del vecino más cercano.

# Un Pequeño Ejemplo: Prediciendo el Incumplimiento de Préstamos

La Tabla 6-1 muestra algunos registros de datos de préstamos personales de LendingClub. LendingClub es un líder en préstamos entre pares en el que grupos de inversores otorgan préstamos personales a individuos. El objetivo de un análisis sería predecir el resultado de un nuevo préstamo potencial: pagado o incumplido.

**Tabla 6-1.** Algunos registros y columnas de datos de préstamos de LendingClub

![Captura de pantalla 2024-02-11 101622.png](attachment:6accdd4e-fdd1-4c93-97e4-522f0a778501.png)

Consideremos un modelo muy simple con solo dos variables predictoras: dti, que es la proporción de pagos de deuda (excluyendo la hipoteca) respecto al ingreso, y payment_inc_ratio, que es la proporción del pago del préstamo respecto al ingreso. Ambas proporciones se multiplican por 100. Utilizando un pequeño conjunto de 200 préstamos, loan200, con resultados binarios conocidos (incumplimiento o no incumplimiento, especificados en el resultado del predictor outcome200), y con K establecido en 20, la estimación KNN para un nuevo préstamo a predecir, newloan, con dti=22.5 y payment_inc_ratio=9 se puede calcular en R de la siguiente manera:

La predicción KNN es que el préstamo incumpla.
Aunque R tiene una función knn nativa, el paquete R contribuido FNN, para Vecino más Cercano Rápido, se escala de manera más efectiva a grandes conjuntos de datos y proporciona más flexibilidad.
El paquete scikit-learn proporciona una implementación rápida y eficiente de KNN en Python:

La Figura 6-2 proporciona una visualización de este ejemplo. El nuevo préstamo a predecir es la cruz en el medio. Los cuadrados (pagado) y los círculos (incumplido) son los datos de entrenamiento. El círculo negro grande muestra el límite de los 20 puntos más cercanos. En este caso, 9 préstamos incumplidos están dentro del círculo, en comparación con 11 préstamos pagados. Por lo tanto, el resultado predicho del préstamo es que está pagado. Tenga en cuenta que si consideramos solo tres vecinos más cercanos, la predicción sería que el préstamo incumple.

**Nota:**

Para este ejemplo, tomamos la primera fila en el conjunto de datos loan200 como el nuevo préstamo (newloan) y lo excluimos del conjunto de datos para el entrenamiento.

![Captura de pantalla 2024-02-11 101736.png](attachment:ae333892-79e0-4922-9f11-5b8988b10a9e.png)

**Figura 6-2.** Predicción KNN de incumplimiento de préstamo utilizando dos variables: relación de deuda a ingreso y relación de pago del préstamo a ingreso.

**Nota:**

Si bien la salida de KNN para clasificación suele ser una decisión binaria, como incumplimiento o pago en los datos de préstamos, las rutinas de KNN generalmente ofrecen la oportunidad de generar una probabilidad (propensión) entre 0 y 1. La probabilidad se basa en la fracción de una clase en los K vecinos más cercanos. En el ejemplo anterior, esta probabilidad de incumplimiento se habría estimado en 0.45, o 45%. El uso de una puntuación de probabilidad te permite utilizar reglas de clasificación distintas a las simples votaciones mayoritarias (probabilidad de 0.5). Esto es especialmente importante en problemas con clases desequilibradas; ver "Estrategias para Datos Desbalanceados" en la página 230. Por ejemplo, si el objetivo es identificar miembros de una clase rara, el punto de corte normalmente se establecería por debajo del 50%. Un enfoque común es establecer el punto de corte en la probabilidad del evento raro.

# Métricas de Distancia
La similitud (cercanía) se determina utilizando una métrica de distancia, que es una función que mide qué tan lejos están dos registros $(x1, x2, ..., xp)$ y $(u1, u2, ..., up)$ uno del otro.
La métrica de distancia más popular entre dos vectores es la distancia euclidiana. Para medir la distancia euclidiana entre dos vectores, se resta uno del otro, se elevan al cuadrado las diferencias, se suman y se toma la raíz cuadrada:
$$√(x1 - u1)^2 + (x2 - u2)^2 + ⋯ + (xp - up)^2$$
Otra métrica de distancia común para datos numéricos es la distancia de Manhattan:
$$|x1 - u1| + |x2 - u2| + ⋯ + |xp - up|$$
La distancia euclidiana corresponde a la distancia en línea recta entre dos puntos (por ejemplo, como vuela un cuervo). La distancia de Manhattan es la distancia entre dos puntos recorridos en una sola dirección a la vez (por ejemplo, viajando a lo largo de manzanas de ciudad rectangulares). Por esta razón, la distancia de Manhattan es una aproximación útil si la similitud se define como el tiempo de viaje de punto a punto.
Al medir la distancia entre dos vectores, las variables (características) que se miden con una escala comparativamente grande dominarán la medida. Por ejemplo, para los datos de préstamos, la distancia sería casi exclusivamente una función de las variables de ingresos y monto del préstamo, que se miden en decenas o cientos de miles. Las variables de razón contarían prácticamente nada en comparación. Abordamos este problema estandarizando los datos; ver "Estandarización (Normalización, Puntuaciones z)" en la página 243.

### Otras Métricas de Distancia
Existen numerosas otras métricas para medir la distancia entre vectores. Para datos numéricos, la distancia de Mahalanobis es atractiva ya que tiene en cuenta la correlación entre dos variables. Esto es útil ya que si dos variables están altamente correlacionadas, Mahalanobis tratará esencialmente estas como una sola variable en términos de distancia. La distancia euclidiana y la distancia de Manhattan no tienen en cuenta la correlación, colocando efectivamente un mayor peso en el atributo que subyace a esas características. La distancia de Mahalanobis es la distancia euclidiana entre los componentes principales (ver "Análisis de Componentes Principales" en la página 284). La desventaja de usar la distancia de Mahalanobis es un mayor esfuerzo computacional y complejidad; se calcula utilizando la matriz de covarianza (ver "Matriz de Covarianza" en la página 202).

# Codificador One Hot
Los datos de préstamos en la Tabla 6-1 incluyen varias variables factor (de cadena). La mayoría de los modelos estadísticos y de aprendizaje automático requieren que este tipo de variable se convierta en una serie de variables binarias ficticias que transmitan la misma información, como en la Tabla 6-2. En lugar de una única variable que denote el estado de ocupante de la vivienda como "posee con hipoteca", "posee sin hipoteca", "alquila" u "otro", terminamos con cuatro variables binarias. La primera sería "posee con hipoteca - Sí/No", la segunda sería "posee sin hipoteca - Sí/No", y así sucesivamente. Este predictor único, el estado de ocupante de la vivienda, produce así un vector con un 1 y tres 0 que se puede utilizar en algoritmos estadísticos y de aprendizaje automático. La frase "one hot encoding" proviene de la terminología de los circuitos digitales, donde describe ajustes de circuitos en los que solo se permite que un bit sea positivo (caliente).

**Tabla 6-2.** Representación de los datos factor de propiedad de vivienda en la Tabla 6-1 como una variable ficticia numérica

![Captura de pantalla 2024-02-11 102149.png](attachment:bfa599d5-e321-4be8-a659-5dc237a0de1c.png)

**Nota:**

En la regresión lineal y logística, la codificación one hot puede causar problemas con la multicolinealidad; ver "Multicolinealidad" en la página 172. En tales casos, se omite una variable ficticia (su valor se puede inferir a partir de los otros valores). Esto no es un problema con KNN y otros métodos discutidos en este libro.

# Estandarización (Normalización, Puntuaciones z)
En la medición, a menudo estamos más interesados en "qué tan diferente" que en "cuánto". La estandarización, también llamada normalización, pone todas las variables en escalas similares restando la media y dividiendo por la desviación estándar; de esta manera, aseguramos que una variable no influya excesivamente en un modelo simplemente debido a la escala de su medida original:
$$z = \frac{x - \bar{x}}{s}$$
El resultado de esta transformación se denomina comúnmente puntuación z. Las mediciones luego se expresan en términos de "desviaciones estándar respecto a la media".

**Nota:**

La normalización en este contexto estadístico no debe confundirse con la normalización de bases de datos, que consiste en la eliminación de datos redundantes y la verificación de dependencias de datos.

Para KNN y algunos otros procedimientos (por ejemplo, análisis de componentes principales y clustering), es esencial considerar la estandarización de los datos antes de aplicar el procedimiento. Para ilustrar esta idea, se aplica KNN a los datos de préstamos utilizando dti y payment_inc_ratio (ver "Un Pequeño Ejemplo: Prediciendo el Incumplimiento de Préstamos" en la página 239) más dos variables adicionales: revol_bal, el crédito rotativo total disponible para el solicitante en dólares, y revol_util, el porcentaje del crédito utilizado. El nuevo registro a predecir se muestra aquí:

La magnitud de revol_bal, que está en dólares, es mucho mayor que la de las otras variables. La función knn devuelve el índice de los vecinos más cercanos como un atributo nn.index, y esto se puede usar para mostrar las cinco filas más cercanas en loan_df:

Después de ajustar el modelo, podemos usar el método kneighbors para identificar las cinco filas más cercanas en el conjunto de entrenamiento con scikit-learn:

El valor de revol_bal en estos vecinos es muy cercano a su valor en el nuevo registro, pero las otras variables predictoras están dispersas y básicamente no desempeñan ningún papel en la determinación de los vecinos.

Comparado con KNN aplicado a los datos estandarizados utilizando la función de R scale, que calcula la puntuación z para cada variable:

Necesitamos eliminar también la primera fila de loan_df, de modo que los números de fila correspondan entre sí.

El método sklearn.preprocessing.StandardScaler primero se entrena con los predictores y posteriormente se utiliza para transformar el conjunto de datos antes de entrenar el modelo KNN:

Los cinco vecinos más cercanos son mucho más similares en todas las variables, lo que proporciona un resultado más sensato. Tenga en cuenta que los resultados se muestran en la escala original, pero KNN se aplicó a los datos escalados y al nuevo préstamo a predecir.

**Nota:**

Usar la puntuación z es solo una forma de reescalar variables. En lugar de la media, se podría usar una estimación de ubicación más robusta, como la mediana. Del mismo modo, se podría usar una estimación diferente de la escala, como el rango intercuartílico en lugar de la desviación estándar. A veces, las variables se "aplastan" en el rango de 0 a 1. También es importante darse cuenta de que escalar cada variable para tener varianza unitaria es algo arbitrario. Esto implica que se piensa que cada variable tiene la misma importancia en el poder predictivo. Si tiene conocimiento subjetivo de que algunas variables son más importantes que otras, entonces estas podrían ser escaladas hacia arriba. Por ejemplo, con los datos de préstamos, es razonable esperar que la relación pago-ingreso sea muy importante.

**Nota:**

La normalización (estandarización) no cambia la forma de distribución de los datos; no los convierte en una distribución normal si no lo eran previamente (ver "Distribución Normal" en la página 69).

# Elección de K
La elección de K es muy importante para el rendimiento de KNN. La opción más simple es establecer K = 1, conocida como el clasificador de 1-vecino más cercano. La predicción es intuitiva: se basa en encontrar el registro de datos en el conjunto de entrenamiento más similar al nuevo registro que se va a predecir. Establecer K = 1 rara vez es la mejor opción; casi siempre obtendrá un rendimiento superior utilizando K > 1 vecinos más cercanos.
En general, si K es demasiado bajo, es posible que estemos sobreajustando: incluyendo el ruido en los datos. Valores más altos de K proporcionan un suavizado que reduce el riesgo de sobreajuste en los datos de entrenamiento. Por otro lado, si K es demasiado alto, es posible que suavizemos demasiado los datos y perdamos la capacidad de KNN para capturar la estructura local en los datos, una de sus principales ventajas.
El valor de K que mejor equilibra entre sobreajuste y suavizado excesivo generalmente se determina mediante métricas de precisión y, en particular, precisión con datos de retención o validación. No hay una regla general sobre el mejor K; depende en gran medida de la naturaleza de los datos. Para datos altamente estructurados con poco ruido, funcionan mejor valores más pequeños de K. Tomando prestado un término de la comunidad de procesamiento de señales, este tipo de datos a veces se denomina tener una alta relación señal-ruido (SNR). Ejemplos de datos con un SNR típicamente alto son conjuntos de datos para reconocimiento de escritura y habla. Para datos ruidosos con menos estructura (datos con un SNR bajo), como los datos de préstamos, son apropiados valores más grandes de K. Típicamente, los valores de K caen en el rango de 1 a 20. A menudo, se elige un número impar para evitar empates.

### Trade-off entre Sesgo y Varianza
La tensión entre el suavizado excesivo y el sobreajuste es una instancia del trade-off entre sesgo y varianza, un problema ubicuo en el ajuste de modelos estadísticos. La varianza se refiere al error de modelado que ocurre debido a la elección de los datos de entrenamiento; es decir, si eligiera un conjunto diferente de datos de entrenamiento, el modelo resultante sería diferente. El sesgo se refiere al error de modelado que ocurre porque no ha identificado correctamente el escenario subyacente del mundo real; este error no desaparecería si simplemente agregara más datos de entrenamiento. Cuando un modelo flexible está sobreajustado, la varianza aumenta. Puede reducir esto utilizando un modelo más simple, pero el sesgo puede aumentar debido a la pérdida de flexibilidad en el modelado de la situación subyacente real. Un enfoque general para manejar este trade-off es a través de la validación cruzada. Consulte "Validación Cruzada" en la página 155 para obtener más detalles.

# KNN como un Motor de Características
KNN ganó popularidad debido a su simplicidad y naturaleza intuitiva. En términos de rendimiento, KNN por sí solo generalmente no es competitivo con técnicas de clasificación más sofisticadas. Sin embargo, en el ajuste práctico de modelos, KNN puede usarse para agregar "conocimiento local" en un proceso escalonado con otras técnicas de clasificación:

1. Se ejecuta KNN en los datos, y para cada registro, se deriva una clasificación (o cuasi-probabilidad de una clase).
2. Ese resultado se agrega como una nueva característica al registro, y luego se ejecuta otro método de clasificación en los datos. Las variables predictoras originales se utilizan así dos veces.

Al principio, puede preguntarse si este proceso, al usar algunos predictores dos veces, causa un problema con la multicolinealidad (ver "Multicolinealidad" en la página 172). Esto no es un problema, ya que la información que se incorpora al modelo de segunda etapa es altamente local, derivada solo de algunos registros cercanos, y por lo tanto, es información adicional y no redundante.

**Nota:**

Puedes pensar en este uso escalonado de KNN como una forma de aprendizaje en conjunto, en el que se utilizan múltiples métodos de modelado predictivo en conjunto. También se puede considerar como una forma de ingeniería de características en la que el objetivo es derivar características (variables predictoras) que tengan poder predictivo. A menudo, esto implica una revisión manual de los datos; KNN proporciona una forma bastante automática de hacerlo.

Por ejemplo, consideremos los datos de viviendas del condado de King. Al fijar el precio de una casa en venta, un agente inmobiliario basará el precio en viviendas similares vendidas recientemente, conocidas como "comparables". En esencia, los agentes inmobiliarios están haciendo una versión manual de KNN: al observar los precios de venta de viviendas similares, pueden estimar por cuánto se venderá una casa. Podemos crear una nueva característica para un modelo estadístico que imite al profesional inmobiliario aplicando KNN a las ventas recientes. El valor predicho es el precio de venta, y las variables predictoras existentes podrían incluir ubicación, pies cuadrados totales, tipo de estructura, tamaño del lote y número de dormitorios y baños. La nueva variable predictora (característica) que agregamos a través de KNN es el predictor KNN para cada registro (análogo a los comparables de los agentes inmobiliarios). Dado que estamos prediciendo un valor numérico, se utiliza el promedio de los K vecinos más cercanos en lugar de un voto mayoritario (conocido como regresión KNN).
Del mismo modo, para los datos de préstamos, podemos crear características que representen diferentes aspectos del proceso de préstamo. Por ejemplo, el siguiente código en R crearía una característica que representa la solvencia crediticia de un prestatario:

Con scikit-learn, utilizamos el método predict_proba del modelo entrenado para obtener las probabilidades:

El resultado es una característica que predice la probabilidad de que un prestatario incumpla basándose en su historial crediticio.

### Ideas Clave
- K-Nearest Neighbors (KNN) clasifica un registro asignándolo a la clase a la que pertenecen registros similares.
- La similitud (distancia) se determina mediante la distancia euclidiana u otras métricas relacionadas.
- El número de vecinos más cercanos para comparar un registro, K, se determina según el rendimiento del algoritmo en los datos de entrenamiento, utilizando diferentes valores para K.
- Típicamente, las variables predictoras se estandarizan para que las variables de escala grande no dominen la métrica de distancia.
- KNN a menudo se utiliza como una primera etapa en la modelización predictiva, y el valor predicho se agrega nuevamente a los datos como un predictor para el modelado de segunda etapa (no KNN).

# Modelos de Árboles
Los modelos de árboles, también llamados Árboles de Clasificación y Regresión (CART), árboles de decisión o simplemente árboles, son un método de clasificación (y regresión) efectivo y popular desarrollado inicialmente por Leo Breiman y otros en 1984. Los modelos de árboles, y sus descendientes más potentes como los bosques aleatorios y los árboles potenciados (ver "Bagging y el Bosque Aleatorio" en la página 259 y "Potenciación" en la página 270), forman la base de las herramientas de modelado predictivo más utilizadas y potentes en la ciencia de datos para regresión y clasificación.

### Términos Clave para Árboles

**Partición recursiva**
- División y subdivisión repetida de los datos con el objetivo de hacer que los resultados en cada subdivisión final sean lo más homogéneos posible.

**Valor de división**
- Un valor del predictor que divide los registros en aquellos donde ese predictor es menor que el valor de división y aquellos donde es mayor.

**Nodo**
- En el árbol de decisión, o en el conjunto de reglas de ramificación correspondientes, un nodo es la representación gráfica o de regla de un valor de división.

**Hoja**
- El final de un conjunto de reglas de si-entonces, o ramas de un árbol; las reglas que te llevan a esa hoja proporcionan una de las reglas de clasificación para cualquier registro en un árbol.

**Pérdida**
- El número de clasificaciones incorrectas en una etapa del proceso de división; cuanto más pérdidas, más impureza.

**Impureza**
- El grado en que se encuentra una mezcla de clases en una subpartición de los datos (cuanto más mezclado, más impuro).
Sinónimo
- Heterogeneidad
Antónimos
- Homogeneidad, pureza

**Poda**
- El proceso de tomar un árbol completamente desarrollado y cortar progresivamente sus ramas para reducir el sobreajuste.

Un modelo de árbol es un conjunto de reglas "si-entonces-sino" que son fáciles de entender y de implementar. A diferencia de la regresión lineal y logística, los árboles tienen la capacidad de descubrir patrones ocultos correspondientes a interacciones complejas en los datos. Sin embargo, a diferencia de KNN o el clasificador bayesiano ingenuo, los modelos de árboles simples pueden expresarse en términos de relaciones entre predictores que son fácilmente interpretables.

### Árboles de decisión en investigación de operaciones
Los árboles de decisión tienen un significado diferente (y más antiguo) en la ciencia de la decisión y la investigación operativa, donde se refieren a un proceso de análisis de decisiones humano. En este sentido, los puntos de decisión, los resultados posibles y sus probabilidades estimadas se presentan en un diagrama de ramificación, y se elige el camino de decisión con el valor esperado máximo.osen.

# Un Ejemplo Sencillo
Los dos principales paquetes para ajustar modelos de árboles en R son rpart y tree. Utilizando el paquete rpart, se ajusta un modelo a una muestra de 3,000 registros de los datos de préstamos utilizando las variables ratio de ingreso de pago y puntaje del prestatario (ver "Vecinos más Cercanos" en la página 238 para una descripción de los datos):

El `DecisionTreeClassifier` de `sklearn.tree` proporciona una implementación de un árbol de decisión. El paquete `dmba` proporciona una función de conveniencia para crear una visualización dentro de un cuaderno de Jupyter:

El árbol resultante se muestra en la Figura 6-3. Debido a las diferentes implementaciones, encontrará que los resultados de R y Python no son idénticos; esto es esperado. Estas reglas de clasificación se determinan recorriendo un árbol jerárquico, comenzando en la raíz y moviéndose a la izquierda si el nodo es verdadero y a la derecha si no lo es, hasta alcanzar una hoja. Típicamente, el árbol se representa al revés, de modo que la raíz está en la parte superior y las hojas están en la parte inferior. Por ejemplo, si obtenemos un préstamo con un puntaje del prestatario de 0.6 y una relación de ingreso de pago de 8.0, terminamos en la hoja más a la izquierda y predecimos que el préstamo se pagará.

![Captura de pantalla 2024-02-11 103225.png](attachment:260a22e8-d7e7-4d2b-9510-bc10697c75b0.png)

**Figura 6-3.** Las reglas para un modelo de árbol simple ajustado a los datos de préstamos

También se puede producir fácilmente una versión bien impresa del árbol en R:

La profundidad del árbol se muestra mediante la sangría. Cada nodo corresponde a una clasificación provisional determinada por el resultado prevalente en esa partición. La "pérdida" es el número de clasificaciones incorrectas producidas por la clasificación provisional en una partición. Por ejemplo, en el nodo 2, hubo 261 clasificaciones incorrectas de un total de 878 registros totales. Los valores entre paréntesis corresponden a la proporción de registros que están pagados o en incumplimiento, respectivamente. Por ejemplo, en el nodo 13, que predice el incumplimiento, más del 60 por ciento de los registros son préstamos que están en incumplimiento.

La documentación de scikit-learn describe cómo crear una representación de texto de un modelo de árbol de decisión. Hemos incluido una función de conveniencia en nuestro paquete dmba:

### El algoritmo de partición recursivo
El algoritmo para construir un árbol de decisión, llamado particionamiento recursivo, es directo e intuitivo. Los datos se dividen repetidamente utilizando los valores de los predictores que mejor separan los datos en particiones relativamente homogéneas. La Figura 6-4 muestra las particiones creadas para el árbol en la Figura 6-3. La primera regla, representada por la regla 1, es borrower_score >= 0.575 y segmenta la porción derecha del gráfico. La segunda regla es borrower_score < 0.375 y segmenta la porción izquierda.

![Captura de pantalla 2024-02-11 103354.png](attachment:8104684b-88ed-4c9e-ac54-d298d8d2e8ab.png)

**Figura 6-4.** Las primeras tres reglas para un modelo de árbol simple ajustado a los datos de préstamos

Supongamos que tenemos una variable de respuesta Y y un conjunto de P variables predictoras Xj para j = 1,⋯, P. Para una partición A de registros, el particionamiento recursivo encontrará la mejor manera de dividir A en dos subparticiones:

1. Para cada variable predictora Xj:
   a. Para cada valor sj de Xj:
      i. Dividir los registros en A con valores de Xj < sj como una partición, y los registros restantes donde Xj ≥ sj como otra partición.
      ii. Medir la homogeneidad de las clases dentro de cada subpartición de A.
   b. Seleccionar el valor de sj que produce la máxima homogeneidad dentro de la partición.

2. Seleccionar la variable Xj y el valor de división sj que produce la máxima homogeneidad dentro de la partición. Ahora viene la parte recursiva:

1. Inicializar A con el conjunto de datos completo.
2. Aplicar el algoritmo de particionamiento para dividir A en dos subparticiones, A1 y A2.
3. Repetir el paso 2 en las subparticiones A1 y A2.
4. El algoritmo termina cuando no se puede hacer más particiones que mejoren suficientemente la homogeneidad de las particiones.

El resultado final es una partición de los datos, como en la Figura 6-4, excepto en P dimensiones, con cada partición prediciendo un resultado de 0 o 1 dependiendo de la mayoría de votos de la respuesta en esa partición.

**Nota:**

Además de una predicción binaria 0/1, los modelos de árbol pueden producir una estimación de probabilidad basada en el número de 0s y 1s en la partición. La estimación es simplemente la suma de 0s o 1s en la partición dividida por el número de observaciones en la partición:

$$\text{Prob } Y = 1 = \frac{\text{Número de } 1s \text{ en la partición}}{\text{Tamaño de la partición}}$$

La probabilidad estimada Prob Y = 1 luego puede convertirse en una decisión binaria; por ejemplo, establecer la estimación en 1 si Prob(Y = 1) > 0.5.

# Medición de Homogeneidad o Impureza
Los modelos de árboles crean recursivamente particiones (conjuntos de registros), $A$, que predicen un resultado de $Y = 0$ o $Y = 1$. Se puede observar en el algoritmo anterior que necesitamos una forma de medir la homogeneidad, también llamada pureza de clase, dentro de una partición. O de manera equivalente, necesitamos medir la impureza de una partición. La precisión de las predicciones es la proporción $p$ de registros mal clasificados dentro de esa partición, que varía de 0 (perfecto) a 0.5 (adivinanza puramente aleatoria).

Resulta que la precisión no es una buena medida para la impureza. En su lugar, dos medidas comunes para la impureza son la impureza de Gini y la entropía de información. Mientras que estas (y otras) medidas de impureza se aplican a problemas de clasificación con más de dos clases, nos enfocamos en el caso binario. La impureza de Gini para un conjunto de registros $A$ es:

$$I_A = p(1 - p)$$

La medida de entropía se da por:

$$I_A = - p \log_2(p) - (1 - p) \log_2(1 - p)$$

Donde $p$ representa la proporción de registros que pertenecen a la clase positiva $Y = 1$ en la partición $A$.

La Figura 6-5 muestra que la impureza de Gini (reescalada) y las medidas de entropía son similares, con la entropía dando puntajes de impureza más altos para tasas de precisión moderadas y altas.

![Captura de pantalla 2024-02-11 103851.png](attachment:584899c2-85e9-431e-aa00-752921d3bc54.png)

**Figura 6-5.** Impureza de Gini y medidas de entropía

### Coeficiente GINI
El coeficiente de Gini no debe confundirse con la impureza de Gini. Representan conceptos similares, pero el coeficiente de Gini está limitado al problema de clasificación binaria y está relacionado con la métrica del área bajo la curva (AUC).

La métrica de impureza se utiliza en el algoritmo de partición descrito anteriormente. Para cada partición propuesta de los datos, se mide la impureza para cada una de las particiones resultantes de la división. Luego se calcula un promedio ponderado y se selecciona la partición que (en cada etapa) produce el promedio ponderado más bajo.

# Detener el crecimiento del árbol
Detener el crecimiento del árbol es crucial para evitar el sobreajuste y asegurar que el modelo generalice bien a nuevos datos. Hay varias formas de detener el crecimiento de un árbol en R y Python:

- Evitar dividir una partición si una subpartición resultante es demasiado pequeña, o si una hoja terminal es demasiado pequeña. En rpart (R), estas restricciones se controlan por separado con los parámetros minsplit y minbucket, respectivamente, con valores predeterminados de 20 y 7. En DecisionTreeClassifier de Python, podemos controlar esto utilizando los parámetros min_samples_split (valor predeterminado 2) y min_samples_leaf (valor predeterminado 1).

- No dividir una partición si la nueva partición no reduce "significativamente" la impureza. En rpart, esto se controla mediante el parámetro cp, que es una medida de la complejidad de un árbol: cuanto más complejo, mayor es el valor de cp. En DecisionTreeClassifier de Python, existe el parámetro min_impurity_decrease, que limita la división basándose en un valor de disminución de impureza ponderada. Aquí, valores más pequeños conducirán a árboles más complejos.

Estos métodos implican reglas arbitrarias y pueden ser útiles para el trabajo exploratorio, pero no podemos determinar fácilmente los valores óptimos (es decir, valores que maximicen la precisión predictiva con nuevos datos). Necesitamos combinar la validación cruzada con la modificación sistemática de los parámetros del modelo o la modificación del árbol mediante la poda.

### Controlar la complejidad del árbol en R
Para controlar la complejidad del árbol en R, utilizamos el parámetro de complejidad, cp, para estimar qué tamaño de árbol funcionará mejor con nuevos datos. Si cp es demasiado pequeño, entonces el árbol se ajustará demasiado a los datos, capturando ruido en lugar de señal. Por otro lado, si cp es demasiado grande, entonces el árbol será demasiado pequeño y tendrá poco poder predictivo. El valor predeterminado en rpart es 0.01, aunque para conjuntos de datos más grandes, es probable que encuentres que este valor es demasiado grande. En el ejemplo anterior, cp se estableció en 0.005 ya que el valor predeterminado resultó en un árbol con una sola división. En el análisis exploratorio, es suficiente probar algunos valores.

Determinar el cp óptimo es una instancia del trade-off entre sesgo y varianza. La forma más común de estimar un buen valor de cp es mediante la validación cruzada:

1. Particionar los datos en conjuntos de entrenamiento y validación (holdout).
2. Crecer el árbol con los datos de entrenamiento.
3. Podarlo sucesivamente, paso a paso, registrando cp (usando los datos de entrenamiento) en cada paso.
4. Tomar nota del cp que corresponde al error mínimo en los datos de validación.
5. Reparticionar los datos en conjuntos de entrenamiento y validación, y repetir el proceso de crecimiento, poda y registro de cp.
6. Hacer esto una y otra vez, y promediar los cps que reflejan el error mínimo para cada árbol.
7. Regresar a los datos originales, o futuros datos, y crecer un árbol, deteniéndose en este valor óptimo de cp.

En rpart, puedes usar el argumento cptable para producir una tabla de los valores de cp y su error de validación cruzada asociado (xerror en R), a partir de la cual puedes determinar el valor de cp que tiene el error de validación cruzada más bajo.

### Controlar la complejidad del árbol en Python

Para controlar la complejidad del árbol en Python, la implementación de árbol de decisión de scikit-learn no incluye un parámetro de complejidad ni la poda. La solución es utilizar la búsqueda de cuadrícula (grid search) sobre combinaciones de diferentes valores de parámetros. Por ejemplo, podemos variar max_depth en el rango de 5 a 30 y min_samples_split entre 20 y 100. El método GridSearchCV en scikit-learn es una forma conveniente de combinar la búsqueda exhaustiva a través de todas las combinaciones con la validación cruzada. Luego, se selecciona un conjunto óptimo de parámetros utilizando el rendimiento del modelo con validación cruzada.

# Predecir un valor continuo

Para predecir un valor continuo (también llamado regresión) con un árbol, se sigue la misma lógica y procedimiento, excepto que la impureza se mide mediante las desviaciones al cuadrado de la media (errores cuadráticos) en cada subpartición, y el rendimiento predictivo se juzga por la raíz cuadrada del error cuadrático medio (RMSE) en cada partición.

scikit-learn tiene el método DecisionTreeRegressor en sklearn.tree para entrenar un modelo de regresión de árbol de decisión.

# Cómo se utilizan los árboles

Una de las grandes dificultades que enfrentan los modeladores predictivos en las organizaciones es la naturaleza percibida como "caja negra" de los métodos que utilizan, lo que genera oposición de otros elementos de la organización. En este sentido, el modelo de árbol tiene dos aspectos atractivos:

- Los modelos de árbol proporcionan una herramienta visual para explorar los datos, para tener una idea de qué variables son importantes y cómo se relacionan entre sí. Los árboles pueden capturar relaciones no lineales entre las variables predictoras.
- Los modelos de árbol proporcionan un conjunto de reglas que pueden comunicarse eficazmente a no especialistas, ya sea para su implementación o para "vender" un proyecto de minería de datos.

Sin embargo, cuando se trata de predicción, aprovechar los resultados de múltiples árboles suele ser más potente que usar solo un árbol. En particular, los algoritmos de bosques aleatorios y árboles potenciados casi siempre proporcionan una precisión y rendimiento predictivos superiores (ver "Bagging y el bosque aleatorio" en la página 259 y "Potenciación" en la página 270), pero se pierden las ventajas mencionadas anteriormente de un solo árbol.

### Ideas Claves
- Los árboles de decisión producen un conjunto de reglas para clasificar o predecir un resultado.
- Las reglas corresponden a la partición sucesiva de los datos en subparticiones.
- Cada partición o división hace referencia a un valor específico de una variable predictora y divide los datos en registros donde ese valor predictivo está por encima o por debajo de ese valor de división.
- En cada etapa, el algoritmo del árbol elige la división que minimiza la impureza del resultado dentro de cada subpartición.
- Cuando no se pueden hacer más divisiones, el árbol está completamente desarrollado y cada nodo terminal o hoja tiene registros de una sola clase; los nuevos casos que siguen esa ruta de reglas (división) serían asignados a esa clase.
- Un árbol completamente desarrollado sobreajusta los datos y debe ser podado para capturar la señal y no el ruido.
- Los algoritmos de varios árboles como los bosques aleatorios y los árboles potenciados ofrecen un mejor rendimiento predictivo, pero pierden el poder comunicativo basado en reglas de los árboles individuales.

### Lecturas Recomendadas
- Analytics Vidhya Content Team, “Tree Based Algorithms: A Complete Tutorial
from Scratch (in R & Python)”, April 12, 2016.
- Terry M. Therneau, Elizabeth J. Atkinson, and the Mayo Foundation, “An Intro‐
duction to Recursive Partitioning Using the RPART Routines”, April 11, 2019.

# Bagging y el Bosque Aleatorio
En 1906, el estadístico Sir Francis Galton estaba visitando una feria de condado en Inglaterra, donde se llevaba a cabo un concurso para adivinar el peso vestido de un buey que estaba en exhibición. Hubo 800 conjeturas, y aunque las conjeturas individuales variaron ampliamente, tanto la media como la mediana resultaron estar dentro del 1% del peso real del buey. James Surowiecki ha explorado este fenómeno en su libro "La Sabiduría de las Multitudes" (Doubleday, 2004). Este principio también se aplica a los modelos predictivos: promediar (o tomar votos mayoritarios) de múltiples modelos, es decir, un conjunto de modelos, resulta ser más preciso que simplemente seleccionar un modelo.

### Términos Clave para Bagging y el Bosque Aleatorio
**Ensamble**
- Formación de una predicción utilizando una colección de modelos.
Sinónimo
- Promediado de modelos

**Bagging**
- Una técnica general para formar una colección de modelos mediante el muestreo con reemplazo de los datos.
Sinónimo
- Agregación por bootstrap

**Bosque aleatorio**
- Un tipo de estimación por bagging basada en modelos de árboles de decisión.
Sinónimo
- Árboles de decisión en bolsa

**Importancia de variables**
- Una medida de la importancia de una variable predictora en el desempeño del modelo.

El enfoque de ensamble se ha aplicado a través de muchos métodos de modelado, más notablemente en el caso del Premio Netflix, donde Netflix ofreció un premio de $1 millón a cualquier concursante que creara un modelo que mejorara en un 10% la predicción de la calificación que un cliente de Netflix otorgaría a una película. La versión simple de los ensambles es la siguiente:

1. Desarrollar un modelo predictivo y registrar las predicciones para un conjunto de datos dado.
2. Repetir para múltiples modelos en los mismos datos.
3. Para cada registro a predecir, tomar un promedio (o un promedio ponderado, o un voto mayoritario) de las predicciones.

Los métodos de ensamble se han aplicado de manera más sistemática y efectiva a los árboles de decisión. Los modelos de árboles de ensamble son tan poderosos que proporcionan una forma de construir buenos modelos predictivos con relativamente poco esfuerzo.

Yendo más allá del algoritmo de ensamble simple, hay dos variantes principales de modelos de ensamble: bagging y boosting. En el caso de los modelos de árboles de ensamble, estos se conocen como modelos de bosque aleatorio y modelos de árboles potenciados. Esta sección se centra en el bagging; el boosting se aborda en "Boosting" en la página 270.

# Bagging
Bagging, que significa "agregación de bootstrap", fue introducido por Leo Breiman en 1994. Supongamos que tenemos una respuesta $Y$ y $P$ variables predictoras $X₁, X₂, ⋯, Xₚ$ con $N$ registros.

Bagging es similar al algoritmo básico para conjuntos, excepto que, en lugar de ajustar los diversos modelos a los mismos datos, cada nuevo modelo se ajusta a una muestra de bootstrap. Aquí se presenta el algoritmo de manera más formal:

1. Inicializar M, el número de modelos a ajustar, y n, el número de registros a elegir $(n < N)$. Establecer la iteración m = 1.
2. Tomar una muestra de bootstrap (es decir, con reemplazo) de n registros de los datos de entrenamiento para formar una submuestra $Yₘ$ y $Xₘ$ (la bolsa).
3. Entrenar un modelo usando $Yₘ$ y $Xₘ$ para crear un conjunto de reglas de decisión $\hat{f}ₘ$.
4. Incrementar el contador de modelo $m = m + 1$. Si $m <= M$, ir al paso $2$.

En el caso donde $\hat{f}ₘ$ predice la probabilidad $Y = 1$, la estimación bagged se da por:

$$\hat{f} = (1 / M) * (\hat{f}₁(X) + \hat{f}₂(X) + ⋯ + \hat{f}ₘ(X))$$

# Bosque aleatorio "Random Forest"

El bosque aleatorio se basa en aplicar el ensacado (bagging) a árboles de decisión, con una extensión importante: además de muestrear los registros, el algoritmo también muestrea las variables.

En los árboles de decisión tradicionales, para determinar cómo crear una subpartición de una partición A, el algoritmo elige la variable y el punto de división minimizando un criterio como la impureza de Gini (ver "Medición de Homogeneidad o Impureza" en la página 254). Con los bosques aleatorios, en cada etapa del algoritmo, la elección de la variable se limita a un subconjunto aleatorio de variables. En comparación con el algoritmo de árbol básico (ver "El Algoritmo de Partición Recursiva" en la página 252), el algoritmo del bosque aleatorio agrega dos pasos más: el ensacado discutido anteriormente (ver "El Ensamblado y el Bosque Aleatorio" en la página 259), y el muestreo de arranque de variables en cada división:

1. Tomar una submuestra de arranque (con reemplazo) de los registros.
2. Para la primera división, muestrear p < P variables al azar sin reemplazo.
3. Para cada una de las variables muestreadas $Xj₁, Xj₂, ..., Xjₚ$, aplicar el algoritmo de división:
   a. Para cada valor $sjk$ de $Xjₖ$:
      i. Dividir los registros en la partición A, con $Xj(k) < sj(k)$ como una partición y los registros restantes donde $Xjₖ ≥ sjₖ$ como otra partición.
      ii. Medir la homogeneidad de clases dentro de cada subpartición de A.
   b. Seleccionar el valor de $sjk$ que produce la máxima homogeneidad dentro de la partición de clase.
4. Seleccionar la variable $Xjₖ$ y el valor de división $sjk$ que produce la máxima homogeneidad dentro de la partición.
5. Continuar con la siguiente división y repetir los pasos anteriores, comenzando con el paso 2.
6. Continuar con divisiones adicionales, siguiendo el mismo procedimiento hasta que el árbol esté completamente desarrollado.
7. Volver al paso 1, tomar otra submuestra de arranque y comenzar el proceso de nuevo.

¿Cuántas variables muestrear en cada paso? Una regla empírica es elegir $√P$ donde $P$ es el número de variables predictoras. El paquete randomForest implementa el bosque aleatorio en R. A continuación, se aplica este paquete a los datos de préstamos (ver "Vecinos Más Cercanos" en la página 238 para una descripción de los datos).


**Nota:**

El término "random forest" es una marca registrada de Leo Breiman y Adele Cutler y está licenciado a Salford Systems. No existe un nombre no registrado estándar, y el término "random forest" es tan sinónimo del algoritmo como Kleenex lo es de los pañuelos faciales.

En Python, utilizamos el método `sklearn.ensemble.RandomForestClassifier`:

Por defecto, se entrenan 500 árboles. Dado que solo hay dos variables en el conjunto de predictores, el algoritmo selecciona aleatoriamente la variable en la que dividir en cada etapa (es decir, una submuestra de arranque de tamaño 1).

La estimación del error fuera de la bolsa (OOB, por sus siglas en inglés) es la tasa de error para los modelos entrenados, aplicada a los datos que quedan fuera del conjunto de entrenamiento para ese árbol. Utilizando la salida del modelo, el error OOB se puede trazar en función del número de árboles en el bosque aleatorio en R.

La implementación de RandomForestClassifier no tiene una manera fácil de obtener estimaciones fuera de la bolsa como una función del número de árboles en el bosque aleatorio. Podemos entrenar una secuencia de clasificadores con un número creciente de árboles y hacer un seguimiento de los valores de oob_score_. Sin embargo, este método no es eficiente.

El resultado se muestra en la Figura 6-6. La tasa de error disminuye rápidamente desde más de 0.44 antes de estabilizarse alrededor de 0.385. Los valores predichos pueden obtenerse de la función predict y trazarse de la siguiente manera en R:

En Python, podemos crear un gráfico similar de la siguiente manera:

![Captura de pantalla 2024-02-11 105549.png](attachment:02327707-fd70-4b55-80c1-c0e74e5e5111.png)

**Figura 6-6.** Un ejemplo de la mejora en la precisión del bosque aleatorio con la adición de más árboles.

El gráfico, mostrado en la Figura 6-7, es bastante revelador sobre la naturaleza del bosque aleatorio.

El método del bosque aleatorio es un método de "caja negra". Produce predicciones más precisas que un árbol simple, pero se pierden las reglas de decisión intuitivas del árbol simple. Las predicciones del bosque aleatorio también son algo ruidosas: observe que algunos prestatarios con una puntuación muy alta, que indica una alta solvencia crediticia, aún terminan con una predicción de incumplimiento. Esto es resultado de algunos registros inusuales en los datos y demuestra el peligro de sobreajuste por parte del bosque aleatorio (ver "Compensación entre Sesgo y Varianza" en la página 247).

![Captura de pantalla 2024-02-11 105646.png](attachment:0f2af174-1da4-4cc8-b55b-8e3ce2716515.png)

**Figura 6-7.** Los resultados predichos del bosque aleatorio aplicado a los datos de incumplimiento de préstamos.

# Importancia de las variables

El poder del algoritmo de bosque aleatorio se muestra cuando se construyen modelos predictivos para datos con muchas características y registros. Tiene la capacidad de determinar automáticamente qué predictores son importantes y descubrir relaciones complejas entre predictores correspondientes a términos de interacción (ver "Interacciones y Efectos Principales" en la página 174). Por ejemplo, ajuste un modelo a los datos de incumplimiento de préstamos con todas las columnas incluidas. Lo siguiente muestra esto en R:

Y en Python:

El argumento `importance=True` solicita que randomForest almacene información adicional sobre la importancia de diferentes variables. La función `varImpPlot` trazará el rendimiento relativo de las variables (en relación con permutar esa variable):

- mean decrease in accuracy "disminución media en precisión"
- mean decrease in node impurity "disminución media en la impureza del nodo"
La RandomForestClassifier en Python recopila información sobre la importancia de las características durante el entrenamiento y la pone a disposición con el campo `feature_importances_`.

La "disminución de Gini" está disponible como la propiedad `feature_importance_` del clasificador ajustado. Sin embargo, la disminución de precisión no está disponible de forma predeterminada para Python. Podemos calcularlo (puntajes) usando el siguiente código:

El resultado se muestra en la Figura 6-8. Un gráfico similar se puede crear con este código Python:

Hay dos formas de medir la importancia de una variable:
- Por la disminución en la precisión del modelo si los valores de una variable se permutan aleatoriamente (type=1). Permutar aleatoriamente los valores tiene el efecto de eliminar todo el poder predictivo para esa variable. La precisión se calcula a partir de los datos fuera de la bolsa (por lo que esta medida es efectivamente una estimación validada cruzadamente).
- Por la disminución media en el puntaje de impureza de Gini (ver "Medición de Homogeneidad o Impureza" en la página 254) para todos los nodos que se dividieron en una variable (type=2). Esto mide cuánto mejora la pureza de los nodos al incluir esa variable. Esta medida se basa en el conjunto de entrenamiento y, por lo tanto, es menos confiable que una medida calculada en datos fuera de la bolsa.

![Captura de pantalla 2024-02-11 110034.png](attachment:f8805b1e-9688-4143-bd87-1b74182295d6.png)

**Figura 6-8.** La importancia de las variables para el modelo completo ajustado a los datos del préstamo.

Los paneles superior e inferior de la Figura 6-8 muestran la importancia de las variables según la disminución en la precisión y en la impureza de Gini, respectivamente. Las variables en ambos paneles están clasificadas por la disminución en la precisión. Los puntajes de importancia de las variables producidos por estas dos medidas son bastante diferentes.

Dado que la disminución de la precisión es una métrica más confiable, ¿por qué deberíamos usar la medida de disminución de la impureza de Gini? Por defecto, randomForest calcula solo esta impureza de Gini: la impureza de Gini es un subproducto del algoritmo, mientras que la precisión del modelo por variable requiere cálculos adicionales (permutación aleatoria de los datos y predicción de estos datos). En casos donde la complejidad computacional es importante, como en un entorno de producción donde se están ajustando miles de modelos, puede que no valga la pena el esfuerzo computacional adicional. Además, la disminución de Gini arroja luz sobre qué variables está utilizando el bosque aleatorio para hacer sus reglas de división (recuerde que esta información, fácilmente visible en un árbol simple, se pierde efectivamente en un bosque aleatorio).

# Hiperparámetros

El bosque aleatorio, al igual que muchos algoritmos estadísticos de aprendizaje automático, puede considerarse un algoritmo de caja negra con perillas para ajustar cómo funciona la caja. Estas perillas se llaman hiperparámetros, que son parámetros que debe establecer antes de ajustar un modelo; no se optimizan como parte del proceso de entrenamiento. Mientras que los modelos estadísticos tradicionales requieren elecciones (por ejemplo, la elección de predictores a usar en un modelo de regresión), los hiperparámetros para el bosque aleatorio son más críticos, especialmente para evitar el sobreajuste. En particular, los dos hiperparámetros más importantes para el bosque aleatorio son:

1. nodesize/min_samples_leaf: El tamaño mínimo para los nodos terminales (hojas en el árbol). El valor predeterminado es 1 para clasificación y 5 para regresión en R. La implementación de scikit-learn en Python utiliza un valor predeterminado de 1 para ambos.

2. maxnodes/max_leaf_nodes: El número máximo de nodos en cada árbol de decisión. De forma predeterminada, no hay límite y se ajustará el árbol más grande sujeto a las restricciones de nodesize. Tenga en cuenta que en Python, especifica el número máximo de nodos terminales. Los dos parámetros están relacionados:

   maxnodes = 2 * max_leaf_nodes - 1
   
Puede ser tentador ignorar estos parámetros y simplemente ir con los valores predeterminados. Sin embargo, el uso de los valores predeterminados puede conducir al sobreajuste cuando aplica el bosque aleatorio a datos ruidosos. Cuando aumenta nodesize/min_samples_leaf o establece maxnodes/max_leaf_nodes, el algoritmo ajustará árboles más pequeños y es menos probable que cree reglas predictivas espurias. La validación cruzada se puede utilizar para probar los efectos de establecer diferentes valores para los hiperparámetros.

### Ideas Clave

- Los modelos de conjunto mejoran la precisión del modelo combinando los resultados de muchos modelos.
- El ensacado (bagging) es un tipo particular de modelo de conjunto basado en ajustar muchos modelos a muestras de arranque de los datos y promediar los modelos.
- El bosque aleatorio es un tipo especial de ensacado aplicado a árboles de decisión. Además de volver a muestrear los datos, el algoritmo del bosque aleatorio muestrea las variables predictoras al dividir los árboles.
- Una salida útil del bosque aleatorio es una medida de la importancia de la variable que clasifica los predictores en términos de su contribución a la precisión del modelo.
- El bosque aleatorio tiene un conjunto de hiperparámetros que deben ajustarse utilizando la validación cruzada para evitar el sobreajuste.

# Boosting

Los modelos de conjunto se han convertido en una herramienta estándar para el modelado predictivo. Boosting es una técnica general para crear un conjunto de modelos. Se desarrolló aproximadamente al mismo tiempo que el ensacado (ver "Ensacado y el Bosque Aleatorio" en la página 259). Al igual que el ensacado, el boosting se usa más comúnmente con árboles de decisión. A pesar de sus similitudes, el boosting adopta un enfoque muy diferente, uno que viene con muchas más características. Como resultado, mientras que el ensacado se puede hacer con relativamente poco ajuste, el boosting requiere mucho más cuidado en su aplicación. Si estos dos métodos fueran automóviles, se podría considerar que el ensacado es un Honda Accord (confiable y constante), mientras que el boosting podría considerarse un Porsche (potente pero requiere más cuidado).

En modelos de regresión lineal, a menudo se examinan los residuos para ver si el ajuste puede mejorarse (ver "Gráficos de Residuos Parciales y No Linealidad" en la página 185). El boosting lleva este concepto mucho más allá y ajusta una serie de modelos, en la que cada modelo sucesivo busca minimizar el error del modelo anterior. Varias variantes del algoritmo son comúnmente utilizadas: Adaboost, gradient boosting y stochastic gradient boosting. Este último, el boosting de gradiente estocástico, es el más general y ampliamente utilizado. De hecho, con la elección adecuada de parámetros, el algoritmo puede emular el bosque aleatorio.

### Términos Clave para Boosting

1. **Conjunto (Ensemble)**: Formación de una predicción mediante el uso de una colección de modelos.
   - Sinónimo: Promediado de modelos.

2. **Boosting**: Una técnica general para ajustar una secuencia de modelos al dar más peso a los registros con residuos grandes para cada ronda sucesiva.

3. **Adaboost**: Una versión temprana de boosting que recalcula los pesos de los datos basados en los residuos.

4. **Gradient boosting**: Una forma más general de boosting que se formula en términos de minimizar una función de coste.

5. **Stochastic gradient boosting**: El algoritmo más general para boosting que incorpora remuestreo de registros y columnas en cada ronda.

6. **Regularización**: Una técnica para evitar el sobreajuste al agregar un término de penalización a la función de coste sobre el número de parámetros en el modelo.

7. **Hiperparámetros**: Parámetros que deben establecerse antes de ajustar el algoritmo.

# El Algoritmo de Boosting

Existen varios algoritmos de boosting, y la idea básica detrás de todos ellos es esencialmente la misma. El más fácil de entender es Adaboost, que procede de la siguiente manera:

1. Inicializar $M$, el número máximo de modelos a ajustar, y establecer el contador de iteración $m = 1$. Inicializar los pesos de observación $wi = 1/N para i = 1, 2, ...$, $N$. Inicializar el modelo de conjunto $\hat{F}0 = 0$.
2. Utilizando los pesos de observación $w1, w2, ..., wN$, entrenar un modelo $\hat{f}m$ que minimice el error ponderado $em$ definido sumando los pesos para las observaciones mal clasificadas.
3. Agregar el modelo al conjunto: $\hat{F}m = \hat{F}m-1 + αm * \hat{f}m donde αm = log(1 - em) / em$.
4. Actualizar los pesos $w1, w2, ..., wN$ para que los pesos aumenten para las observaciones que fueron mal clasificadas. El tamaño del aumento depende de αm, con valores más grandes de αm que conducen a pesos más grandes.
5. Incrementar el contador de modelo $m = m + 1$. Si $m ≤ M$, volver al paso 2.

La estimación impulsada (boosted) se da por:

$$\hat{F} = α1 * \hat{f}1 + α2 * \hat{f}2 + ⋯ + αM * \hat{f}M$$

Al aumentar los pesos para las observaciones que fueron mal clasificadas, el algoritmo obliga a los modelos a entrenar más intensamente en los datos para los cuales tuvo un desempeño deficiente. El factor αm asegura que los modelos con menor error tengan un peso mayor.

El boosting de gradiente es similar a Adaboost pero formula el problema como una optimización de una función de coste. En lugar de ajustar pesos, el boosting de gradiente ajusta modelos a un pseudo-residual, lo que tiene el efecto de entrenar más intensamente en los residuos más grandes. 

Siguiendo el espíritu del bosque aleatorio, el boosting de gradiente estocástico agrega aleatoriedad al algoritmo muestreando observaciones y variables predictoras en cada etapa.

# XGBoost

El software de dominio público más utilizado para el boosting es XGBoost, una implementación de boosting de gradiente estocástico desarrollada originalmente por Tianqi Chen y Carlos Guestrin en la Universidad de Washington. Una implementación computacionalmente eficiente con muchas opciones, está disponible como paquete para la mayoría de los principales lenguajes de programación para ciencia de datos. En R, XGBoost está disponible como el paquete xgboost y con el mismo nombre también para Python.

El método xgboost tiene muchos parámetros que pueden y deben ajustarse (ver "Hiperparámetros y Validación Cruzada" en la página 279). Dos parámetros muy importantes son subsample, que controla la fracción de observaciones que deben ser muestreadas en cada iteración, y eta, un factor de reducción aplicado a α en el algoritmo de boosting (ver "El Algoritmo de Boosting" en la página 271). Usar subsample hace que el boosting actúe como el bosque aleatorio excepto que el muestreo se realiza sin reemplazo. El parámetro de reducción eta es útil para prevenir el sobreajuste al reducir el cambio en los pesos (un cambio más pequeño en los pesos significa que es menos probable que el algoritmo sobreajuste al conjunto de entrenamiento). Lo siguiente aplica xgboost en R a los datos de préstamos con solo dos variables predictoras.

Ten en cuenta que xgboost no admite la sintaxis de fórmulas, por lo que los predictores deben convertirse en una matriz de datos y la respuesta debe convertirse en variables 0/1.
El argumento objetivo le dice a xgboost qué tipo de problema es este; basado en esto, xgboost elegirá una métrica para optimizar.
En Python, xgboost tiene dos interfaces diferentes: una API de scikit-learn y una interfaz más funcional como en R. Para ser consistente con otros métodos de scikit-learn, algunos parámetros fueron renombrados. Por ejemplo, eta se renombra como learning_rate; usar eta no fallará, pero no tendrá el efecto deseado:

Los valores predichos se pueden obtener de la función predict en R y, dado que solo hay dos variables, se pueden graficar frente a los predictores.

La misma figura se puede crear en Python utilizando el siguiente código:

El resultado se muestra en la Figura 6-9. Cualitativamente, esto es similar a las predicciones del bosque aleatorio; ver Figura 6-7. Las predicciones son algo ruidosas en el sentido de que algunos prestatarios con un puntaje de prestatario muy alto aún terminan con una predicción de incumplimiento.

![Captura de pantalla 2024-02-11 111052.png](attachment:4a181e4d-a4f6-46e8-9568-2caf90897cd4.png)

**Figura 6-9.** Los resultados predichos de XGBoost aplicados a los datos de incumplimiento de préstamos

# Regularización: Evitando el sobreajuste

La aplicación ciega de xgboost puede llevar a modelos inestables como resultado del sobreajuste a los datos de entrenamiento. El problema con el sobreajuste es doble:
- La precisión del modelo en nuevos datos que no están en el conjunto de entrenamiento se degradará.
- Las predicciones del modelo son altamente variables, lo que conduce a resultados inestables.
Cualquier técnica de modelado es potencialmente propensa al sobreajuste. Por ejemplo, si se incluyen demasiadas variables en una ecuación de regresión, el modelo puede terminar con predicciones espurias. Sin embargo, para la mayoría de las técnicas estadísticas, el sobreajuste se puede evitar mediante una selección juiciosa de variables predictoras. Incluso el bosque aleatorio generalmente produce un modelo razonable sin ajustar los parámetros.

Sin embargo, este no es el caso de xgboost. Ajusta xgboost a los datos de préstamos para un conjunto de entrenamiento con todas las variables incluidas en el modelo. En R, puedes hacerlo de la siguiente manera:

Usamos la función train_test_split en Python para dividir el conjunto de datos en conjuntos de entrenamiento y prueba:

El conjunto de prueba consiste en 10,000 registros seleccionados aleatoriamente de los datos completos, y el conjunto de entrenamiento consiste en los registros restantes. El boosting conduce a una tasa de error de solo el 13.3% para el conjunto de entrenamiento. Sin embargo, el conjunto de prueba tiene una tasa de error mucho más alta del 35.3%. Esto es resultado del sobreajuste: aunque el boosting puede explicar muy bien la variabilidad en el conjunto de entrenamiento, las reglas de predicción no se aplican a nuevos datos.

El boosting proporciona varios parámetros para evitar el sobreajuste, incluyendo los parámetros eta (o learning_rate) y subsample (ver "XGBoost" en la página 272). Otro enfoque es la regularización, una técnica que modifica la función de costo para penalizar la complejidad del modelo. Los árboles de decisión se ajustan minimizando criterios de costo como el puntaje de impureza de Gini (ver "Medición de Homogeneidad o Impureza" en la página 254). En xgboost, es posible modificar la función de costo agregando un término que mida la complejidad del modelo.

Hay dos parámetros en xgboost para regularizar el modelo: alpha y lambda, que corresponden a la distancia de Manhattan (regularización L1) y la distancia euclidiana al cuadrado (regularización L2), respectivamente (ver "Métricas de Distancia" en la página 241). Aumentar estos parámetros penalizará los modelos más complejos y reducirá el tamaño de los árboles que se ajustan. Por ejemplo, veamos qué sucede si establecemos lambda en 1,000 en R:

En la API de scikit-learn, los parámetros se llaman reg_alpha y reg_lambda:

Ahora el error de entrenamiento es solo ligeramente menor que el error en el conjunto de prueba.

El método predict en R ofrece un argumento conveniente, ntreelimit, que fuerza a que solo se utilicen los primeros i árboles en la predicción. Esto nos permite comparar directamente las tasas de error dentro y fuera de la muestra a medida que se incluyen más modelos:

En Python, podemos llamar al método predict_proba con el argumento ntree_limit:

La salida del modelo devuelve el error para el conjunto de entrenamiento en el componente xgb_default$evaluation_log. Al combinar esto con los errores fuera de la muestra, podemos graficar los errores versus el número de iteraciones:

Podemos usar el método plot de pandas para crear el gráfico de líneas. El eje devuelto desde el primer gráfico nos permite superponer líneas adicionales en el mismo gráfico. Este es un patrón que admiten muchos paquetes de gráficos de Python:

El resultado, mostrado en la Figura 6-10, muestra cómo el modelo predeterminado mejora constantemente la precisión para el conjunto de entrenamiento pero realmente empeora para el conjunto de prueba. El modelo penalizado no exhibe este comportamiento.

![Captura de pantalla 2024-02-11 111524.png](attachment:09facdfe-5fa4-43f9-a992-a59385f67904.png)

**Figura 6-10.** La tasa de error del XGBoost predeterminado versus una versión penalizada del XGBoost

# La regresión ridge y el Lasso

Agregar una penalización sobre la complejidad de un modelo para ayudar a evitar el sobreajuste se remonta a la década de 1970. La regresión de mínimos cuadrados ordinarios minimiza la suma residual de cuadrados (RSS); ver "Mínimos Cuadrados" en la página 148. La regresión ridge minimiza la suma de los residuos al cuadrado más un término de penalización que es una función del número y tamaño de los coeficientes:

$$\sum_{i=1}^{n} \left(Y_i - \hat{b}_0 - \hat{b}_1 X_i - \ldots - \hat{b} X_p\right)^2 + \lambda \left(\hat{b}_1^2+ ... + \hat{b}_p^2\right)$$

El valor de λ determina cuánto se penalizan los coeficientes; valores más grandes producen modelos menos propensos a sobreajustarse a los datos. El Lasso es similar, excepto que utiliza la distancia de Manhattan en lugar de la distancia euclidiana como término de penalización:

$$\sum_{i=1}^{n} \left(Y_i - \hat{b}_0 - \hat{b}_1 X_i - ... \hat{b} X_p \right)^2 + \alpha \left(|\hat{b}_1| + ... + | \hat{b}_p|\right)$$

Los parámetros lambda (reg_lambda) y alpha (reg_alpha) de xgboost actúan de manera similar.

Utilizar la distancia euclidiana también se conoce como regularización L2, mientras que utilizar la distancia de Manhattan se conoce como regularización L1. Los parámetros lambda (reg_lambda) y alpha (reg_alpha) de xgboost actúan de manera similar.

# Hiperparámetros y Validación Cruzada

xgboost tiene una amplia variedad de hiperparámetros; ver "Hiperparámetros de XGBoost" en la página 281 para una discusión. Como se vio en "Regularización: Evitar el sobreajuste" en la página 274, la elección específica puede cambiar drásticamente el ajuste del modelo. Dada una gran combinación de hiperparámetros para elegir, ¿cómo deberíamos guiarnos en nuestra elección? Una solución estándar a este problema es usar la validación cruzada; ver "Validación Cruzada" en la página 155. La validación cruzada divide aleatoriamente los datos en K grupos diferentes, también llamados pliegues. Para cada pliegue, se entrena un modelo con los datos que no están en el pliegue y luego se evalúa con los datos en el pliegue. Esto nos proporciona una medida de precisión del modelo en datos fuera de la muestra. El mejor conjunto de hiperparámetros es aquel dado por el modelo con el menor error general, calculado promediando los errores de cada uno de los pliegues.

Para ilustrar la técnica, la aplicamos a la selección de parámetros para xgboost. En este ejemplo, exploramos dos parámetros: el parámetro de reducción eta (learning_rate — ver "XGBoost" en la página 272) y la profundidad máxima de los árboles max_depth. El parámetro max_depth es la máxima profundidad de un nodo hoja hasta la raíz del árbol con un valor predeterminado de seis. Esto nos da otra forma de controlar el sobreajuste: los árboles profundos tienden a ser más complejos y pueden sobreajustarse a los datos. Primero configuramos los pliegues y la lista de parámetros. En R, esto se hace de la siguiente manera:

Ahora aplicamos el algoritmo anterior para calcular el error de cada modelo y cada pliegue utilizando cinco pliegues:

En el siguiente código Python, creamos todas las combinaciones posibles de hiperparámetros y ajustamos y evaluamos modelos con cada combinación:

Utilizamos la función itertools.product de la biblioteca estándar de Python para crear todas las combinaciones posibles de los dos hiperparámetros.

Dado que estamos ajustando un total de 45 modelos, esto puede llevar un tiempo. Los errores se almacenan como una matriz con los modelos en las filas y los pliegues en las columnas. Utilizando la función rowMeans, podemos comparar la tasa de error para diferentes conjuntos de parámetros:

La validación cruzada sugiere que usar árboles más someros con un valor más pequeño de eta/learning_rate produce resultados más precisos. Dado que estos modelos también son más estables, los mejores parámetros para usar son eta=0.1 y max_depth=3 (o posiblemente max_depth=6).

# Hiperparámetros de XGBoost

Los hiperparámetros de XGBoost se utilizan principalmente para equilibrar el sobreajuste con la precisión y la complejidad computacional. Para obtener una discusión completa de los parámetros, consulte la documentación de XGBoost.

- eta/learning_rate
El factor de reducción entre 0 y 1 aplicado a α en el algoritmo de refuerzo. El valor predeterminado es 0.3, pero para datos ruidosos se recomiendan valores más pequeños (por ejemplo, 0.1). En Python, el valor predeterminado es 0.1.

- nrounds/n_estimators
El número de rondas de refuerzo. Si eta se establece en un valor pequeño, es importante aumentar el número de rondas ya que el algoritmo aprende más lentamente. Siempre y cuando se incluyan algunos parámetros para evitar el sobreajuste, tener más rondas no afecta negativamente.

- max_depth
La profundidad máxima del árbol (el valor predeterminado es 6). A diferencia del bosque aleatorio, que ajusta árboles muy profundos, el refuerzo generalmente ajusta árboles someros. Esto tiene la ventaja de evitar interacciones complejas espurias en el modelo que pueden surgir de datos ruidosos. En Python, el valor predeterminado es 3.

- subsample y colsample_bytree
Fracción de registros para muestrear sin reemplazo y fracción de predictores para muestrear para usar en el ajuste de los árboles. Estos parámetros, que son similares a los de los bosques aleatorios, ayudan a evitar el sobreajuste. El valor predeterminado es 1.0.

- lambda/reg_lambda y alpha/reg_alpha
Los parámetros de regularización para ayudar a controlar el sobreajuste (ver "Regularización: Evitar el sobreajuste" en la página 274). Los valores predeterminados para Python son reg_lambda=1 y reg_alpha=0. En R, ambos valores tienen un valor predeterminado de 0.

### Ideas Clave
- Boosting es una clase de modelos de conjunto basados en ajustar una secuencia de modelos, con más peso dado a los registros con grandes errores en rondas sucesivas.
- El refuerzo estocástico de gradiente es el tipo más general de refuerzo y ofrece el mejor rendimiento. La forma más común de refuerzo estocástico de gradiente utiliza modelos de árbol.
- XGBoost es un paquete de software popular y computacionalmente eficiente para el refuerzo estocástico de gradiente; está disponible en todos los lenguajes comunes utilizados en ciencia de datos.
- El refuerzo tiende a sobreajustar los datos, y los hiperparámetros deben ajustarse para evitar esto.
- La regularización es una forma de evitar el sobreajuste al incluir un término de penalización en el número de parámetros (por ejemplo, tamaño del árbol) en un modelo.
- La validación cruzada es especialmente importante para el refuerzo debido al gran número de hiperparámetros que deben ajustarse.

# Resumen
Este capítulo ha descrito dos métodos de clasificación y predicción que "aprenden" de manera flexible y local a partir de los datos, en lugar de comenzar con un modelo estructural (por ejemplo, una regresión lineal) que se ajusta a todo el conjunto de datos. K-Nearest Neighbors es un proceso simple que examina registros similares y asigna su clase mayoritaria (o valor promedio) al registro que se está prediciendo. Los modelos de árboles, al probar varios valores de corte (división) de variables predictoras, dividen iterativamente los datos en secciones y subsecciones que son cada vez más homogéneas con respecto a la clase. Los valores de corte más efectivos forman un camino, y también una "regla", para una clasificación o predicción. Los modelos de árboles son una herramienta predictiva muy poderosa y popular, que a menudo supera a otros métodos. Han dado lugar a varios métodos de conjunto (bosques aleatorios, refuerzo, bagging) que mejoran la capacidad predictiva de los árboles.