# DECISION TREES

El hecho de que las redes neuronales puedan aplicarse a una gama más amplia de problemas de aprendizaje automático que cualquier otra técnica ha llevado a algunos expertos a proclamarlas como el algoritmo definitivo de aprendizaje automático. Sin embargo, esto no quiere decir que las redes neuronales sean la solución perfecta en todos los casos, y los árboles de decisión son presentados como un popular contraargumento.

Una de las principales desventajas de las redes neuronales es la enorme cantidad de datos y recursos computacionales que requieren. Solo después de entrenarlas con millones de ejemplos etiquetados, el motor de reconocimiento de imágenes de Google puede reconocer de manera confiable clases de objetos simples (como perros). Pero, ¿cuántas imágenes de perros necesita mostrarle a un niño de cuatro años para que "lo entienda"? Por otro lado, los árboles de decisión ofrecen eficiencia de alto nivel y fácil interpretación. Estos dos beneficios hacen que este algoritmo simple sea popular en el ámbito del aprendizaje automático.

Como técnica de aprendizaje supervisado, los árboles de decisión se utilizan principalmente para resolver problemas de clasificación, pero también se pueden aplicar para resolver problemas de regresión.

![image.png](attachment:image.png)

Figure 1: Example of a regression tree. Source: http://freakonometrics.hypotheses.org/

![image.png](attachment:image.png)

Figure 2: Example of a classification tree. Source: http://blog.akanoo.com

Los árboles de clasificación pueden utilizar datos cuantitativos y categóricos para modelar resultados categóricos. Los árboles de regresión también utilizan datos cuantitativos y categóricos, pero en cambio modelan resultados cuantitativos.

Los árboles de decisión comienzan con un nodo raíz, que actúa como punto de partida (en la parte superior), y le siguen divisiones que producen ramificaciones. El término estadístico/matemático para estas ramificaciones es aristas. Las ramas luego se conectan a hojas, también conocidas como nodos, que forman puntos de decisión. Una categorización final se produce cuando una hoja no genera nuevas ramificaciones y resulta en lo que se conoce como un nodo terminal.

Los árboles de decisión no solo desglosan y explican cómo se formula la clasificación o la regresión, sino que también producen un diagrama de flujo visual claro que se puede mostrar a otros. La facilidad de interpretación es una ventaja importante de usar árboles de decisión, y se pueden aplicar a una amplia gama de casos de uso.

Ejemplos de la vida real incluyen seleccionar un beneficiario de una beca, evaluar a un solicitante para un préstamo hipotecario, predecir las ventas de comercio electrónico o seleccionar al candidato adecuado para un trabajo. Cuando un cliente o solicitante pregunta por qué no fue seleccionado para una beca en particular, un préstamo hipotecario, un trabajo, etc., puedes pasarles el árbol de decisión y dejar que vean el proceso de toma de decisiones por sí mismos.

Construyendo un Árbol de Decisión
Los árboles de decisión se construyen dividiendo primero los datos en dos grupos. Este proceso de división binaria se repite en cada rama (capa). El objetivo es seleccionar una pregunta binaria que divida mejor los datos en dos grupos homogéneos en cada rama del árbol, de modo que se minimice el nivel de entropía de los datos en el siguiente.

La entropía es un término matemático que explica la medida de variación en los datos entre diferentes clases. En términos simples, queremos que los datos en cada capa sean más homogéneos que en la anterior.

Por lo tanto, queremos elegir un algoritmo "codicioso" que pueda reducir el nivel de entropía en cada capa del árbol. Uno de estos algoritmos codiciosos es el Iterative Dichotomizer 3 (ID3), inventado por J.R. Quinlan. Este es uno de los tres implementaciones de árboles de decisión desarrolladas por Quinlan, de ahí el "3".

ID3 aplica la entropía para determinar qué pregunta binaria hacer en cada capa del árbol de decisión. En cada capa, ID3 identifica una variable (convertida en una pregunta binaria) que producirá la menor entropía en la siguiente capa.

Consideremos el siguiente ejemplo para entender mejor cómo funciona esto.

![image.png](attachment:image.png)

+---------------+----------------+----------+
|Empleados|KPI excedidos|Capacidad de liderazgo|
+---------------+----------------+----------+

La Variable 1 (excedió los Indicadores Clave de Rendimiento) produce:
- Seis empleados promovidos que excedieron sus KPIs (Sí)
- Cuatro empleados que no excedieron sus KPIs y que no fueron promovidos (No)

Esta variable produce dos grupos homogéneos en la siguiente capa del árbol de decisión.

![image.png](attachment:image.png)

La Variable 2 (capacidad de liderazgo) produce:
- Dos empleados promovidos con capacidad de liderazgo (Sí)
- Cuatro empleados promovidos sin capacidad de liderazgo (No)
- Dos empleados con capacidad de liderazgo que no fueron promovidos (Sí)
- Dos empleados sin capacidad de liderazgo que no fueron promovidos (No)

Esta variable produce dos grupos de datos mixtos.

![image.png](attachment:image.png)

La Variable 3 (edad menor de treinta años) produce:
- Tres empleados promovidos menores de treinta años (Sí)
- Tres empleados promovidos mayores de treinta años (No)
- Cuatro empleados menores de treinta años que no fueron promovidos (Sí)

Esta variable produce un grupo homogéneo y otro grupo mixto de datos.

![image.png](attachment:image.png)

De estas tres variables, la variable 1 (Exceeded KPIs) produce el mejor resultado con dos grupos perfectamente homogéneos. La variable 3 produce el segundo mejor resultado, ya que una hoja es homogénea. La variable 2 produce dos hojas que no son homogéneas. Por lo tanto, la variable 1 sería seleccionada como la primera pregunta binaria para dividir este conjunto de datos.

Ya sea ID3 u otro algoritmo, este proceso de dividir los datos en particiones binarias, conocido como particionamiento recursivo, se repite hasta que se cumple un criterio de detención. Este punto de detención podría basarse en una variedad de criterios, como:
- Cuando todas las hojas contienen menos de 3-5 elementos.
- Cuando una rama produce un resultado que coloca todos los elementos en una hoja binaria.

<svg width="400" height="300" xmlns="http://www.w3.org/2000/svg">
  <text x="150" y="30" font-family="Arial" font-size="20" font-weight="bold">Binary Question</text>
  <line x1="170" y1="40" x2="170" y2="60" stroke="gray" stroke-width="4"/>
  <line x1="170" y1="60" x2="120" y2="60" stroke="gray" stroke-width="4"/>
  <line x1="170" y1="60" x2="220" y2="60" stroke="gray" stroke-width="4"/>
  <text x="100" y="85" font-family="Arial" font-size="16">Outcome 1</text>
  <text x="200" y="85" font-family="Arial" font-size="16">Outcome 2</text>
  
  <!-- Group of people icons -->
  <circle cx="90" cy="130" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="120" cy="130" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="150" cy="130" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="180" cy="130" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="210" cy="130" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="240" cy="130" r="6" fill="none" stroke="gray" stroke-width="2"/>
  
  <line x1="90" y1="130" x2="90" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="120" y1="130" x2="120" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="150" y1="130" x2="150" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="180" y1="130" x2="180" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="210" y1="130" x2="210" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="240" y1="130" x2="240" y2="160" stroke="gray" stroke-width="2"/>
  
  <line x1="80" y1="160" x2="100" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="110" y1="160" x2="130" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="140" y1="160" x2="160" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="170" y1="160" x2="190" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="200" y1="160" x2="220" y2="160" stroke="gray" stroke-width="2"/>
  <line x1="230" y1="160" x2="250" y2="160" stroke="gray" stroke-width="2"/>
  
  <circle cx="90" cy="160" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="120" cy="160" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="150" cy="160" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="180" cy="160" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="210" cy="160" r="6" fill="none" stroke="gray" stroke-width="2"/>
  <circle cx="240" cy="160" r="6" fill="none" stroke="gray" stroke-width="2"/>
</svg>


![image.png](attachment:image.png)

Un aspecto a tener en cuenta al usar árboles de decisión es su susceptibilidad al sobreajuste. La causa del sobreajuste, en este caso, es los datos de entrenamiento. Teniendo en cuenta los patrones que existen en sus datos de entrenamiento, un árbol de decisión es preciso al entrenar la primera ronda de datos. Sin embargo, el mismo árbol de decisión puede fallar al predecir los datos de prueba, ya que podría haber reglas que aún no ha encontrado o porque los datos de entrenamiento o prueba no fueron representativos de todo el conjunto de datos. Además, debido a que los árboles de decisión se forman dividiendo repetidamente los puntos de datos en dos particiones, un ligero cambio en cómo se dividen los datos en la parte superior o en el medio del árbol puede alterar drásticamente la predicción final.

¡Esto puede producir un árbol completamente diferente! El culpable, en este caso, es nuestro algoritmo codicioso.

Desde la primera división de los datos, el algoritmo codicioso fija su atención en elegir una pregunta binaria que divida mejor los datos en dos grupos homogéneos. Como un niño frente a una caja de pastelitos, el algoritmo codicioso es ajeno a las repercusiones futuras de sus acciones a corto plazo. La pregunta binaria que usa para dividir inicialmente los datos no garantiza la predicción final más precisa. En cambio, una división inicial menos efectiva puede producir un resultado más preciso.

En resumen, los árboles de decisión son altamente visuales y efectivos para clasificar un único conjunto de datos, pero pueden ser inflexibles y vulnerables al sobreajuste.

#### Bosques Aleatorios

En lugar de buscar la división más eficiente en cada ronda de particionamiento recursivo, una técnica alternativa es construir múltiples árboles y combinar sus predicciones para seleccionar un camino óptimo de clasificación o predicción. Esto implica una selección aleatoria de preguntas binarias para hacer crecer múltiples árboles de decisión diferentes, conocidos como bosques aleatorios. En la industria, también es común escuchar a las personas referirse a este proceso como "agregación de bootstrap" o "bagging".

# Agregación de Bootstrap

La clave para entender los bosques aleatorios es primero comprender el muestreo de bootstrap. No tiene mucho sentido compilar cinco o diez modelos idénticos, debe haber algún elemento de variación. Es por eso que el muestreo de bootstrap se basa en el mismo conjunto de datos pero extrae una variación diferente de los datos en cada turno.

Por lo tanto, al cultivar bosques aleatorios, se ejecutan primero múltiples copias variables de los datos de entrenamiento a través de cada uno de los árboles. Para problemas de clasificación, la agregación de bootstrap pasa por un proceso de votación para generar la clase final. Los resultados de cada árbol se comparan y se votan para crear un árbol óptimo que produzca el modelo final, conocido como la clase final. Para problemas de regresión, se utiliza un promedio de valores para generar una predicción final.

El muestreo de bootstrap también se llama a veces aprendizaje débilmente supervisado (recordarás que exploramos el aprendizaje supervisado y no supervisado en el Capítulo 3) porque entrena clasificadores usando un subconjunto aleatorio de características y menos variables de las que están realmente disponibles.

#### Impulso

Otra variante de múltiples árboles de decisión es la popular técnica de impulso, que es una familia de algoritmos que convierten "aprendices débiles" en "aprendices fuertes". El principio subyacente del impulso es agregar pesos a las iteraciones que fueron clasificadas incorrectamente en rondas anteriores. Esto se puede interpretar de manera similar a un profesor de idiomas que ofrece clases de tutoría después de la escuela a los estudiantes más débiles de la clase para mejorar los resultados promedio de la prueba de toda la clase.

Un algoritmo de impulso popular es el impulso de gradiente. En lugar de seleccionar combinaciones de preguntas binarias al azar (como en los bosques aleatorios), el impulso de gradiente selecciona preguntas binarias que mejoran la precisión de la predicción para cada nuevo árbol. Los árboles de decisión, por lo tanto, se cultivan secuencialmente, ya que cada árbol se crea utilizando información derivada del árbol de decisión anterior. La forma en que funciona esto es que los errores incurridos con los datos de entrenamiento se registran y luego se aplican a la siguiente ronda de datos de entrenamiento. En cada iteración, se agregan pesos a los datos de entrenamiento basados en los resultados de la iteración anterior. Se aplica un mayor peso a las instancias que se predijeron incorrectamente a partir de los datos de entrenamiento, y las instancias que se predijeron correctamente reciben menos peso. Los datos de entrenamiento y prueba luego se comparan y los errores se registran nuevamente para informar sobre el peso en cada ronda posterior. Las primeras iteraciones que no funcionan bien, y que quizás clasificaron incorrectamente los datos, pueden mejorarse a través de más iteraciones. Este proceso se repite hasta que haya un bajo nivel de error. El resultado final se obtiene a partir de un promedio ponderado de las predicciones totales derivadas de cada modelo.

Si bien este enfoque mitiga el problema del sobreajuste, lo hace con menos árboles que el enfoque de bagging. En general, cuantos más árboles agregue a un bosque aleatorio, mayor será su capacidad para evitar el sobreajuste. Por el contrario, con el impulso de gradiente, demasiados árboles pueden causar sobreajuste y se debe tener cuidado al agregar nuevos árboles.

Una desventaja de usar bosques aleatorios e impulso de gradiente es que volvemos a una técnica de caja negra y sacrificamos la simplicidad visual y la facilidad de interpretación que viene con un solo árbol de decisión.