# Árboles de decisión

Un árbol de clasificación/regresión es el resultado de preguntar una secuencia ordenada de cuestiones. Las cuestiones que se plantean en cada etapa dependen de las respuestas a las cuestiones previas de la secuencia

Las cuestiones se ordenan de más importante a menos importante.

Los árboles más usados son los dedecisión binarios, en los que cada nodo padre se divide en **dos nodos descendiente**. La división binaria queda determinada por una condición booleana.
 

| **VENTAJAS** | **DESVENTAJAS**|
|---|---|
| Gran potencia descriptiva, se comprende muy bien el resultado  | Poca fiabilidad y mala generalización: cada hoja es un parámetro y esto provoca modelos sobreajustados e inestables para la predicción. |
| Descubren interacciones y reglas difíciles de encontrar en otros métodos (útil como variables dummy para otros modelos).                 | Añadir una variable nueva o un nuevo conjunto de observaciones puede influir mucho en el árbol. |
| Las relaciones no lineales no afectan tanto al comportamiento de los árboles.                                                            | Poca eficacia predictiva, sobre todo en regresión: toscos en los valores de predicción.                                                 |
| Manera propia y eficiente de tratar los missings incorporada al proceso                                                                  | Raramente son el modelo final, se suelen usar como apoyo a otros modelos.                                                               |


Debido a su estructura y planteamiento, este algoritmo es especialmente indicado cuando la **explicabilidad de un modelo es fundamental**

Pero **no son adecuados** para algunos casos donde se presentarían MUCHAS ramas, resultando en un árbol muy complejo y difícil de interpretar. cuando:

* Existe una gran cantidad de variables nominales con muchos niveles

* Hay una gran cantidad de variables numericas

Usa el método *divide y vencerás*

Los arboles se comportan como analísi de cluster (creación de grupos homogéneos y diferentes entre si) y a la vez como un **modelo predictivo**

## Creación del árbol de decisión.

<ol>
  <li>Usa una división binaria para empezar creando un gran árbol con los datos de entrenamiento, solo se para de seguir creando ramas cuando una hoja ha llegado al <span style="color:indianred">minimun number of observations</span></li>
  <li>Aplicamos un <span style="color:lightblue">PODADO</span> del árbol creado, como función de <span style="color:indianred">&alpha;</span></li>
  <li>Usamos K-fold cross-validation para elegir <span style="color:indianred">&alpha;</span>.</li>
  <li> Devolvemos el subarbol con <span style="color:indianred">&alpha;</span> que corresponde al CV realizado</li>
</ol>

## Como crear el árbol de decisión.

En cada nodo, el algoritmo de generación del árbol tiene que decidir sobre que variables es “optima” la partición. Hay que considerar cada posible divisón sobre todas las variables presentes y decidir cual es la mejor según algún criterio.

### Crtiterio para la división de nodos.

El objetivo es encontrar en los datos el punto de corte que divida estos en dos grupos lo mas “puros” posibles. Esto consiste en asegurar que un nodo padre produzca nodos hijos donde la división de clases sea lo “mas pura” posible. El caso más optimo es donde podemos dividir claramente en dos clases los datos.

La pureza se puede medir con

* Entropia

* Indice de Gini

* Minima probabilidad

### Entropia

La entropía es una medida de la incertidumbre o aleatoriedad de un conjunto de datos. En un nodo, se calcula la entropía de la distribución de las clases objetivo(etiquetas de los datos) presentes en ese nodo. Un valor de entropía alto indica mayor mezcla o *impureza*

### Indice de Gini

El inidice de Gini es una medida de desigualdad, la cual ofrece un valor de homogeneidad/heterogeneidad de los datos. Los valores minimos indican pureza. Valores altos, son datos distintos entre si

### Minima Probabilidad.

Fijar un umbral de probabilidad mínima para considerar una partición en el árbol. Es útil cuando se quiere reducir la impureza en base a la proporción de clases y no a su “mezcla”. Por ejemplo, cunado hay clases desequilibradas y se quiere garantizar que las divisiones se realicen solo cuanod la probabilidad de una clase en particular sea superior a un valor mínimo.

### Nodos terminales.

El proceso de segmentación recursiva continua hasta que el árbol se **satura**, en el sentido que los sujetos en los **nodos descendientes no se pueden partir mas**. Cualquier nodo que no so pueda o no sea dividido es un *nodo terminal*

### Como se eligen los puntos de corte

* **VARIABLE CUALITATIVA** se eligen en función de si pertenece a un grupo especifico de una variable o no.

* **VARIABLE CONTINUA** se van probando distintos cortes, en función de si es mayor omenor a un valor.

Los arboles actúan en *cascada* tomando **una decisión para cada variable**

 

## Medidas y proceso para la construcción de un árbol.

El procesi de creación de árbol es laborioso por la *complicada casuistica y combinatoria* que se va generando cada vez que es necesario dividir un nodo. Algunos algoritmos creados para que vaya algo mejor son:

### CART (Classification and Regression Trees)

Consiste en construer **Un ARBOL GRANDE** y acto seguido **IR PODANDO** hasta dar con el tamaño correcto.

1. Construir el árbol saturado (hasta que no se puede hacer mas divisiones)

2. Elección del tamaño correcto

3. Predicción

### CHAID

Examina las tablas cruzadas entre los campos de entrada y los resultados para, a continuación, comprobar la significación mediante una comprobación de independencia de chi-cuadrado.

## Arbol final, subárboles y prunnnig

El algoritmo finaliza cuando se cumple alguno de los criterios de parada.

* No hay suficientes observaciones en las hojas finales para considerar una división

* Se alcanza la profundidad máxima

* En ningún nodo se puede ,ejorar el criterio de división

## Poda o Prunning

Un árbol puede crecer casi indefinidamente en particiones mas pequeñas hasta que cada observación sea una rama. Estas soluciones tan especificas darían *overfitting*

El **proceso de poda** asegura la generalización

* Pre-poda: determinar un numero especifico de decisiones o establecer un mínimo de casos por nodo.

* Post-poda: Permite el proceso de crecimiento para que a posteriori se corten las ramas

### Prunning en CART

Se usa el parámetro de control de complejidad *cp*, que establece “penalizaciones” se se producen muchas divisiones. El valor predeterminado es *cp*=0.01

* Cuanto mas alto cp, mas pequeño será el árbol

Un valor demasiado pequeño provoca *overfitting*, y un valor demasiado grande nos da un árbol pequeño.

 

 

# Bagging

Es un proceso de ensamblado se podría usar en cualquier tipo de modelos, pero se ha demostrado que solo es útil con árboles.
Es importatne tener ajustado el numero mínimo de observaciones en una hoja para ahorrarse pruebas en bagging.
La idea del submuestreo es controlar el sobreajuste implicito en la selección rigida de variables y estimación fija de parámetros
En general el bagging funciona bien cuando:



In [None]:
wokdqpdkpaekda