# Árboles de decisión

Esta semana estudiaremos una familia de métodos muy populares y poderosos para clasificación y regresión: los modelos basados en árboles.

La estructura que utilizan estos métodos es el conocido **arbol de decisión**. Un árbol de decisión es un **árbol binario** en el que, en cada nodo del árbol, se evalúa un **predicado lógico** sobre el dato en cuestión; es decir, se hace una pregunta cuya respuesta es ``TRUE`` o ``FALSE``. Dependiendo de la respuesta, decidimos cuál rama del árbol tomar, hasta llegar a las hojas del árbol. **En las hojas del árbol se encuentra nuestro objetivo de clasificación final**.

Retomemos el ejemplo de los exámenes. Supongamos que hemos entrenado correctamente un modelo para clasificar, obteniendo el siguiente arbol:

<img src="img/arbol.png" width=600>

A la hora de clasificar un objeto, el "proceso" sería el siguiente:

- ¿Estudió más de tres horas?
    - NO: **``REPROBADO``**
    - SI: ¿Durmió más de cuatro horas?
        - NO: **``REPROBADO``**
        - SI: **``APROBADO``**
        
## Inferencia

Hasta ahora todo muy bien, el problema es **cómo construir un árbol de decisión dado un dataset**. Los algoritmos "convencionales", como ID3 y C4.5, funcionan de manera **recursiva** y siguen el siguiente esquema:

1. Enumeramos un conjunto de **predicados** sobre los atributos que tenemos, sobre distintos valores posibles
    - Por ejemplo: 
        - ``(horas_estudio > 0)`` 
        - ``(horas_estudio > 0.5)``
        - ``(horas_estudio > 1)``, ...,
        - ``(horas_sueno > 0)``, 
        - ``(horas_sueno > 1)``, ...
        - ``(horas_sueno > 2)``, ...
        
        
2. Con cada uno de estos predicados, evaluamos su **ganancia de información**.
    - Esta es una medida de que tan bien un predicado "parte" el dataset.
        - Por ejemplo, ``horas_estudio > 0`` no lo parte muy bien, puesto que quedamos con la misma mezcla de ``APROBADO`` y ``REPROBADO``.
        - Pero ``horas_estudio > 3`` divide mejor: los que no cumplen con este predicado son, en su mayoría, ``REPROBADO``.
        
    - Más adelante veremos varias medidas de ganancia de información.
    
    
3. De todos los predicados, escogemos el que tiene la **mayor ganancia de información**.
    - Por ejemplo, ``horas_estudio > 3``.
    
    
4. Dividemos el dataset en dos particiones: **quienes cumplen** con el predicado que escogimos **y quienes no cumplen**. 
    - Es decir, ``P1``: quienes estudiaron más de tres horas y ``P2``: quienes no lo hicieron.
    
    

5. Repetimos este proceso recursivamente (desde el paso 1) con ambas particiones del dataset y "unimos" los subárboles resultantes.

6. El proceso se detiene para una partición dada cuando:
    - En dicha partición todos los elementos tienen la misma categoría
    - Ninguno de los predicados provee ganancia de información
    - Otras restricciones basadas en constantes: profundidad máxima del árbol alcanzada o tamaño mínimo de la partición no se cumple.
    
    - **Al detenernos**, la partición se convertirá en una hoja del árbol y se le asignará la clasificación a la categoría mayoritaria.
    
## Medidas de ganancia de información

A la hora de evaluar cuál predicado particiona mejor el dataset, evaluamos con cada uno una medida de **ganancia de información**. Esta es una medición que se hace sobre la **distribución resultante al aplicar el predicado al dataset**.



## Haciendo regresión