# Árboles de decisión 

Son métodos de aprendizaje supervizado utilizados para las tareas de <b>clasificación y regressión</b>. Se busca crear un modelo que prediga el valor de un avariable objetivo arendiendo una estrucutra de reglas de decisión a partir de los valores de los datos.

## Ventajas

- Son sencillos de interpretar y visualizar
- No requiere mucho pre-procesamiento
- Bajo costo de uso
- Permite uso de valores numéricos y nominales
- Es explicable (Caja blanca)

## Desesventajas
- Sobreadaptación (overfitting)
- No todos los problemas pueden representarse como árboles de decisión
- Pueden generarse árboles muy complejos

## Representación

- Cada nodo representa una característica o atributo
- Cada rama representa una regla de decisión
- Cada hoja representa un resultado
- El nodo principal del árbol es llamado raiz

# Algoritmo 

<code>Repetir:
	leer conjunto de entrenamiento
	seleccionar <b>mejor atributo</b>
	convertir mejor atributo en nodo
	dividir conjunto de entrenamiento en subconjuntos
Hasta que:
	Se llegue a profundidad máxima
	No queden más atributos
	Todos los ejemplos pertenecen a la misma categoría (C)
	Se ha llegado a la cantidad de elementos por nodo (R)
</code>	

    
# Medidas de selección de atributos

La medidas de selección de atributos son heurísticas para seleccionar el mejor criterio de separacióna de los dos. Provee a cada atributo con un valor o ranking, el atributo con mejor puntaje será el que se seleccionará como atributo de separación. 

## Ganancia de información

<b>Entropía:</b> Impureza dentro de un grupo de ejemplos <br>
<b>Ganancia de información:</b> Decrementar la entropía  

La ganancia de la información calcula la diferencia entre la entropía antes de realizar la separación y la entopía después de separar el conjunto basado en valores de atributos dados. 

<img src="gain.bmp">

El atributo con la <b>mayor ganancia</b> de información es elegido como nodo de separación.

## Índice Gini

Este método considera una <b>separación binaria</b> para cada atributo. Calcula una suma ponderada de la impureza de cada partición. 

<img src="gini.bmp">

Si el valor del atributo es discreto se selecciona el subconjunto que da el índice gini más pequeño.

Si el valor del atributo es continuo la estrategia consiste en seleccionar cada par de valores adyacentes como un posible punto de división y el punto con el índice de gini más pequeño es elegido como punto de división.



# Ejemplo

Ejemplo de clasificación para valores discretos

<table style="font-size:16px;">
    <tr>
        <th>Color</th>
        <th>Forma</th>
        <th>Tamaño</th>
        <th>Clase</th>
    </tr>
    <tr>
        <td>Rojo</td>
        <td>Cuadrado</td>
        <td>Grande</td>
        <td>A</td>
    </tr>
     <tr>
        <td>Azul</td>
        <td>Cuadrado</td>
        <td>Grande</td>
        <td>A</td>
    </tr>
       <tr>
        <td>Rojo</td>
        <td>Redondo</td>
        <td>Pequeño</td>
        <td>B</td>
    </tr>
      <tr>
        <td>Verde</td>
        <td>Cuadrado</td>
        <td>Pequeño</td>
        <td>B</td>
    </tr>
     <tr>
        <td>Rojo</td>
        <td>Redondo</td>
        <td>Grande</td>
        <td>A</td>
    </tr>
    <tr>
        <td>Verde</td>
        <td>Cuadrado</td>
        <td>Grande</td>
        <td>B</td>
    </tr>
</table>

## Entropía inicial

<table style="font-size:16px;float:left">
    <tr>
        <th>A</th>
        <th>B</th>
    </tr>
    <tr>
        <td>3</td>
        <td>3</td>
    </tr>
</table>
<br><br><br><br><br><br>

Entropía(Clase)= Entropía(3,3) <br>
Entropía(Clase)= -1/2 log2 (½) - 1/2 log2 (½) <br>
Entropía(Clase)= 1 <br>

## Ganancia por color

<table style="font-size:16px;float:left">
    <tr>
        <th></th>
        <th>A</th>
        <th>B</th>
        <th></th>
    </tr>
    <tr>
        <th>Rojo</th>
        <td>2</td>
        <td>1</td>
        <td>3</td>
    </tr>
    <tr>
        <th>Azul</th>
        <td>1</td>
        <td>0</td>
        <td>1</td>
    </tr>
     <tr>
        <th>Verde</th>
        <td>0</td>
        <td>2</td>
        <td>2</td>
    </tr>
</table>

<br><br><br><br><br><br><br><br><br>

Ganancia(Color)= Entropía(sistema) – P(Rojo)*E(2,1) +  P(Azul)*E(1,0) + P(Verde)*E(0,2) <br>
E(2,1)=-2/3 log2 (2/3) - 1/3 log2 (1/3)= 0.91829583405449  <br>
E(1,0)=-1 log2 (1) - 0 log2 (0)=0  <br>
E(0,2)=-0 log2 (0) - 1 log2 (1)=0  <br>
Ganancia(Color)= 0.54085208297276  <br>

## Ganancia por forma

<table style="font-size:16px;float:left">
    <tr>
        <th></th>
        <th>A</th>
        <th>B</th>
        <th></th>
    </tr>
    <tr>
        <th>Cuadrado</th>
        <td>2</td>
        <td>2</td>
        <td>4</td>
    </tr>
    <tr>
        <th>Redondo</th>
        <td>1</td>
        <td>1</td>
        <td>2</td>
    </tr>
</table>

<br><br><br><br><br><br>

Ganancia(Forma)=Entropía(sistema) – P(Cuadrado)*E(2,2) +  P(Redondo)*E(1,1) <br>
E(2,2)=1 <br>
E(1,1)=1 <br>
Ganancia(Forma)= 0.25162916738782 <br>

## Ganancia por tamaño

<table style="font-size:16px;float:left">
    <tr>
        <th></th>
        <th>A</th>
        <th>B</th>
        <th></th>
    </tr>
    <tr>
        <th>Pequeño</th>
        <td>0</td>
        <td>2</td>
        <td>2</td>
    </tr>
    <tr>
        <th>Grande</th>
        <td>3</td>
        <td>1</td>
        <td>4</td>
    </tr>
</table>

<br><br><br><br><br><br>

Ganancia(Tamaño)=Entropía(sistema) – P(Pequeño)*E(0,2) +  P(Grande)*E(3,1) <br>
E(0,2)=0 <br> 
E(3,1)==-3/4 log2 (3/4) - 1/4 log2 (1/4)= 0.81127812445913 <br>
Ganancia(Forma)=0.45914791702724 <br>

<b>Color es el atributo con mayor ganancia </b>

<img src="tabla1.png" width="300">

## Subsistema de rama para valor Rojo

<table style="font-size:16px;float:left">
    <tr>
        <th>Color</th>
        <th>Forma</th>
        <th>Tamaño</th>
        <th>Clase</th>
    </tr>
    <tr>
        <td>Rojo</td>
        <td>Cuadrado</td>
        <td>Grande</td>
        <td>A</td>
    </tr>
     <tr>
        <td>Rojo</td>
        <td>Redondo</td>
        <td>Pequeño</td>
        <td>B</td>
    </tr>
    <tr>
        <td>Rojo</td>
        <td>Redondo</td>
        <td>Grande</td>
        <td>A</td>
    </tr>
 </table>
 
 <br><br><br><br><br><br><br><br><br>
 
Entropía(Rojo)=Entropía(2,1) <br>
Entropía(Rojo) =-2/3 log2 (2/3) - 1/3 log2 (1/3) <br>
Entropía(Rojo) = 0.91829583405449 <br>

## Ganancia por forma

<table style="font-size:16px;float:left">
    <tr>
        <th></th>
        <th>A</th>
        <th>B</th>
        <th></th>
    </tr>
    <tr>
        <th>Cuadrado</th>
        <td>1</td>
        <td>0</td>
        <td>1</td>
    </tr>
    <tr>
        <th>Redondo</th>
        <td>1</td>
        <td>1</td>
        <td>2</td>
    </tr>
</table>

<br><br><br><br><br><br>

Ganancia(Forma)=Entropía(Rojo) – P(Cuadrado)*E(1,0) +  P(Redondo)*E(1,1) <br>
E(1,0)=0 <br>
E(1,1)=1 <br>
Ganancia(Forma)=0.25162916738782 <br>

## Ganancia por tamaño

<table style="font-size:16px;float:left">
    <tr>
        <th></th>
        <th>A</th>
        <th>B</th>
        <th></th>
    </tr>
    <tr>
        <th>Pequeño</th>
        <td>0</td>
        <td>1</td>
        <td>1</td>
    </tr>
    <tr>
        <th>Grande</th>
        <td>2</td>
        <td>0</td>
        <td>2</td>
    </tr>
</table>

<br><br><br><br><br><br>

Ganancia(Tamaño)=Entropía(Rojo) – P(Pequeño)*E(0,1) +  P(Grande)*E(2,0) <br>
E(0,2)=0 <br>
E(3,1)=0 <br>
Ganancia(Forma)=0.91829583405449 <br>

Tamaño es la mejor opción para la rama Rojo
Es un nodo con entropía nula por lo que es un nodo final

<img src="tabla2.png" width="400">




## Ejemplo

Ejemplo valores continuos

<code>
para cada atributo:
	ordenar de manera ascendente
	calcular promedios entre valores
	calcular Gini para cada promedio
	seleccionar valor con Gini menor como punto de división del atributo
seleccionar como siguiente nodo aquel atributo con Gini menor
</code>

<table style="font-size:16px;float:left">
    <tr>
        <th>Edad</th>
        <th>Resultado</th>
    </tr>
    <tr>
        <th>20</th>
        <td>V</td>
    </tr>
     <tr>
        <th>12</th>
        <td>F</td>
    </tr>
     <tr>
        <th>24</th>
        <td>F</td>
    </tr>
     <tr>
        <th>32</th>
        <td>F</td>
    </tr>        
</table>

<br><br><br><br><br><br><br><br>

Ordenar de manera ascendente <br>
<table style="font-size:16px;float:left">
    <tr>
        <th>Edad</th>
        <th>Resultado</th>
    </tr>
     <tr>
        <th>12</th>
        <td>F</td>
    </tr>
    <tr>
        <th>20</th>
        <td>V</td>
    </tr>    
     <tr>
        <th>24</th>
        <td>F</td>
    </tr>
     <tr>
        <th>32</th>
        <td>F</td>
    </tr>        
</table>

<br><br><br><br><br><br><br><br><br><br>

Promedios : 16, 22, 28

<img style="float:left" src="continuo.png">