# Tabla de contenidos
* [<font color='blue'> ÁRBOLES DE CLASIFICACIÓN </font>](#<font-color='blue'>-ÁRBOLES-DE-CLASIFICACIÓN-</font>)
	* [<font color='blue'> Objetivo  </font>](#<font-color='blue'>-Objetivo--</font>)
	* [<font color='blue'> Árboles de decisión </font>](#<font-color='blue'>-Árboles-de-decisión-</font>)
		* [Definición](#Definición)
		* [Algoritmos para la construcción de árboles](#Algoritmos-para-la-construcción-de-árboles)
		* [ID3](#ID3)
		* [C4.5](#C4.5)
		* [Poda](#Poda)
		* [Reglas de clasificación](#Reglas-de-clasificación)
	* [<font color='blue'> Árboles de decisión en Python </font>](#<font-color='blue'>-Árboles-de-decisión-en-Python-</font>)
		* [Importar las librerías](#Importar-las-librerías)
		* [Importar el conjunto de datos](#Importar-el-conjunto-de-datos)
		* [Generar subconjuntos de entrenamiento y test](#Generar-subconjuntos-de-entrenamiento-y-test)
		* [Construir el modelo de árboles](#Construir-el-modelo-de-árboles)
		* [Evaluar el modelo](#Evaluar-el-modelo)
		* [Clasificar nuevos ejemplos](#Clasificar-nuevos-ejemplos)
	* [<font color='blue'> Conclusiones </font>](#<font-color='blue'>-Conclusiones-</font>)


# <font color='blue'> ÁRBOLES DE CLASIFICACIÓN </font>

## <font color='blue'> Objetivo  </font>

Descripción y uso del algoritmo de clasificación:

 * Árboles de decisión (algoritmos ID3 y C4.5)

##  <font color='blue'> Árboles de decisión </font>

### Definición

Un árbol de decisión es un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas.

Cada rama está etiquetada con un par atributo-valor y las hojas con una clase.

<img src="../Figuras/ArbolGen.png" alt="kmeans1" width="200"/> 

En el árbol de decisión, cada nodo interno representa un atributo, cada rama representa el valor del atributo y cada nodo hoja representa una etiqueta de clase (decisión final).

La decisión final se determina siguiendo las condiciones satisfechas desde la raíz del árbol hasta algunas de sus hojas.

Los caminos desde la raíz hasta la hoja representan reglas de clasificación.

### Algoritmos para la construcción de árboles

* **CLS** (Hunt et al., 1966)
* **ID3** (Quinlan, 1979)
* **CART** (Breiman et al., 1984) (Regresión)
* **ACLS** (Niblett et al., 1982)
* **ASSISTANT** (Cestnik et al., 1987)
* **C4.5** (Quinlan, 1993)
* ....

### ID3 

* Simple, pero potente.
* Solo para atributos categóricos.
* Estrategia de búsqueda voraz (greedy) por el espacio de posibles árboles de clasificación.
* Proceso de creación del árbol (se construye de arriba hacia abajo):
    * Seleccionar el mejor atributo como raíz del árbol.
    * Crear una rama con cada uno de los posibles valores de dicho atributo.
    * Repetir el proceso por cada rama hasta que los ejemplos se clasifiquen a través de uno de los caminos del árbol o se hayan usado todos los atributos.
    * Cada nodo hoja se etiqueta con la clase de los ejemplos.

**¿Cómo seleccionar el mejor atributo?**

La cuestión es seleccionar el atributo que mejor separe los ejemplos de acuerdo a las clases. Para ello, habrá que usar la entropía (medida de incertidumbre).

A menor valor de entropía, menor será la incertidumbre $\Rightarrow$ más útil es el atributo para la clasificación.

**Definición** de **entropía** en la teoría de la información (Shannon): <br>

Dado un conjunto de eventos $A$ = {$A_1, A_2, \dots{}, A_n$}, con probabilidades {$p_1, p_2, \dots{},p_n$}, la información en el conocimiento de un suceso $A_i$ se define:

$$ I(A_i) = \log_{2}\left(\frac{1}{p_i}\right) = -\log_2(p_i)$$

y la información media de A se define:

$$ I(A) = \sum_{i = 1}^{n}p_iI(A_i) = -\sum_{i = 1}^{n}p_i\log_2(p_i) = Entropía \,(incertidumbre) $$

Se puede medir lo que se discrimina usando un atributo $A_i$ empleando para ello la ganancia de información:

$$ G(A_i) = I - I(A_i) $$

Donde $I$ es la información antes de usar el atributo
      e $I(A_i)$ la información después de usar el atributo.

Como definición intuitiva, podemos decir que es la diferencia entre la entropía de un nodo y la de uno de sus descendientes.


$$ I = -\sum_{c=1}^{nc}\frac{n_c}{n}\log_{2}\left(\frac{n_c}{n}\right)$$

Donde:
* **$nc$** es el número de clases
* **$n$** es el número total de ejemplos.
* **$n_c$** es el número de ejemplos de la clase c

$$ I(A_i) = \sum_{j = 1}^{nv(A_i)}\frac{n_{ij}}{n}I_{ij}  \,\, ; \,\, I_{ij} = -\sum_{k = 1}^{nc}\frac{n_{ijk}}{n_{ij}}\log_{2}\left(\frac{n_{ijk}}{n_{ij}}\right)  $$

Siendo:
* **$nv(A_i)$** es el número de valores diferentes que toma el atributo **$A_i$**
* **$n_{ij}$** es el número de ejemplos con el valor $j$ en el atributo **$A_i$**
* **$n_{ijk}$** es el número de ejemplos con el valor $j$ en el atributo $A_i$ y que pertenecen a la clase $k$

**Algoritmo**

1. Seleccionar el atributo $A_i$ que maximice la ganancia $G(A_i)$.
2. Crear un nodo para ese atributo con tantos sucesores como valores diferentes tenga.
3. Introducir los ejemplos en los sucesores según el valor que tenga en el atributo $A_i$.
4. Por cada sucesor:
    1. Si solo hay ejemplos de una clase, $C_k$, entonces etiquetarlo con $C_k$.
    2. Si no, ir al paso 1 con una tabla formada por los ejemplos de ese nodo, eliminando la columna del atributo $A_i$.

**Ejemplo**

Clasificar, haciendo uso del algoritmo ID3, los ejemplos de la siguiente tabla:


| Outlook | Temperature | Humidity | Windy | play |
|----------|-------------|----------|-------|------|
| sunny | hot | high | FALSE | no |
| sunny | hot | high | TRUE | no |
| overcast | hot | high | FALSE | yes |
| rainy | mild | high | FALSE | yes |
| rainy | cool | normal | FALSE | yes |
| rainy | cool | normal | TRUE | no |
| overcast | cool | normal | TRUE | yes |
| sunny | mild | high | FALSE | no |
| sunny | cool | normal | FALSE | yes |
| rainy | mild | normal | FALSE | yes |
| sunny | mild | normal | TRUE | yes |
| overcast | mild | high | TRUE | yes |
| overcast | hot | normal | FALSE | yes |
| rainy | mild | high | TRUE | no |

<br>
<br>

$$ I = -\frac{5}{14}\log_{2}\left(\frac{5}{14}\right)-\frac{9}{14}\log_{2}\left(\frac{9}{14}\right) = 0.9403$$
$$I_{outlook = sunny} = -\frac{3}{5}\log_{2}\left(\frac{3}{5}\right)-\frac{2}{5}\log_{2}\left(\frac{2}{5}\right) = 0.9710$$
$$  I_{outlook = overcast} = -\frac{4}{4}\log_{2}\left(\frac{4}{4}\right)-\frac{0}{4}\log_{2}\left(\frac{0}{4}\right) = 0 $$
$$ I_{outlook = rainy} = -\frac{3}{5}\log_{2}\left(\frac{3}{5}\right)-\frac{2}{5}\log_{2}\left(\frac{2}{5}\right) = 0.9710 $$
$$I_{outlook} = \frac{5}{14}I_{sunny} + \frac{4}{14}I_{overcast} + \frac{5}{14}I_{rainy} = 0.6936$$
$$G_{outlook} = I - I_{outlook} = 0.9403 - 0.6936 = 0.2774 $$

<br>
<br>


$$ I_{temperature = hot} = -\frac{2}{4}\log_{2}\left(\frac{2}{4}\right)-\frac{2}{4}\log_{2}\left(\frac{2}{4}\right) = 1$$
$$I_{temperature = mild} = -\frac{4}{6}\log_{2}\left(\frac{4}{6}\right)-\frac{2}{6}\log_{2}\left(\frac{2}{6}\right) = 0.9183$$
$$  I_{temperature = cool} = -\frac{3}{4}\log_{2}\left(\frac{3}{4}\right)-\frac{1}{4}\log_{2}\left(\frac{1}{4}\right) = 0.8113 $$
$$I_{temperature} = \frac{4}{14}I_{hot} + \frac{6}{14}I_{mild} + \frac{4}{14}I_{cool} = 0.9111$$
$$G_{temperature} = I - I_{temperature} = 0.9403 - 0.9111 = 0.0292 $$
 
<br>
<br>


$$ I_{humidity = high} = -\frac{3}{7}\log_{2}\left(\frac{3}{7}\right)-\frac{4}{7}\log_{2}\left(\frac{4}{7}\right) = 0.9852$$
$$I_{humidity = normal} = -\frac{6}{7}\log_{2}\left(\frac{6}{7}\right)-\frac{1}{7}\log_{2}\left(\frac{1}{7}\right) = 0.5917$$
$$I_{humidity} = \frac{7}{14}I_{high} + \frac{7}{14}I_{normal} = 0.7884$$
$$G_{humidity} = I - I_{humidity} = 0.9403 - 0.7884 = 0.1519 $$

<br>
<br>


$$ I_{windy = true} = -\frac{3}{6}\log_{2}\left(\frac{3}{6}\right)-\frac{3}{6}\log_{2}\left(\frac{3}{6}\right) = 1$$
$$I_{windy = false} = -\frac{6}{8}\log_{2}\left(\frac{6}{8}\right)-\frac{2}{8}\log_{2}\left(\frac{2}{8}\right) = 0.8113$$
$$I_{windy} = \frac{6}{14}I_{true} + \frac{8}{14}I_{false} = 0.8922$$
$$G_{windy} = I - I_{windy} = 0.9403 - 0.8922 = 0.0481 $$


<br>
<br>


El atributo *Outlook* maximiza la ganancia, por lo que se utiliza como nodo raíz del árbol de decisión:

<img src="../Figuras/ID3-1.png" alt="SubarbolSunny" width="300"/>

Todos los ejemplos con *Outlook = Overcast* son positivos $\Rightarrow$ Se convierte en nodo hoja.

El resto tienen entropía no cero, se continúa el árbol.
<br>
<br>
<br>
Para construir el subárbol de la rama etiquetada como _sunny_, se eliminan las siguientes filas y columnas:

<img src="../Figuras/TablaID3-1.png" alt="TablaSunny" width="400"/>


Se obtiene la siguiente tabla:

| Temperature | Humidity | Windy | play |
|:-----------:|:--------:|:-----:|:----:|
| hot | high | FALSE | no |
| hot | high | TRUE | no |
| mild | high | FALSE | no |
| cool | normal | FALSE | yes |
| mild | normal | TRUE | yes |


<br>
<br>



$$ I = -\frac{2}{5}\log_{2}\left(\frac{2}{5}\right)-\frac{3}{5}\log_{2}\left(\frac{3}{5}\right) = 0.9710$$
$$I_{temperature = hot} = -\frac{0}{2}\log_{2}\left(\frac{0}{2}\right)-\frac{2}{2}\log_{2}\left(\frac{2}{2}\right) = 0$$
$$  I_{temperature = mild} = -\frac{1}{2}\log_{2}\left(\frac{1}{2}\right)-\frac{1}{2}\log_{2}\left(\frac{1}{2}\right) = 1 $$
$$ I_{temperature = cool} = -\frac{1}{1}\log_{2}\left(\frac{1}{1}\right)-\frac{0}{1}\log_{2}\left(\frac{0}{1}\right) = 0 $$
$$I_{temperature} = \frac{2}{5}I_{hot} + \frac{1}{5}I_{mild} + \frac{2}{5}I_{cool} = 0.2$$
$$G_{temperature} = I - I_{temperature} = 0.9710 - 0.2 = 0.7710 $$

<br>
<br>


$$ I_{humidity = high} = -\frac{0}{3}\log_{2}\left(\frac{0}{3}\right)-\frac{3}{3}\log_{2}\left(\frac{3}{3}\right) = 0$$
$$I_{humidity = normal} = -\frac{2}{2}\log_{2}\left(\frac{2}{2}\right)-\frac{0}{2}\log_{2}\left(\frac{0}{2}\right) = 0$$
$$I_{humidity} = \frac{3}{5}I_{high} + \frac{2}{5}I_{normal} = 0$$
$$G_{humidity} = I - I_{humidity} = 0.9710 - 0 = 0.9710 $$

<br>
<br>


$$ I_{windy = true} = -\frac{1}{2}\log_{2}\left(\frac{1}{2}\right)-\frac{1}{2}\log_{2}\left(\frac{1}{2}\right) = 1$$
$$I_{windy = false} = -\frac{1}{3}\log_{2}\left(\frac{1}{3}\right)-\frac{2}{3}\log_{2}\left(\frac{2}{3}\right) = 0.9183$$
$$I_{windy} = \frac{2}{5}I_{true} + \frac{3}{5}I_{false} = 0.9510$$
$$G_{windy} = I - I_{windy} = 0.9710 - 0.9510 = 0.02 $$


<br>
<br>


El atributo *Humidity* maximiza la ganancia, por lo que se utiliza como nodo hijo de la rama etiquetada como sunny:

<img src="../Figuras/ID3-2.png" alt="SubarbolHumidity" width="300"/>

<br>
<br>
Para construir el subárbol de la rama etiquetada como rainy, se eliminan las siguientes filas y columnas:

<img src="../Figuras/TablaID3-2.png" alt="TablaHumidity" width="400"/>

<br>
<br>


Se obtiene la siguiente tabla:

| Temperature | Humidity | Windy | play |
|:-----------:|:--------:|:-----:|:----:|
| mild | high | FALSE | yes |
| cool | normal | FALSE | yes |
| cool | normal | TRUE | no |
| mild | normal | FALSE | yes |
| mild | high | TRUE | no |

<br>
<br>


$$ I = -\frac{3}{5}\log_{2}\left(\frac{3}{5}\right)-\frac{2}{5}\log_{2}\left(\frac{2}{5}\right) = 0.9710$$
$$I_{temperature = hot} = -\frac{0}{0}\log_{2}\left(\frac{0}{0}\right)-\frac{0}{0}\log_{2}\left(\frac{0}{0}\right) = ?$$
$$  I_{temperature = mild} = -\frac{2}{3}\log_{2}\left(\frac{2}{3}\right)-\frac{1}{3}\log_{2}\left(\frac{1}{3}\right) = 0.9183 $$
$$ I_{temperature = cool} = -\frac{1}{2}\log_{2}\left(\frac{1}{2}\right)-\frac{1}{2}\log_{2}\left(\frac{1}{2}\right) = 1 $$
$$I_{temperature} = \frac{0}{5}I_{hot} + \frac{3}{5}I_{mild} + \frac{2}{5}I_{cool} = 0.9510$$
$$G_{temperature} = I - I_{temperature} = 0.9710 - 0.9510 = 0.02 $$

<br>
<br>


$$ I_{humidity = high} = -\frac{1}{2}\log_{2}\left(\frac{1}{2}\right)-\frac{1}{2}\log_{2}\left(\frac{1}{2}\right) = 1$$
$$I_{humidity = normal} = -\frac{2}{3}\log_{2}\left(\frac{2}{3}\right)-\frac{1}{3}\log_{2}\left(\frac{1}{3}\right) = 0.9183$$
$$I_{humidity} = \frac{2}{5}I_{high} + \frac{3}{5}I_{normal} = 0.9510$$
$$G_{humidity} = I - I_{humidity} = 0.9710 - 0.9510 = 0.02 $$

<br>
<br>


$$ I_{windy = true} = -\frac{0}{2}\log_{2}\left(\frac{0}{2}\right)-\frac{2}{2}\log_{2}\left(\frac{2}{2}\right) = 0$$
$$I_{windy = false} = -\frac{3}{3}\log_{2}\left(\frac{3}{3}\right)-\frac{0}{3}\log_{2}\left(\frac{0}{3}\right) = 0$$
$$I_{windy} = \frac{2}{5}I_{true} + \frac{3}{5}I_{false} = 0$$
$$G_{windy} = I - I_{windy} = 0.9710 - 0 = 0.9710 $$

<br>
<br>


El atributo *Windy* maximiza la ganancia, por lo que se utiliza como nodo hijo de la rama etiquetada como *rainy*:

<img src="../Figuras/ID3-3.png" alt="ArbolCompleto" width="300"/>



De esta manera se obtiene el árbol completo.


### C4.5

* Maneja atributos categóricos y continuos
* Hace uso del concepto de razón de ganancia (GR - Gain Ratio)
* Permite la existencia de valores desconocidos.
* Poda de ramas del árbol de decisión
* Obtiene de reglas de clasificación.

**Razón de ganancia (GR - Gain Ratio)**

Se seleccionan los atributos usando la ratio de ganancia $\Rightarrow$ Maximizar la ganancia.


$$GR(A_i) = \frac{G(A_i)}{I(División \, A_i)} = \frac{G(A_i)}{-\sum_{j = 1}^{nv(A_i)} \frac{n_{ij}}{n}\log_{2}\left(\frac{n_{ij}}{n}\right)}$$

Donde a $I(División \, A_i)$ también se le denomina **Información de ruptura**.

**Valores desconocidos (missing values)**

* Eliminar instancias incompletas
* Estimar dichos valores (imputación):
    * Asignarles la moda de los ejemplos asociados al nodo que se esté calculando o de los ejemplos del nodo que tienen la misma etiqueta que la instancia a imputar.
    * Asignar distribución de probabilidad de cada posible valor del atributo, estimada con las frecuencias observadas en el nodo, y son las que se distribuyen por el árbol y con las que se calcula la ganancia.
* Se redefinen los términos:<br>
&nbsp;&nbsp;$G(A_i) = \frac{n_{ic}}{n}(I - I(A_i))$<br>
&nbsp;&nbsp;$I(División \,\, A_i) = -\left(  \sum_{j=1}^{nv(A_i)} \frac{n_{ij}}{n}\log_{2}\left(\frac{n_{ij}}{n}\right)\right) - \frac{n_{id}}{n}\log_{2}\left(\frac{n_{id}}{n}\right)$ <br>
    * Donde $n_{ic}$ es el nº de ejemplos con el atributo $i$ conocido.
    * Donde $n_{id}$ es el nº de ejemplos con el atributo $i$ desconocido.
    
Nota: para el cálculo de las entropía $I(A_i)$ se consideran únicamente los ejemplos en los que el atributo $A_i$ no sea desconocido.

**Discretización de atributos continuos**

* Se ordenan los valores del atributo.
* Se busca un punto entre cada par de valores que produzca la máxima ganancia de información, permitiendo dividir los valores en dos subconjuntos.
* Algunas reglas para no estudiar todos los posibles puntos de corte:
    * Establecer un número mínimo de ejemplos para cada subintervalo.
    * No dividir el intervalo si el siguiente ejemplo pertenece a la misma clase.
    * Unir subintervalos adyacentes si tienen la misma clase mayoritaria.

### Poda

La poda del árbol se propone como solución al problema de controlar el crecimiento del árbol, evitando el sobreajuste y árboles de gran complejidad.
Existen 2 tipos:
* **Pre-poda:** poda y construcción del árbol de forma simultánea. Deja de aumentar el árbol antes de que alcance el punto en el que clasifica perfectamente los ejemplos de entrenamiento. <br>
Problema: complicado estimar cuándo se produce.
    * Se aplica un test estadístico para estimar si expandiendo un nodo particular es probable producir una mejora.
* **Post-poda:** poda después de haber creado el árbol. Permite que se produzca un sobreajuste de los datos, y después realiza la poda reemplazando subárboles por una hoja. <br>
En la práctica es más adecuada, pero es más costoso computacionalmente.

**Post-poda**

La poda comienza en los nodos hoja y continúa hasta llegar al nodo raíz.
Dos operaciones:
* **subtree replacement:** reemplazo de un subárbol por una hoja, asignándole la clasificación más común de los ejemplos de entrenamiento asociados a ese nodo.
* **subtree raising**: elevación de un subárbol $\Rightarrow$ reclasificar de nuevo los ejemplos. <br>
Muy costoso computacionalmente $\Rightarrow$ restringir su uso al camino más largo a partir del nodo que estamos podando.

> * Se poda solo si el árbol podado resultante mejora o iguala el rendimiento del árbol original sobre el conjunto de prueba.
> * Realizar la poda iterativamente, escogiendo siempre el nodo a podar que mejore más la precisión en el conjunto de prueba.

### Reglas de clasificación

* Estructura: <br>
&nbsp; SI <condición> ENTONCES <clase\>
* Proceso:
    * Para cada rama del árbol:
        * Las preguntas y sus valores a la parte izquierda de la regla (Antecedente)
        * La etiqueta del nodo hoja en la parte derecha (Consequente)
* Podado de las reglas para evitar un sistema de reglas muy complejo.

## <font color='blue'> Árboles de decisión en Python </font>

### Importar las librerías

In [None]:
# Tratamiento de datos
# ------------------------------------------------------------------------------
import pandas as pd


# Preprocesado y modelado
# ------------------------------------------------------------------------------
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split, KFold, cross_val_score, cross_validate
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
from sklearn.tree import DecisionTreeClassifier    #Árbol de decisión para clasificación
from sklearn.tree import plot_tree, export_graphviz, export_text
from pydotplus import graph_from_dot_data


# Gráficos
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt


# Configuración warnings
# ------------------------------------------------------------------------------
from warnings import filterwarnings
filterwarnings('ignore')

### Importar el conjunto de datos

In [None]:
data_train = pd.read_csv("DataSets/Clima.csv")
data_train

In [None]:
# Obtener las variables independientes y la variable respuesta
X = data_train.drop('Play', axis=1) #Elimina la última columna, variable respuesta
y = data_train['Play'] #Toma la última columna, variable respuesta

In [None]:
print(X)

In [None]:
print(y)

In [None]:
# Importar el conjunto test, datos nuevos, para realizar las transformaciones sobre todos los datos
test_real = pd.read_csv("DataSets/Ejemplo.csv")
print(test_real)

# Obtener variables independientes
test_real = test_real.drop('Play', axis=1) #Elimina la última columna, variable respuesta
test_real

### Generar subconjuntos de entrenamiento y test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [None]:
X_train

In [None]:
X_test

In [None]:
y_train

In [None]:
y_test

### Transformar los datos

In [None]:
# One-Hot Encoding para Outlook y Humidity. Usamos get_dummies y OneHotEncoder para ver las diferencias.

# Codificar 'Outlook' con get_dummies, aplicar sobre train y alinear test

X_train_outlook = pd.get_dummies(
    X_train[['Outlook']], prefix="Out"
).astype(int)


X_test_outlook = pd.get_dummies(
    X_test[['Outlook']], prefix="Out"
).astype(int)

test_real_outlook = pd.get_dummies(
    test_real[['Outlook']], prefix="Out"
).astype(int)

# Alinear columnas para que el conjunto de test tenga las mismas que train
X_test_outlook = X_test_outlook.reindex(columns=X_train_outlook.columns, fill_value=0)
test_real_outlook = test_real_outlook.reindex(columns=X_train_outlook.columns, fill_value=0)

# Se puede incorporar el parámetro drop_first=True, lo que hace es eliminar la columna irrelevante, toda la información 
# se puede en una variable menos que el número de categorías.

print(X_train_outlook)
print(X_test_outlook)
print(test_real_outlook)

In [None]:
# Codificar 'Humidity' con OneHotEncoder 

cod_ohe = OneHotEncoder(sparse=False, handle_unknown='ignore')
cod_ohe.fit(X_train[['Humidity']])  # Sólo fit con train


# Transformar train y test

X_train_humidity = pd.DataFrame(
    cod_ohe.transform(X_train[['Humidity']]),
    columns=cod_ohe.get_feature_names_out(['Humidity']), # Nombres de las columnas codificadas
    index=X_train.index
).astype(int)

X_test_humidity = pd.DataFrame(
    cod_ohe.transform(X_test[['Humidity']]),
    columns=cod_ohe.get_feature_names_out(['Humidity']), # Nombres de las columnas codificadas
    index=X_test.index
).astype(int)

test_real_humidity = pd.DataFrame(
    cod_ohe.transform(test_real[['Humidity']]),
    columns=cod_ohe.get_feature_names_out(['Humidity']), # Nombres de las columnas codificadas
    index=test_real.index
).astype(int)

print(X_train_humidity)
print(X_test_humidity)
print(test_real_humidity)

In [None]:
# Se podría haber usado LabelEncoder al conjunto completo si el modelo no es sensible al orden, como ocurre en un árbol.
#data['Humidity'] = OrdinalEncoder(categories=[['normal','high']]).fit_transform(data['Humidity'].values.reshape((-1, 1)))
#data['Humidity']

# Pero como eso no ocurre para todos los modelos lo hacemos como deberíamos hacerlo en la práctica.

In [None]:
# Codificación binaria para Windy

X_train_windy = X_train[['Windy']].astype(int)
X_test_windy = X_test[['Windy']].astype(int)
test_real_windy = test_real[['Windy']].astype(int)

print(X_train_windy)
print(X_test_windy)
print(test_real_windy)

In [None]:
# Codificar 'Temperature' ordinalmente

# Una forma sencilla:
#temp_map = {'cool': 0, 'mild': 1, 'hot': 2}
#X_train_temp = X_train[['Temperature']].replace({'Temperature': temp_map})
#X_test_temp = X_test[['Temperature']].replace({'Temperature': temp_map})


# Codificar 'Temperature' según el orden: cool < mild < hot
encoder_temp = OrdinalEncoder(categories=[['cool', 'mild', 'hot']], handle_unknown='use_encoded_value', unknown_value=-1)

# Codificar sobre train
X_train_temp = X_train[['Temperature']].copy()
X_train_temp['Temperature'] = encoder_temp.fit_transform(
    X_train['Temperature'].values.reshape(-1, 1)
).astype(int)

# Codificar sobre test usando el mismo encoder (sin refit)
X_test_temp = X_test[['Temperature']].copy()
X_test_temp['Temperature'] = encoder_temp.transform(
    X_test['Temperature'].values.reshape(-1, 1)
).astype(int)

test_real_temp = test_real[['Temperature']].copy()
test_real_temp['Temperature'] = encoder_temp.transform(
    test_real['Temperature'].values.reshape(-1, 1)
).astype(int)

print(X_train_temp)
print(X_test_temp)
print(test_real_temp)

In [None]:
# Se codifica también la variable de salida
y_play = LabelEncoder()
y= y_play.fit_transform(y.values.reshape((-1, 1)))
y

In [None]:
# Combinar todo

X_train_final = pd.concat([
    X_train_outlook.reset_index(drop=True),
    X_train_temp.reset_index(drop=True),
    X_train_humidity.reset_index(drop=True),
    X_train_windy.reset_index(drop=True)
], axis=1)

X_test_final = pd.concat([
    X_test_outlook.reset_index(drop=True),
    X_test_temp.reset_index(drop=True),
    X_test_humidity.reset_index(drop=True),
    X_test_windy.reset_index(drop=True)
], axis=1)

test_real_final = pd.concat([
    test_real_outlook.reset_index(drop=True),
    test_real_temp.reset_index(drop=True),
    test_real_humidity.reset_index(drop=True),
    test_real_windy.reset_index(drop=True)
], axis=1)


pd.set_option('display.max_columns', None)


# Mostrar resultados

print("X_train codificado:")
print(X_train_final)

print("\nX_test codificado:")
print(X_test_final)

print("\nX_test codificado:")
print(test_real_final)


### Construir el modelo de árboles

In [None]:
# Crear la instancia de Árboles con los datos de entrenamiento
arbol = DecisionTreeClassifier(criterion="entropy", max_depth=5, random_state=42) #Árbol de profundidad 5

# Realiza el entrenamiento usando el método fit
arbol.fit(X_train_final, y_train)


### Evaluar el modelo

In [None]:
# Observése qué ocurre si se obtiene la precisión sobre el mismo conjunto de entrenamiento
score = arbol.score(X_train_final,y_train)
 
print("Métrica del modelo para el conjunto de entrenamiento", score)


In [None]:
# Predecir la respuesta sobre un conjunto no usado durante el entrenamiento, conjunto test
y_pred = arbol.predict(X_test_final)
y_pred

In [None]:
# Obtener los valores de las métricas
print('Matriz de confusión: ')
print(confusion_matrix(y_test, y_pred))

print('\n\nMétricas de clasificación:')
print(classification_report(y_test, y_pred))

### Evaluar el modelo usando Cross-Validation

In [None]:
# Se fija el valor para k-folds
kf = KFold(n_splits=6)

scores = cross_val_score(arbol, X_train_final, y_train, cv=kf, scoring="accuracy")
 
print("Precisión obtenida para cada iteración de validación cruzada:", scores)
 
print("Media de la precisión obtenida en cada una de las iteraciones de validación cruzada:", scores.mean())

In [None]:
# Se puede obtener más información midiendo el rendimiento usando cross_validate en vez de cross_val_score
#----------------------------------------------------------------------------------------------------------
scoring = ['precision_macro', 'recall_macro']
scores = cross_validate(arbol, X_train_final, y_train, scoring=scoring, cv=kf, return_train_score=True)
scores

In [None]:
score_pred = accuracy_score(y_test, y_pred)
 
print("Métrica en el conjunto test:", score_pred)

In [None]:
print('Matriz de confusión: ')
print(confusion_matrix(y_test, y_pred))

print('\n\nMétricas de clasificación:')
print(classification_report(y_test, y_pred))

In [None]:
# Creamos la figura
fig, ax = plt.subplots(figsize=(12, 5))


print(f"Profundidad del árbol: {arboles.get_depth()}")
print(f"Número de nodos terminales: {arboles.get_n_leaves()}")

# Dibujamos el árbol
plot_tree(
    decision_tree=arboles,
    feature_names=list(X_train_final.columns),     
    class_names=y_play.classes_.tolist(),          #['no', 'yes'] recuperado del LabelEncoder
    filled=True,
    impurity=False,
    fontsize=10,
    precision=2,
    ax=ax
)

# Mostramos
plt.tight_layout()
plt.show()


In [None]:
#Reglas
#------
reglas = export_text(
                    decision_tree = arboles,
                    feature_names = list(X_train_final.columns)
               )
print(reglas)

### Analizar los resultados

Se observa que el valor obtenido de la precisión para el conjunto de prueba es del 50%, observaciones del conjunto de test son observaciones no usadas durante el entrenamiento. Un rendimiento muy pobre del modelo al clasificar datos desconocidos, no presenta una buena capacidad de generalización. 

Este comportamiento puede ser debido a un sobreajuste del modelo (_overfitting_), como consecuencia de la flexibilidad del método. Si el modelo no está generalizando bien habría que hacer un reajuste del modelo para evitarlo. Cuando se trata de un árbol grande una opción es realizar la poda del árbol. 

En este caso, lo que ocurre es que el árbol es muy pequeño, existen muy pocos datos en el conjunto de entrenamiento, lo que dificulta mucho el aprendizaje de los modelos.

### Clasificar nuevos ejemplos

Cuando se alcance unos valores de las métricas que permitan aceptar el modelo como válido y que, por tanto, está listo para su uso, se llevaría a un entorno real y productivo. En esa situación el modelo se enfrentará a datos totalmente desconocidos, los datos almacenados sobre el conjunto test_real, y no se podrá evaluar la respuesta del modelo, salvo las indicaciones que puedan arrojar los expertos en la materia a partir del conocimiento del dominio del problema a resolver.

In [None]:
# Se aplica el modelo sobre datos desconocidos
# Se aplica sobre el conjunto test_real
res = arboles.predict(test_real_final)
res

## <font color='blue'> Conclusiones </font>

Se ha construido un modelo de clasificación Árboles de Decisión en lenguaje de programación Python. Los árboles son muy simples y fáciles de interpretar, se adaptan a cualquier tipo de dato y permiten descubrir cuáles son atributos relevantes. Presentan la desventaja de que tienden al sobreajuste, sobre todo si no se regularizan. La regularización se basa en utilizar determinadas restricciones sobre el modelo a entrenar para evitar que se produzca el sobreajuste.

A partir del análisis de los resultados se puede observar si se trata de un buen modelo para poder ser utilizado en la resolución del problema planteado. En este ejemplo, en concreto, existen pocos datos, por lo que la precisión de la clasificación no es muy buena.

Se pueden comparar los resultados con los obtenidos con el algoritmo Naïve Bayes.¿Difieren los resultados?

<img src="https://i.creativecommons.org/l/by-nc-nd/4.0/88x31.png"/> 

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.
Para ver una copia de esta licencia, véase http://creativecommons.org/licenses/by/4.0/