# <center>Árboles de Decisión</center>

Un árbol de decisión es uno de los algoritmos de aprendizaje máquina supervisado (supervised machine learning) más ampliamente utilizados que pueden realizar tareas tanto de regresión como de clasificación. 

Para cada atributo en un conjunto de datos (dataset) el algoritmo del árbol de decisión forma un nodo en donde el atributo más importante es colocado en la raíz. Para evaluar el árbol se comienza en el nodo raíz y se continúa hacia abajo siguiendo el nodo que corresponda con la condición o decisión tomada.

En este cuaderno crearemos un árbol de decisión para el problema de reconocer un personaje de la siguiente plantilla del juego de adivina quien: 

<center><img src= "media/planilla.jpg" width=80% /></center>

Para poder mostrar el árbol resultante en este cuaderno utilizaremos únicamente los primeros 8 personajes.

Comencemos importando los módulos necesarios en Python, siendo sklearn (Scikit Learn) el módulo en el cual se encuentra lo necesario para crear árboles de decisión.

In [None]:
import pandas
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt

Ahora leemos la base de conocimiento en formato csv.

El archivo csv tendrá un renglón para cada personaje y en cada columna se encontrará un 1 si el personaje tiene la característica correspondiente y un 0 si no la presenta.

In [None]:
# Leemos el archivo csv
df = pandas.read_csv("adivina_quien_reducido.csv")

# Características de los personajes 
features = ['piel_oscura', 'barba', 'bigote', 'ojos_oscuros', 'nariz_chica', 'sombrero_gorra', 'cabello_corto', 'cabello_oscuro', 'lentes']
# Nombres de los personajes
names = ['Roger', 'Frank', 'Sophie', 'Anne', 'Katrin', 'Anita', 'Charles', 'Max']

# La información de entrada son las características
X = df[features]
# La información a clasificar/predecir será la columna 'personaje' del archivo csv
y = df['personaje']

# Imprimimos las características para cada personaje
print(X)

A continuación creamos el árbol de decisión/clasificación y hacemos que entrene con las entradas $X$ y la salida $y$ para posteriormente graficar el árbol resultante.

In [None]:
plt.figure(figsize=(15,6))
dtree = DecisionTreeClassifier()
dtree = dtree.fit(X, y)
tree.plot_tree(dtree, feature_names=features, class_names=names, filled=True) 
plt.show() 

Finalmente vamos a predecir la identidad de un personaje. Como entrada usaremos la combinación de valores que representan las características de uno de los personajes.

In [None]:
print(f'El personaje es: {names[dtree.predict([[0,0,0,1,1,0,0,1,0]]})[0]]') 