# Árboles de decisión para clasificación
Uno de los algoritmos más populares, por su fácil entendimiento. Selecciona el mejor atributo a partir de una medida para generar un nodo de decisión, se usa una heurística para seleccionar el "camino" en cada nodo de desición. 

![texto alternativo](https://miro.medium.com/max/410/1*JAEY3KP7TU2Q6HN6LasMrw.png)

Ventajas 
* Fáciles de interpretar y visualizar, pueden capturar fácilmente patrones no lineales.
* Requiere menos preprocesamiento de datos por parte del usuario, por ejemplo, no es necsario normalizar las columnas.
* Se puede utilizar para la ingeniería de características, como la predicción de valores perdidos, adecuada para la selección de variables.
* El árbol de decisión no tiene suposiciones sobre la distribución debido a la naturaleza no paramétrica del algoritmo.

Desventajas
* Datos sensibles al ruido, puede sobredimensionar los datos ruidosos.
* La pequeña variación en los datos puede dar lugar a un arbol de decisión diferente.
* Están sesgados con un conjunto de datos de desequilibrio, por lo que se recomienda equilibrar el conjunto de datos antes de crear el arbol de decisión. 




In [0]:
from sklearn import datasets

data = datasets.load_breast_cancer()

In [0]:
X = data.data
y = data.target

In [0]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier(criterion = 'entropy')

In [0]:
tree.fit(X_train, y_train)

y_pred = tree.predict(X_test)


In [7]:
from sklearn.metrics import confusion_matrix

matrix = confusion_matrix(y_test, y_pred)
matrix

array([[37,  4],
       [ 3, 70]])

In [8]:
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score

print('precision: ', precision_score(y_test, y_pred))
print('f1: ', f1_score(y_test, y_pred))

precision:  0.9459459459459459
f1:  0.9523809523809523
