# Ejemplo de Arboles de Decisión
#### En este notebook se muestra un pequeño ejemplo de como implementar una arbol de decisión con la libreria Sklearn.
#### Para ilustrar este ejemplo se utilizará el conocido conjunto de datos Iris. Este conjunto de datos esta compuesto por un total de 150 instancias.
#### El problema consiste en la creación de un modelo que sea capaz de predecir el tipo de flor. Para ello entrenaremos unaarbol de decisión mediante la técnica de Cross Validation que sea capaz de predecir estos números con un nivel de precisión alto. Este proceso se explica a continuación.

## Importación de librerías 

In [18]:
import pandas as pd  
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix

## Variables con los directorios 

In [19]:
__url__ = 'C:\\Datasets\\'
#__url__ = 'C:\\Users\\Diego\\Dropbox\\ESALab\\Programa Movilidad Personal Docente Investigador 2018\\Material\\Python\\Datasets\\'
__wine__ = __url__ + 'red-wine-quality-cortez-et-al-2009\\winequality-red.csv'
__iris__ = __url__ + 'iris-species\\Iris.csv'

## Carga del conjunto de datos 

In [20]:
dataset = pd.read_csv(__iris__)
print(dataset.shape)
dataset.head(10)

(150, 6)


Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
5,6,5.4,3.9,1.7,0.4,Iris-setosa
6,7,4.6,3.4,1.4,0.3,Iris-setosa
7,8,5.0,3.4,1.5,0.2,Iris-setosa
8,9,4.4,2.9,1.4,0.2,Iris-setosa
9,10,4.9,3.1,1.5,0.1,Iris-setosa


## Preparación del conjunto de datos para validación

In [21]:
instances = dataset.drop('Species', axis=1)  
labels = dataset['Species']
instances_train, instances_test, labels_train, labels_test = train_test_split(instances, labels, test_size=0.20)

## Realización del 10-CV

In [22]:
parameters = {'max_depth':range(3,7)}
clf = GridSearchCV(DecisionTreeClassifier(), parameters, n_jobs=4, cv=10)
clf.fit(X=instances_train, y=labels_train)
tree_model = clf.best_estimator_
print(clf.best_score_, clf.best_params_)
lab_pred = clf.predict(instances_test)

0.9916666666666667 {'max_depth': 3}


## Impresión de resultados del modelo 

In [23]:
print(confusion_matrix(labels_test, lab_pred))  
print(classification_report(labels_test, lab_pred))

[[ 9  0  0]
 [ 0 10  0]
 [ 0  1 10]]
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         9
Iris-versicolor       0.91      1.00      0.95        10
 Iris-virginica       1.00      0.91      0.95        11

      micro avg       0.97      0.97      0.97        30
      macro avg       0.97      0.97      0.97        30
   weighted avg       0.97      0.97      0.97        30

