### Objetivo do notebook

A base utilizada nesta análise é a Iris. Ela consiste em amostras de 3 espécies de Iris (setorsa, virgínica e versicolor). Essas seriam as classes do nosso algoritmo. Além disso, temos 4 variáveis utilizadas para realizar a classificação: comprimento e largura de cada pétala e sépala, em centímetros.

É uma base clássica para trabalhar algoritmos de classificação, sendo esse o propósito da análise em questão. 

#### Bibliotecas utilizadas

In [2]:
from sklearn.model_selection import train_test_split
from sklearn import datasets
import pandas as pd
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz

#### Importação da base

In [3]:
iris = datasets.load_iris()

#### Tratamento dos dados

In [4]:
#criação dos previsores
previsores = iris.data
classe = iris.target

In [5]:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores, classe, test_size = 0.3, random_state=0)

#### Construção do modelo

In [6]:
arvore = DecisionTreeClassifier()
arvore.fit(X_treinamento, y_treinamento)

DecisionTreeClassifier()

In [8]:
export_graphviz(arvore, out_file='tree.dot') 

Com o arquivo gerado acima, entramos no site http://webgraphviz.com/ e colocamos a descrição abaixo:

In [None]:
digraph Tree {
node [shape=box, fontname="helvetica"] ;
edge [fontname="helvetica"] ;
0 [label="X[3] <= 0.75\ngini = 0.664\nsamples = 105\nvalue = [34, 32, 39]"] ;
1 [label="gini = 0.0\nsamples = 34\nvalue = [34, 0, 0]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="X[2] <= 4.95\ngini = 0.495\nsamples = 71\nvalue = [0, 32, 39]"] ;
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
3 [label="X[3] <= 1.65\ngini = 0.161\nsamples = 34\nvalue = [0, 31, 3]"] ;
2 -> 3 ;
4 [label="gini = 0.0\nsamples = 30\nvalue = [0, 30, 0]"] ;
3 -> 4 ;
5 [label="X[1] <= 3.1\ngini = 0.375\nsamples = 4\nvalue = [0, 1, 3]"] ;
3 -> 5 ;
6 [label="gini = 0.0\nsamples = 3\nvalue = [0, 0, 3]"] ;
5 -> 6 ;
7 [label="gini = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
5 -> 7 ;
8 [label="X[2] <= 5.05\ngini = 0.053\nsamples = 37\nvalue = [0, 1, 36]"] ;
2 -> 8 ;
9 [label="X[0] <= 6.5\ngini = 0.375\nsamples = 4\nvalue = [0, 1, 3]"] ;
8 -> 9 ;
10 [label="gini = 0.0\nsamples = 3\nvalue = [0, 0, 3]"] ;
9 -> 10 ;
11 [label="gini = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
9 -> 11 ;
12 [label="gini = 0.0\nsamples = 33\nvalue = [0, 0, 33]"] ;
8 -> 12 ;
}

In [10]:
previsoes = arvore.predict(X_teste)

#### Medidas de desempenho

In [13]:
#matriz de confusão
confusao = confusion_matrix(y_teste, previsoes)

#taxa de acerto
taxa_acerto = accuracy_score(y_teste, previsoes)

In [14]:
confusao

array([[16,  0,  0],
       [ 0, 17,  1],
       [ 0,  0, 11]], dtype=int64)

In [15]:
taxa_acerto

0.9777777777777777