Pontifícia Universidade Católica de São Paulo 

`Ciência de Dados e Inteligência Artificial`

#🎓 Aula 5 - Árvore de decisão (Parte 2)
01 de setembro de 2021


---
> 👨‍🏫*Professor Rooney Coelho (rracoelho@pucsp.br)*
---




## O problema de classificação
Suponha que estejamos perdidos em uma floresta e com muita fome. Incapazes de continuar sem comer algo primeiro, damos uma olhada, apenas para encontrar nada imediatamente comestível - apenas cogumelos.

<center>
<a title="By OliBac from FRANCE [CC BY 2.0 (http://creativecommons.org/licenses/by/2.0)], via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File%3AChampignons_mushrooms_(950475736).jpg"><img width="400" alt="Champignons mushrooms (950475736)" src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/66/Champignons_mushrooms_%28950475736%29.jpg/512px-Champignons_mushrooms_%28950475736%29.jpg"/></a>
<font size = "2">* Muitos tipos diferentes de cogumelos. Eles são seguros para comer?*</font>
</center>

Estamos morrendo de fome, então qualquer coisa parece ótimo para nós, mas comer um desses descuidadamente pode resultar em envenenamento. Para saber se podemos ou não comer um cogumelo, precisamos **classificá-lo com base em nosso conhecimento de suas características**, ou seja, temos um problema de classificação em nossas mãos.

Esse tipo de problema não é simples de resolver de forma eficaz - há muitas variáveis ​​envolvidas na classificação correta de algo. Existem muitos tipos diferentes de modelos matemáticos que foram criados para nos ajudar nas tarefas de classificação. Um desses modelos é o **modelo de árvore de decisão**.

A Árvore de Decisão é um modelo preditivo baseado na análise de um conjunto de pontos de dados que descrevem o tipo de objeto que desejamos classificar. Em nosso exemplo, pode ser um conjunto de observações do tipo de capa de um cogumelo, sua cor, odor, forma de seu caule, etc. Essas descrições de nosso objeto são chamadas de **características** e são muito importantes em muitos tipos diferentes de algoritmos de aprendizado de máquina, incluindo árvores de decisão. A classificação que queremos desses recursos é posta de lado como uma espécie de "resultado".


In [2]:
# Dependências
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import tree  
import pandas as pd

import matplotlib.pyplot as plt
import numpy as np

1) Importe os dados sem o cabeçalho

In [3]:
df = pd.read_csv('https://ibm.box.com/shared/static/dpdh09s70abyiwxguehqvcq3dn0m7wve.data')
df.columns = range(df.shape[1])
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
1,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
2,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
3,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
4,e,x,y,y,t,a,f,c,b,n,...,s,w,w,p,w,o,p,k,n,g
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8118,e,k,s,n,f,n,a,c,b,y,...,s,o,o,p,o,o,p,b,c,l
8119,e,x,s,n,f,n,a,c,b,y,...,s,o,o,p,n,o,p,b,v,l
8120,e,f,s,n,f,n,a,c,b,n,...,s,o,o,p,o,o,p,b,c,l
8121,p,k,y,n,f,y,f,c,n,b,...,k,w,w,p,w,o,e,w,v,l


2) Use a seguinte lista para nomear as colunas do DataFrame

In [4]:
nomes = ["Class","cap.shape","cap.surface","cap.color","bruises","odor","gill.attachment","gill.spacing",
                         "gill.size","gill.color","stalk.shape","stalk.root","stalk.surface.above.ring",
                         "stalk.surface.below.ring","stalk.color.above.ring","stalk.color.below.ring","veil.type","veil.color",
                         "ring.number","ring.type","print","population","habitat"]

In [5]:
df.columns = nomes
df

Unnamed: 0,Class,cap.shape,cap.surface,cap.color,bruises,odor,gill.attachment,gill.spacing,gill.size,gill.color,...,stalk.surface.below.ring,stalk.color.above.ring,stalk.color.below.ring,veil.type,veil.color,ring.number,ring.type,print,population,habitat
0,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
1,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
2,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
3,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
4,e,x,y,y,t,a,f,c,b,n,...,s,w,w,p,w,o,p,k,n,g
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8118,e,k,s,n,f,n,a,c,b,y,...,s,o,o,p,o,o,p,b,c,l
8119,e,x,s,n,f,n,a,c,b,y,...,s,o,o,p,n,o,p,b,v,l
8120,e,f,s,n,f,n,a,c,b,n,...,s,o,o,p,o,o,p,b,c,l
8121,p,k,y,n,f,y,f,c,n,b,...,k,w,w,p,w,o,e,w,v,l


3) Transforme todos os elementos em dados categóricos usando o método `factorize`. Devido ao alto número de colunas use um comando de repetição para isso.

In [6]:
for i in df.columns:
  df[i], i = df[i].factorize()
df

Unnamed: 0,Class,cap.shape,cap.surface,cap.color,bruises,odor,gill.attachment,gill.spacing,gill.size,gill.color,...,stalk.surface.below.ring,stalk.color.above.ring,stalk.color.below.ring,veil.type,veil.color,ring.number,ring.type,print,population,habitat
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,1,0,1,0,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1
2,1,0,1,1,0,2,0,0,1,1,...,0,0,0,0,0,0,0,1,1,2
3,0,0,0,2,1,3,0,1,0,0,...,0,0,0,0,0,0,1,0,2,0
4,0,0,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8118,0,4,0,3,1,3,1,0,0,10,...,0,6,7,0,2,0,0,8,5,6
8119,0,0,0,3,1,3,1,0,0,10,...,0,6,7,0,1,0,0,8,3,6
8120,0,3,0,3,1,3,1,0,0,1,...,0,6,7,0,2,0,0,8,5,6
8121,1,4,1,3,1,6,0,0,1,8,...,3,0,0,0,0,0,1,4,3,6


4) Crie um DataFrame `X` com todas as features. Lembrando que o target é o atributo Class.

In [7]:
X = df.drop('Class',1)
X

  X = df.drop('Class',1)


Unnamed: 0,cap.shape,cap.surface,cap.color,bruises,odor,gill.attachment,gill.spacing,gill.size,gill.color,stalk.shape,...,stalk.surface.below.ring,stalk.color.above.ring,stalk.color.below.ring,veil.type,veil.color,ring.number,ring.type,print,population,habitat
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,0,1,0,1,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,1
2,0,1,1,0,2,0,0,1,1,0,...,0,0,0,0,0,0,0,1,1,2
3,0,0,2,1,3,0,1,0,0,1,...,0,0,0,0,0,0,1,0,2,0
4,0,1,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8118,4,0,3,1,3,1,0,0,10,0,...,0,6,7,0,2,0,0,8,5,6
8119,0,0,3,1,3,1,0,0,10,0,...,0,6,7,0,1,0,0,8,3,6
8120,3,0,3,1,3,1,0,0,1,0,...,0,6,7,0,2,0,0,8,5,6
8121,4,1,3,1,6,0,0,1,8,1,...,3,0,0,0,0,0,1,4,3,6


5) Segmente o Dataframe para a representação do Target (Class)

In [8]:
y = df['Class']
y

0       0
1       0
2       1
3       0
4       0
       ..
8118    0
8119    0
8120    0
8121    1
8122    0
Name: Class, Length: 8123, dtype: int64

6) Crie o modelo de árvore de decisão com o critério de entropia

In [9]:
criterion="entropy"

decisionTree = DecisionTreeClassifier(criterion)



7) Treine o modelo para a totalidade dos dados

In [10]:
model = decisionTree.fit(X,y)

**[Maior dificuldade]** 

8) Imprima o nome da feature e sua respectiva importância em ordem decrescente de importância.

In [11]:
lista = {'Coluna': X.columns, 'importancia': model.feature_importances_}
pd.DataFrame(lista).sort_values(by=['importancia'], ascending=False)

Unnamed: 0,Coluna,importancia
4,odor,0.769266
7,gill.size,0.093864
21,habitat,0.042657
19,print,0.039638
9,stalk.shape,0.020396
20,population,0.012411
3,bruises,0.011629
11,stalk.surface.above.ring,0.01014
8,gill.color,0.0
6,gill.spacing,0.0


9) Use a função `train_test_split` para separar parte dos dados para treinamento e outra para validação. Use 30% dos dados para validação.

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3)

10) Crie o classificador e calcule o percentual de acertos do modelo.

In [13]:
model = decisionTree.fit(X_train,y_train)

model.score(X_test, y_test)

1.0

11) Faça a mesma coisa da questão anterior usando uma Random Forest com 20 bags (`n_estimators`)

In [14]:
from sklearn.ensemble import RandomForestClassifier

floresta = RandomForestClassifier()

In [15]:
floresta.fit(X_train, y_train)

floresta.score(X_test, y_test)

1.0