## Mineração de dados - Semana 4: 

### Exercício sobre classificação supervisionada

Use árvores de decisão para classificar o conjunto de dados sobre aceitabilidade de carros de acordo com as suas características. Os detalhes do conjunto de dados estão descritos abaixo.  
1. Separe os dados em treinamento e teste e meça a acurácia do classificador. Para o treino, separe 20% dados.
2. Gere a imagem da árvore de decisão obtida no treinamento. Você pode salvar a imagem clicando com o botão direito do mouse e abrindo em um leitor de imagens para ver mais detalhes da árvore gerada. 

#### URL do conjunto de dados
http://archive.ics.uci.edu/ml/datasets/Car+Evaluation

Fonte: UCI Machine Learning Repository, Centro para Aprendizado de Máquina e Sistemas Inteligentes, Universidade da Califórnia, Irvine

*O formato do arquivo (extensão .data) é texto separado por vírgulas, então pode ser salvo como CSV.

#### Descrição dos atributos e seus valores:

São seis atributos de características e mais um contendo a classe dos objetos.

* **buying** (v-high, high, med, low): preço de compra (muito alto, alto, médio, baixo)

* **maint** (v-high, high, med, low): preço de manutenção (muito alto, alto, médio, baixo)

* **doors** (2,3,4,5-more): número de portas (2,3,4,5-mais)

* **persons** (2, 4, more): capacidade de pessoas no carro (2, 4, mais)

* **lug_boot** (small, med, big): tamanho do bagageiro (pequeno, médio, grande)

* **safety** (low, med, high): segurança estimada do carro (baixa, média, alta)

* **acc** (unacc, acc, good, v-good): aceitabilidade (inaceitável, aceitável, bom, muito bom)

Há uma amostra dos objetos desse dataset no capítulo do livro que usamos esta semana: [Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplicações, pag.177](https://integrada.minhabiblioteca.com.br/reader/books/978-85-472-0100-5/pageid/196).


In [1]:
from google.colab import files
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import tree
from sklearn.tree import DecisionTreeClassifier, plot_tree

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
uploaded = files.upload()

Saving car.csv to car.csv


#### Adicionar cabeçalho no conjunto de dados

In [3]:
carros = pd.read_csv('car.csv',sep=',',names=['compra','manutencao','portas','pessoas','bagageiro','seguranca','aceitabilidade'])
carros.head()

Unnamed: 0,compra,manutencao,portas,pessoas,bagageiro,seguranca,aceitabilidade
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


#### Transformação em dados numéricos para uso com Árvores de Decisão

In [4]:
carros['compra'] = carros['compra'].map({'vhigh':3, 'high':2, 'med':1, 'low':0})
carros['manutencao'] = carros['manutencao'].map({'vhigh':3, 'high':2, 'med':1, 'low':0})
carros['portas'] = carros['portas'].map({'2':2,'3':3,'4':4,'5more':5})
carros['pessoas'] = carros['pessoas'].map({'2':2,'4':4,'more':5})
carros['bagageiro'] = carros['bagageiro'].map({'small':0, 'med':1, 'big':2})
carros['seguranca'] = carros['seguranca'].map({'low':0, 'med':1, 'high':2})
carros['aceitabilidade'] = carros['aceitabilidade'].map({'unacc':0, 'acc':1, 'good':2, 'vgood':3})
carros.head(10)

Unnamed: 0,compra,manutencao,portas,pessoas,bagageiro,seguranca,aceitabilidade
0,3,3,2,2,0,0,0
1,3,3,2,2,0,1,0
2,3,3,2,2,0,2,0
3,3,3,2,2,1,0,0
4,3,3,2,2,1,1,0
5,3,3,2,2,1,2,0
6,3,3,2,2,2,0,0
7,3,3,2,2,2,1,0
8,3,3,2,2,2,2,0
9,3,3,2,4,0,0,0


#### Separar atributos e rótulos para gerar o modelo

In [5]:
atributos_nomes = ['compra','manutencao','portas','pessoas','bagageiro','seguranca']
atributos = carros[atributos_nomes]
classes = carros['aceitabilidade']

#### Separar treinamento e teste

In [6]:
atributos_treino, atributos_teste, classes_treino, classes_teste = train_test_split(atributos, classes, test_size=0.2, stratify=classes, random_state=10)

#### Construir a árvore de decisão

In [7]:
arvore = DecisionTreeClassifier()
arvore = arvore.fit(atributos_treino,classes_treino)

#### Predição e acurácia

In [8]:
classes_predicao = arvore.predict(atributos_teste)
acuracia = accuracy_score(classes_teste, classes_predicao)
print('Acurácia do classificador: {}'.format(acuracia))

Acurácia do classificador: 0.9855491329479769


#### Visualizar a árvore

In [9]:
plt.figure(figsize=(200,120))
plot_tree(arvore, filled=True, rounded=True, class_names=['Inaceitavel', 'Aceitavel', 'Bom', 'Muito bom'], feature_names=atributos_nomes)
plt.show()

Output hidden; open in https://colab.research.google.com to view.