---
# Exercício Pré-processamento (car dataset) - codificação de dados categóricos 
---
**Machine Learning em Projetos (Erick Muzart e Fernando Melo)**   
Tópicos:
- Pandas Get_dummies
- One-hot encoding    
- Ordinal encoding
- Manual encoding   

**Fonte dados:**
Car Evaluation Data Set: https://archive.ics.uci.edu/ml/datasets/Car+Evaluation


### categóricos nominais

Car Evaluation Data Set: https://archive.ics.uci.edu/ml/datasets/Car+Evaluation

|   var   |     níveis             |
|---------|------------------------|
| buying  | v-high, high, med, low |
| maint   | v-high, high, med, low |
| doors   | 2, 3, 4, 5more         |
| persons | 2, 4, more             |
| lug_boot| small, med, big        |
| safety  | low, med, high         |
|-------- |------------------------|
| car     |unacc, acc, good, v-good|

 
Class Distribution (number of instances per class)

| class | N  | N(%) |
|-------|----|------|
|unacc  |1210|70%   |
|  acc  |384 |22%   |
| good  | 69 | 4%   |
|v-good | 65 | 4%   |


### **Descrição do projeto de machine learning**
Antes de escrever qualquer código, precisamos entender o problema que queremos resolver e fazer uma descrição eficiente do projeto, visando a comunicação  simples e rápida do objetivo do projeto para técnicos, gestores e colaboradores.  
  
**1- Descrição do problema ou tarefa:**  
Prever a avaliação de compra de um determinado carro com base nas suas características.  
**2- Descrição da solução de IA:**   
Treinamento supervisionado de modelo de classificação da avaliação de compra do carro em 4 classes: inaceitável, aceitável, bom e muito bom (unacc, acc, good, v-good), com base nas características do veículo.   
**3- Fonte de dados:**  
Car Evaluation Data Set: https://archive.ics.uci.edu/ml/datasets/Car+Evaluation   
**4- Variáveis independentes (preditoras ou "features"):**  
'buying', maint', 'doors', 'persons', 'lug_boot', 'safety'.     
**5- Variável dependente (resposta ou "target"):**   
car (unacc, acc, good, v-good)  

----------------------------------------------------------- 

## Carregar bibliotecas de código

In [1]:
# Importar bibliotecas pandas, seaborn, matplotlib, train_test_split, LogisticRegression,
#          confusion_matrix, OrdinalEncoder, metrics
import pandas as pd

## Análise exploratória do dados

In [2]:
# Ler os dados
# Pode-se usar diretamente a função read_csv() do pandas para ler o dataset remoto
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data', sep=',', header=None)
df.head()

Unnamed: 0,0,1,2,3,4,5,6
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


In [20]:
# Atribuir nomes mais explicativos para as colunas do dataset
df.columns = ['buying','maint', 'doors', 'persons', 'lug_boot', 'safety', 'car']
# Mostrar as dimensões do dataset
df.shape
# Mostrar as primeiras linhas do dataset
#df[0:1]

(1728, 7)

In [None]:
# Mostrar os tipos das variáveis do dataset
df.describe()

Unnamed: 0,0,1,2,3,4,5,6
count,1728,1728,1728,1728,1728,1728,1728
unique,4,4,4,3,3,3,4
top,vhigh,vhigh,2,2,small,low,unacc
freq,432,432,432,576,576,576,1210


Podemos observar acima que:
- Todas as variáveis são do tipo categórico (Dtype = Object).   
- Não existem dados faltantes (nulos).

In [None]:
# Mostrar a descrição da estatísticas das variáveis independentes (features)


In [None]:
# Mostra o nome das colunas do dataset
df.columns

Int64Index([0, 1, 2, 3, 4, 5, 6], dtype='int64')

In [None]:
# Mostra o total de amostras por classe da variável dependente (target)


Podemos observar acima que:
- As classes estão bastante desbalanceadas.

## Preparação dos dados

In [None]:
# atribuir os valores das variáveis independentes a 'X'

# atribuir os valores da variável dependente a 'y'

# Mostrar as dimensões de X e y


In [None]:
# Dividir o dataset entre treino e teste (85/15) e novas dimensões de treino e teste


In [None]:
# Mostrar o total de amostras de treino e total por cada classe


In [None]:
# Mostrar o total de amostras de teste e total por cada classe


### Codificação das variáveis independentes


#### 1- Pandas Get Dummies


In [None]:
# Codificar todos os dados com get_dummies (pd.get_dummies) e mostrar primeiras linhas e as novas dimensões do dataset


Aumentou a dimensionalidade do dataset?   
Novas colunas foram adicionadas e tiveram seus nomes identificados de forma clara.   
As variáveis originais foram deletadas após o one-hot encoding.

#### 2- One-hot encoder do Sklearn


In [None]:
# Codificando com OneHotEncoder
# Importar o OneHotEncoder e instanciar passando os parâmetros (handle_unknown='ignore', sparse=False)


In [None]:
# Ajustar aos dados de treino


In [None]:
# Mostrar as cotegorias encontradas pelo encoder (.categories_)


In [None]:
# Criar um novo dataframe com a codificação do OneHotEncoder para para todos os dados
#       e mostrar as primeiras linhas e dimensões



Percebe alguma diferença entre o get_dummies e o OneHotEncoder ?
  

#### 3- Ordinal Encoder

In [None]:
# Codificando com OrdinalEncoder
# Importar o OrdinalEncoder e instanciar


In [None]:
# Criar um novo dataframe com a codificação do OrdinalEncoder e mostrar as primeiras linhas e dimensões


In [None]:
# Mudar o nome das colunas para faciliatar o entendimento
#       ().columns = ['buying','maint', 'doors', 'persons', 'lug_boot', 'safety'])

# Mostrar as primeiras linhas e dimensões


In [None]:
# Mostrar as cotegorias encontradas pelo encoder (.categories_)


Conclusões sobre o Ordinal Encoder :   
- O ordinal encoder utilizou a ordem lexicográfica para codificação dos valores das variáveis, resultando numa péssima conversão. Isto irá prejudicar o desempenho do modelo.   
Por exemplo:    
"safety" : high=0, low=1 e med=2.   
o correto seria: low=0, med=1 e high=2.    
- Sempre confira o resultado, principalmente, do Ordinal encoder!

#### 4- Manual Enconding


In [22]:
# Mostra os valores únicos de cada variável para pensar as codificações necessárias(fazer loop) 
for col in df:
  print(col, ':', df[col].unique())

buying : ['vhigh' 'high' 'med' 'low']
maint : ['vhigh' 'high' 'med' 'low']
doors : ['2' '3' '4' '5more']
persons : ['2' '4' 'more']
lug_boot : ['small' 'med' 'big']
safety : ['low' 'med' 'high']
car : ['unacc' 'acc' 'vgood' 'good']


In [None]:
# A ordem das categorias não foi respeitada no Ordinal encoder acima.
# Façamos um encoding manual, respeitando essas ordens relativas.
# Criar dicionário para codificar os dados das colunas com o comando replace
encoding = {
    'low': 0, 'small': 1, 
}

In [None]:
# Mostre as primeiras linhas de X para poder visualizar a diferença quando executar o comando na célula abaixo


In [None]:
# Criar um novo dataframe com a codificação do Manual encoding (usando replace) e mostrar as primeiras linhas e dimensões


## Treinar os modelos
Vamos treinar modelos de regressão Logística para ver qual codificação (encoder) dará o melhor resultado.

### Regressão Logística

In [None]:
# Instanciar modelo de regressão logística aumentando o máximo de iterações para 1.000


#### 1- Reg_log Pandas Get Dummies

In [None]:
# Dividir o dataset entre treino e teste (85/15), usar stratify pois as classes estão desbalanceadas


In [None]:
# Treinar o modelo, lembrando de aplicar o get_dummies encoder nos dados de treinamento


In [None]:
# Verificar a acurácia do modelo (.score), lembrando de aplicar o get_dummies encoder nos dados de teste


In [None]:
# Verificar o f1_score do modelo, quando as classes estão desbalenceadas, 
#           lembrando de aplicar o get_dummies encoder nos dados de teste



In [None]:
# Mostrar a Matriz de Confusão, lembrando de aplicar o get_dummies encoder nos dados de teste


#### 2- Reg_log OneHotEncoder do Sklearn

In [None]:
# Dividir o dataset entre treino e teste (85/15), usar stratify pois as classes estão desbalanceadas


In [None]:
# Treinar o modelo, lembrando de aplicar o encoder nos dados de treinamento


In [None]:
# Verificar a acurácia do modelo (.score), lembrando de aplicar o encoder nos dados de teste


In [None]:
# Verificar o f1_score do modelo, quando as classes estão desbalenceadas, lembrando de aplicar o encoder nos dados de teste


In [None]:
# Mostrar a Matriz de Confusão, lembrando de aplicar o encoder nos dados de teste


#### 3- Reg_log Ordinal Encoder

In [None]:
# Dividir o dataset entre treino e teste (85/15), usar stratify pois as classes estão desbalanceadas


In [None]:
# Treinar o modelo, lembrando de aplicar o encoder nos dados de treinamento


In [None]:
# Verificar a acurácia do modelo (.score), lembrando de aplicar o encoder nos dados de teste


In [None]:
# Verificar o f1_score do modelo, quando as classes estão desbalenceadas, lembrando de aplicar o encoder nos dados de teste


In [None]:
# Mostrar a Matriz de Confusão, lembrando de aplicar o encoder nos dados de teste


#### 4- Reg_log Manual Encoding

In [None]:
# Dividir o dataset entre treino e teste (85/15), usar stratify pois as classes estão desbalanceadas


In [None]:
# Treinar o modelo, lembrando de aplicar o encoder nos dados de treinamento


In [None]:
# Verificar a acurácia do modelo (.score)


In [None]:
# Verificar o f1_score do modelo, quando as classes estão desbalenceadas


In [None]:
# Mostrar a Matriz de Confusão


## Avaliação da qualidade do melhor modelo

## Conclusão

No nosso experimento, treinamos modelos de regressão logística sobre os dados de aceitabilidade de carros com diferentes codificações, gerando os seguintes resultados:
- pandas get_dummies: 90,3% (f1-score).
- one-hot encoding: 91,7% (f1-score).
- ordinal encoding (sem seguir a ordem das categorias): 61,5% (f1-score).
- manual encoding (substituição), seguindo a ordem relativa das categorias: 82,9% (f1-score).