# Laboratório 3.3 - Notebook do aluno

## Visão geral

Este laboratório não continua o cenário do prestador de serviços de saúde. Em vez disso, você trabalhará com dados de um [conjunto de dados (dataset) de automóveis](https://archive.ics.uci.edu/ml/datasets/Automobile).

Neste laboratório, você vai:

- Codificar dados categóricos ordinais
- Codificar dados categóricos não ordinais

## Sobre esse conjunto de dados (dataset)

Este conjunto de dados (dataset) consiste em três tipos de entidades: 

1. A especificação de um automóvel em termos de suas várias características
2. Sua classificação de risco de seguro atribuída
3. Suas perdas normalizadas em uso em comparação com outros carros

A segunda classificação corresponde ao grau em que o veículo tem associado um risco maior do que aquele que o seu preço indica. Inicialmente, é atribuído aos carros um símbolo correspondente ao fator de risco associado ao seu preço. Em seguida, se indicar um risco maior (ou menor), esse símbolo será ajustado a sua escala para cima (ou para baixo). Atuários chamam esse processo de *simbologia*. Um valor *+3* indica que o carro tem um risco maior. Um valor de *-3* indica que o carro provavelmente está seguro.

O terceiro fator é a média anual do pagamento de perdas por veículo segurado. Esse valor é normalizado para todos os carros dentro de uma classificação de tamanho específica (duas portas pequenas, stations wagons, esportes ou especialidade, entre outros). Representa a perda média por carro por ano.

**Observação:** vários atributos no banco de dados podem ser usados como um atributo *class* (classe).

## Informações de atributo

Atributo: Intervalo de atributos

1. simbologia: -3, -2, -1, 0, 1, 2, 3.
1. perdas normalizadas: contínua de 65 a 256.
1. tipo de combustível: gasolina.
1. aspiração: std, turbo.
1. número de portas: quatro, duas.
1. estilo da carroceria: teto rígido, wagon, sedan, hatchback, conversível.
1. tração: 4wd, fwd, rwd.
1. localização do motor: dianteira, traseira.
1. distância entre os eixos: valor contínuo entre 86.6 e 120.9.
1. tamanho: contínuo de 141,1 a 208,1.
1. largura: contínua de 60,3 a 72,3.
1. altura: contínua de 47,8 a 59,8.
1. peso livre: valor contínuo entre 1488 e 4066.
1. tipo de motor: dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
1. número de cilindros: oito, cinco, quatro, seis, três, doze, dois.
1. tamanho do motor: contínuo de 61 a 326.
1. sistema de combustível: 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
1. diâmetro: contínuo de 2,54 a 3,94.
1. pistão: valor contínuo entre 2,07 e 4,17.
1. taxa de compressão: valor contínuo entre 7 e 23.
1. potência: contínua de 48 a 288.
1. peak-rpm (rotação -pico): valor contínuo entre 4150 e 6600.
1. mpg-cidade (consumo-cidade): contínuo de 13 a 49.
1. mpg-estrada (consumo-estrada): valor contínuo entre 16 e 54.
1. preço: contínuo de 5118 a 45400.

## Atribuições do conjunto de dados (dataset)

Esse conjunto de dados (dataset) foi obtido de:
Dua, D. e Graff, C. (2019). repositório UCI Machine Learning (http://archive.ics.uci.edu/ml). Irvine, CA: University of California, School of Information and Computer Science.

# Etapa 1: Como importar e explorar os dados

Você começará examinando os dados no conjunto de dados.

Para aproveitar o laboratório ao máximo, leia as instruções e o código antes de executar as células. Reserve um tempo para experimentar!


Comece importando o pacote pandas e definindo algumas opções de exibição padrão.

In [8]:
import pandas as pd

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

Em seguida, carregue o conjunto de dados em um DataFrame pandas.

Os dados não contêm um cabeçalho, portanto, você definirá esses nomes de coluna em uma variável chamada `col_names` para os atributos listados na descrição do conjunto de dados.



In [11]:
url = "docs/imports-85.csv"
col_names=['symboling','normalized-losses','fuel-type','aspiration','num-of-doors','body-style','drive-wheels','engine-location','wheel-base',
                                    'length','width','height','curb-weight','engine-type','num-of-cylinders','engine-size',
                                    'fuel-system','bore','stroke','compression-ratio','horsepower','peak-rpm','city-mpg','highway-mpg','price']

df_car = pd.read_csv(url,sep=',',names = col_names ,na_values="?",  header=None)

Primeiro, para ver o número de linhas (instâncias) e colunas (recursos), você usará o método `shape`.

In [15]:
print("LINHAS/QTD DE CARROS:",df_car.shape[0],"\nCOLUNAS/ELEMENTOS:",df_car.shape[1])

LINHAS/QTD DE CARROS: 205 
COLUNAS/ELEMENTOS: 25


Em seguida, **EXIBA** os dados usando o método `head`.


In [17]:
df_car.head(5)

Unnamed: 0,symboling,normalized-losses,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


Existem 25 colunas. Algumas colunas têm valores numéricos, mas muitas contêm texto.

Para exibir informações sobre as colunas, use o método `info`.


In [18]:
df_car.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 25 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    float64
 2   fuel-type          205 non-null    object 
 3   aspiration         205 non-null    object 
 4   num-of-doors       203 non-null    object 
 5   body-style         205 non-null    object 
 6   drive-wheels       205 non-null    object 
 7   engine-location    205 non-null    object 
 8   wheel-base         205 non-null    float64
 9   length             205 non-null    float64
 10  width              205 non-null    float64
 11  height             205 non-null    float64
 12  curb-weight        205 non-null    int64  
 13  engine-type        205 non-null    object 
 14  num-of-cylinders   205 non-null    object 
 15  engine-size        205 non-null    int64  
 16  fuel-system        205 non

Para facilitar a visualização do conjunto de dados ao iniciar a codificação, elimine as colunas que você não usará.


In [19]:
df_car.columns

Index(['symboling', 'normalized-losses', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price'], dtype='object')

In [20]:
df_car = df_car[[ 'aspiration', 'num-of-doors',  'drive-wheels',  'num-of-cylinders']].copy()

Agora você tem quatro colunas. Todas essas colunas contêm valores de texto. 


In [21]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders
0,std,two,rwd,four
1,std,two,rwd,four
2,std,two,rwd,six
3,std,four,fwd,four
4,std,four,4wd,five


A maioria dos algoritmos de Machine Learning exige entradas que sejam valores numéricos. 

- Os componentes (features) **num-of-cylinders** (número de cilindros) e **num-of-doors** (número de portas) são variáveis ordinais. Você pode converter os valores desses componentes (features) em suas contrapartes numéricas.
- No entanto, **aspiration** e **drive-wheels (tração) ** não têm um valor ordinal. Esses recursos devem ser convertidos de forma diferente.

Você explorará os componentes (features) com valores numéricos primeiro.


# Etapa 2: Codificação de componentes (features) ordinais.

Nesta etapa, você usará a função *mapper* para converter os componentes (features) ordinais em valores numéricos ordenados.

Comece obtendo do DataFrame os novos tipos associados às colunas:


In [22]:
df_car.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   aspiration        205 non-null    object
 1   num-of-doors      203 non-null    object
 2   drive-wheels      205 non-null    object
 3   num-of-cylinders  205 non-null    object
dtypes: object(4)
memory usage: 6.5+ KB


Primeiro, determine quais valores as colunas ordinais contêm. 

Começando com o recurso **num-of-doors**, você pode usar `value_counts` para descobrir os valores.

In [27]:
print("contando a qtd de valores p numero de portas")
df_car['num-of-doors'].value_counts()


contando a qtd de valores p numero de portas


num-of-doors
four    114
two      89
Name: count, dtype: int64

Este componente (feature) tem apenas dois valores: *four* (quatro) e *two* (dois). Você pode criar um simples mapeamento que contém um dicionário:

In [28]:
door_mapper = {"two": 2,
              "four": 4}

Depois, você poderá usar o método `replace` do pandas para gerar uma nova coluna numérica com base na coluna **num-of-doors**.

In [31]:
df_car['doors'] = df_car["num-of-doors"].replace(door_mapper)

  df_car['doors'] = df_car["num-of-doors"].replace(door_mapper)


Ao exibir o DataFrame, você deve ver a nova coluna à direita. Ela contém uma representação numérica do número de portas.


In [30]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders,doors
0,std,two,rwd,four,2.0
1,std,two,rwd,four,2.0
2,std,two,rwd,six,2.0
3,std,four,fwd,four,4.0
4,std,four,4wd,five,4.0


Repita o processo com a coluna **num-of-cylinders** (número de cilindros).

Primeiro, obtenha os valores.

In [32]:
df_car['num-of-cylinders'].value_counts()

num-of-cylinders
four      159
six        24
five       11
eight       5
two         4
three       1
twelve      1
Name: count, dtype: int64

Em seguida, crie o mapeador.

In [33]:
cylinder_mapper = {"two":2,
                  "three":3,
                  "four":4,
                  "five":5,
                  "six":6,
                  "eight":8,
                  "twelve":12}

Aplique o mapeador usando o método `replace`.


In [40]:
df_car['cylinders'] = df_car['num-of-cylinders'].replace(cylinder_mapper)

  df_car['cylinders'] = df_car['num-of-cylinders'].replace(cylinder_mapper)


In [41]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,num-of-cylinders,doors,cylinders,drive-wheels_4wd,drive-wheels_fwd,drive-wheels_rwd
0,std,two,four,2.0,4,False,False,True
1,std,two,four,2.0,4,False,False,True
2,std,two,six,2.0,6,False,False,True
3,std,four,four,4.0,4,False,True,False
4,std,four,five,4.0,5,True,False,False


Para obter mais informações sobre o método `replace`, consulte [pandas.DataFrame.replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html) na documentação do pandas.

# Etapa 3: Como codificar dados categóricos não ordinais

Nesta etapa, você codificará dados não ordinais usando o método `get_dummies` do pandas.

Os dois recursos restantes não são ordinais. 

De acordo com a descrição do atributo, os seguintes valores são possíveis:

- aspiração: std, turbo. 
- tração: 4wd, fwd, rwd. 

Você pode pensar que a estratégia correta é converter esses valores em valores numéricos. Por exemplo, considere o recurso **drive-wheels** (tração). Você pode usar *4wd = 1*,*fwd = 2* e *rwd = 3*. No entanto,* fwd* não é menor que *rwd*. Esses valores não têm uma ordem, mas você acabou de introduzir uma ordem a eles atribuindo esses valores numéricos.

A estratégia correta é converter esses valores em *componentes (features) binários* para cada valor no componente (feature) original. Esse processo geralmente é chamado de *one-hot encoding* em Machine Learning ou *dummying* em estatísticas.

O pandas fornece um método `get_dummies`, que converte os dados em recursos binários. Para obter mais informações, consulte [pandas.get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) na documentação do pandas.



De acordo com a descrição do atributo, **drive-wheels** tem três valores possíveis.

In [43]:
df_car['drive-wheels'].value_counts()

KeyError: 'drive-wheels'

Use o método `get_dummies` para adicionar novos recursos binários ao DataFrame.


In [38]:
df_car = pd.get_dummies(df_car,columns=['drive-wheels'])

KeyError: "None of [Index(['drive-wheels'], dtype='object')] are in the [columns]"

In [None]:
df_car.head()

Ao examinar o conjunto de dados, você deve ver três novas colunas à direita: 

- **drive-wheels_4wd**
- **drive-wheels_fwd**
- **drive-wheels_rwd**

A codificação foi simples. Se o valor na coluna **drive-wheels** for *4wd*, então na coluna **drive-wheels_4wd** terá o valor *1*. Nas outras colunas geradas terá o valor *0*. Se o valor na coluna **drive-wheels** for *fwd*, então na coluna **drive-wheels_fwd** terá o valor *1*.

Estes componentes (features) binários permitem que você expresse as informações de forma numérica, sem implicar nenhuma ordem.


Examine a coluna final que você codificará.

Os dados na coluna **aspiration** (aspiração) têm apenas dois valores:*std* e *turbo*. Você pode codificar essa coluna em dois componentes binários. No entanto, você também pode ignorar o valor *std* e registrar se ele é *turbo* ou não. Para fazer isso, você ainda usa o método `get_dummies`, mas especifica `drop_first` como *True*.


In [None]:
df_car['aspiration'].value_counts()

In [None]:
df_car = pd.get_dummies(df_car,columns=['aspiration'], drop_first=True)

In [None]:
df_car.head()

**Tarefa de desafio:** volte para o início deste laboratório e adicione outras colunas ao conjunto de dados. Como você codificaria os valores de cada coluna? Atualize o código para incluir algumas das outras componentes (features).

# Parabéns!

Você concluiu este laboratório e agora pode encerrá-lo seguindo as instruções do guia do laboratório.