<a href="https://colab.research.google.com/github/MS-Oliveira/data_analytics_aula05/blob/main/preparando_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Fonte: traduzido e adaptado de https://github.com/GoogleCloudPlatform/training-data-analyst

# Entendendo, explorando e preparando dados

**Objetivos**


1. Ver alguns métodos para resolver valores ausentes e aplicar um deles.
2. Converter uma *feature* para o tipo de dado correto.
3. Renomear uma coluna de *feature* e remover um valor de uma coluna de *feature* que não faz parte da análise.
4. Converter a feature *meanprice* para uma variável categórica.
5. Criar *features* one-hot encoding (para dados categóricos).


## Introdução 

Modelos de *machine learning* só podem consumir valores numéricos.

Dados são ditos "sujos" ou "não limpos" se existem valores de atributos ausentes, contém ruídos ou outliers, tem duplicatas, dados errados e formato não adequado.

Esse notebook apresenta e resolve a maioria dos problemas de dados não limpos. Repare que problemas diferentes podem necessitar de métodos diferentes.

### Importação de bibliotecas

In [1]:
import pandas as pd
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns

### Exploração dos dados

Esse dataset é baseado sobre o relatório 
[Vehicle Fuel Type Count by Zip Code](https://data.ca.gov/dataset/vehicle-fuel-type-count-by-zip-code). Foi modificado pelo curso do Google para tornar os dados não limpos para uma representação sintética para propósitos de aprendizagem.


Usar o método read_csv do pandas e verificar as primeiras 5 linhas e as últimas 5 linhas.

In [2]:
# Fazer a carga do csv
df = pd.read_csv('untidy_vehicle_data_2.csv')

In [3]:
# Ver as 5 primeiras linhas
df.head()

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice
0,10/1/2018,90000.0,2006,Gasoline,OTHER/UNK,,1.0,40726.47
1,10/1/2018,,2014,Gasoline,,Yes,1.0,14600.61
2,,90000.0,,Gasoline,OTHER/UNK,Yes,,10665.31
3,10/1/2018,90000.0,2017,Gasoline,OTHER/UNK,Yes,1.0,31920.35
4,10/1/2018,90000.0,<2006,Diesel and Diesel Hybrid,OTHER/UNK,No,55.0,27268.07


In [4]:
# Ver as últimas 5 linhas
df.tail()

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice
994,6/7/2019,90003,2012,Gasoline,Type_R,Yes,26.0,29740.3
995,6/8/2019,90003,2012,Hybrid Gasoline,OTHER/UNK,Yes,4.0,23112.45
996,6/9/2019,90003,2012,Hybrid Gasoline,Type_Q,Yes,25.0,36798.42
997,6/10/2019,90003,2012,Natural Gas,OTHER/UNK,Yes,1.0,32470.59
998,6/11/2019,90003,2012,Plug-in Hybrid,OTHER/UNK,Yes,3.0,15652.22


### Tipos de dados das colunas

DataFrames podem ter tipos de dados heterogêneos, isso é, uma coluna ser string, outra inteiro e assim por diante.

Arquivos CSV não contém informações sobre tipos de dados a biblioteca Pandas infere os tipos de dados de cada coluna.

Verificar os tipos de dados das colunas, usando .info()

In [5]:
# Verificar os tipos de dados das colunas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Date        997 non-null    object 
 1   Zip Code    997 non-null    object 
 2   Model Year  997 non-null    object 
 3   Fuel        996 non-null    object 
 4   Make        996 non-null    object 
 5   Light_Duty  996 non-null    object 
 6   Vehicles    996 non-null    float64
 7   meanprice   999 non-null    float64
dtypes: float64(2), object(6)
memory usage: 62.6+ KB


Temos então seis objetos strings e 2 objetos float.

> Bloco com recuo




### Estatísticas de resumo 

Nesse ponto, temos somente uma coluna que contém valores numéricos. Para essas colunas, estamos interessados em várias medidas estatísticas relativas a esses valores. Repare que por ter somente uma *feature* numérica, somente vemos uma estatística de resumo.

In [6]:
# usar .describe() para obter as estatísticas de resumo de colunas numéricas
df.describe()

Unnamed: 0,Vehicles,meanprice
count,996.0,999.0
mean,72.878514,30312.060811
std,229.696895,11485.268297
min,1.0,10034.21
25%,13.0,20230.065
50%,23.0,30644.2
75%,57.25,40065.725
max,3178.0,49962.76


### Verificando valores ausentes

Valores ausentes impactam negativamente na qualidade dos dados, cem como podem levar a modelos de *machine learning* fazerem inferências erradas sobre os dados. Valores ausentes podem ser causados por inúmeros fatores, como bits perdidos na transmissão, entrada incorreta de dados ou pelo não preenchimento de um campo. A Pandas reconhece tanto células vazias quando tipos NaN como valores ausentes.

#### Vamos verificar os valores ausentes

Para isso, vamos explorar algumas maneiras de fazer isso.

1ª) Usando .isnull()

In [7]:
# Usar .isnull()
df.isnull()

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice
0,False,False,False,False,False,True,False,False
1,False,True,False,False,True,False,False,False
2,True,False,True,False,False,False,True,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
994,False,False,False,False,False,False,False,False
995,False,False,False,False,False,False,False,False
996,False,False,False,False,False,False,False,False
997,False,False,False,False,False,False,False,False


In [8]:
# usar .sum() ao final de .isnull()
df.isnull().sum()

Date          2
Zip Code      2
Model Year    2
Fuel          3
Make          3
Light_Duty    3
Vehicles      3
meanprice     0
dtype: int64

Podemos selecionar uma ou mais colunas para verificar os valores ausentes

In [9]:
# Ver quantos valores ausentes somente para a coluna Date
df['Date'].isnull().sum()

2

2º) Usando .isna()

In [10]:
# Usar .isna()
df.isna()

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice
0,False,False,False,False,False,True,False,False
1,False,True,False,False,True,False,False,False
2,True,False,True,False,False,False,True,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
994,False,False,False,False,False,False,False,False
995,False,False,False,False,False,False,False,False
996,False,False,False,False,False,False,False,False
997,False,False,False,False,False,False,False,False


In [11]:
# Usar .sum() ao final de .isna()
df.isna().sum()

Date          2
Zip Code      2
Model Year    2
Fuel          3
Make          3
Light_Duty    3
Vehicles      3
meanprice     0
dtype: int64

3º) Podemos estar interessados nos valores não ausentes, nesse caso usamos .notna()

In [12]:
# Usar .notna() para ver os valores não ausentes
df.notna()

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice
0,True,True,True,True,True,False,True,True
1,True,False,True,True,False,True,True,True
2,False,True,False,True,True,True,False,True
3,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...
994,True,True,True,True,True,True,True,True
995,True,True,True,True,True,True,True,True
996,True,True,True,True,True,True,True,True
997,True,True,True,True,True,True,True,True


In [13]:
# Usar .sum() ao final de .notna()
df.notna().sum()

Date          997
Zip Code      997
Model Year    997
Fuel          996
Make          996
Light_Duty    996
Vehicles      996
meanprice     999
dtype: int64

# Vamos sumarizar nossos dados por linha, coluna, *features*, valores únicos e valores ausentes.


In [14]:
# Mostrar número de linhas
df.shape[0]

999

In [15]:
# Mostrar número de colunas
df.shape[1]

8

In [16]:
# Mostrar *features* (ou nomes de colunas). Usar .tolist() ao final.
df.columns.tolist()

['Date',
 'Zip Code',
 'Model Year',
 'Fuel',
 'Make',
 'Light_Duty',
 'Vehicles',
 'meanprice']

In [17]:
# Mostrar valores únicos .nunique()
df.nunique()

Date          248
Zip Code        6
Model Year     15
Fuel            8
Make           43
Light_Duty      3
Vehicles      210
meanprice     999
dtype: int64

In [18]:
# Mostrar valores ausentes (usar .values.sum() ao final)
df.isna().values.sum()

18

### Onde podemos melhorar a qualidade de dados?

Lembrando que o objetivo é alimentar algoritmos de *machine learning*.

1. **Questão #1**:  
> **Valores ausentes**:
Cada coluna tem valores ausentes. Na realidade, temos um total de 18 valores ausentes.
2. **Questão #2**: 
> **Tipo de dados de data**:  A coluna Date é mostrada como um objeto e não como um datetime. Além disso, existe um requisito de negócio que a coluna Date seja parseada para ano, mês e dia.
3. **Questão #3**: 
> **Model Year**: Estamos interessados em anos maiores que 2006, não "<2006".
4. **Questão #4**:
> **meanprice**: Queremos transformar os valores em low, mid and high.
5. **Questão #5**:  
> **Colunas categóricas**:  A coluna "Light_Duty" é categorica e tem valores "Yes/No".  Não podemos alimentar um modelo de *machine learning* dessa forma. Precisamos aplicar one-hot encoding nas demais colunas de string.
6. **Questão #6**:
> Os valores de vehicles estão em uma escala bastante ampla, veremos como normalizar (ou padronizar) esses dados.


#### Questão #1:  
##### Resolvendo valores ausentes

A maioria dos algoritmos não aceitam valores ausentes. Para tratar esses valores podemos:

- Remover as linhas com valores ausentes. `.dropna()`.

- Para colunas numéricas: usar a média para preencher os valores.

- Para colunas categóricas: usar a moda para preencher.

Obs.: Método `.fillna()`.

In [19]:
# Verificar novamente a quantidade de valores ausentes
df.isna().sum()

Date          2
Zip Code      2
Model Year    2
Fuel          3
Make          3
Light_Duty    3
Vehicles      3
meanprice     0
dtype: int64

In [20]:
# Se quisermos remover os valores ausentes, usar .dropna()
# Não alterar o dataframe ainda
df.dropna()

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice
3,10/1/2018,90000,2017,Gasoline,OTHER/UNK,Yes,1.0,31920.35
4,10/1/2018,90000,<2006,Diesel and Diesel Hybrid,OTHER/UNK,No,55.0,27268.07
5,10/1/2018,90000,<2006,Diesel and Diesel Hybrid,OTHER/UNK,Yes,2.0,35538.39
6,10/1/2018,90000,<2006,Diesel and Diesel Hybrid,WHITE,No,19.0,14666.66
7,10/1/2018,90000,<2006,Battery Electric,OTHER/UNK,No,4.0,29493.14
...,...,...,...,...,...,...,...,...
994,6/7/2019,90003,2012,Gasoline,Type_R,Yes,26.0,29740.30
995,6/8/2019,90003,2012,Hybrid Gasoline,OTHER/UNK,Yes,4.0,23112.45
996,6/9/2019,90003,2012,Hybrid Gasoline,Type_Q,Yes,25.0,36798.42
997,6/10/2019,90003,2012,Natural Gas,OTHER/UNK,Yes,1.0,32470.59


In [21]:
# Pode usar para uma única coluna. Fazer para Vehicles
df['Vehicles'].dropna()

0       1.0
1       1.0
3       1.0
4      55.0
5       2.0
       ... 
994    26.0
995     4.0
996    25.0
997     1.0
998     3.0
Name: Vehicles, Length: 996, dtype: float64

Na Pandas existe uma expressão lambda, que podemos aplicar a cada elemento.

Uma expressão lambda é uma função sem nome.

Por exemplo, dividir o o valor em Vehicles por 4:

In [22]:
df['Vehicles'].apply(lambda x: x / 4)

0       0.25
1       0.25
2        NaN
3       0.25
4      13.75
       ...  
994     6.50
995     1.00
996     6.25
997     0.25
998     0.75
Name: Vehicles, Length: 999, dtype: float64

Se aplicarmos o mesmo conceito para o dataframe, o x representa uma coluna.

Para ver o valor mais frequente de uma coluna (moda), podemos usar .value_counts() e pegar seu primeiro elemento:

In [23]:
# Aplicar value_counts em Zip Code
df['Zip Code'].value_counts()

90002    406
90001    361
90003    213
90000     15
9001       1
na         1
Name: Zip Code, dtype: int64

In [24]:
# Usar .index[0] para selecionar o primeiro elemento
df['Zip Code'].value_counts().index[0]

'90002'

Podemos então colocar esse valor mais frequente nas observações ausentes das variáveis categóricas:

Primeiro selecionamos as colunas categóricas, aplicamos a função lambda nelas e atribuímos para atualizar para atualizar o dataframe.

Colunas categóricas: 'Date', 'Zip Code', 'Model Year', 'Fuel', 'Make',	'Light_Duty'

Obs.: Date ainda é uma string nesse ponto.

In [25]:
# Usar .index[0] nas variáveis categóricas
#não funciona ...Pela combinação, tem que aplicar coluna por coluna
df[[ 'Date', 'Zip Code', 'Model Year', 'Fuel', 'Make', 'Light_Duty']].value_counts().index[0]

('7/4/2019', '90003', '2009', 'Gasoline', 'Type_L', 'Yes')

In [26]:
# agora aplicamos o .apply usando o fillna() com o valor: .value_counts().index[0]
df[[ 'Date', 'Zip Code', 'Model Year', 'Fuel', 'Make', 'Light_Duty']].apply(lambda col: col.fillna(col.value_counts().index[0]) )

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty
0,10/1/2018,90000,2006,Gasoline,OTHER/UNK,Yes
1,10/1/2018,90002,2014,Gasoline,OTHER/UNK,Yes
2,10/1/2018,90000,<2006,Gasoline,OTHER/UNK,Yes
3,10/1/2018,90000,2017,Gasoline,OTHER/UNK,Yes
4,10/1/2018,90000,<2006,Diesel and Diesel Hybrid,OTHER/UNK,No
...,...,...,...,...,...,...
994,6/7/2019,90003,2012,Gasoline,Type_R,Yes
995,6/8/2019,90003,2012,Hybrid Gasoline,OTHER/UNK,Yes
996,6/9/2019,90003,2012,Hybrid Gasoline,Type_Q,Yes
997,6/10/2019,90003,2012,Natural Gas,OTHER/UNK,Yes


In [63]:
# Podemos agora atribuir ao dataframe
df[[ 'Date', 'Zip Code', 'Model Year', 'Fuel', 'Make', 'Light_Duty']] = df[[ 'Date', 'Zip Code', 'Model Year', 'Fuel', 'Make', 'Light_Duty']].apply(lambda col: col.fillna(col.value_counts().index[0]) )

In [65]:
# Verificar as 5 primeiras linhas do dataframe
df.head()

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice
0,10/1/2018,90000,2006,Gasoline,OTHER/UNK,Yes,1.0,40726.47
1,10/1/2018,90002,2014,Gasoline,OTHER/UNK,Yes,1.0,14600.61
2,10/1/2018,90000,<2006,Gasoline,OTHER/UNK,Yes,,10665.31
3,10/1/2018,90000,2017,Gasoline,OTHER/UNK,Yes,1.0,31920.35
4,10/1/2018,90000,<2006,Diesel and Diesel Hybrid,OTHER/UNK,No,55.0,27268.07


Agora, falta somente preenchermos a coluna Vehicles, que é numérica contínua e para isso, vamos usar a média.

Como é uma coluna só, usamos .fillna() e passamos o primeiro parâmetro com a média dessa coluna:

In [66]:
df['Vehicles'] = df['Vehicles'].fillna(df['Vehicles'].mean())

In [69]:
df.head()

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice
0,10/1/2018,90000,2006,Gasoline,OTHER/UNK,Yes,1.0,40726.47
1,10/1/2018,90002,2014,Gasoline,OTHER/UNK,Yes,1.0,14600.61
2,10/1/2018,90000,<2006,Gasoline,OTHER/UNK,Yes,72.878514,10665.31
3,10/1/2018,90000,2017,Gasoline,OTHER/UNK,Yes,1.0,31920.35
4,10/1/2018,90000,<2006,Diesel and Diesel Hybrid,OTHER/UNK,No,55.0,27268.07


Vamos verificar novamente por valores ausentes:

In [67]:
df.isnull().sum()

Date          0
Zip Code      0
Model Year    0
Fuel          0
Make          0
Light_Duty    0
Vehicles      0
meanprice     0
dtype: int64

#### Questão #2:  
##### Converter a coluna Date para um formato Datetime.

O formato passado é o da origem dos dados. Exemplos:
- 25/02/2020 -> %d/%m/%Y
- 31-03-1997 -> %d-%m-%Y
- 03/31/2009 -> %m/%d/%Y

In [73]:
# Converter a coluna Date para um datetime .to_datetime
# usando o formato %m%d%Y
df['Date'] = pd.to_datetime(df['Date'], format='%m/%d/%Y')

In [74]:
# Usar .info() para ver a transformação
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Date        999 non-null    datetime64[ns]
 1   Zip Code    999 non-null    object        
 2   Model Year  999 non-null    object        
 3   Fuel        999 non-null    object        
 4   Make        999 non-null    object        
 5   Light_Duty  999 non-null    object        
 6   Vehicles    999 non-null    float64       
 7   meanprice   999 non-null    float64       
dtypes: datetime64[ns](1), float64(2), object(5)
memory usage: 62.6+ KB


Em alguns casos é interessante separar a data em colunas dia, mês e ano.

Por exemplo, identificar padrões sazonais, encontrar períodos incomuns, etc.

Assim como usamos funções de string, temos no pandas funções para string em `.dt`, como `dt.year`, `dt.month` e `dt.day`.

In [75]:
# Usar dt.year sobre a coluna data
df['Date'].dt.year

0      2018
1      2018
2      2018
3      2018
4      2018
       ... 
994    2019
995    2019
996    2019
997    2019
998    2019
Name: Date, Length: 999, dtype: int64

In [76]:
# Criar uma coluna year com o ano
df['year'] = df['Date'].dt.year

In [77]:
# Criar uma coluna month com o mês
df['month'] = df['Date'].dt.month

In [78]:
# Criar uma coluna day com o dia
df['day'] = df['Date'].dt.day

In [79]:
# Verificar as colunas criadas olhando as 5 primeiras linhas
df.head()

Unnamed: 0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice,year,month,day
0,2018-10-01,90000,2006,Gasoline,OTHER/UNK,Yes,1.0,40726.47,2018,10,1
1,2018-10-01,90002,2014,Gasoline,OTHER/UNK,Yes,1.0,14600.61,2018,10,1
2,2018-10-01,90000,<2006,Gasoline,OTHER/UNK,Yes,72.878514,10665.31,2018,10,1
3,2018-10-01,90000,2017,Gasoline,OTHER/UNK,Yes,1.0,31920.35,2018,10,1
4,2018-10-01,90000,<2006,Diesel and Diesel Hybrid,OTHER/UNK,No,55.0,27268.07,2018,10,1


As vezes, queremos agrupar os dados para ter outra forma de analisar os dados, ou para entendermos em outro nível de detalhe.

A pandas tem um método `groupby`, que funciona bastante parecido com o SQL.

In [80]:
# Agrupar por ano
df.groupby(by ='year')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f6f75dd3350>

Com o objeto de groupby criado, aplicamos algumas função de agregação, como first(), last(), sum(), etc.

In [81]:
# Aplicar first no groupby
df.groupby(by ='year').first()

Unnamed: 0_level_0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice,month,day
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2018,2018-10-01,90000,2006,Gasoline,OTHER/UNK,Yes,1.0,40726.47,10,1
2019,2019-01-01,90001,2016,Gasoline,Type_G,Yes,18.0,37290.49,1,1


In [82]:
# Aplicar last no groupby
df.groupby(by ='year').last()

Unnamed: 0_level_0,Date,Zip Code,Model Year,Fuel,Make,Light_Duty,Vehicles,meanprice,month,day
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2018,2018-12-31,90002,2018,Hybrid Gasoline,OTHER/UNK,Yes,8.0,43135.62,12,31
2019,2019-06-11,90003,2012,Plug-in Hybrid,OTHER/UNK,Yes,3.0,15652.22,6,11


In [83]:
# Aplicar sum no groupby
df.groupby(by ='year').sum()

Unnamed: 0_level_0,Vehicles,meanprice,month,day
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018,16622.635542,11701618.42,4192,5968
2019,56183.0,18580130.33,1634,9020


In [84]:
# Aplicar mean no groupby
df.groupby(by ='year').mean()

Unnamed: 0_level_0,Vehicles,meanprice,month,day
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018,43.514753,30632.508953,10.973822,15.623037
2019,91.058347,30113.66342,2.648298,14.619125


#### Questão #3

Renomear as colunas de *features*, retirando espaços em branco e transformando letras maísculas em minúsculas.

In [41]:
# Usar rename (dicionário de valores) com inplace=True

# Ver as duas primeiras linhas


Agora, retirar os valores de ano que tenham '<2006'

In [42]:
# Selecionar os valores com string '<2006'


In [43]:
# Atribuir o resultado em df com .copy() 
# Quando alterar quantidade de linhas, usar .copy()


In [44]:
# Usar o value_counts() para confirmar que o valor '<2006' foi removido


#### Questão #4

Converteremos os valores de meanprice para valores low, mid e high.

Para isso iremos discretizar esses valores, conhecido como *binning* ou *bucketization*.

A pandas contém o pd.cut para esse tipo de tarefa.

In [45]:
# Usar pd.cut com a coluna df['meanprice'], bins=3 e labels=['low', 'mid', 'high']


In [46]:
# Substituir a coluna df['meanprice'] com esses valores


#### Questão #5

**Manipulando colunas categóricas**

A coluna lightduty é uma variável categórica com uma escolha yes/no. Não podemos carregar esse tipo de valores em um modelo de *machine learning*. Precisamos converter as respostas binárias de strings yes/no em inteiros 1/0. Existem vários métodos para fazer isso. Usaremos o método "apply" com uma expressão lambda.


In [47]:
# Contar número de yes/no na coluna lightduty


In [48]:
# Aplicar uma função lambda que transforma Yes em 1 e No em 0


In [49]:
# Atribuir e verificar que os valores foram alterados


**One-hot encoding**

Algoritmos de *machine Learning* experam vetores de entrada e não variáveis categóricas. Especificamente, eles não pode manipular valores de texto ou de string. Então é frequentemente útil transformar *features* categóricas em vetores.

Um método de transformação é criar variáveis dummy para nossas *features* categóricas. Variáveis Dummy são um conjunto de variáveis binárias (0 ou 1) em que cada uma representa uma única classe de uma *feature* categórica. Simplesmente codificamos a variável categórica como um vetor *one-hot*, isso é, um vetor onde todos os elementos são zero com exceção de 1, que é o *hot*. Com *one-hot encoding*, uma variável categórica se torna um array com amanho igual ao número de escolhas possíveis (número de categorias).

A pandas oferece uma função chamada `get_dummies` para converter uma variável categória em variáveis dummy/indicadoras.

Essa função recebe um parâmetro opcional que chama drop_first. Para algoritmos de machine learning esse parâmetro deve ser True, para evitar um problema matemático. Para outros usos, pode-se deixar esse parâmetro False (que é padrão).

In [50]:
# Usar pd.get_dummies em modelyear


In [51]:
# Usar pd.get_dummies em fuel


In [52]:
# Usar pd.get_dummies em make


In [53]:
# Usar pd.get_dummies em zipcode


In [54]:
# Usar pd.get_dummies em meanprice


In [55]:
# Criar uma variável dados_dummy e aplicar o pd.get_dummies
# nas colunas ['zipcode','modelyear', 'fuel', 'make', 'meanprice'].

# Mostrar as 5 primeiras linhas dessa variável


In [56]:
# Concatenar pd.concat()  df com dados_dummy (axis=1)

# Mostrar as 5 primeiras linhas


Como alteramos a representação das variáveis categóricas e de data, removemos a representação original.

In [57]:
# Usar df.drop para remover ['date','zipcode','modelyear', 'fuel', 'make', 'meanprice']

# Ver as 5 primeiras linhas


#### Questão #6.

Alguns algortimos trabalham melhor com valores numéricos (referentes a quantidades) normalizados. Para isso, vamos normalizar a coluna vehicles.

In [58]:
# Calcular a média de df['vehicles']


In [59]:
# Subtrair cada valor pela média da coluna


In [60]:
# Calcular o desvio padrão de df['vehicles']


In [61]:
# Subtrair cada valor pela média da coluna e dividir pelo desvio padrão


In [62]:
# Atribuir na coluna o resultado da conta acima.

# Ver as 5 primeiras linhas


## Conclusão

Trabalhamos alguns conceitos pra melhorar a qualidade dos dados com o objetivo desses dados alimentarem algoritmos de machine learning*. Resolvemos:

- Valores ausentes;
- Convertemos tipos de dados para os corretos;
- Renomeamos colunas de features;
- Removemos um valor não desejável de features;
- Transformamos uma variável contínua em categórica;
- Criamos variáveis *one-hot encoding*;
- Convertemos as features temporais para representações significativas;
- Normalizamos uma variável numérica.