In [None]:
'''
Neste projeto aplicaremos técnicas de encoding em um cenário de Análise de Dados Para
Traçar Estratégias de Crescimento e Retenção da Base de Clientes.
Embora Machine Learning não faça parte deste curso mostraremos o efeito das
transformações no modelo de aprendizado de máquina.
Vamos ao trabalho
'''

Imagine uma empresa de compra e venda de carros usados. A empresa gostaria de criar
um modelo preditivo capaz de prever o preço de venda de um veículo a partir de dados do
modelo do veículo, a kilometragem e a idade (tempo de uso). O objetivo é fornecer uma avaliação
mais precisa para o cliente e faz parte da estratégia da empresa para aumentar a retenção da
base atual de clientes.
Como Analista de Dados, você deve preparar os dados para a modelagem preditiva a fim
de obter o modelo mais preciso possível.
Aplicaremos One-Hot-Encoding e Label Encoding, vamos comparar o resultado de ambas
as transformações e então fazer a nossa escolha final sobre qual técnica de encoding deve ser
usada para este projeto. Os arquivos do projeto estão ao final do capítulo

In [1]:
# Imports
import pandas as pd
import numpy as np
from sklearn import linear_model
import warnings
warnings.filterwarnings("ignore")

In [2]:
 # Carrega os dados
dados = pd.read_csv('dataset.csv')

In [3]:
dados.shape

(13, 4)

In [4]:
dados

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Jaguar F-Type R,69000,18000,6
1,Jaguar F-Type R,35000,34000,3
2,Jaguar F-Type R,57000,26100,5
3,Jaguar F-Type R,22500,40000,2
4,Jaguar F-Type R,46000,31500,4
5,Mustang Mach 1,59000,29400,5
6,Mustang Mach 1,52000,32000,5
7,Mustang Mach 1,72000,19300,6
8,Mustang Mach 1,91000,12000,8
9,Mercedez Benz AMG GLE 53,67000,22000,6


In [6]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Modelo         13 non-null     object
 1   Kilometragem   13 non-null     int64 
 2   Preco_Venda    13 non-null     int64 
 3   Idade_Veiculo  13 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 544.0+ bytes


## Aplicando One-Hot-Encoding

https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [7]:
# Obtendo as variáveis dummy
df_dummies = pd.get_dummies(dados['Modelo'])

In [8]:
df_dummies

Unnamed: 0,Jaguar F-Type R,Mercedez Benz AMG GLE 53,Mustang Mach 1
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0
5,0,0,1
6,0,0,1
7,0,0,1
8,0,0,1
9,0,1,0


In [9]:
# Concatenando os dataframes
df = pd.concat([dados, df_dummies], axis = 'columns')

In [11]:
# Drop da coluna categórica
newdf = df.drop(['Modelo'], axis = 1)

In [12]:
newdf

Unnamed: 0,Kilometragem,Preco_Venda,Idade_Veiculo,Jaguar F-Type R,Mercedez Benz AMG GLE 53,Mustang Mach 1
0,69000,18000,6,1,0,0
1,35000,34000,3,1,0,0
2,57000,26100,5,1,0,0
3,22500,40000,2,1,0,0
4,46000,31500,4,1,0,0
5,59000,29400,5,0,0,1
6,52000,32000,5,0,0,1
7,72000,19300,6,0,0,1
8,91000,12000,8,0,0,1
9,67000,22000,6,0,1,0


In [13]:
# Define os valores de X (valores de entrada)
x = newdf.drop('Preco_Venda', axis = 1)
x

Unnamed: 0,Kilometragem,Idade_Veiculo,Jaguar F-Type R,Mercedez Benz AMG GLE 53,Mustang Mach 1
0,69000,6,1,0,0
1,35000,3,1,0,0
2,57000,5,1,0,0
3,22500,2,1,0,0
4,46000,4,1,0,0
5,59000,5,0,0,1
6,52000,5,0,0,1
7,72000,6,0,0,1
8,91000,8,0,0,1
9,67000,6,0,1,0


In [14]:
# Define os valores de y (valores de saida)
y = newdf['Preco_Venda']
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: Preco_Venda, dtype: int64

In [15]:
# Criando o obj modelo
modelo_v1 =  linear_model.LinearRegression()

In [17]:
# Treinando o modelo
modelo_v1.fit(x,y)

In [18]:
# Previsões do modelo
modelo_v1.predict(x)

array([18705.2723644 , 35286.78445645, 24479.19112468, 41245.76426391,
       29882.98779056, 28023.6135243 , 30614.46818502, 21879.57266964,
       12182.34562104, 26183.72387884, 18929.31674102, 20409.80511857,
       30477.15426156])

In [19]:
# Previsão individual
modelo_v1.predict([[7000,4,0,0,1]])

array([48602.41606011])

In [20]:
# Previsão individual
modelo_v1.predict([[45000,4,0,1,0]])

array([36991.31721061])

In [21]:
# Previsão individual
modelo_v1.predict([[86000,7,1,0,0]])

array([11080.74313219])

In [22]:
# Acurácia do modelo
modelo_v1.score(x,y)

0.9417050937281082

## Aplicando Label Encoding

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

In [23]:
from sklearn.preprocessing import LabelEncoder

In [24]:
df_car = dados

In [25]:
df_car

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Jaguar F-Type R,69000,18000,6
1,Jaguar F-Type R,35000,34000,3
2,Jaguar F-Type R,57000,26100,5
3,Jaguar F-Type R,22500,40000,2
4,Jaguar F-Type R,46000,31500,4
5,Mustang Mach 1,59000,29400,5
6,Mustang Mach 1,52000,32000,5
7,Mustang Mach 1,72000,19300,6
8,Mustang Mach 1,91000,12000,8
9,Mercedez Benz AMG GLE 53,67000,22000,6


In [26]:
# Criando o objeto encoder
le = LabelEncoder()

In [27]:
# Aplica o encoder para label encoding
df_car['Modelo'] = le.fit_transform(df_car['Modelo'])

In [28]:
df_car

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,0,69000,18000,6
1,0,35000,34000,3
2,0,57000,26100,5
3,0,22500,40000,2
4,0,46000,31500,4
5,2,59000,29400,5
6,2,52000,32000,5
7,2,72000,19300,6
8,2,91000,12000,8
9,1,67000,22000,6


In [29]:
# Definindo os valores de X (valores de entrada)
x = df_car[['Modelo', 'Kilometragem', 'Idade_Veiculo']].values
x

array([[    0, 69000,     6],
       [    0, 35000,     3],
       [    0, 57000,     5],
       [    0, 22500,     2],
       [    0, 46000,     4],
       [    2, 59000,     5],
       [    2, 52000,     5],
       [    2, 72000,     6],
       [    2, 91000,     8],
       [    1, 67000,     6],
       [    1, 83000,     7],
       [    1, 79000,     7],
       [    1, 59000,     5]])

In [30]:
# Definindo os valores de y (valores de saída)
y = df_car['Preco_Venda']
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: Preco_Venda, dtype: int64

In [31]:
# Criando a versão 2 do modelo
modelo_v2 = linear_model.LinearRegression()

In [32]:
# Treinando o modelo
modelo_v2.fit(x,y)

In [33]:
# Faz previsões
modelo_v2.predict(x)

array([21097.26799326, 35669.46519981, 26161.25131906, 40888.38671831,
       30915.35825943, 28747.22473471, 30916.35943266, 23373.3650235 ,
       14794.78029901, 23319.88385735, 17016.39498987, 18255.90053156,
       27144.36164147])

In [34]:
# Calcula a acurácia
modelo_v2.score(x,y)

0.8803425650559956

## Aplicando One-Hot-Encoding com Transformer

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html

In [35]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

In [41]:
# Carrega os dados
dados = pd.read_csv('dataset.csv')
dados

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Jaguar F-Type R,69000,18000,6
1,Jaguar F-Type R,35000,34000,3
2,Jaguar F-Type R,57000,26100,5
3,Jaguar F-Type R,22500,40000,2
4,Jaguar F-Type R,46000,31500,4
5,Mustang Mach 1,59000,29400,5
6,Mustang Mach 1,52000,32000,5
7,Mustang Mach 1,72000,19300,6
8,Mustang Mach 1,91000,12000,8
9,Mercedez Benz AMG GLE 53,67000,22000,6


In [42]:
# Criando o encoder com transformação
# o ColumnTransformer está realizando o One Hot encoding com a variavel ['modelo'], e mantendo as demais
# remainder = 'passthrough' é o que mantem as demais colunas
OHEncoder = ColumnTransformer([('Modelo', OneHotEncoder(), [0])], remainder = 'passthrough')

In [43]:
df_car = dados

In [44]:
df_car

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Jaguar F-Type R,69000,18000,6
1,Jaguar F-Type R,35000,34000,3
2,Jaguar F-Type R,57000,26100,5
3,Jaguar F-Type R,22500,40000,2
4,Jaguar F-Type R,46000,31500,4
5,Mustang Mach 1,59000,29400,5
6,Mustang Mach 1,52000,32000,5
7,Mustang Mach 1,72000,19300,6
8,Mustang Mach 1,91000,12000,8
9,Mercedez Benz AMG GLE 53,67000,22000,6


In [45]:
# Definindo os valores de X (valores de entrada)
x = df_car.drop('Preco_Venda', axis = 1)
x

Unnamed: 0,Modelo,Kilometragem,Idade_Veiculo
0,Jaguar F-Type R,69000,6
1,Jaguar F-Type R,35000,3
2,Jaguar F-Type R,57000,5
3,Jaguar F-Type R,22500,2
4,Jaguar F-Type R,46000,4
5,Mustang Mach 1,59000,5
6,Mustang Mach 1,52000,5
7,Mustang Mach 1,72000,6
8,Mustang Mach 1,91000,8
9,Mercedez Benz AMG GLE 53,67000,6


In [46]:
# Definindo os valores de y (valores de saída)
y = df_car['Preco_Venda']
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: Preco_Venda, dtype: int64

In [47]:
# Aplica o encoder ao dataset x
# Esse metódo normaliza todos os dados em uma mesma padronização
X = OHEncoder.fit_transform(x)
X

array([[1.00e+00, 0.00e+00, 0.00e+00, 6.90e+04, 6.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 3.50e+04, 3.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 5.70e+04, 5.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 2.25e+04, 2.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 4.60e+04, 4.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 5.90e+04, 5.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 5.20e+04, 5.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 7.20e+04, 6.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 9.10e+04, 8.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 6.70e+04, 6.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 8.30e+04, 7.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 7.90e+04, 7.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 5.90e+04, 5.00e+00]])

In [50]:
# Criando a versão 3 do modelo
modelo_v3 = linear_model.LinearRegression()

In [51]:
# Treinando o modelo
modelo_v3.fit(X,y)

In [52]:
# Uma previsão do modelo
modelo_v3.predict([[0,0,1,45000,4]])

array([34537.77647335])

In [53]:
# Uma previsão do modelo
modelo_v3.predict([[0,1,0,86000,7]])

array([17818.95045785])

In [54]:
# Uma previsão do modelo
modelo_v3.score(X,y)

0.9417050937281083

## Salva o Modelo Treinado

In [55]:
import joblib

In [56]:
# Dump do modelo
joblib.dump(modelo_v3,'modelo_treinado.pkl')

['modelo_treinado.pkl']

## Conclusão

Para este conjunto de dados a técnica de One-Hot-Encoding mostrou ser a mais efetiva e deveria ser usada no processamento dos dados para modelagem preditiva.
