# Projeto de Ánalise de Dados com Linguagem Python

## Projeto 5 - Técnicas de Encoding Para Modelagem Preditiva

### Pacotes Python Usados no Projeto

In [1]:
# !pip install -q -U watermark

In [2]:
# Imports
import joblib
import pandas as pd
import numpy as np
from sklearn import linear_model
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
import warnings
warnings.filterwarnings("ignore")

In [3]:
%reload_ext watermark
%watermark -a "Leonardo da Silva Neves"

Author: Leonardo da Silva Neves



### **Carregando os Dados**

In [4]:
# Carrega os dados
dados = pd.read_csv('Cap09/dataset.csv')

In [5]:
# Shape
dados.shape

(13, 4)

In [6]:
# Visualizando os dados. Como o dataset é pequeno, podemos chamar a variável diretamente.
dados

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Volkswagen Polo,79000,18000,6
1,Volkswagen Polo,65000,34000,3
2,Volkswagen Polo,57000,26100,5
3,Volkswagen Polo,72500,40000,2
4,Volkswagen Polo,44000,31500,4
5,Chevrolet Onix,69000,29400,5
6,Chevrolet Onix,62000,32000,5
7,Chevrolet Onix,61000,19300,6
8,Chevrolet Onix,71000,12000,8
9,Hyundai HB20,64000,22000,6


In [7]:
# Resumo dos tipos de dados
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Modelo         13 non-null     object
 1   Kilometragem   13 non-null     int64 
 2   Preco_Venda    13 non-null     int64 
 3   Idade_Veiculo  13 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 548.0+ bytes


Pergunta: Qual a técnica ideal de encoding para criar o melhor modelo preditivo possível?

Resposta: Ainda não dá para saber nessa altura do da análise.

### Aplicando One-Hot-Encoding

In [8]:
# Dataset original
dados

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Volkswagen Polo,79000,18000,6
1,Volkswagen Polo,65000,34000,3
2,Volkswagen Polo,57000,26100,5
3,Volkswagen Polo,72500,40000,2
4,Volkswagen Polo,44000,31500,4
5,Chevrolet Onix,69000,29400,5
6,Chevrolet Onix,62000,32000,5
7,Chevrolet Onix,61000,19300,6
8,Chevrolet Onix,71000,12000,8
9,Hyundai HB20,64000,22000,6


In [9]:
# Obtém as variáveis dummy
df_dummies =pd.get_dummies(dados['Modelo'])

In [10]:
# Variáveis dummy
df_dummies

Unnamed: 0,Chevrolet Onix,Hyundai HB20,Volkswagen Polo
0,False,False,True
1,False,False,True
2,False,False,True
3,False,False,True
4,False,False,True
5,True,False,False
6,True,False,False
7,True,False,False
8,True,False,False
9,False,True,False


In [11]:
# Concatenando os dataframes
df = pd.concat([dados, df_dummies], axis= 'columns')

In [12]:
df

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo,Chevrolet Onix,Hyundai HB20,Volkswagen Polo
0,Volkswagen Polo,79000,18000,6,False,False,True
1,Volkswagen Polo,65000,34000,3,False,False,True
2,Volkswagen Polo,57000,26100,5,False,False,True
3,Volkswagen Polo,72500,40000,2,False,False,True
4,Volkswagen Polo,44000,31500,4,False,False,True
5,Chevrolet Onix,69000,29400,5,True,False,False
6,Chevrolet Onix,62000,32000,5,True,False,False
7,Chevrolet Onix,61000,19300,6,True,False,False
8,Chevrolet Onix,71000,12000,8,True,False,False
9,Hyundai HB20,64000,22000,6,False,True,False


In [13]:
# Drop da coluna categórica
newdf = df.drop(['Modelo'], axis=1)

In [14]:
newdf

Unnamed: 0,Kilometragem,Preco_Venda,Idade_Veiculo,Chevrolet Onix,Hyundai HB20,Volkswagen Polo
0,79000,18000,6,False,False,True
1,65000,34000,3,False,False,True
2,57000,26100,5,False,False,True
3,72500,40000,2,False,False,True
4,44000,31500,4,False,False,True
5,69000,29400,5,True,False,False
6,62000,32000,5,True,False,False
7,61000,19300,6,True,False,False
8,71000,12000,8,True,False,False
9,64000,22000,6,False,True,False


In [15]:
# Definindo os valores de X excluindo a variável alvo.
x =  newdf.drop('Preco_Venda', axis=1)

In [16]:
x

Unnamed: 0,Kilometragem,Idade_Veiculo,Chevrolet Onix,Hyundai HB20,Volkswagen Polo
0,79000,6,False,False,True
1,65000,3,False,False,True
2,57000,5,False,False,True
3,72500,2,False,False,True
4,44000,4,False,False,True
5,69000,5,True,False,False
6,62000,5,True,False,False
7,61000,6,True,False,False
8,71000,8,True,False,False
9,64000,6,False,True,False


In [17]:
# Definindo os valores de y (variável alvo)
y = newdf['Preco_Venda']

In [18]:
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: Preco_Venda, dtype: int64

In [19]:
# Criando o modelo
modelo_v1 = linear_model.LinearRegression()

In [20]:
# Treinando o modelo
modelo_v1.fit(x,y)

In [21]:
# Previsão do modelo
modelo_v1.predict(x)

array([18105.0215775 , 35327.25262423, 24783.14553092, 40410.02746228,
       30974.55280508, 28487.61326992, 28866.17068713, 23431.87824739,
       11914.33779555, 25628.97126508, 19221.24546681, 19653.88251505,
       31495.90075306])

In [22]:
# Uma previsão (Volkswagen Polo)
modelo_v1.predict([[7000, 4, 0, 0, 1]])

array([32975.49915317])

In [23]:
# Uma nova previsão (Hyundai HB20)
modelo_v1.predict([[45000, 4, 0, 1, 0]])

array([37633.22839618])

In [24]:
# Uma nova previsão (Chevrolet Onix)
modelo_v1.predict([[86000, 7, 1, 0, 0]])

array([16591.51540088])

In [25]:
# Acurácia do modelo (Acurácia vai de 0 até 1)
modelo_v1.score(x,y)

0.9355612290620992

### Aplicando Label Encoding

In [26]:
# Cópia do dataframe original
df_car = dados

In [27]:
df_car

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Volkswagen Polo,79000,18000,6
1,Volkswagen Polo,65000,34000,3
2,Volkswagen Polo,57000,26100,5
3,Volkswagen Polo,72500,40000,2
4,Volkswagen Polo,44000,31500,4
5,Chevrolet Onix,69000,29400,5
6,Chevrolet Onix,62000,32000,5
7,Chevrolet Onix,61000,19300,6
8,Chevrolet Onix,71000,12000,8
9,Hyundai HB20,64000,22000,6


In [28]:
# Cria o objeto incoder
le = LabelEncoder()

In [29]:
# Aplica o encoder
df_car['Modelo'] = le.fit_transform(df_car['Modelo'])

In [30]:
df_car

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,2,79000,18000,6
1,2,65000,34000,3
2,2,57000,26100,5
3,2,72500,40000,2
4,2,44000,31500,4
5,0,69000,29400,5
6,0,62000,32000,5
7,0,61000,19300,6
8,0,71000,12000,8
9,1,64000,22000,6


In [31]:
# Definindo os valores de X (variáveis preditoras)
x = df_car[['Modelo', 'Kilometragem', 'Idade_Veiculo']].values

In [32]:
x

array([[    2, 79000,     6],
       [    2, 65000,     3],
       [    2, 57000,     5],
       [    2, 72500,     2],
       [    2, 44000,     4],
       [    0, 69000,     5],
       [    0, 62000,     5],
       [    0, 61000,     6],
       [    0, 71000,     8],
       [    1, 64000,     6],
       [    1, 81000,     7],
       [    1, 73000,     7],
       [    1, 57000,     5]], dtype=int64)

In [33]:
# Definir os valores de y (variáveis de saída)
y = df_car['Preco_Venda']

In [34]:
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: Preco_Venda, dtype: int64

In [35]:
# Cria a versão 2 do modelo
modelo_v2 = linear_model.LinearRegression()

In [36]:
# Treinando o modelo
modelo_v2.fit(x,y)

In [37]:
# Previsões
modelo_v2.predict(x)

array([20594.96255322, 35709.41910683, 26372.80065489, 40228.36867645,
       31766.57106881, 29143.34538167, 29442.06469435, 24645.7329058 ,
       14540.97907838, 22876.39285467, 17311.92569064, 17653.31919085,
       28014.11814344])

In [38]:
# Uma nova previsão
modelo_v2.predict([[1, 12500,2]])

array([44430.13741661])

In [39]:
# Calcula a acurácia
modelo_v2.score(x, y)

0.8757010116903795

### Aplicando o One-Hot-Encoding com Transformer

In [40]:
# Cópia do dataframe original
df_car = dados

In [41]:
df_car

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,2,79000,18000,6
1,2,65000,34000,3
2,2,57000,26100,5
3,2,72500,40000,2
4,2,44000,31500,4
5,0,69000,29400,5
6,0,62000,32000,5
7,0,61000,19300,6
8,0,71000,12000,8
9,1,64000,22000,6


In [49]:
# Cria o encoder com transformação
OHEncoder = ColumnTransformer([('Modelo', OneHotEncoder(), [0])], remainder = 'passthrough')

In [50]:
# Define os valores de X
x = df_car.drop('Preco_Venda', axis = 1)

In [51]:
x

Unnamed: 0,Modelo,Kilometragem,Idade_Veiculo
0,2,79000,6
1,2,65000,3
2,2,57000,5
3,2,72500,2
4,2,44000,4
5,0,69000,5
6,0,62000,5
7,0,61000,6
8,0,71000,8
9,1,64000,6


In [52]:
# Define os valores de y
y = df_car['Preco_Venda']

In [53]:
# Aplicar o encoder ao dataset x
X = OHEncoder.fit_transform(x)

In [54]:
X

array([[0.00e+00, 0.00e+00, 1.00e+00, 7.90e+04, 6.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 6.50e+04, 3.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 5.70e+04, 5.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 7.25e+04, 2.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 4.40e+04, 4.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 6.90e+04, 5.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 6.20e+04, 5.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 6.10e+04, 6.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 7.10e+04, 8.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 6.40e+04, 6.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 8.10e+04, 7.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 7.30e+04, 7.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 5.70e+04, 5.00e+00]])

In [55]:
# Criando a versão 3 do modelo
modelo_v3 = linear_model.LinearRegression()

In [56]:
# Treina o modelo
modelo_v3.fit(X,y)

In [57]:
# Uma previsão do modelo
modelo_v3.predict([[0.00e+00, 0.00e+00,1.00e+00,7.90e+04,6.00e+00]])

array([18105.0215775])

In [58]:
# Uma previsão do modelo
modelo_v3.predict([[0.00e+00, 1.00e+00,0.00e+00,5.70e+04,8.00e+00]])

array([15030.78454075])

In [59]:
# Uma previsão do modelo
modelo_v3.score(X,y)

0.9355612290620992

 ### Salvando o Modelo Treinado

In [60]:
acc_v1 = 0.9355612290620992
acc_v3 = 0.9355612290620992

In [61]:
acc_v1 > acc_v3

False

Embora a versão 3 tenha uma performance ligeiramente inferior que a versão 1, usaremos a versão 3 pois ela cumpre a suposição do algoritmo de machine learning de que os dados estão na mesma escala. A versão 2 pode ser descartada.

In [62]:
# Dump do melhor modelo
joblib.dump(modelo_v3, 'modelo_treinado.pkl')

['modelo_treinado.pkl']