<h1><b>Encoding</b></h1>
<p> O Encoding é uma técnica amplamente utilizada para transformar dados categóricos em dados numéricos para que possa ser utilizado técnicas de machine learning e realizar previsões no conjunto de dados, existem três tipos de Encoding sendo eles:</p>

<ul>
    <li> <b>Count-Frequency:</b> Uma técnica que substitui cada valor de uma variável categórica pela sua frequência de ocorrência na amostra de dados. Essa técnica pode ser usada para reduzir o número de categorias em variáveis categóricas com muitas categorias, ajudando a evitar problemas de dimensionalidade.
        <br>
    PS: Caso haja o mesmo número de ocorrências em variáveis diferentes elas serão substituidas pelo mesmo valor numérico, oque pode ocasionar na perda de informação.</li>
</ul>

![text](Images/count-frequency.png)

<ul>
    <li> <a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html">Label-Encoding:</a> Um método que transforma cada categoria de uma variável categórica em um número inteiro.
    <br>
    Não é muito indicada para uma grande quantidade de categorias.</li>
</ul>

![text](Images/label_encoding.png)

<ul>
    <li> <a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder">One-Hot Encoding:</a> Uma técnica que transforma cada categoria de uma variável categórica em uma variável binária distinta. Cada nova variável binária representa uma categoria e assume o valor 1 se a observação pertence à categoria e 0 caso contrário.</li>
</ul>

![text](Images/one-hot.png)

In [182]:
from platform import python_version
print("Versão Python Para Este Projeto:",python_version())

Versão Python Para Este Projeto: 3.10.9


In [183]:
# Instalando o watermark
!pip install -q -U watermark

In [184]:
# Imports
import pandas as pd
import numpy as np
from sklearn import linear_model
import warnings

warnings.filterwarnings("ignore")

In [185]:
%reload_ext watermark
%watermark -a "Airton Fabre" --iversion

Author: Airton Fabre

pandas : 1.5.3
numpy  : 1.23.5
sklearn: 1.2.1



In [186]:
# Carregando o conjunto de dados
df = pd.read_csv("Data/dataset.csv")
df

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Jaguar F-Type R,69000,18000,6
1,Jaguar F-Type R,35000,34000,3
2,Jaguar F-Type R,57000,26100,5
3,Jaguar F-Type R,22500,40000,2
4,Jaguar F-Type R,46000,31500,4
5,Mustang Mach 1,59000,29400,5
6,Mustang Mach 1,52000,32000,5
7,Mustang Mach 1,72000,19300,6
8,Mustang Mach 1,91000,12000,8
9,Mercedez Benz AMG GLE 53,67000,22000,6


In [187]:
df.shape

(13, 4)

In [188]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Modelo         13 non-null     object
 1   Kilometragem   13 non-null     int64 
 2   Preco_Venda    13 non-null     int64 
 3   Idade_Veiculo  13 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 544.0+ bytes


<p>Nosso conjunto de dados possui apenas a variável <b>Modelo</b> com o tipo categórico <i>(object)</i>, vamos fazer a transformação dos dados para o tipo numérico.</p>

<h1><b>Qual a Melhor Técnica de Encoding?</b></h1>
<p>Não existe melhor ou pior técnica, vai depender de qual é o objetivo do cliente ou do analista/cientista de dados, no entando no nosso conjunto de dados temos apenas três categorias diferentes e dentre essas três, duas delas tem o mesmo número de ocorrências, portanto não é indicado que seja feito o encoding do tipo <b>Count-Frequency</b> porque perderiamos as informações de três categorias, vamos aplicar o <b>Label Encoding</b> e o <b>One-Hot Encoding</b> e validar qual das duas tiveram melhor eficiencia no nosso dataset.</p>

<h1><b>One-Hot Encoding</b></h1>

In [189]:
# Convertendo a variável categórica para o tipo dummy
df_dummy = pd.get_dummies(df["Modelo"])

In [190]:
df_dummy

Unnamed: 0,Jaguar F-Type R,Mercedez Benz AMG GLE 53,Mustang Mach 1
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0
5,0,0,1
6,0,0,1
7,0,0,1
8,0,0,1
9,0,1,0


In [191]:
# Concatenando o dataframe original com o df_dummy
df_copy = pd.concat([df, df_dummy], axis = "columns")

In [192]:
df_copy

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo,Jaguar F-Type R,Mercedez Benz AMG GLE 53,Mustang Mach 1
0,Jaguar F-Type R,69000,18000,6,1,0,0
1,Jaguar F-Type R,35000,34000,3,1,0,0
2,Jaguar F-Type R,57000,26100,5,1,0,0
3,Jaguar F-Type R,22500,40000,2,1,0,0
4,Jaguar F-Type R,46000,31500,4,1,0,0
5,Mustang Mach 1,59000,29400,5,0,0,1
6,Mustang Mach 1,52000,32000,5,0,0,1
7,Mustang Mach 1,72000,19300,6,0,0,1
8,Mustang Mach 1,91000,12000,8,0,0,1
9,Mercedez Benz AMG GLE 53,67000,22000,6,0,1,0


In [193]:
# Excluindo a variável Modelo do nosso dataframe
df_copy.drop(columns=["Modelo"], inplace=True)

In [194]:
df_copy

Unnamed: 0,Kilometragem,Preco_Venda,Idade_Veiculo,Jaguar F-Type R,Mercedez Benz AMG GLE 53,Mustang Mach 1
0,69000,18000,6,1,0,0
1,35000,34000,3,1,0,0
2,57000,26100,5,1,0,0
3,22500,40000,2,1,0,0
4,46000,31500,4,1,0,0
5,59000,29400,5,0,0,1
6,52000,32000,5,0,0,1
7,72000,19300,6,0,0,1
8,91000,12000,8,0,0,1
9,67000,22000,6,0,1,0


In [195]:
# Definindo os dados de X (Dados de Entrada)
x = df_copy.drop(columns=["Preco_Venda"], axis=1)
x

Unnamed: 0,Kilometragem,Idade_Veiculo,Jaguar F-Type R,Mercedez Benz AMG GLE 53,Mustang Mach 1
0,69000,6,1,0,0
1,35000,3,1,0,0
2,57000,5,1,0,0
3,22500,2,1,0,0
4,46000,4,1,0,0
5,59000,5,0,0,1
6,52000,5,0,0,1
7,72000,6,0,0,1
8,91000,8,0,0,1
9,67000,6,0,1,0


In [196]:
# Definindo os dados de Y (Dados de Saída)
y = df_copy["Preco_Venda"]
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: Preco_Venda, dtype: int64

In [197]:
# Criando um modelo de regressão lineal
model_v1 = linear_model.LinearRegression()

In [198]:
# Treinando o modelo
model_v1.fit(x, y)

In [199]:
# Criando previsões
model_v1.predict(x)

array([18705.2723644 , 35286.78445645, 24479.19112468, 41245.76426391,
       29882.98779056, 28023.6135243 , 30614.46818502, 21879.57266964,
       12182.34562104, 26183.72387884, 18929.31674102, 20409.80511857,
       30477.15426156])

In [200]:
# Criando previsões Preço Venda - "Mustang Match 1"
model_v1.predict([[70000, 4, 0, 0, 1]])

array([25284.72411364])

In [201]:
# Criando previsões Preço Venda - "Mercedez Benz AMG GLE 53"
model_v1.predict([[70000, 4, 0, 1, 0]])

array([27738.2648509])

In [202]:
# Criando previsões Preço Venda - "Jaguar F-Type R"
model_v1.predict([[70000, 4, 1, 0, 0]])

array([21000.05752524])

In [203]:
# Acurácia do modelo
model_v1.score(x, y)

0.9417050937281082

<p>Temos 94% de acurácia no nosso modelo de machine learning, será que o <b>One-Hot Ecoding</b> é a melhor opção?, vamos utilizar também a técnica <b>Label Ecoding</b> e validar qual das duas tem a melhor acurácia para este exemplo em particular.</p>

<h1><b>Label Econding</b></h1>

In [204]:
from sklearn.preprocessing import LabelEncoder

In [205]:
# Criando uma cópia do dataframe original
df_label = df.copy()

In [206]:
# Visualizando o dataframe
df_label

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Jaguar F-Type R,69000,18000,6
1,Jaguar F-Type R,35000,34000,3
2,Jaguar F-Type R,57000,26100,5
3,Jaguar F-Type R,22500,40000,2
4,Jaguar F-Type R,46000,31500,4
5,Mustang Mach 1,59000,29400,5
6,Mustang Mach 1,52000,32000,5
7,Mustang Mach 1,72000,19300,6
8,Mustang Mach 1,91000,12000,8
9,Mercedez Benz AMG GLE 53,67000,22000,6


In [207]:
# Criando o objeto Encoder
le = LabelEncoder()

In [208]:
# Aplicando o Label Encoding
df_label["Modelo"] = le.fit_transform(df_label["Modelo"])

In [209]:
df_label

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,0,69000,18000,6
1,0,35000,34000,3
2,0,57000,26100,5
3,0,22500,40000,2
4,0,46000,31500,4
5,2,59000,29400,5
6,2,52000,32000,5
7,2,72000,19300,6
8,2,91000,12000,8
9,1,67000,22000,6


In [210]:
# Definindo os parâmetros de X (Dados de Entrada)
x = df_label.drop(columns="Preco_Venda", axis=1)
x

Unnamed: 0,Modelo,Kilometragem,Idade_Veiculo
0,0,69000,6
1,0,35000,3
2,0,57000,5
3,0,22500,2
4,0,46000,4
5,2,59000,5
6,2,52000,5
7,2,72000,6
8,2,91000,8
9,1,67000,6


In [211]:
# Definindo os parâmetros de Y (Dados de Saída)
y = df_label["Preco_Venda"]
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: Preco_Venda, dtype: int64

In [212]:
# Criando o modelo de regressão linear
model_v2 = linear_model.LinearRegression()

In [213]:
# Treinando o modelo
model_v2.fit(x, y)

In [214]:
# Verificando a acurácia
model_v2.score(x, y)

0.8803425650559956

<p>Usando o <b>Label Encoding</b> tivemos portanto uma acurácia de 88%.</p>

<h1><b>Conclusão:</b></h1>
<p>Utilizando a técnica <b>One-Hot Encoding</b> para este conjunto de dados, tivemos uma acurácia mais precisa. Mas podemos notar que os demais valores como <i>Kilometragem e Preco_Venda</i> estão em uma escala diferente, e isso pode ser um problema ao utilizar machine learning, portanto vamos normalizar os dados para que estejam na mesma escala numérica, vamos utilizar novamente a técnica <b>One-Hot Encoding</b> porém de uma maneira ligeiramente diferente.</p>

In [215]:
# Usando o dataframe original
df

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Jaguar F-Type R,69000,18000,6
1,Jaguar F-Type R,35000,34000,3
2,Jaguar F-Type R,57000,26100,5
3,Jaguar F-Type R,22500,40000,2
4,Jaguar F-Type R,46000,31500,4
5,Mustang Mach 1,59000,29400,5
6,Mustang Mach 1,52000,32000,5
7,Mustang Mach 1,72000,19300,6
8,Mustang Mach 1,91000,12000,8
9,Mercedez Benz AMG GLE 53,67000,22000,6


In [216]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

In [217]:
# Cria o Encoder com transformação
OHEncoder = ColumnTransformer([("Modelo", OneHotEncoder(), [0])], remainder="passthrough")

# o método ColumnTransformer basicamente transforma uma coluna a partir do seu nome (1° parâmetro)
# depois ele basicamente pergunta que tipo de transformação você quer aplicar na coluna em questão (2° parâmetro)
# caso o parâmetro "remainder='passthrough'" não fosse passado o ColumnTransformer faria a transformação da coluna
# e em seguida removeria as demais colunas

In [218]:
df_copy = df.copy()

In [219]:
# Definindo os dados de X
x = df_copy.drop(columns=["Preco_Venda"])
x

Unnamed: 0,Modelo,Kilometragem,Idade_Veiculo
0,Jaguar F-Type R,69000,6
1,Jaguar F-Type R,35000,3
2,Jaguar F-Type R,57000,5
3,Jaguar F-Type R,22500,2
4,Jaguar F-Type R,46000,4
5,Mustang Mach 1,59000,5
6,Mustang Mach 1,52000,5
7,Mustang Mach 1,72000,6
8,Mustang Mach 1,91000,8
9,Mercedez Benz AMG GLE 53,67000,6


In [220]:
# Definindo os dados de Y
y = df_copy["Preco_Venda"]
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: Preco_Venda, dtype: int64

In [221]:
# Aplicando o Encoder ao dataset X
X = OHEncoder.fit_transform(x)
X

array([[1.00e+00, 0.00e+00, 0.00e+00, 6.90e+04, 6.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 3.50e+04, 3.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 5.70e+04, 5.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 2.25e+04, 2.00e+00],
       [1.00e+00, 0.00e+00, 0.00e+00, 4.60e+04, 4.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 5.90e+04, 5.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 5.20e+04, 5.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 7.20e+04, 6.00e+00],
       [0.00e+00, 0.00e+00, 1.00e+00, 9.10e+04, 8.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 6.70e+04, 6.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 8.30e+04, 7.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 7.90e+04, 7.00e+00],
       [0.00e+00, 1.00e+00, 0.00e+00, 5.90e+04, 5.00e+00]])

In [222]:
# Criando o modelo de regressão linear final
model_v3 = linear_model.LinearRegression()

In [223]:
model_v3.fit(X, y)

In [224]:
# Criando uma previsão
model_v3.predict([[0, 0, 1, 45000, 4]])

array([34537.77647335])

In [225]:
model_v3.predict([[1, 0, 0, 50000, 4]])

array([28402.499413])

In [226]:
model_v3.score(X, y)

0.9417050937281083

<p> Após aplicar a transformação dos dados e normalizá-los obtivemos exatamente a mesma acurácia que da primeira vez, porém com um trabalho bem mais detalhado, agora os dados estão prontos para a modelagem preditiva.</p>

<h1><b>Fim</b></h1>