# 
# Análise de Dados Para Traçar Estratégias de Crescimento e Retenção da Base de Clientes

## 
## Introdução e Objetivo da Análise

Uma empresa precisa que seja desenvolvido um modelo preditivo capaz de prever o preço de venda de um veículo a partir de dados do modelo do veículo, a kilometragem e a idade (tempo de uso). O objetivo da empresa é aumentar a retenção da base atual de clientes e fornecer uma avaliação mais precisa sobre os carros para os clientes. Como analista de dados nosso objetivo é preparar os dados para modelagem preditiva a fim de obter o modelo mais preciso possível.

## 
## Carregando os Pacotes e Módulos

In [1]:
# Manipulaçao de dados
import pandas as pd
import numpy as np

# Encoding
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# Padronização dos dados
from sklearn.compose import ColumnTransformer

# Machine Learning
from sklearn import linear_model

# Salvar modelos de ML
import joblib

# Warnings
import warnings
warnings.filterwarnings("ignore")

In [2]:
# Versões do pacotes utilizados nesse projeto
%reload_ext watermark
%watermark -a "Danilo Carlesso" --iversions

Author: Danilo Carlesso

numpy  : 1.21.5
sklearn: 1.0.2
pandas : 1.4.4
joblib : 1.1.0



## 
## Carregando os Dados

In [3]:
# Carrega os dados
df = pd.read_csv("dados/dataset.csv")

In [4]:
# Shape
df.shape

(13, 4)

In [5]:
# Visualizando os dados
df

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo
0,Jaguar F-Type R,69000,18000,6
1,Jaguar F-Type R,35000,34000,3
2,Jaguar F-Type R,57000,26100,5
3,Jaguar F-Type R,22500,40000,2
4,Jaguar F-Type R,46000,31500,4
5,Mustang Mach 1,59000,29400,5
6,Mustang Mach 1,52000,32000,5
7,Mustang Mach 1,72000,19300,6
8,Mustang Mach 1,91000,12000,8
9,Mercedez Benz AMG GLE 53,67000,22000,6


In [6]:
# Tipo dos dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Modelo         13 non-null     object
 1   Kilometragem   13 non-null     int64 
 2   Preco_Venda    13 non-null     int64 
 3   Idade_Veiculo  13 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 544.0+ bytes


##  
## Aplicando Label Encoding

In [7]:
# Copia o df original
le_df = df.copy()

In [8]:
# Cria o objeto de Label Encoding
le = LabelEncoder()

In [9]:
# Aplica o Label Encoding a variável
le_df["ModeloCod"] = le.fit_transform(le_df["Modelo"])

In [10]:
# Remove a variável original
le_df.drop(columns=["Modelo"], inplace=True)

In [11]:
# Amostra dos dados
le_df.head()

Unnamed: 0,Kilometragem,Preco_Venda,Idade_Veiculo,ModeloCod
0,69000,18000,6,0
1,35000,34000,3,0
2,57000,26100,5,0
3,22500,40000,2,0
4,46000,31500,4,0


### 
### Criando Modelo Preditivo para Testar Efetividade do Label Encoding

> Como analista de dados Machine Learning não é trabalho nosso, entretanto, criando um modelo simples de machine learning podemos verificar e definir o melhor encoding possível dos dados para o projeto em questão, uma vez que os dados que estamos tratando é para análise preditiva (Machine Learning).

In [12]:
# Cria o modelo
modelo_v1 = linear_model.LinearRegression()

In [13]:
# Configurando as variáveis de treinamento
x = le_df.drop(columns=["Preco_Venda"])
y = le_df["Preco_Venda"]

In [14]:
# Treinando o modelo
modelo_v1.fit(x,y)

LinearRegression()

In [15]:
# Realizando previsões
modelo_v1.predict(x)

array([21097.26799326, 35669.46519981, 26161.25131906, 40888.38671831,
       30915.35825943, 28747.22473471, 30916.35943266, 23373.3650235 ,
       14794.78029901, 23319.88385735, 17016.39498987, 18255.90053156,
       27144.36164147])

In [16]:
# Verificando acurácia do modelo
modelo_v1.score(x,y)

0.8803425650559955

## 
## Aplicando One-Hot Encoding

In [17]:
# Copia o df original
ohe_df = df.copy()

In [18]:
# Cria o objeto de One-Hot Encoding
OHE = OneHotEncoder()

In [19]:
# Aplica o One-Hot Encoding e salva em um novo DataFrame
OneHotdf = pd.DataFrame( (OHE.fit_transform(ohe_df[["Modelo"]]).toarray()), columns=OHE.get_feature_names_out() )

In [20]:
# Amostra dos dados com One-Hot Encoding aplicado
OneHotdf.head()

Unnamed: 0,Modelo_Jaguar F-Type R,Modelo_Mercedez Benz AMG GLE 53,Modelo_Mustang Mach 1
0,1.0,0.0,0.0
1,1.0,0.0,0.0
2,1.0,0.0,0.0
3,1.0,0.0,0.0
4,1.0,0.0,0.0


In [21]:
# Concatenando os DataFrames
ohe_df = pd.concat([ohe_df, OneHotdf], axis=1)

In [22]:
# Visualizando os dados após aplicado One-Hot Encoding
ohe_df

Unnamed: 0,Modelo,Kilometragem,Preco_Venda,Idade_Veiculo,Modelo_Jaguar F-Type R,Modelo_Mercedez Benz AMG GLE 53,Modelo_Mustang Mach 1
0,Jaguar F-Type R,69000,18000,6,1.0,0.0,0.0
1,Jaguar F-Type R,35000,34000,3,1.0,0.0,0.0
2,Jaguar F-Type R,57000,26100,5,1.0,0.0,0.0
3,Jaguar F-Type R,22500,40000,2,1.0,0.0,0.0
4,Jaguar F-Type R,46000,31500,4,1.0,0.0,0.0
5,Mustang Mach 1,59000,29400,5,0.0,0.0,1.0
6,Mustang Mach 1,52000,32000,5,0.0,0.0,1.0
7,Mustang Mach 1,72000,19300,6,0.0,0.0,1.0
8,Mustang Mach 1,91000,12000,8,0.0,0.0,1.0
9,Mercedez Benz AMG GLE 53,67000,22000,6,0.0,1.0,0.0


In [23]:
# Removendo a variável original
ohe_df.drop(columns="Modelo", inplace=True)

### 
### Criando Modelo Preditivo para Testar Efetividade do One-Hot Encoding

In [24]:
# Cria o modelo
modelo_v2 = linear_model.LinearRegression()

In [25]:
# Configurando as variáveis de treinamento
x = ohe_df.drop(columns=["Preco_Venda"])
y = ohe_df["Preco_Venda"]

In [26]:
# Treinando o modelo
modelo_v2.fit(x,y)

LinearRegression()

In [27]:
# Realizando previsões
modelo_v2.predict(x)

array([18705.2723644 , 35286.78445645, 24479.19112468, 41245.76426391,
       29882.98779056, 28023.6135243 , 30614.46818502, 21879.57266964,
       12182.34562104, 26183.72387884, 18929.31674102, 20409.80511857,
       30477.15426156])

In [28]:
# Verificando acurácia do modelo
modelo_v2.score(x,y)

0.9417050937281082

## 
## Padronizando os Dados para Melhor Performance

In [29]:
# Copia do df original
df_final = df.copy()

In [30]:
# Cria o objeto de padronização dos dados e One-Hot Encoding
OHencoding = ColumnTransformer( [('Modelo', OneHotEncoder(), [0])], remainder="passthrough" )

In [31]:
# Aplica o One-Hot encoding e a padronização nos dados
x = OHencoding.fit_transform(df_final.drop(columns=["Preco_Venda"]))

In [32]:
# Variável alvo
y = df_final["Preco_Venda"]

### 
### Criando Modelo Preditivo para Testar Efetividade do One-Hot Encoding com os Dados Padronizados

In [33]:
# Cria o modelo
modelo_v3 = linear_model.LinearRegression()

In [34]:
# Treina o modelo
modelo_v3.fit(x,y)

LinearRegression()

In [35]:
# Realizando previsões
modelo_v3.predict(x)

array([18705.2723644 , 35286.78445645, 24479.19112468, 41245.76426392,
       29882.98779057, 28023.6135243 , 30614.46818502, 21879.57266964,
       12182.34562103, 26183.72387884, 18929.31674101, 20409.80511857,
       30477.15426156])

In [36]:
# Verificando acurácia do modelo
modelo_v3.score(x,y)

0.9417050937281082

## 
## Salvando os Dados Após o Tratamento

In [37]:
# Salva os dados após encoding
ohe_df.to_csv("dados/dataset_tratado.csv", index=False)

# Salva o modelo
joblib.dump(modelo_v3, "modelo/modelo_treinado.joblib")

['modelo/modelo_treinado.joblib']

## 
## Conclusão

Com base nos testes realizados podemos concluir que o melhor encoding a ser adotado para esse conjunto de dados seria o **One-Hot Encoding**, uma vez que o mesmo se mostrou mais performático em relação aos outros. Nos testes também realizei a padronização dos dados com One-Hot Encoding, entretanto, a acurácia foi a mesma do modelo que não havia sido padronizado, muito provavelmente devido o conjunto de dados ser pequeno, portanto, caso o conjunto de dados fosse maior, provavelmente a eficiência do modelo seria melhor.