# ANÁLISE EXPLORATÓRIA, LIMPEZA E TRANFORMAÇÃO - PARTE 3

# INSTALAÇÃO E CARREGAMENTO DOS PACOTES

In [None]:
# Importando os pacotes 
import numpy as np
import pandas as pd
import matplotlib as mat
import matplotlib.pyplot as plt
import colorsys
import seaborn as sns
plt.style.use('seaborn-talk')
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline

In [None]:
# Carregando os dados
df = pd.read_csv('dataset.csv', sep = ',', encoding = 'utf-8')

In [None]:
df.dtypes

In [None]:
df.shape

In [None]:
# Transformando as variáveis Ano, Cilindros, Volume_Motor e Airbag para object
df['Ano'] = df['Ano'].astype(str)
df['Cilindros'] = df['Cilindros'].astype(str)
df['Airbag'] = df['Airbag'].astype(str)
df['Portas'] = df['Portas'].astype(str)

In [None]:
# Criando uma cópia do dataframne
df1 = df.copy()

In [None]:
# Resumo
print("Linhas: ", df1.shape[0])
print("Colunas: ", df1.shape[1])
print("\nVariáveis: \n", df1.columns.tolist())
print("\nValores Ausentes: \n" , df1.isnull().sum())
print("\nValores Únicos: \n", df1.nunique())

In [None]:
# Colunas numéricas (quantitativas)
colunas_numericas = ['Preco_Seguro', 'Volume_Motor','Quilometragem']

In [None]:
# Colunas categóricas
colunas_categoricas = ['Fabricante', 'Modelo', 'Ano', 'Categoria', 'Interior_Couro', 'Tipo_Combustivel', 'Cilindros', 'Tipo_Cambio', 'Tracao_Rodas', 'Portas', 'Rodas', 'Cor', 'Airbag']

In [None]:
# Verifica se o total de variáveis está coberto nos objetos anteriores
len(colunas_numericas) + len(colunas_categoricas) == 16

In [None]:
# Dataframes com os tipos diferentes de variáveis
df_num = df1[colunas_numericas]
df_cat = df1[colunas_categoricas]

In [None]:
# Sumário estatístico das variáveis numéricas
sumario_num = pd.DataFrame(index = df_num.columns)
sumario_num['Tipo de Dado'] = df_num.dtypes.values
sumario_num['Registros Não Nulos'] = df_num.count().values
sumario_num['Registros Não Zero'] = df_num.astype(bool).sum(axis = 0)
sumario_num['% Populado'] = round(sumario_num['Registros Não Nulos'] / df_num.shape[0]*100,2)
sumario_num['Valores Únicos'] = df_num.nunique().values
sumario_num['Mean'] = round(df_num.mean(),2)
sumario_num['Std'] = round(df_num.std(),2)
sumario_num['Min'] = round(df_num.min(),2)
sumario_num['Max'] = round(df_num.max(),2)
sumario_num

In [None]:
# Sumário estatístico das variáveis categóricas
sumario_cat = pd.DataFrame(index = df_cat.columns)
sumario_cat['Tipo de Dado'] = df_cat.dtypes.values
sumario_cat['Registros Não Nulos'] = df_cat.count().values
sumario_cat['% Populado'] = round(sumario_cat['Registros Não Nulos'] / df_cat.shape[0]*100,2)
sumario_cat['# Valores Únicos'] = df_cat.nunique().values

# Adiciona mais uma coluna com valores mais comuns
temp = []
for coluna in colunas_categoricas:
    temp.append(df_cat[coluna].value_counts().idxmax())
sumario_cat['Valores Mais Comuns'] = temp
sumario_cat

In [None]:
# Variável 1 - Preco_Seguro
df1['Preco_Seguro'].describe().round(2)

In [None]:
# Variável 2 - Fabricante
fabricante = df1['Fabricante'].value_counts().rename_axis('Fabricante').reset_index(name = 'Total')
fabricante

In [None]:
# Variável 3 - Modelo
modelo = df1['Modelo'].value_counts().rename_axis('Modelo').reset_index(name = 'Total')
modelo

In [None]:
# Variável 4 - Ano
ano = df['Ano'].value_counts().rename_axis('Ano').reset_index(name = 'Total')
ano

In [None]:
# Variável 5 - Categoria
categoria = df1['Categoria'].value_counts().rename_axis('Categoria').reset_index(name = 'Total')
categoria

In [None]:
# Variável 6 - Interior_Couro
interior_couro = df1['Interior_Couro'].value_counts().rename_axis('Interior_Couro').reset_index(name = 'Total')
interior_couro

In [None]:
# Variável 7 - Tipo_Combustivel
tipo_combustivel = df1['Tipo_Combustivel'].value_counts().rename_axis('Tipo_Combustivel').reset_index(name = 'Total')
tipo_combustivel

In [None]:
# Variável 8 - Volume_Motor
df1['Volume_Motor'].describe().round(2)

In [None]:
# Variável 9 - Quilometragem
df1['Quilometragem'].describe().round(2)

In [None]:
# Variável 10 - Cilindros
cilindros = df1['Cilindros'].value_counts().rename_axis('Cilindros').reset_index(name = 'Total')
cilindros

In [None]:
# Variável 11 - Tipo_Cambio
tipo_cambio = df1['Tipo_Cambio'].value_counts().rename_axis('Tipo_Cambio').reset_index(name = 'Total')
tipo_cambio

In [None]:
# Variável 12 - Tracao_Rodas
tracao_rodas = df1['Tracao_Rodas'].value_counts().rename_axis('Tracao_Rodas').reset_index(name = 'Total')
tracao_rodas

In [None]:
# Variável 13 - Portas
portas = df1['Portas'].value_counts().rename_axis('Portas').reset_index(name = 'Total')
portas

In [None]:
# Variável 14 - Rodas
rodas = df1['Rodas'].value_counts().rename_axis('Rodas').reset_index(name = 'Total')
rodas

In [None]:
# Variável 15 - Cor
cor = df1['Cor'].value_counts().rename_axis('Cor').reset_index(name = 'Total')
cor

In [None]:
# Variável 16 - Airbag
airbag = df1['Airbag'].value_counts().rename_axis('Airbag').reset_index(name = 'Total')
airbag

In [None]:
df2 = df1.copy()

In [None]:
df2.head(5)

In [None]:
# Criando o encoder para variáveis categóricas
from sklearn.preprocessing import LabelEncoder
lb = LabelEncoder()

# Aplica o encoder nas variáveis que estão com string
df2['Fabricante'] = lb.fit_transform(df2['Fabricante'])
df2['Modelo'] = lb.fit_transform(df2['Modelo'])
df2['Categoria'] = lb.fit_transform(df2['Categoria'])
df2['Interior_Couro'] = lb.fit_transform(df2['Interior_Couro'])
df2['Tipo_Combustivel'] = lb.fit_transform(df2['Tipo_Combustivel'])
df2['Cilindros'] = lb.fit_transform(df2['Cilindros'])
df2['Tipo_Cambio'] = lb.fit_transform(df2['Tipo_Cambio'])
df2['Tracao_Rodas'] = lb.fit_transform(df2['Tracao_Rodas'])
df2['Portas'] = lb.fit_transform(df2['Portas'])
df2['Rodas'] = lb.fit_transform(df2['Rodas'])
df2['Cor'] = lb.fit_transform(df2['Cor'])
df2['Airbag'] = lb.fit_transform(df2['Airbag'])
df2['Ano'] = lb.fit_transform(df2['Ano'])

# Remove valores missing eventualmente gerados
df2.dropna(inplace = True)

In [None]:
df2.head(5)

In [None]:
# Matriz de Correlação 
corr = df2.corr().stack().reset_index(name="correlation")

sns.set_theme(style = 'whitegrid', font='sans-serif', font_scale=1)
plt.figure(figsize = (10, 10))
fig1 = sns.relplot(data=corr, x="level_0", y="level_1", hue="correlation", size="correlation",
                    palette="vlag", hue_norm=(-1, 1), edgecolor=".8", height=10, sizes=(150, 300))
plt.title("Matriz de Correlação")


In [None]:
# Correlação
df2.corr()["Preco_Seguro"]

# SELEÇÃO DE VARIÁVEIS

In [None]:
# Eliminação Recursiva de Variáveis

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# Separando o array em componentes de input e output
dados = df2.values
x = dados[:,1:16]
y = dados[:,0]

# Criação do modelo
eliminacao_recursiva = LogisticRegression()

# RFE
rfe = RFE(eliminacao_recursiva, 3)
fit = rfe.fit(x, y)

# Print dos resultados
print("Variáveis Preditoras:", df2.columns[1:16])
print("Variáveis Selecionadas: %s" % fit.support_)
print("Ranking dos Atributos: %s" % fit.ranking_)
print("Número de Melhores Atributos: %d" % fit.n_features_)

In [None]:
# Criando uma cópia do dataframne e removendo as colunas
df3 = df2.copy()
df3.drop(columns=["Fabricante", 'Tipo_Combustivel', 'Tipo_Cambio', 'Tracao_Rodas', 'Portas', 'Rodas', 
                  'Interior_Couro'],inplace=True)

In [None]:
df3.head(5)

# PREPARAÇÃO DOS DADOS (PRÉ-PROCESSAMENTO)

In [None]:
# PADRONIZAÇÃO - Padronizando os dados (0 para a média, 1 para o desvio padrão)

from sklearn.preprocessing import StandardScaler

# Separando o array em componentes de input (X) e output (Y)
dados = df3.values
x = dados[:,1:9]
y = dados[:,0]

# Gerando o novo padrão
scaler = StandardScaler().fit(x)
dados_padronizados = scaler.transform(x)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df3.values)
print("\nDados Padronizados: \n\n", dados_padronizados[0:5,:])

In [None]:
# NORMALIZAÇÃO - Transformando os dados para a mesma escala (entre 0 e 1)
from sklearn.preprocessing import MinMaxScaler

# Separando o array em componentes de input (X) e output (Y)
dados_norm = df3.values
x_norm = dados_norm[:,1:9]
y = dados[:,0]

# Gerando a nova escala (normalizando os dados)
scaler = MinMaxScaler(feature_range = (0, 1))
dados_normalizados = scaler.fit_transform(x_norm)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df3.values)
print("\nDados Normalizados: \n\n", dados_normalizados[0:5,:])

# MODELAGEM PREDITIVA

# RANDOM FOREST

In [None]:
# Separando os dados PADRONIZADOS em conjuntos de treino e teste
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(dados_padronizados, y, test_size = 0.30)
print(x_treino.shape, y_treino.shape, x_teste.shape, y_teste.shape)

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos PADRONIZADOS
from sklearn.ensemble import RandomForestRegressor

modelo_v1 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v1.fit(x_treino, y_treino)
modelo_v1.score(x_treino, y_treino)

# Previsões
valores_previstos_v1 = modelo_v1.predict(x_teste)

In [None]:
# Score do modelo_v1 nos dados de teste
v1_acuracia = modelo_v1.score(x_teste, y_teste)
print("Acurácia nos Dados de Teste: %.2f%%" % (v1_acuracia * 100.0))

In [None]:
# Avaliando o modelo utilizando o CROSS VALIDATION
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# Definindo os valores para os folds
num_folds = 20

# Separando os dados em folds
kfold = KFold(num_folds, True)

# Criando o modelo
modelo_CV1 = modelo_v1
resultado_v1 = cross_val_score(modelo_CV1, x_treino, y_treino, cv = kfold)

# Usamos a média e o desvio padrão

print("Acurácia Final: %.2f%%" % (resultado_v1.mean() * 100.0))

In [None]:
# Resultados para o dataframe de comparação dos modelos
acuracia_v1 = (v1_acuracia * 100.0).round(3)
#acuracia_final = (resultado_v1.mean() * 100.0).round(3)

In [None]:
# Dicionário de métricas e metadados do modelo_v1

RFR_dict_v1 = {'Modelo':'Random Forest Regressor',
               'Versão':'1',
               'Dados':'Padronizados',
              'Acuracia': acuracia_v1,
              'CV_acuracia': 'xxxxx'}

In [None]:
# Separando os dados NORMALIZADOS em conjuntos de treino e teste

x_treino1, x_teste1, y_treino1, y_teste1 = train_test_split(dados_normalizados, y, test_size = 0.30)
print(x_treino1.shape, y_treino1.shape, x_teste1.shape, y_teste1.shape)

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos dados Normalizados
from sklearn.ensemble import RandomForestRegressor

modelo_v2 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v2.fit(x_treino1, y_treino1)
modelo_v2.score(x_treino1, y_treino1)

# Previsões
valores_previstos_v2 = modelo_v2.predict(x_teste1)

In [None]:
# Score do modelo_v1 nos dados de teste
v2_acuracia = modelo_v2.score(x_teste1, y_teste1)
print("Acurácia nos Dados de Teste: %.2f%%" % (v2_acuracia * 100.0))

In [None]:
# Avaliando o modelo utilizando o CROSS VALIDATION

# Definindo os valores para os folds
num_folds = 20

# Separando os dados em folds
kfold = KFold(num_folds, True)

# Criando o modelo
modelo_CV2 = modelo_v2
resultado_v2 = cross_val_score(modelo_CV2, x_treino1, y_treino1, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Final: %.2f%%" % (resultado_v2.mean() * 100.0))

In [None]:
# Resultados para o dataframe de comparação dos modelos
acuracia_v2 = (v2_acuracia * 100.0).round(3)
#acuracia_final2 = (resultado_v2.mean() * 100.0).round(3)

In [None]:
# Dicionário de métricas e metadados do modelo_v2

RFR_dict_v2 = {'Modelo':'Random Forest Regressor',
               'Versão':'2',
               'Dados':'Normalizados',
              'Acuracia': acuracia_v2,
              'CV_acuracia': 'xxxxx'}

In [None]:
# NORMALIZAÇÃO E PADRONIZAÇÃO

# Gerando o novo padrão
scaler = StandardScaler().fit(dados_normalizados)
dados_norm_padr = scaler.transform(dados_normalizados)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", df3.values)
print("\nDados Padronizados: \n\n", dados_norm_padr[0:5,:])

In [None]:
# Separando os dados NORMALIZADOS E PADRONIZADOS em conjuntos de treino e teste

x_treino2, x_teste2, y_treino2, y_teste2 = train_test_split(dados_norm_padr, y, test_size = 0.30)
print(x_treino1.shape, y_treino1.shape, x_teste1.shape, y_teste1.shape)

In [None]:
# Criando o objeto de RANDOM FOREST - Utilização dos PADRONIZADOS E NORMALIZADOS
from sklearn.ensemble import RandomForestRegressor

modelo_v3 = RandomForestRegressor()

# Treinando o modelo com dados de treino e checando o score
modelo_v3.fit(x_treino2, y_treino2)
modelo_v3.score(x_treino2, y_treino2)

# Previsões
valores_previstos_v3 = modelo_v3.predict(x_teste2)

In [None]:
# Score do modelo_v1 nos dados de teste
v3_acuracia = modelo_v3.score(x_teste2, y_teste2)
print("Acurácia nos Dados de Teste: %.2f%%" % (v3_acuracia * 100.0))

In [None]:
# Avaliando o modelo utilizando o CROSS VALIDATION

# Definindo os valores para os folds
num_folds = 20

# Separando os dados em folds
kfold = KFold(num_folds, True)

# Criando o modelo
modelo_CV3 = modelo_v3
resultado_v3 = cross_val_score(modelo_CV3, x_treino2, y_treino2, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Final: %.2f%%" % (resultado_v3.mean() * 100.0))

In [None]:
# Resultados para o dataframe de comparação dos modelos
acuracia_v3 = (v3_acuracia * 100.0).round(3)
#acuracia_final3 = (resultado_v3.mean() * 100.0).round(3)

In [None]:
# Dicionário de métricas e metadados do modelo_v3

RFR_dict_v3 = {'Modelo':'Random Forest Regressor',
               'Versão':'3',
               'Dados':'Normalizados',
              'Acuracia': acuracia_v3,
              'CV_acuracia': 'xxxxx'}

In [None]:
# Criando o objeto de SVM - Utilização dos PADRONIZADOS
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score, roc_auc_score
from sklearn import svm
import time

# Cria o modelo
modelo_v4 = svm.SVC(kernel = 'linear')

# Treinamento
start = time.time()
modelo_v4.fit(x_treino, y_treino)
end = time.time()
print('Tempo de Treinamento do Modelo:', end - start)

In [None]:
# Previsões
valoresprevistos_v4 = modelo_v4.predict(x_teste)

In [None]:
# Score do modelo_v4 nos dados de teste
#v4_acuracia = modelo_v4.score(x_teste, y_teste)
#print("Acurácia nos Dados de Teste: %.2f%%" % (v4_acuracia * 100.0))

In [None]:
v4_acuracia = accuracy_score(valoresprevistos_v4, y_teste)
v4_acuracia

In [None]:
# Resultados para o dataframe de comparação dos modelos
acuracia_v4 = (v4_acuracia * 100.0).round(3)
# acuracia_final4 = (resultado_v4.mean() * 100.0).round(3)

In [None]:
# Dicionário de métricas e metadados do modelo_v4

SVM_dict_v4 = {'Modelo':'Support Vector Machine',
               'Versão':'4',
               'Dados':'Padronizados',
              'Acuracia': acuracia_v4,
              'CV_acuracia': 'xxxxx'}

In [None]:
# Criando o objeto de SVM - Utilização dos NORMALIZADOS

# Cria o modelo
modelo_v5 = svm.SVC(kernel = 'linear')

# Treinamento
start = time.time()
modelo_v5.fit(x_treino2, y_treino2)
end = time.time()
print('Tempo de Treinamento do Modelo:', end - start)

In [None]:
# Previsões
valoresprevistos_v5 = modelo_v5.predict(x_teste2)

In [None]:
# Score do modelo_v5 nos dados de teste
#v5_acuracia = modelo_v5.score(x_teste2, y_teste2)
#print("Acurácia nos Dados de Teste: %.2f%%" % (v5_acuracia * 100.0))

In [None]:
v5_acuracia = accuracy_score(valoresprevistos_v5, y_teste2)
v5_acuracia

In [None]:
# Resultados para o dataframe de comparação dos modelos
acuracia_v5 = (v5_acuracia * 100.0).round(3)
#acuracia_final5 = (resultado_v5.mean() * 100.0).round(3)

In [None]:
# Dicionário de métricas e metadados do modelo_v4

SVM_dict_v5 = {'Modelo':'Support Vector Machine',
               'Versão':'5',
               'Dados':'Normalizados',
              'Acuracia': acuracia_v5,
              'CV_acuracia': 'xxxxx'}

# COMPARAÇÃO ENTRE OS MODELOS

In [None]:
# Concatena todos os dicionários em um dataframe
resumo = pd.DataFrame({'Modelo_v1':pd.Series(RFR_dict_v1),
                       'Modelo_v2':pd.Series(RFR_dict_v2),
                       'Modelo_v3':pd.Series(RFR_dict_v3),
                       'Modelo_v4':pd.Series(SVM_dict_v4),
                       'Modelo_v5':pd.Series(SVM_dict_v5)})
resumo

# OTIMIZAÇÃO DO MODELO SELECIONADO

# ENGENHARIA DE ATRIBUTOS

In [None]:
# Construindo a categoria Outros na Variável Modelo

In [None]:
modelo = df1['Modelo'].value_counts().rename_axis('Modelo').reset_index(name = 'Total')
modelo.tail(900)

# AJUSTES DE HIPERPARÂMETROS

In [None]:
# RANDOM SEARCH PARAMETER TUNING
# Este método gera amostras dos parâmetros dos algoritmos a partir de uma distribuição randômica uniforme para um número fixo
# de iterações. Um modelo é construído e testado para cada combinação de parâmetros.

from sklearn.model_selection import RandomizedSearchCV
modelo_hp = RandomForestRegressor()
x_treino_final = x_treino2
y_treino_final = y_treino2

# Definindo os valores que serão testados
iteracoes = 50

# Definindo os valores que serão testados
valores_grid = {'n_estimators': [100, 150, 200, 250, 300], 'min_samples_leaf': [1, 2, 3], 'criterion': ['mse', 'mae'], 'max_features': ['auto', 'sqrt', 'log2']}

# Criando o grid
rsearch = RandomizedSearchCV(estimator = modelo_hp, 
                             param_distributions = valores_grid, 
                             n_iter = iteracoes)
rsearch.fit(x_treino_final, y_treino_final)

# Print dos resultados
print("Acurácia: %.2f" % (rsearch.best_score_ * 100))
print("Melhores Parâmetros do Modelo:\n", rsearch.best_estimator_)

# PREVISÃO COM O MODELO FINAL

In [None]:
# Produz a matriz com os novos dados de entrada para a previsão
Modelo = 565
Ano = 42
Categoria = 9
Volume_Motor = 55
Quilometragem = 107800
Cilindros = 9
Cor = 5
Airbag = 4


# Lista com os valores das variáveis
dados_novo_cliente = [Modelo, Ano, Categoria, Volume_Motor, Quilometragem, Cilindros, Cor, Airbag]

# Reshape
novo_cliente = np.array(dados_novo_cliente).reshape(1, -1)

# Previsão
print("Preço previsto para o Convênio: R$ %.2f" % (modelo_v3.predict(novo_cliente)))

In [None]:
df3.head(5)

# SALVANDO O MELHOR MODELO

In [None]:
import pickle

# Salvando o modelo
arquivo = 'MODELO_FINAL.sav'
pickle.dump(modelo_v3, open(arquivo, 'wb'))
print("Modelo salvo!")

In [None]:
# Carregando o arquivo
modelo = pickle.load(open(arquivo, 'rb'))
modelo_prod = modelo_v3.score(x_teste2, y_teste2)
print("Modelo carregado!")

# Print do resultado
print("Acurácia nos Dados de Teste: %.2f%%" % (modelo_prod * 100.0))