<a href="https://colab.research.google.com/github/felipesayegg/CarPriceEstimator/blob/main/MultilayerPerceptronAuto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Introdu√ß√£o - Previs√£o de Pre√ßos de Ve√≠culos com MLP

## üìå Desvendando o Potencial das Redes Neurais no Mercado Automotivo

Prever com precis√£o o pre√ßo de ve√≠culos continua a ser um desafio essencial no mercado automotivo. Neste projeto, abordamos essa tarefa utilizando modelos avan√ßados de redes neurais, especificamente o **Perceptron Multicamadas (MLP)**. As redes neurais s√£o conhecidas por capturar rela√ß√µes complexas e padr√µes nos dados, o que pode levar a previs√µes mais precisas e robustas.

## üéØ Abordagem de Aprendizado de M√°quina

Esta iniciativa tem como foco a **previs√£o dos pre√ßos de ve√≠culos** utilizando um conjunto diversificado de caracter√≠sticas dos autom√≥veis. Enviado forma√ß√£o rica e variada, empregaremos t√©cnicas de redes neurais para modelagem de relacionamento entre vari√°veis em um contexto de regress√£o.

## üí° Solu√ß√£o Proposta com MLP

Para enfrentar esse desafio, implementaremos o **MLP Regressor**, uma estrutura de rede neural que se destaca na modelagem de dados complexos. Espera-se que essa abordagem melhore as previs√µes ao detectar padr√µes sutis nos dados que algoritmos mais simples podem n√£o capturar.

## üéØ Objetivos do Projeto

- Desenvolver um modelo preditivo eficiente para **estimar pre√ßos dos ve√≠culos** com base em suas caracter√≠sticas.
- Entender as **intera√ß√µes entre vari√°veis** para identificar fatores que mais impactam o valor do carro.
- Fornecer **insights valiosos** para consumidores, vendedores e analistas do setor automotivo.

üöÄ **Vamos explorar o poder das redes neurais no mercado de ve√≠culos!**

# 2 - Import de Biblioteca e Coleta de dados

In [92]:
# Importa√ß√£o das bibliotecas necess√°rias para o projeto

import pandas as pd                  # Importando a biblioteca Pandas, utilizada para manipula√ß√£o e an√°lise de dados em formato de tabela (DataFrame)
import numpy as np                   # Importando a biblioteca NumPy, que nos ajuda a trabalhar com matrizes e c√°lculos num√©ricos de forma eficiente
import matplotlib.pyplot as plt      # Importando a biblioteca Matplotlib, usada para criar gr√°ficos e visualiza√ß√µes intuitivas
import seaborn as sns                # Importando a biblioteca Seaborn, que torna os gr√°ficos do Matplotlib mais bonitos e f√°ceis de interpretar

from sklearn.model_selection import train_test_split  # Utilizado para dividir os dados em conjuntos de treino e teste de forma automatizada
from sklearn.preprocessing import StandardScaler      # Ferramenta para normalizar (padronizar) vari√°veis num√©ricas, garantindo consist√™ncia nos dados
from sklearn.preprocessing import OneHotEncoder       # T√©cnica para transformar vari√°veis categ√≥ricas em formato num√©rico (codifica√ß√£o one-hot)
from sklearn.neural_network import MLPRegressor       # Modelo de Perceptron Multicamadas para regress√£o linear usado neste projeto
from sklearn.metrics import mean_absolute_error, mean_squared_error  # M√©tricas para avaliar o desempenho das previs√µes feitas pelo modelo

from datetime import datetime        # M√≥dulo para trabalhar com datas e calcular a idade dos ve√≠culos com base no ano de registro

In [93]:
# Carregando os dados em um DataFrame do Pandas
dados = pd.read_csv('/content/autos.csv', encoding='ISO-8859-1')  # O arquivo autos.csv cont√©m informa√ß√µes sobre os ve√≠culos
# - O par√¢metro encoding='ISO-8859-1' garante a leitura correta de caracteres especiais
# - Adjuste o caminho '/content/autos.csv' se seu arquivo estiver em outro local

dados.head()  # Exibindo as primeiras 5 linhas do dataset para conferir sua estrutura e os tipos de dados dispon√≠veis

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3T√úRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


# 3 - 4. Limpeza e Pr√©-Processamento dos Dados

### 3.1 - Analise de variaveis

In [94]:
# Removendo colunas desnecess√°rias
colunas_para_remover = [
    'dateCrawled', 'name', 'seller', 'offerType', 'dateCreated',
    'nrOfPictures', 'postalCode', 'lastSeen', 'monthOfRegistration'
]  # Estas colunas foram identificadas como irrelevantes para a previs√£o de pre√ßos


In [95]:
# Excluindo as colunas listadas acima
dados.drop(columns=colunas_para_remover, inplace=True, errors='ignore')  # Removendo as colunas diretamente do DataFrame


In [96]:
# Tratando valores outliers (extremos) na vari√°vel de pre√ßo
mediana_preco = dados["price"].median()  # Calculando a mediana do pre√ßo para substituir valores impr√≥prios
dados.loc[dados['price'] < 100, 'price'] = mediana_preco  # Substituindo valores menores que 100 pela mediana
dados.loc[dados['price'] > 350000, 'price'] = mediana_preco  # Substituindo valores maiores que 350000 pela mediana


In [97]:
# Criando uma nova vari√°vel: idade do ve√≠culo
ano_atual = datetime.now().year  # Obtendo o ano corrente para calcular a idade do ve√≠culo
dados['idade_veiculo'] = ano_atual - dados['yearOfRegistration']  # Calculando a idade como diferen√ßa entre o ano atual e o ano de registro


In [98]:
# Excluindo a coluna original "yearOfRegistration", pois j√° extra√≠mos a informa√ß√£o relevante (idade do ve√≠culo)
dados.drop('yearOfRegistration', axis=1, inplace=True)

In [99]:

# Verificando as altera√ß√µes no DataFrame
dados.head()  # Agora o DataFrame cont√©m apenas as colunas relevantes para o modelo

Unnamed: 0,price,abtest,vehicleType,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage,idade_veiculo
0,480,test,,manuell,0,golf,150000,benzin,volkswagen,,32
1,18300,test,coupe,manuell,190,,125000,diesel,audi,ja,14
2,9800,test,suv,automatik,163,grand,125000,diesel,jeep,,21
3,1500,test,kleinwagen,manuell,75,golf,150000,benzin,volkswagen,nein,24
4,3600,test,kleinwagen,manuell,69,fabia,90000,diesel,skoda,nein,17


Neste modelo de previs√£o de pre√ßo de ve√≠culos, mantivemos as seguintes vari√°veis, cada uma selecionada por sua contribui√ß√£o significativa para prever o pre√ßo final do ve√≠culo:

- **price**: Vari√°vel alvo. Pre√ßo que estamos tentando prever.
- **abtest**: Indica a participa√ß√£o em testes A/B, podendo evidenciar varia√ß√µes na efici√™ncia do marketing.
- **vehicleType**: O tipo do ve√≠culo (SUV, sedan, etc.) afeta diretamente o valor de mercado.
- **yearOfRegistration**: Ano de fabrica√ß√£o do ve√≠culo; ve√≠culos mais novos geralmente t√™m pre√ßos mais altos.
- **gearbox**: Tipo de c√¢mbio (manual ou autom√°tico), que influenciam o pre√ßo devido a prefer√™ncias regionais/culturais.
- **powerPS**: Pot√™ncia do motor; motores mais potentes costumam ter pre√ßos mais elevados.
- **model**: O modelo pode variar bastante em pre√ßo dentro da mesma marca devido a caracter√≠sticas espec√≠ficas.
- **kilometer**: Quilometragem rodada; menor quilometragem usualmente implica em maior valor.
- **fuelType**: Tipo de combust√≠vel (gasolina, diesel, etc.), que pode afetar o pre√ßo devido a custos operacionais.
- **brand**: Marca do ve√≠culo; marcas com maior prest√≠gio frequentemente t√™m valores mais elevados.
- **notRepairedDamage**: Indica danos n√£o reparados, podendo diminuir significativamente o valor de um ve√≠culo.

Essas vari√°veis foram escolhidas por sua relev√¢ncia demonstrada na literatura e pr√°tica de modelagem preditiva de pre√ßos, capturando fatores cr√≠ticos que influenciam a avalia√ß√£o dos pre√ßos de ve√≠culos.

### 3.2 - Analise Descritiva

In [100]:
dados.describe() # Calculando estat√≠sticas b√°sicas sobre os dados, como m√©dia, mediana, desvio padr√£o, etc.
# Isso ajuda a entender como os dados est√£o distribu√≠dos e a identificar poss√≠veis problemas.

Unnamed: 0,price,powerPS,kilometer,idade_veiculo
count,371528.0,371528.0,371528.0,371528.0
mean,5832.207995,115.549477,125618.688228,20.422003
std,8739.660684,192.139578,40112.337051,92.866598
min,100.0,0.0,5000.0,-7974.0
25%,1300.0,70.0,125000.0,17.0
50%,2950.0,105.0,150000.0,22.0
75%,7200.0,150.0,150000.0,26.0
max,350000.0,20000.0,150000.0,1025.0


Estat√≠sticas Descritivas das Vari√°veis Num√©ricas

Abaixo est√£o as estat√≠sticas descritivas principais sobre as vari√°veis num√©ricas do conjunto de dados, obtidas atrav√©s do m√©todo `describe()`:

Explica√ß√£o dos Termos:
- **count**: Quantidade total de valores n√£o nulos na vari√°vel.
- **mean**: M√©dia aritm√©tica dos valores.
- **std**: Desvio padr√£o, que mede a dispers√£o dos dados ao redor da m√©dia.
- **min**: Valor m√≠nimo encontrado.
- **25%**: Percentil 25, indicando o valor abaixo do qual est√£o 25% dos dados.
- **50%** (mediana): Valor no meio do conjunto de dados (50% acima e 50% abaixo).
- **75%**: Percentil 75, indicando o valor abaixo do qual est√£o 75% dos dados.
- **max**: Valor m√°ximo encontrado.

Resumo por Vari√°vel

1. **price** (Pre√ßo do ve√≠culo - vari√°vel alvo)
- **count**: 371,528 registros.
- **mean**: 17,291.4 unidades monet√°rias (valor m√©dio).
- **std**: 3,587,954.6, indicando alta dispers√£o, possivelmente devido a valores outliers (ve√≠culos com pre√ßos extremamente altos).
- **min**: 0, indicando que alguns pre√ßos podem estar incorretos (exemplo de dados inv√°lidos).
- **25%**: 1,150.
- **50% (mediana)**: 2,950.
- **75%**: 7,200.
- **max**: 2,147,483,647, um valor extremamente alto que pode ser um erro.

---

 2. **yearOfRegistration** (Ano de Registro do ve√≠culo)
- **count**: 371,528 registros.
- **mean**: 2004.58, sugerindo que a maioria dos ve√≠culos √© relativamente recente (p√≥s-2000).
- **std**: 92.87, indicando uma dispers√£o incomum, provavelmente devido a alguns valores de ano totalmente inv√°lidos.
- **min**: 1000, claramente um valor errado.
- **25%**: 1999.
- **50% (mediana)**: 2003.
- **75%**: 2008.
- **max**: 9999, valor inv√°lido.

---
3. **powerPS** (Pot√™ncia do ve√≠culo, em cavalos)
- **count**: 371,528 registros.
- **mean**: 115.55 cv (pot√™ncia m√©dia).
- **std**: 192.14, indicando dispers√£o significativa, possivelmente devido a valores an√¥malos (muito altos ou muito baixos).
- **min**: 0 cv, o que √© inv√°lido para ve√≠culos funcionais.
- **25%**: 70 cv.
- **50% (mediana)**: 105 cv.
- **75%**: 150 cv.
- **max**: 20,000 cv, um valor claramente irreal.

---

4. **kilometer** (Quilometragem percorrida)
- **count**: 371,528 registros.
- **mean**: 125,618.7 km (m√©dia de dist√¢ncia percorrida).
- **std**: 40,112.3, indicando dispers√£o razo√°vel para quilometragem.
- **min**: 5,000 km, representando ve√≠culos praticamente novos.
- **25%**: 125,000 km.
- **50% (mediana)**: 150,000 km.
- **75%**: 150,000 km.
- **max**: 150,000 km, sugerindo que os valores podem ser truncados, com muitas observa√ß√µes concentradas na mesma faixa.

---

Conclus√µes
- Algumas vari√°veis apresentam **valores inv√°lidos ou discrepantes**, como `yearOfRegistration` (anos fora do intervalo esperado), `powerPS` (pot√™ncias irrealisticamente altas) e `price` (valores extremamente altos ou zero).
- Esses **outliers e valores inv√°lidos podem ser tratados** antes do treinamento do modelo para evitar impacto negativo nos resultados.

# 5. Codifica√ß√£o e Normaliza√ß√£o (Pr√©-Processamento)

In [101]:
# Convertendo vari√°veis categ√≥ricas para o formato num√©rico (OneHot Encoding)
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')  # Configurando o codificador para ignorar categorias desconhecidas

In [102]:
dados_categoricos = encoder.fit_transform(dados[['vehicleType', 'gearbox', 'model', 'fuelType', 'brand']])  # Executando o OneHot Encoding nas colunas categ√≥ricas

In [103]:
# Normalizando vari√°veis num√©ricas (Standard Scaling)
scaler = StandardScaler()  # Criando o objeto de padroniza√ß√£o
dados_numericos = scaler.fit_transform(dados[['powerPS', 'kilometer', 'idade_veiculo']])  # Padronizando as colunas num√©ricas relevantes

In [104]:
# Concatena√ß√£o de dados num√©ricos e categ√≥ricos em uma √∫nica matriz de entrada (X)
X = np.hstack((dados_numericos, dados_categoricos))  # Combina√ß√£o horizontal das vari√°veis normalizadas e codificadas
y = dados['price']  # Definindo 'y' como a vari√°vel-alvo contendo os pre√ßos dos ve√≠culos

# 6. Divis√£o dos Dados (Treinamento e Teste)

In [105]:
# Separando os dados em conjuntos de treino e teste para avaliar o desempenho do modelo
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)  # - 80% dos dados para treino
# - 20% dos dados para teste
# - A divis√£o √© feita aleatoriamente, mas usando uma semente (random_state) para garantir reprodutibilidade

# 7. Treinamento e Avalia√ß√£o do Modelo MLP

In [106]:
# Configurando o modelo de regress√£o com Perceptron Multicamadas de forma otimizada para menor tempo de execu√ß√£o
mlp = MLPRegressor(
    hidden_layer_sizes=(50, 25),  # Reduzir para duas camadas ocultas menores (50 e 25 neur√¥nios)
    activation='relu',            # Fun√ß√£o de ativa√ß√£o ReLU mant√©m a n√£o-linearidade na rede
    solver='adam',                # Adam √© um otimizador eficiente para esse tipo de rede
    max_iter=200,                 # Reduzindo o n√∫mero m√°ximo de √©pocas para acelerar o treino
    random_state=42               # Semente para reprodutibilidade das execu√ß√µes
)


In [107]:
# Treinando o modelo com os dados de treinamento
mlp.fit(X_train, y_train)



In [108]:
# Realizando previs√µes no conjunto de teste
y_pred_train = mlp.predict(X_train)  # Previs√µes para o conjunto de treinamento
y_pred_test = mlp.predict(X_test)    # Previs√µes para o conjunto de teste

In [110]:
# Calculando o MAE (Mean Absolute Error) e o RMSE (Root Mean Squared Error)
mae_train = mean_absolute_error(y_train, y_pred_train)
mae_test = mean_absolute_error(y_test, y_pred_test)


In [113]:
# Exibindo os resultados obtidos
print(f"MAE no conjunto de treinamento: {mae_train}")



MAE no conjunto de treinamento: 1955.4239032311098


MAE no Conjunto de Treinamento (mae_train): Valor de 1955.42

Este valor indica que, em m√©dia, as previs√µes do modelo no conjunto de treinamento est√£o erradas por aproximadamente 1955.42 unidades monet√°rias em compara√ß√£o aos valores reais.

In [114]:
print(f"MAE no conjunto de teste: {mae_test}")

MAE no conjunto de teste: 2002.9604419473287


MAE no Conjunto de Teste (mae_test): Valor de 2002.96

Este √© o resultado que realmente importa para avaliar a capacidade de generaliza√ß√£o do modelo. Um MAE de 2002.96 significa que, ao prever pre√ßos de ve√≠culos novos (n√£o vistos durante o treinamento), o modelo falha, em m√©dia, por cerca de 2002.96 unidades monet√°rias.

# 6. Conclus√£o

## Vis√£o Geral

Este projeto teve como objetivo desenvolver um modelo de aprendizado de m√°quina para prever pre√ßos de ve√≠culos no mercado automotivo brasileiro, utilizando uma rede neural Perceptron Multicamadas (MLP). Dada a relev√¢ncia econ√¥mica do setor automotivo no Brasil, com movimentos financeiros significativos anualmente, um modelo preditivo robusto √© essencial para oferecer vantagens competitivas. Essas vantagens incluem:

- **Consumidores:** Melhoria na escolha do ve√≠culo e identifica√ß√£o de boas oportunidades de compra.
- **Revendedores:** Possibilita precifica√ß√µes mais precisas e, consequentemente, maximiza√ß√£o dos lucros.
- **Institui√ß√µes Financeiras:** Ajuda na adequa√ß√£o de riscos em financiamentos e seguros, gerando opera√ß√µes mais seguras e lucrativas.

## Metodologia

O projeto foi estruturado em v√°rias etapas principais:

### 1. Coleta e Carregamento de Dados

Foram utilizados dados de ve√≠culos usados, cada um com caracter√≠sticas detalhadas como pre√ßo, quilometragem, marca, modelo, e pot√™ncia do motor. O arquivo `autos.csv` foi processado com cuidado para assegurar a leitura correta dos dados, utilizando `ISO-8859-1` para tratar caracteres especiais.

### 2. An√°lise Explorat√≥ria e Pr√©-Processamento

#### An√°lise de Vari√°veis e Limpeza

- **Remo√ß√£o de Colunas Irrelevantes:**
  Eliminamos colunas que n√£o contribu√≠am para a predi√ß√£o, como informa√ß√µes relacionadas a datas e identificadores.
  
- **Tratamento de Outliers:**
  Valores de pre√ßo muito baixos (abaixo de 100) ou muito altos (acima de 350000) foram substitu√≠dos pela mediana, evitando distor√ß√µes na modelagem.
  
- **Tratamento de Valores Faltantes:**
  Usamos estrat√©gias como a moda para preencher lacunas em vari√°veis categ√≥ricas (e.g., `vehicleType`, `gearbox`, `fuelType`).

#### Engenharia de Features e Normaliza√ß√£o

- **Engenharia de Features:**
  Criada a vari√°vel `idade_veiculo` para refletir a diferen√ßa entre o ano atual e o ano de registro, fator crucial na deprecia√ß√£o.
  
- **Escalonamento Num√©rico:**
  Vari√°veis como `powerPS`, `kilometer`, e `idade_veiculo` foram padronizadas com o `StandardScaler`.
  
- **Codifica√ß√£o Categ√≥rica:**
  Adotamos One-Hot Encoding para converter vari√°veis categ√≥ricas em formato num√©rico.

### 3. Modelagem com Perceptron Multicamadas (MLP)

Um modelo de Perceptron Multicamadas foi usado devido √† sua capacidade de capturar rela√ß√µes complexas entre as caracter√≠sticas. A arquitetura incluiu duas camadas ocultas com (50, 25) neur√¥nios, usando a fun√ß√£o de ativa√ß√£o `ReLU`, maximizando a capacidade preditiva.

### Resultados

O MLP apresentou um **Mean Absolute Error (MAE)** de aproximadamente **2002.96** no conjunto de teste, indicando uma precis√£o robusta e consistente nas previs√µes feitas sobre pre√ßos de ve√≠culos novos. Esse n√≠vel de precis√£o √© adequadamente satisfat√≥rio para muitas aplica√ß√µes pr√°ticas no setor.

### Conclus√£o e Pr√≥ximos Passos

Os resultados encorajadores obtidos pelo MLP abrem portas para futuras melhorias e maior precis√£o. Algumas das √°reas recomendadas para explora√ß√£o futura incluem:

- **Otimiza√ß√£o de Hiperpar√¢metros:** Explorar mais profundamente diferentes configura√ß√µes para camadas e neur√¥nios pode ajudar a aumentar a precis√£o.
  
- **Inclus√£o de Novas Vari√°veis:** Considere integrar vari√°veis macroecon√¥micas ou informa√ß√µes mais detalhadas sobre os ve√≠culos para enriquecer o contexto do modelo.
  
- **Desenvolvimentos em Engenharia de Features:** Continue inovando na cria√ß√£o de vari√°veis que possam capturar nuances adicionais no comportamento dos pre√ßos dos ve√≠culos.