<a href="https://colab.research.google.com/github/felipesayegg/Previs-o-de-Pre-os-de-Ve-culos/blob/main/RandonFlorestAuto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Estrutura do Documento

1. Introdução

Nesta sessão, introduzimos o propósito do projeto: Previsão de preços de veículos utilizando técnicas de aprendizado de máquina, com ênfase no algoritmo Random Forest.

 2. Coleta de Dados

Descrição do método de coleta de dados: Fonte dos dados, formato e possíveis desafios na obtenção e preparação inicial.

 3. Análise de Dados e Tratamento

- **3.1 Análise de Variáveis:**
  - Avaliação inicial para entender os dados disponíveis, incluindo tipos de variáveis e possíveis relações.

- **3.2 Análise Descritiva:**
  - Estatísticas básicas como média, mediana, desvio padrão, etc., para obter insights iniciais sobre a dispersão e centralização dos dados.

- **3.3 Tratando Outliers:**
  - Identificação e ajustes em valores extremos para evitar distorções nas análises subsequentes.

- **3.4 Tratamento de Valores Faltantes:**
  - Estratégias para lidar com dados ausentes, seja removendo ou imputando esses valores.

4. Pré-Processamento, Modelagem e Previsão

- **4.1 Pré-Processamento  (OneHot Encoding, Escalonamento e Variáveis Numéricas):**
  - **OneHot Encoding:** Transformação de variáveis categóricas em formato binário.
  - **Escalonamento:** Normalização/padronização das variáveis numéricas para consistência nos dados.
  - **Pré-Processamento de Variáveis Numéricas:**
    - Aplicação de normalização, padronização, tratamento de outliers e transformações numéricas como log e root, além da imputação de valores faltantes.

- **4.2 Divisão de Dados (Treinamento/Teste):**
  - Separação dos dados em conjuntos de treinamento e teste para validação do modelo.

- **4.3 Treinamento do Modelo Random Forest:**
  - Implementação e ajuste do modelo Random Forest usando o conjunto de dados de treinamento.

- **4.4 Avaliação de Desempenho do Modelo:**
  - Avaliação da eficácia do modelo utilizando métricas de desempenho apropriadas.

 5. Conclusão

Revisão dos resultados obtidos, discussões sobre as implicações dos achados e sugestões para trabalhos futuros.

# 1  Introdução - Previsão de Preços de Veículos com Random Forest  

## 📌 Desvendando o Mercado Automotivo  

Prever com precisão o preço de veículos é um desafio essencial no mercado automotivo, onde diversos fatores como quilometragem, potência do motor e tipo de combustível influenciam diretamente o valor final de um carro. Com um conjunto de dados extenso e diversificado, a tarefa exige uma abordagem robusta para lidar com a complexidade das variáveis e fornecer estimativas precisas.  

## 🎯 Problema de Regressão  

Este projeto tem como foco a **previsão dos preços de veículos** utilizando variáveis numéricas e categóricas que capturam diferentes aspectos dos automóveis. Como os preços são valores contínuos e influenciados por múltiplos fatores interdependentes, este problema se enquadra em uma **tarefa de regressão** no campo do aprendizado de máquina.  

## 💡 Solução Proposta  

Para lidar com esse desafio, utilizaremos o **Random Forest Regressor**, um modelo de aprendizado de máquina baseado em múltiplas árvores de decisão. Essa abordagem é amplamente reconhecida por sua capacidade de capturar padrões não lineares, reduzir o risco de overfitting e gerar previsões mais estáveis e confiáveis, especialmente em grandes volumes de dados.  

## 🎯 Objetivos do Projeto  

✅ Desenvolver um modelo preditivo capaz de estimar com precisão os preços dos veículos com base em suas características.  
✅ Compreender as interações entre as variáveis mais relevantes para identificar os fatores que mais impactam o valor de um carro.  
✅ Fornecer insights valiosos para consumidores, vendedores e analistas do setor automotivo.  

🚀 **Vamos construir um modelo eficiente e entender melhor o mercado de veículos!**  




# 2 - Coleta de dados

In [3]:

import pandas as pd                    # Importando a biblioteca Pandas, que é como uma planilha turbinada para analisar dados
import numpy as np                     # Importando a biblioteca NumPy, que ajuda a fazer contas e operações com números de forma eficiente
import matplotlib.pyplot as plt        # Importando a biblioteca Matplotlib, que serve para criar gráficos e visualizações
import seaborn as sns                  # Importando a biblioteca Seaborn, que deixa os gráficos mais bonitos e informativos
from sklearn.model_selection import train_test_split, GridSearchCV  # Importando ferramentas para dividir os dados e encontrar as melhores configurações do modelo
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder  # Importando ferramentas para preparar os dados para o modelo
from sklearn.ensemble import RandomForestRegressor  # Importando o modelo de Random Forest, que vamos usar para prever os preços
from sklearn.metrics import mean_absolute_error     # Importando a ferramenta para medir o quão bom o modelo está
import missingno as msno               # Importando uma biblioteca para visualizar dados faltantes (opcional)
import datetime                        # Importando a biblioteca para trabalhar com datas e horários
from datetime import datetime
# Importando a biblioteca para trabalhar com datas e horários.

In [4]:
dados = pd.read_csv('/content/autos.csv', encoding='ISO-8859-1', sep=',')
# Carregando o arquivo CSV 'autos.csv' que contém os dados dos carros.
# O encoding='ISO-8859-1' é para garantir que os caracteres especiais sejam lidos corretamente.
# O sep=',' indica que os valores no arquivo são separados por vírgulas.

In [5]:
dados.head() # Mostrar as 5 primeiras linhas do meu dataset

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000.0,0.0,benzin,volkswagen,,2016-03-24 00:00:00,0.0,70435.0,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000.0,5.0,diesel,audi,ja,2016-03-24 00:00:00,0.0,66954.0,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000.0,8.0,diesel,jeep,,2016-03-14 00:00:00,0.0,90480.0,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000.0,6.0,benzin,volkswagen,nein,2016-03-17 00:00:00,0.0,91074.0,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000.0,7.0,diesel,skoda,nein,2016-03-31 00:00:00,0.0,60437.0,2016-04-06 10:17:21


# 3 - Analise de dados e Tratamento

### 3.1 - Analise de variaveis

In [6]:
colunas_para_remover = [
    'dateCrawled', 'name', 'seller', 'offerType', 'dateCreated',
    'nrOfPictures', 'postalCode', 'lastSeen', 'monthOfRegistration'
]
# Criando uma lista com os nomes das colunas que não vamos usar no modelo.
# Essas colunas podem ter informações que não ajudam a prever o preço do carro.


In [7]:
dados = dados.drop(columns=colunas_para_remover, errors='ignore')
# Removendo as colunas da lista do DataFrame.
# O errors='ignore' faz com que o código ignore se alguma coluna não existir.

In [8]:
dados.head() # Mostrando as primeiras linhas do arquivo para ver como ficou depois de remover as colunas

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
0,480,test,,1993,manuell,0,golf,150000.0,benzin,volkswagen,
1,18300,test,coupe,2011,manuell,190,,125000.0,diesel,audi,ja
2,9800,test,suv,2004,automatik,163,grand,125000.0,diesel,jeep,
3,1500,test,kleinwagen,2001,manuell,75,golf,150000.0,benzin,volkswagen,nein
4,3600,test,kleinwagen,2008,manuell,69,fabia,90000.0,diesel,skoda,nein


Neste modelo de previsão de preço de veículos, mantivemos as seguintes variáveis, cada uma selecionada por sua contribuição significativa para prever o preço final do veículo:

- **price**: Variável alvo. Preço que estamos tentando prever.
- **abtest**: Indica a participação em testes A/B, podendo evidenciar variações na eficiência do marketing.
- **vehicleType**: O tipo do veículo (SUV, sedan, etc.) afeta diretamente o valor de mercado.
- **yearOfRegistration**: Ano de fabricação do veículo; veículos mais novos geralmente têm preços mais altos.
- **gearbox**: Tipo de câmbio (manual ou automático), que influenciam o preço devido a preferências regionais/culturais.
- **powerPS**: Potência do motor; motores mais potentes costumam ter preços mais elevados.
- **model**: O modelo pode variar bastante em preço dentro da mesma marca devido a características específicas.
- **kilometer**: Quilometragem rodada; menor quilometragem usualmente implica em maior valor.
- **fuelType**: Tipo de combustível (gasolina, diesel, etc.), que pode afetar o preço devido a custos operacionais.
- **brand**: Marca do veículo; marcas com maior prestígio frequentemente têm valores mais elevados.
- **notRepairedDamage**: Indica danos não reparados, podendo diminuir significativamente o valor de um veículo.

Essas variáveis foram escolhidas por sua relevância demonstrada na literatura e prática de modelagem preditiva de preços, capturando fatores críticos que influenciam a avaliação dos preços de veículos.

### 3.2 - Analise Descritiva

In [9]:
dados.describe() # Calculando estatísticas básicas sobre os dados, como média, mediana, desvio padrão, etc.
# Isso ajuda a entender como os dados estão distribuídos e a identificar possíveis problemas.

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer
count,301608.0,301608.0,301608.0,301607.0
mean,18647.13,2004.567856,115.718628,125512.952286
std,3969271.0,93.251163,197.016793,40195.072959
min,0.0,1000.0,0.0,5000.0
25%,1150.0,1999.0,70.0,100000.0
50%,2950.0,2003.0,105.0,150000.0
75%,7200.0,2008.0,150.0,150000.0
max,2147484000.0,9999.0,20000.0,150000.0


Estatísticas Descritivas das Variáveis Numéricas

Abaixo estão as estatísticas descritivas principais sobre as variáveis numéricas do conjunto de dados, obtidas através do método `describe()`:

Explicação dos Termos:
- **count**: Quantidade total de valores não nulos na variável.
- **mean**: Média aritmética dos valores.
- **std**: Desvio padrão, que mede a dispersão dos dados ao redor da média.
- **min**: Valor mínimo encontrado.
- **25%**: Percentil 25, indicando o valor abaixo do qual estão 25% dos dados.
- **50%** (mediana): Valor no meio do conjunto de dados (50% acima e 50% abaixo).
- **75%**: Percentil 75, indicando o valor abaixo do qual estão 75% dos dados.
- **max**: Valor máximo encontrado.

Resumo por Variável

1. **price** (Preço do veículo - variável alvo)
- **count**: 371,528 registros.
- **mean**: 17,291.4 unidades monetárias (valor médio).
- **std**: 3,587,954.6, indicando alta dispersão, possivelmente devido a valores outliers (veículos com preços extremamente altos).
- **min**: 0, indicando que alguns preços podem estar incorretos (exemplo de dados inválidos).
- **25%**: 1,150.
- **50% (mediana)**: 2,950.
- **75%**: 7,200.
- **max**: 2,147,483,647, um valor extremamente alto que pode ser um erro.

---

 2. **yearOfRegistration** (Ano de Registro do veículo)
- **count**: 371,528 registros.
- **mean**: 2004.58, sugerindo que a maioria dos veículos é relativamente recente (pós-2000).
- **std**: 92.87, indicando uma dispersão incomum, provavelmente devido a alguns valores de ano totalmente inválidos.
- **min**: 1000, claramente um valor errado.
- **25%**: 1999.
- **50% (mediana)**: 2003.
- **75%**: 2008.
- **max**: 9999, valor inválido.

---
3. **powerPS** (Potência do veículo, em cavalos)
- **count**: 371,528 registros.
- **mean**: 115.55 cv (potência média).
- **std**: 192.14, indicando dispersão significativa, possivelmente devido a valores anômalos (muito altos ou muito baixos).
- **min**: 0 cv, o que é inválido para veículos funcionais.
- **25%**: 70 cv.
- **50% (mediana)**: 105 cv.
- **75%**: 150 cv.
- **max**: 20,000 cv, um valor claramente irreal.

---

4. **kilometer** (Quilometragem percorrida)
- **count**: 371,528 registros.
- **mean**: 125,618.7 km (média de distância percorrida).
- **std**: 40,112.3, indicando dispersão razoável para quilometragem.
- **min**: 5,000 km, representando veículos praticamente novos.
- **25%**: 125,000 km.
- **50% (mediana)**: 150,000 km.
- **75%**: 150,000 km.
- **max**: 150,000 km, sugerindo que os valores podem ser truncados, com muitas observações concentradas na mesma faixa.

---

Conclusões
- Algumas variáveis apresentam **valores inválidos ou discrepantes**, como `yearOfRegistration` (anos fora do intervalo esperado), `powerPS` (potências irrealisticamente altas) e `price` (valores extremamente altos ou zero).
- Esses **outliers e valores inválidos podem ser tratados** antes do treinamento do modelo para evitar impacto negativo nos resultados.

### 3.3 - Tratando outliers

In [10]:
dados.loc[dados['price'] <= 100] # Verificando quantos dados tem com o valor a baixo de 100

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
7,0,test,limousine,1980,manuell,50,andere,40000.0,benzin,volkswagen,nein
40,0,test,,1990,,0,corsa,150000.0,benzin,opel,
60,1,control,suv,1994,manuell,286,,150000.0,,sonstige_autos,
91,1,control,limousine,1995,manuell,113,e_klasse,150000.0,diesel,mercedes_benz,nein
115,0,test,,2017,manuell,0,golf,5000.0,benzin,volkswagen,
...,...,...,...,...,...,...,...,...,...,...,...
301494,0,test,kleinwagen,1996,manuell,45,corsa,150000.0,benzin,opel,ja
301498,0,control,kleinwagen,2001,manuell,55,fiesta,125000.0,benzin,ford,nein
301521,0,test,,2017,manuell,90,laguna,150000.0,,renault,
301561,1,test,limousine,1998,manuell,102,,150000.0,benzin,audi,


In [11]:
dados.loc[dados['price'] >= 350000] # verificando quantos dados tem com valor acima de 350000

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
1846,579000,control,coupe,1980,manuell,277,andere,20000.0,benzin,bmw,nein
10649,420000,control,coupe,2004,manuell,483,911,50000.0,benzin,porsche,nein
14663,11111111,control,coupe,2003,manuell,64,polo,150000.0,benzin,volkswagen,
16889,1000000,control,kombi,1998,,0,mondeo,150000.0,benzin,ford,ja
20143,1250000,test,coupe,2016,manuell,500,911,5000.0,benzin,porsche,nein
...,...,...,...,...,...,...,...,...,...,...,...
280059,99999999,control,andere,1974,manuell,0,golf,150000.0,benzin,volkswagen,
281833,10000000,test,,2019,manuell,10,,5000.0,,sonstige_autos,ja
287835,12345678,test,kombi,2001,manuell,101,focus,150000.0,benzin,ford,nein
299872,12345678,test,kleinwagen,1996,manuell,60,polo,150000.0,,volkswagen,ja


In [12]:
mediana_preco = dados["price"].median()
mediana_preco

2950.0

In [13]:
# Substituindo valores de preço considerados muito baixos (abaixo de 100) pela mediana
dados.loc[dados['price'] < 100, 'price'] = mediana_preco

In [14]:
# Substituindo valores de preço considerados muito altos (acima de 350000) pela mediana
dados.loc[dados['price'] > 350000, 'price'] = mediana_preco

In [15]:
dados["price"].mean() # Calculando a média dos preços após tratamento

np.float64(5851.1054481313495)

In [16]:
dados.describe() # Analise descritiva dos dados agora com price tratado tirando outlier

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer
count,301608.0,301608.0,301608.0,301607.0
mean,5851.105448,2004.567856,115.718628,125512.952286
std,8798.884804,93.251163,197.016793,40195.072959
min,100.0,1000.0,0.0,5000.0
25%,1300.0,1999.0,70.0,100000.0
50%,2950.0,2003.0,105.0,150000.0
75%,7200.0,2008.0,150.0,150000.0
max,350000.0,9999.0,20000.0,150000.0


### 3.4 - Tratamento Valores faltantes

In [17]:
dados.info()
# Verificando informações sobre os dados, como o tipo de cada coluna e quantos valores não nulos existem.


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301608 entries, 0 to 301607
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   price               301608 non-null  int64  
 1   abtest              301608 non-null  object 
 2   vehicleType         270845 non-null  object 
 3   yearOfRegistration  301608 non-null  int64  
 4   gearbox             285259 non-null  object 
 5   powerPS             301608 non-null  int64  
 6   model               284943 non-null  object 
 7   kilometer           301607 non-null  float64
 8   fuelType            274474 non-null  object 
 9   brand               301607 non-null  object 
 10  notRepairedDamage   243085 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 25.3+ MB


In [18]:
print(dados.isnull().sum())
# Contando quantos valores nulos (faltantes) existem em cada coluna.

price                     0
abtest                    0
vehicleType           30763
yearOfRegistration        0
gearbox               16349
powerPS                   0
model                 16665
kilometer                 1
fuelType              27134
brand                     1
notRepairedDamage     58523
dtype: int64


In [19]:
moda_vehicle_type = dados['vehicleType'].mode()[0]
# Calculando a moda (valor mais frequente) da coluna 'vehicleType'.

In [20]:
# Exibe a moda calculada para verificar o resultado
print(f"A moda da coluna 'vehicleType' é: {moda_vehicle_type}")

A moda da coluna 'vehicleType' é: limousine


In [21]:
dados['vehicleType'] = dados['vehicleType'].fillna(moda_vehicle_type)
# Preenchendo os valores nulos da coluna 'vehicleType' com a moda.

In [22]:
# Verifica se ainda há valores nulos após a substituição
print(f"Valores nulos restantes na coluna 'vehicleType': {dados['vehicleType'].isnull().sum()}")

Valores nulos restantes na coluna 'vehicleType': 0


In [23]:
dados['gearbox'].value_counts()
# Contando quantos valores diferentes existem na coluna 'gearbox'.

Unnamed: 0_level_0,count
gearbox,Unnamed: 1_level_1
manuell,222675
automatik,62584


In [24]:
moda_gearbox = dados['gearbox'].mode()[0]
# Calculando a moda da coluna 'gearbox'.

# Exibe a moda calculada para verificar qual é o valor mais comum
print(f"A moda da coluna 'gearbox' é: {moda_gearbox}")

A moda da coluna 'gearbox' é: manuell


In [25]:
# Substitui valores nulos em 'gearbox' pela moda calculada
dados['gearbox'] = dados['gearbox'].fillna(moda_gearbox)

# Verifica se ainda existem valores nulos após a substituição
print(f"Valores nulos restantes na coluna 'gearbox': {dados['gearbox'].isnull().sum()}")

Valores nulos restantes na coluna 'gearbox': 0


In [26]:
dados['model'] = dados['model'].fillna('Desconhecido')
# Preenchendo os valores nulos da coluna 'model' com a string 'Desconhecido'

In [27]:
dados['model'].value_counts()
# Contando quantos valores diferentes existem na coluna 'model'.

Unnamed: 0_level_0,count
model,Unnamed: 1_level_1
golf,24361
andere,21496
3er,16708
Desconhecido,16665
polo,10652
...,...
rangerover,6
kalina,6
serie_3,3
serie_1,2


In [28]:
moda_fueltype = dados['fuelType'].mode()[0]
# Calculando a moda da coluna 'fuelType'.

dados['fuelType'] = dados['fuelType'].fillna(moda_fueltype)
# Preenchendo os valores nulos da coluna 'fuelType' com a moda.
# Verifica se restaram nulos
print(f"Valores nulos em 'fuelType': {dados['fuelType'].isnull().sum()}")

Valores nulos em 'fuelType': 0


In [29]:
# Contagem de valores únicos na coluna "notRepairedDamage"
dados['notRepairedDamage'].value_counts()
# Isso exibe quantos carros têm 'nein', 'ja' ou estão sem informação (NaN).

Unnamed: 0_level_0,count
notRepairedDamage,Unnamed: 1_level_1
nein,213652
ja,29433


In [30]:
# Definindo os valores padrão para preencher os valores ausentes de cada coluna
valores = {
    'model': 'golf',             # Preencher valores ausentes com 'golf' (modelo mais frequente ou outro pré-definido)
    'fuelType': 'benzin',        # Preencher valores ausentes com 'benzin' (gasolina)
    'notRepairedDamage': 'nein'  # Preencher valores ausentes com 'nein' (não tem danos reparados)
}

In [31]:
# Preenchendo valores ausentes nas colunas especificadas
dados.fillna(value=valores, inplace=True)
# O método fillna preenche os valores ausentes (NaN) com os dados definidos no dicionário 'valores'.

In [32]:
print("Valores nulos por coluna (antes do One-Hot Encoding):")
print(dados.isnull().sum())
# Verificando se ainda existem valores nulos no DataFrame.

Valores nulos por coluna (antes do One-Hot Encoding):
price                 0
abtest                0
vehicleType           0
yearOfRegistration    0
gearbox               0
powerPS               0
model                 0
kilometer             1
fuelType              0
brand                 1
notRepairedDamage     0
dtype: int64


# 4 - Pré-Processamento, Modelagem e Previsão

###   4.1 - Pré-Processamento (OneHot Encoding e Escalonamento)

Pré-Processamento Categorico

In [33]:
categorical_columns = ['abtest', 'vehicleType', 'gearbox', 'model', 'fuelType', 'brand', 'notRepairedDamage']
# Criando uma lista com os nomes das colunas que são categorias (textos).

In [34]:
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
# Criando um objeto OneHotEncoder para transformar as colunas de texto em números.
# O sparse_output=False faz com que o resultado seja uma matriz densa (mais fácil de usar).
# O handle_unknown='ignore' faz com que o código ignore categorias desconhecidas.

In [35]:

encoded_data = encoder.fit_transform(dados[categorical_columns])
# Transformando as colunas de texto em números usando o OneHotEncoder.

In [36]:
print(f"Shape dos dados codificados: {encoded_data.shape}")
# Imprimindo o formato dos dados transformados.

Shape dos dados codificados: (301608, 314)


In [37]:
colunas_codificadas = encoder.get_feature_names_out(categorical_columns)
# Obtendo os nomes das novas colunas criadas pelo OneHotEncoder.

In [38]:
print(f"Número de colunas geradas de codificação: {len(colunas_codificadas)}")
# Imprimindo o número de colunas criadas.

Número de colunas geradas de codificação: 314


In [39]:
encoded_df = pd.DataFrame(encoded_data, columns=colunas_codificadas)
# Criando um DataFrame com os dados transformados.

In [40]:
encoded_df.index = dados.index
# Definindo o índice do novo DataFrame para que seja o mesmo do DataFrame original.

In [41]:
df_final = pd.concat([dados, encoded_df], axis=1)
# Juntando o DataFrame original com o DataFrame transformado.

In [42]:
df_final.drop(columns=categorical_columns, inplace=True)
# Removendo as colunas originais de texto.

In [43]:

print("Status de valores nulos após a concatenação final:")
print(df_final.isnull().sum().sum())
# Verificando se ainda existem valores nulos no DataFrame.

Status de valores nulos após a concatenação final:
1


In [44]:
nulos = df_final[df_final.isnull().any(axis=1)]
# Criando um DataFrame com as linhas que contêm valores nulos.

In [45]:
nulos.head(30)
# Mostrando as primeiras linhas do DataFrame com valores nulos.

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,abtest_control,abtest_test,vehicleType_andere,vehicleType_bus,vehicleType_cabrio,vehicleType_coupe,...,brand_sonstige_autos,brand_subaru,brand_suzuki,brand_toyota,brand_trabant,brand_volkswagen,brand_volvo,brand_nan,notRepairedDamage_ja,notRepairedDamage_nein
301607,2800,2007,75,,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0


Pré-Processamento Numerico

In [46]:
ano = datetime.now().year
# Obtendo o ano atual.

In [47]:

df_final["idade_veiculo"] = ano - df_final["yearOfRegistration"]
# Criando uma coluna com a idade do veículo.

In [48]:

df_final.drop("yearOfRegistration", axis=1, inplace=True)
# Removendo a coluna original com o ano de registro.

In [49]:
columns_to_scale = ['powerPS', 'kilometer', 'idade_veiculo']
# Criando uma lista com os nomes das colunas que serão padronizadas.


In [50]:
padronizacao = StandardScaler()
# Criando um objeto StandardScaler para padronizar os dados.

In [51]:
scaled_values = padronizacao.fit_transform(df_final[columns_to_scale])
# Padronizando as colunas selecionadas.

In [52]:
df_final[columns_to_scale] = scaled_values
# Substituindo as colunas originais pelas colunas padronizadas.

In [53]:
print(df_final.head())
# Mostrando as primeiras linhas do DataFrame para ver como ficou depois de padronizar os dados.

   price   powerPS  kilometer  abtest_control  abtest_test  \
0    480 -0.587355   0.609206             0.0          1.0   
1  18300  0.377031  -0.012762             0.0          1.0   
2   9800  0.239987  -0.012762             0.0          1.0   
3   1500 -0.206676   0.609206             0.0          1.0   
4   3600 -0.237131  -0.883517             0.0          1.0   

   vehicleType_andere  vehicleType_bus  vehicleType_cabrio  vehicleType_coupe  \
0                 0.0              0.0                 0.0                0.0   
1                 0.0              0.0                 0.0                1.0   
2                 0.0              0.0                 0.0                0.0   
3                 0.0              0.0                 0.0                0.0   
4                 0.0              0.0                 0.0                0.0   

   vehicleType_kleinwagen  ...  brand_subaru  brand_suzuki  brand_toyota  \
0                     0.0  ...           0.0           0.0      

### 4.2 - Divisão de Dados (Treinamento/Teste)

In [54]:
X = df_final.drop(columns=['price'])
# Criando uma matriz com as colunas que serão usadas para prever o preço.


In [55]:
y = df_final['price']
# Criando um vetor com os preços dos carros.

In [56]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Dividindo os dados em dois conjuntos: um para treinar o modelo e outro para testar o modelo.
# O test_size=0.2 indica que 20% dos dados serão usados para teste.
# O random_state=42 garante que a divisão seja sempre a mesma.

In [57]:
print("Tamanho do conjunto de treinamento:", X_train.shape)
# Imprimindo o formato do conjunto de treinamento.

Tamanho do conjunto de treinamento: (241286, 317)


In [58]:
print("Tamanho do conjunto de teste:", X_test.shape)
# Imprimindo o formato do conjunto de teste.

Tamanho do conjunto de teste: (60322, 317)


### 4.3 Treinamento do Modelo Random Forest:

In [59]:
# Definindo um conjunto de parâmetros simples para acelerar o treinamento
param_grid = {
    'n_estimators': [40, 60],  # Número de árvores na floresta. Aqui estamos testando apenas 2 valores
    'max_depth': [5, 10],       # Profundidade máxima de cada árvore. Testaremos árvores mais rasas para reduzir custos computacionais
    'min_samples_split': [2, 5] # Número mínimo de amostras necessárias para dividir um nó
}


In [60]:
grid_search = GridSearchCV(
    estimator=RandomForestRegressor(random_state=42),  # Modelo Random Forest com uma semente fixa para reprodutibilidade
    param_grid=param_grid,                             # Passando o grid de parâmetros configurado acima
    cv=3,                                              # Validação cruzada com 3 folds (divisões dos dados para validação)
    scoring='neg_mean_absolute_error',                 # Métrica para medir o desempenho (neste caso, MAE - erro absoluto)
    verbose=2,                                         # Mostra mensagens detalhadas no console durante a execução
    n_jobs=-1                                          # Utiliza todos os núcleos disponíveis no hardware para acelerar o cálculo
)


In [61]:
# Ajustando o modelo aos dados de treinamento
grid_search.fit(X_train, y_train)
# O GridSearchCV irá testar todas as combinações de parâmetros acima, calculando os resultados para cada combinação usando validação cruzada

Fitting 3 folds for each of 8 candidates, totalling 24 fits


In [62]:
# Exibindo os melhores hiperparâmetros encontrados
print("Melhores hiperparâmetros:", grid_search.best_params_)


Melhores hiperparâmetros: {'max_depth': 10, 'min_samples_split': 2, 'n_estimators': 60}


In [63]:
# Selecionando o melhor modelo encontrado pelo GridSearchCV
modelo_rf = grid_search.best_estimator_
# Aqui, grid_search.best_estimator_ pega o modelo com a melhor combinação de parâmetros para futuros testes

In [64]:
# Realiza as previsões com o modelo treinado utilizando os dados de teste
y_pred = modelo_rf.predict(X_test)


# 5-  Avaliação de Desempenho do Modelo

In [65]:
# Calcula o Mean Absolute Error (MAE) para medir o erro médio absoluto
mae = mean_absolute_error(y_test, y_pred)

In [66]:
# Exibe os resultados das métricas
print("Mean Absolute Error (MAE):", mae)

Mean Absolute Error (MAE): 1838.3872805686995


# 6 - Conclusão

## Projeto de Previsão de Preços de Veículos com Random Forest

### Visão Geral

Este projeto tem como objetivo desenvolver um modelo de aprendizado de máquina capaz de prever com precisão os preços de veículos no mercado automotivo brasileiro. A área automotiva é um setor de grande importância econômica no Brasil, movimentando bilhões de reais anualmente. A capacidade de prever com precisão os preços dos veículos pode trazer diversos benefícios para diferentes stakeholders, incluindo:

*   **Consumidores:** Auxílio na tomada de decisão de compra, permitindo identificar oportunidades e evitar preços inflacionados.
*   **Revendedores:** Otimização da precificação de veículos, maximizando lucros e minimizando perdas.
*   **Instituições Financeiras:** Avaliação de riscos em financiamentos e seguros de veículos, garantindo operações mais seguras e rentáveis.

Para alcançar esse objetivo, utilizamos o algoritmo Random Forest, um modelo de ensemble learning baseado em múltiplas árvores de decisão. O Random Forest é conhecido por sua capacidade de capturar padrões não lineares, reduzir o risco de overfitting e gerar previsões mais estáveis e confiáveis, especialmente em grandes volumes de dados.

### Metodologia

O projeto foi desenvolvido seguindo as seguintes etapas:

1.  **Coleta de Dados:** Obtivemos um conjunto de dados contendo informações sobre veículos usados, incluindo características como marca, modelo, ano de fabricação, quilometragem, tipo de combustível, entre outros.
2.  **Análise Exploratória de Dados (EDA):** Realizamos uma análise detalhada dos dados para entender sua distribuição, identificar outliers e valores faltantes, e avaliar a relação entre as variáveis.
3.  **Pré-Processamento de Dados:**
    *   **Tratamento de Outliers:** Identificamos e tratamos outliers nos preços dos veículos, substituindo valores extremos pela mediana para evitar distorções nas análises subsequentes.
    *   **Tratamento de Valores Faltantes:** Imputamos valores faltantes em variáveis categóricas utilizando a moda, ou seja, o valor mais frequente em cada coluna.
    *   **Codificação de Variáveis Categóricas:** Transformamos variáveis categóricas em formato numérico utilizando a técnica de One-Hot Encoding, que cria colunas binárias para cada categoria.
    *   **Escalonamento de Variáveis Numéricas:** Padronizamos as variáveis numéricas utilizando o StandardScaler, que ajusta a média para 0 e o desvio padrão para 1, garantindo que todas as variáveis tenham a mesma escala.
4.  **Seleção de Features:** Removemos colunas que não contribuem para o modelo preditivo, como identificadores únicos e informações irrelevantes.
5.  **Engenharia de Features:** Criamos novas variáveis a partir das existentes, como a idade do veículo, que pode ser mais informativa do que o ano de fabricação original.
6.  **Divisão de Dados:** Dividimos os dados em conjuntos de treinamento e teste para avaliar o desempenho do modelo em dados não vistos.
7.  **Treinamento do Modelo:** Treinamos o modelo Random Forest utilizando o conjunto de dados de treinamento e ajustamos os hiperparâmetros utilizando a técnica de GridSearchCV, que busca a melhor combinação de parâmetros através de validação cruzada.
8.  **Avaliação do Modelo:** Avaliamos o desempenho do modelo utilizando o conjunto de dados de teste e a métrica Mean Absolute Error (MAE), que mede a diferença média absoluta entre os preços previstos e os preços reais.

### Resultados

Nesta primeira etapa do projeto, o modelo Random Forest apresentou um Mean Absolute Error (MAE) de $$inserir valor do MAE aqui]. Isso significa que, em média, as previsões do modelo estão $$inserir valor do MAE aqui] unidades monetárias distantes dos preços reais dos veículos.

Embora este resultado seja promissor, reconhecemos que há espaço para melhorias significativas. O MAE obtido indica que o modelo ainda não está suficientemente preciso para ser utilizado em aplicações práticas.

### Próximos Passos

Para melhorar o desempenho do modelo, planejamos explorar as seguintes estratégias:

1.  **Otimização de Hiperparâmetros:** Realizar uma busca mais exaustiva no espaço de hiperparâmetros do Random Forest, utilizando técnicas como RandomizedSearchCV ou Bayesian Optimization, para encontrar a combinação ideal de parâmetros.
2.  **Engenharia de Features:** Criar novas variáveis a partir das existentes, como interações entre variáveis, transformações não lineares ou indicadores de tendência de mercado.
3.  **Inclusão de Novas Variáveis:** Incorporar novas variáveis ao modelo, como informações detalhadas sobre o estado do veículo, dados de mercado (oferta e demanda), indicadores econômicos e características regionais.
4.  **Técnicas Avançadas de Imputação:** Utilizar métodos de imputação mais sofisticados, como KNN Imputer ou MICE, para lidar com os valores faltantes de forma mais precisa.
5.  **Modelos Mais Complexos:** Avaliar o uso de modelos mais avançados, como redes neurais, gradient boosting (e.g., XGBoost, LightGBM) ou modelos de ensemble learning (e.g., stacking), que podem capturar relações não lineares e interações complexas entre as variáveis.
6.  **Análise de Erros:** Realizar uma análise detalhada dos erros do modelo, identificando os tipos de veículos ou situações em que ele tem maior dificuldade em prever os preços, e ajustar o modelo de acordo.

###  Consideraões finais

Acreditamos que, ao implementar essas melhorias, será possível desenvolver um modelo de previsão de preços de veículos mais preciso e robusto, que possa trazer benefícios significativos para o mercado automotivo brasileiro. Este é apenas o primeiro passo em direção a um modelo preditivo mais refinado e útil. Continuaremos a iterar e aprimorar nosso trabalho para alcançar resultados ainda melhores.