<a href="https://colab.research.google.com/github/felipesayegg/Previs-o-de-Pre-os-de-Ve-culos/blob/main/RandonFlorestAuto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Estrutura do Documento

1. Introdu√ß√£o

Nesta sess√£o, introduzimos o prop√≥sito do projeto: Previs√£o de pre√ßos de ve√≠culos utilizando t√©cnicas de aprendizado de m√°quina, com √™nfase no algoritmo Random Forest.

 2. Coleta de Dados

Descri√ß√£o do m√©todo de coleta de dados: Fonte dos dados, formato e poss√≠veis desafios na obten√ß√£o e prepara√ß√£o inicial.

 3. An√°lise de Dados e Tratamento

- **3.1 An√°lise de Vari√°veis:**
  - Avalia√ß√£o inicial para entender os dados dispon√≠veis, incluindo tipos de vari√°veis e poss√≠veis rela√ß√µes.

- **3.2 An√°lise Descritiva:**
  - Estat√≠sticas b√°sicas como m√©dia, mediana, desvio padr√£o, etc., para obter insights iniciais sobre a dispers√£o e centraliza√ß√£o dos dados.

- **3.3 Tratando Outliers:**
  - Identifica√ß√£o e ajustes em valores extremos para evitar distor√ß√µes nas an√°lises subsequentes.

- **3.4 Tratamento de Valores Faltantes:**
  - Estrat√©gias para lidar com dados ausentes, seja removendo ou imputando esses valores.

4. Pr√©-Processamento, Modelagem e Previs√£o

- **4.1 Pr√©-Processamento  (OneHot Encoding, Escalonamento e Vari√°veis Num√©ricas):**
  - **OneHot Encoding:** Transforma√ß√£o de vari√°veis categ√≥ricas em formato bin√°rio.
  - **Escalonamento:** Normaliza√ß√£o/padroniza√ß√£o das vari√°veis num√©ricas para consist√™ncia nos dados.
  - **Pr√©-Processamento de Vari√°veis Num√©ricas:**
    - Aplica√ß√£o de normaliza√ß√£o, padroniza√ß√£o, tratamento de outliers e transforma√ß√µes num√©ricas como log e root, al√©m da imputa√ß√£o de valores faltantes.

- **4.2 Divis√£o de Dados (Treinamento/Teste):**
  - Separa√ß√£o dos dados em conjuntos de treinamento e teste para valida√ß√£o do modelo.

- **4.3 Treinamento do Modelo Random Forest:**
  - Implementa√ß√£o e ajuste do modelo Random Forest usando o conjunto de dados de treinamento.

- **4.4 Avalia√ß√£o de Desempenho do Modelo:**
  - Avalia√ß√£o da efic√°cia do modelo utilizando m√©tricas de desempenho apropriadas.

 5. Conclus√£o

Revis√£o dos resultados obtidos, discuss√µes sobre as implica√ß√µes dos achados e sugest√µes para trabalhos futuros.

# 1  Introdu√ß√£o - Previs√£o de Pre√ßos de Ve√≠culos com Random Forest  

## üìå Desvendando o Mercado Automotivo  

Prever com precis√£o o pre√ßo de ve√≠culos √© um desafio essencial no mercado automotivo, onde diversos fatores como quilometragem, pot√™ncia do motor e tipo de combust√≠vel influenciam diretamente o valor final de um carro. Com um conjunto de dados extenso e diversificado, a tarefa exige uma abordagem robusta para lidar com a complexidade das vari√°veis e fornecer estimativas precisas.  

## üéØ Problema de Regress√£o  

Este projeto tem como foco a **previs√£o dos pre√ßos de ve√≠culos** utilizando vari√°veis num√©ricas e categ√≥ricas que capturam diferentes aspectos dos autom√≥veis. Como os pre√ßos s√£o valores cont√≠nuos e influenciados por m√∫ltiplos fatores interdependentes, este problema se enquadra em uma **tarefa de regress√£o** no campo do aprendizado de m√°quina.  

## üí° Solu√ß√£o Proposta  

Para lidar com esse desafio, utilizaremos o **Random Forest Regressor**, um modelo de aprendizado de m√°quina baseado em m√∫ltiplas √°rvores de decis√£o. Essa abordagem √© amplamente reconhecida por sua capacidade de capturar padr√µes n√£o lineares, reduzir o risco de overfitting e gerar previs√µes mais est√°veis e confi√°veis, especialmente em grandes volumes de dados.  

## üéØ Objetivos do Projeto  

‚úÖ Desenvolver um modelo preditivo capaz de estimar com precis√£o os pre√ßos dos ve√≠culos com base em suas caracter√≠sticas.  
‚úÖ Compreender as intera√ß√µes entre as vari√°veis mais relevantes para identificar os fatores que mais impactam o valor de um carro.  
‚úÖ Fornecer insights valiosos para consumidores, vendedores e analistas do setor automotivo.  

üöÄ **Vamos construir um modelo eficiente e entender melhor o mercado de ve√≠culos!**  




# 2 - Coleta de dados

In [3]:

import pandas as pd                    # Importando a biblioteca Pandas, que √© como uma planilha turbinada para analisar dados
import numpy as np                     # Importando a biblioteca NumPy, que ajuda a fazer contas e opera√ß√µes com n√∫meros de forma eficiente
import matplotlib.pyplot as plt        # Importando a biblioteca Matplotlib, que serve para criar gr√°ficos e visualiza√ß√µes
import seaborn as sns                  # Importando a biblioteca Seaborn, que deixa os gr√°ficos mais bonitos e informativos
from sklearn.model_selection import train_test_split, GridSearchCV  # Importando ferramentas para dividir os dados e encontrar as melhores configura√ß√µes do modelo
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder  # Importando ferramentas para preparar os dados para o modelo
from sklearn.ensemble import RandomForestRegressor  # Importando o modelo de Random Forest, que vamos usar para prever os pre√ßos
from sklearn.metrics import mean_absolute_error     # Importando a ferramenta para medir o qu√£o bom o modelo est√°
import missingno as msno               # Importando uma biblioteca para visualizar dados faltantes (opcional)
import datetime                        # Importando a biblioteca para trabalhar com datas e hor√°rios
from datetime import datetime
# Importando a biblioteca para trabalhar com datas e hor√°rios.

In [4]:
dados = pd.read_csv('/content/autos.csv', encoding='ISO-8859-1', sep=',')
# Carregando o arquivo CSV 'autos.csv' que cont√©m os dados dos carros.
# O encoding='ISO-8859-1' √© para garantir que os caracteres especiais sejam lidos corretamente.
# O sep=',' indica que os valores no arquivo s√£o separados por v√≠rgulas.

In [5]:
dados.head() # Mostrar as 5 primeiras linhas do meu dataset

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000.0,0.0,benzin,volkswagen,,2016-03-24 00:00:00,0.0,70435.0,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000.0,5.0,diesel,audi,ja,2016-03-24 00:00:00,0.0,66954.0,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000.0,8.0,diesel,jeep,,2016-03-14 00:00:00,0.0,90480.0,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3T√úRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000.0,6.0,benzin,volkswagen,nein,2016-03-17 00:00:00,0.0,91074.0,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000.0,7.0,diesel,skoda,nein,2016-03-31 00:00:00,0.0,60437.0,2016-04-06 10:17:21


# 3 - Analise de dados e Tratamento

### 3.1 - Analise de variaveis

In [6]:
colunas_para_remover = [
    'dateCrawled', 'name', 'seller', 'offerType', 'dateCreated',
    'nrOfPictures', 'postalCode', 'lastSeen', 'monthOfRegistration'
]
# Criando uma lista com os nomes das colunas que n√£o vamos usar no modelo.
# Essas colunas podem ter informa√ß√µes que n√£o ajudam a prever o pre√ßo do carro.


In [7]:
dados = dados.drop(columns=colunas_para_remover, errors='ignore')
# Removendo as colunas da lista do DataFrame.
# O errors='ignore' faz com que o c√≥digo ignore se alguma coluna n√£o existir.

In [8]:
dados.head() # Mostrando as primeiras linhas do arquivo para ver como ficou depois de remover as colunas

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
0,480,test,,1993,manuell,0,golf,150000.0,benzin,volkswagen,
1,18300,test,coupe,2011,manuell,190,,125000.0,diesel,audi,ja
2,9800,test,suv,2004,automatik,163,grand,125000.0,diesel,jeep,
3,1500,test,kleinwagen,2001,manuell,75,golf,150000.0,benzin,volkswagen,nein
4,3600,test,kleinwagen,2008,manuell,69,fabia,90000.0,diesel,skoda,nein


Neste modelo de previs√£o de pre√ßo de ve√≠culos, mantivemos as seguintes vari√°veis, cada uma selecionada por sua contribui√ß√£o significativa para prever o pre√ßo final do ve√≠culo:

- **price**: Vari√°vel alvo. Pre√ßo que estamos tentando prever.
- **abtest**: Indica a participa√ß√£o em testes A/B, podendo evidenciar varia√ß√µes na efici√™ncia do marketing.
- **vehicleType**: O tipo do ve√≠culo (SUV, sedan, etc.) afeta diretamente o valor de mercado.
- **yearOfRegistration**: Ano de fabrica√ß√£o do ve√≠culo; ve√≠culos mais novos geralmente t√™m pre√ßos mais altos.
- **gearbox**: Tipo de c√¢mbio (manual ou autom√°tico), que influenciam o pre√ßo devido a prefer√™ncias regionais/culturais.
- **powerPS**: Pot√™ncia do motor; motores mais potentes costumam ter pre√ßos mais elevados.
- **model**: O modelo pode variar bastante em pre√ßo dentro da mesma marca devido a caracter√≠sticas espec√≠ficas.
- **kilometer**: Quilometragem rodada; menor quilometragem usualmente implica em maior valor.
- **fuelType**: Tipo de combust√≠vel (gasolina, diesel, etc.), que pode afetar o pre√ßo devido a custos operacionais.
- **brand**: Marca do ve√≠culo; marcas com maior prest√≠gio frequentemente t√™m valores mais elevados.
- **notRepairedDamage**: Indica danos n√£o reparados, podendo diminuir significativamente o valor de um ve√≠culo.

Essas vari√°veis foram escolhidas por sua relev√¢ncia demonstrada na literatura e pr√°tica de modelagem preditiva de pre√ßos, capturando fatores cr√≠ticos que influenciam a avalia√ß√£o dos pre√ßos de ve√≠culos.

### 3.2 - Analise Descritiva

In [9]:
dados.describe() # Calculando estat√≠sticas b√°sicas sobre os dados, como m√©dia, mediana, desvio padr√£o, etc.
# Isso ajuda a entender como os dados est√£o distribu√≠dos e a identificar poss√≠veis problemas.

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer
count,301608.0,301608.0,301608.0,301607.0
mean,18647.13,2004.567856,115.718628,125512.952286
std,3969271.0,93.251163,197.016793,40195.072959
min,0.0,1000.0,0.0,5000.0
25%,1150.0,1999.0,70.0,100000.0
50%,2950.0,2003.0,105.0,150000.0
75%,7200.0,2008.0,150.0,150000.0
max,2147484000.0,9999.0,20000.0,150000.0


Estat√≠sticas Descritivas das Vari√°veis Num√©ricas

Abaixo est√£o as estat√≠sticas descritivas principais sobre as vari√°veis num√©ricas do conjunto de dados, obtidas atrav√©s do m√©todo `describe()`:

Explica√ß√£o dos Termos:
- **count**: Quantidade total de valores n√£o nulos na vari√°vel.
- **mean**: M√©dia aritm√©tica dos valores.
- **std**: Desvio padr√£o, que mede a dispers√£o dos dados ao redor da m√©dia.
- **min**: Valor m√≠nimo encontrado.
- **25%**: Percentil 25, indicando o valor abaixo do qual est√£o 25% dos dados.
- **50%** (mediana): Valor no meio do conjunto de dados (50% acima e 50% abaixo).
- **75%**: Percentil 75, indicando o valor abaixo do qual est√£o 75% dos dados.
- **max**: Valor m√°ximo encontrado.

Resumo por Vari√°vel

1. **price** (Pre√ßo do ve√≠culo - vari√°vel alvo)
- **count**: 371,528 registros.
- **mean**: 17,291.4 unidades monet√°rias (valor m√©dio).
- **std**: 3,587,954.6, indicando alta dispers√£o, possivelmente devido a valores outliers (ve√≠culos com pre√ßos extremamente altos).
- **min**: 0, indicando que alguns pre√ßos podem estar incorretos (exemplo de dados inv√°lidos).
- **25%**: 1,150.
- **50% (mediana)**: 2,950.
- **75%**: 7,200.
- **max**: 2,147,483,647, um valor extremamente alto que pode ser um erro.

---

 2. **yearOfRegistration** (Ano de Registro do ve√≠culo)
- **count**: 371,528 registros.
- **mean**: 2004.58, sugerindo que a maioria dos ve√≠culos √© relativamente recente (p√≥s-2000).
- **std**: 92.87, indicando uma dispers√£o incomum, provavelmente devido a alguns valores de ano totalmente inv√°lidos.
- **min**: 1000, claramente um valor errado.
- **25%**: 1999.
- **50% (mediana)**: 2003.
- **75%**: 2008.
- **max**: 9999, valor inv√°lido.

---
3. **powerPS** (Pot√™ncia do ve√≠culo, em cavalos)
- **count**: 371,528 registros.
- **mean**: 115.55 cv (pot√™ncia m√©dia).
- **std**: 192.14, indicando dispers√£o significativa, possivelmente devido a valores an√¥malos (muito altos ou muito baixos).
- **min**: 0 cv, o que √© inv√°lido para ve√≠culos funcionais.
- **25%**: 70 cv.
- **50% (mediana)**: 105 cv.
- **75%**: 150 cv.
- **max**: 20,000 cv, um valor claramente irreal.

---

4. **kilometer** (Quilometragem percorrida)
- **count**: 371,528 registros.
- **mean**: 125,618.7 km (m√©dia de dist√¢ncia percorrida).
- **std**: 40,112.3, indicando dispers√£o razo√°vel para quilometragem.
- **min**: 5,000 km, representando ve√≠culos praticamente novos.
- **25%**: 125,000 km.
- **50% (mediana)**: 150,000 km.
- **75%**: 150,000 km.
- **max**: 150,000 km, sugerindo que os valores podem ser truncados, com muitas observa√ß√µes concentradas na mesma faixa.

---

Conclus√µes
- Algumas vari√°veis apresentam **valores inv√°lidos ou discrepantes**, como `yearOfRegistration` (anos fora do intervalo esperado), `powerPS` (pot√™ncias irrealisticamente altas) e `price` (valores extremamente altos ou zero).
- Esses **outliers e valores inv√°lidos podem ser tratados** antes do treinamento do modelo para evitar impacto negativo nos resultados.

### 3.3 - Tratando outliers

In [10]:
dados.loc[dados['price'] <= 100] # Verificando quantos dados tem com o valor a baixo de 100

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
7,0,test,limousine,1980,manuell,50,andere,40000.0,benzin,volkswagen,nein
40,0,test,,1990,,0,corsa,150000.0,benzin,opel,
60,1,control,suv,1994,manuell,286,,150000.0,,sonstige_autos,
91,1,control,limousine,1995,manuell,113,e_klasse,150000.0,diesel,mercedes_benz,nein
115,0,test,,2017,manuell,0,golf,5000.0,benzin,volkswagen,
...,...,...,...,...,...,...,...,...,...,...,...
301494,0,test,kleinwagen,1996,manuell,45,corsa,150000.0,benzin,opel,ja
301498,0,control,kleinwagen,2001,manuell,55,fiesta,125000.0,benzin,ford,nein
301521,0,test,,2017,manuell,90,laguna,150000.0,,renault,
301561,1,test,limousine,1998,manuell,102,,150000.0,benzin,audi,


In [11]:
dados.loc[dados['price'] >= 350000] # verificando quantos dados tem com valor acima de 350000

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
1846,579000,control,coupe,1980,manuell,277,andere,20000.0,benzin,bmw,nein
10649,420000,control,coupe,2004,manuell,483,911,50000.0,benzin,porsche,nein
14663,11111111,control,coupe,2003,manuell,64,polo,150000.0,benzin,volkswagen,
16889,1000000,control,kombi,1998,,0,mondeo,150000.0,benzin,ford,ja
20143,1250000,test,coupe,2016,manuell,500,911,5000.0,benzin,porsche,nein
...,...,...,...,...,...,...,...,...,...,...,...
280059,99999999,control,andere,1974,manuell,0,golf,150000.0,benzin,volkswagen,
281833,10000000,test,,2019,manuell,10,,5000.0,,sonstige_autos,ja
287835,12345678,test,kombi,2001,manuell,101,focus,150000.0,benzin,ford,nein
299872,12345678,test,kleinwagen,1996,manuell,60,polo,150000.0,,volkswagen,ja


In [12]:
mediana_preco = dados["price"].median()
mediana_preco

2950.0

In [13]:
# Substituindo valores de pre√ßo considerados muito baixos (abaixo de 100) pela mediana
dados.loc[dados['price'] < 100, 'price'] = mediana_preco

In [14]:
# Substituindo valores de pre√ßo considerados muito altos (acima de 350000) pela mediana
dados.loc[dados['price'] > 350000, 'price'] = mediana_preco

In [15]:
dados["price"].mean() # Calculando a m√©dia dos pre√ßos ap√≥s tratamento

np.float64(5851.1054481313495)

In [16]:
dados.describe() # Analise descritiva dos dados agora com price tratado tirando outlier

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer
count,301608.0,301608.0,301608.0,301607.0
mean,5851.105448,2004.567856,115.718628,125512.952286
std,8798.884804,93.251163,197.016793,40195.072959
min,100.0,1000.0,0.0,5000.0
25%,1300.0,1999.0,70.0,100000.0
50%,2950.0,2003.0,105.0,150000.0
75%,7200.0,2008.0,150.0,150000.0
max,350000.0,9999.0,20000.0,150000.0


### 3.4 - Tratamento Valores faltantes

In [17]:
dados.info()
# Verificando informa√ß√µes sobre os dados, como o tipo de cada coluna e quantos valores n√£o nulos existem.


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301608 entries, 0 to 301607
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   price               301608 non-null  int64  
 1   abtest              301608 non-null  object 
 2   vehicleType         270845 non-null  object 
 3   yearOfRegistration  301608 non-null  int64  
 4   gearbox             285259 non-null  object 
 5   powerPS             301608 non-null  int64  
 6   model               284943 non-null  object 
 7   kilometer           301607 non-null  float64
 8   fuelType            274474 non-null  object 
 9   brand               301607 non-null  object 
 10  notRepairedDamage   243085 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 25.3+ MB


In [18]:
print(dados.isnull().sum())
# Contando quantos valores nulos (faltantes) existem em cada coluna.

price                     0
abtest                    0
vehicleType           30763
yearOfRegistration        0
gearbox               16349
powerPS                   0
model                 16665
kilometer                 1
fuelType              27134
brand                     1
notRepairedDamage     58523
dtype: int64


In [19]:
moda_vehicle_type = dados['vehicleType'].mode()[0]
# Calculando a moda (valor mais frequente) da coluna 'vehicleType'.

In [20]:
# Exibe a moda calculada para verificar o resultado
print(f"A moda da coluna 'vehicleType' √©: {moda_vehicle_type}")

A moda da coluna 'vehicleType' √©: limousine


In [21]:
dados['vehicleType'] = dados['vehicleType'].fillna(moda_vehicle_type)
# Preenchendo os valores nulos da coluna 'vehicleType' com a moda.

In [22]:
# Verifica se ainda h√° valores nulos ap√≥s a substitui√ß√£o
print(f"Valores nulos restantes na coluna 'vehicleType': {dados['vehicleType'].isnull().sum()}")

Valores nulos restantes na coluna 'vehicleType': 0


In [23]:
dados['gearbox'].value_counts()
# Contando quantos valores diferentes existem na coluna 'gearbox'.

Unnamed: 0_level_0,count
gearbox,Unnamed: 1_level_1
manuell,222675
automatik,62584


In [24]:
moda_gearbox = dados['gearbox'].mode()[0]
# Calculando a moda da coluna 'gearbox'.

# Exibe a moda calculada para verificar qual √© o valor mais comum
print(f"A moda da coluna 'gearbox' √©: {moda_gearbox}")

A moda da coluna 'gearbox' √©: manuell


In [25]:
# Substitui valores nulos em 'gearbox' pela moda calculada
dados['gearbox'] = dados['gearbox'].fillna(moda_gearbox)

# Verifica se ainda existem valores nulos ap√≥s a substitui√ß√£o
print(f"Valores nulos restantes na coluna 'gearbox': {dados['gearbox'].isnull().sum()}")

Valores nulos restantes na coluna 'gearbox': 0


In [26]:
dados['model'] = dados['model'].fillna('Desconhecido')
# Preenchendo os valores nulos da coluna 'model' com a string 'Desconhecido'

In [27]:
dados['model'].value_counts()
# Contando quantos valores diferentes existem na coluna 'model'.

Unnamed: 0_level_0,count
model,Unnamed: 1_level_1
golf,24361
andere,21496
3er,16708
Desconhecido,16665
polo,10652
...,...
rangerover,6
kalina,6
serie_3,3
serie_1,2


In [28]:
moda_fueltype = dados['fuelType'].mode()[0]
# Calculando a moda da coluna 'fuelType'.

dados['fuelType'] = dados['fuelType'].fillna(moda_fueltype)
# Preenchendo os valores nulos da coluna 'fuelType' com a moda.
# Verifica se restaram nulos
print(f"Valores nulos em 'fuelType': {dados['fuelType'].isnull().sum()}")

Valores nulos em 'fuelType': 0


In [29]:
# Contagem de valores √∫nicos na coluna "notRepairedDamage"
dados['notRepairedDamage'].value_counts()
# Isso exibe quantos carros t√™m 'nein', 'ja' ou est√£o sem informa√ß√£o (NaN).

Unnamed: 0_level_0,count
notRepairedDamage,Unnamed: 1_level_1
nein,213652
ja,29433


In [30]:
# Definindo os valores padr√£o para preencher os valores ausentes de cada coluna
valores = {
    'model': 'golf',             # Preencher valores ausentes com 'golf' (modelo mais frequente ou outro pr√©-definido)
    'fuelType': 'benzin',        # Preencher valores ausentes com 'benzin' (gasolina)
    'notRepairedDamage': 'nein'  # Preencher valores ausentes com 'nein' (n√£o tem danos reparados)
}

In [31]:
# Preenchendo valores ausentes nas colunas especificadas
dados.fillna(value=valores, inplace=True)
# O m√©todo fillna preenche os valores ausentes (NaN) com os dados definidos no dicion√°rio 'valores'.

In [32]:
print("Valores nulos por coluna (antes do One-Hot Encoding):")
print(dados.isnull().sum())
# Verificando se ainda existem valores nulos no DataFrame.

Valores nulos por coluna (antes do One-Hot Encoding):
price                 0
abtest                0
vehicleType           0
yearOfRegistration    0
gearbox               0
powerPS               0
model                 0
kilometer             1
fuelType              0
brand                 1
notRepairedDamage     0
dtype: int64


# 4 - Pr√©-Processamento, Modelagem e Previs√£o

###   4.1 - Pr√©-Processamento (OneHot Encoding e Escalonamento)

Pr√©-Processamento Categorico

In [33]:
categorical_columns = ['abtest', 'vehicleType', 'gearbox', 'model', 'fuelType', 'brand', 'notRepairedDamage']
# Criando uma lista com os nomes das colunas que s√£o categorias (textos).

In [34]:
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
# Criando um objeto OneHotEncoder para transformar as colunas de texto em n√∫meros.
# O sparse_output=False faz com que o resultado seja uma matriz densa (mais f√°cil de usar).
# O handle_unknown='ignore' faz com que o c√≥digo ignore categorias desconhecidas.

In [35]:

encoded_data = encoder.fit_transform(dados[categorical_columns])
# Transformando as colunas de texto em n√∫meros usando o OneHotEncoder.

In [36]:
print(f"Shape dos dados codificados: {encoded_data.shape}")
# Imprimindo o formato dos dados transformados.

Shape dos dados codificados: (301608, 314)


In [37]:
colunas_codificadas = encoder.get_feature_names_out(categorical_columns)
# Obtendo os nomes das novas colunas criadas pelo OneHotEncoder.

In [38]:
print(f"N√∫mero de colunas geradas de codifica√ß√£o: {len(colunas_codificadas)}")
# Imprimindo o n√∫mero de colunas criadas.

N√∫mero de colunas geradas de codifica√ß√£o: 314


In [39]:
encoded_df = pd.DataFrame(encoded_data, columns=colunas_codificadas)
# Criando um DataFrame com os dados transformados.

In [40]:
encoded_df.index = dados.index
# Definindo o √≠ndice do novo DataFrame para que seja o mesmo do DataFrame original.

In [41]:
df_final = pd.concat([dados, encoded_df], axis=1)
# Juntando o DataFrame original com o DataFrame transformado.

In [42]:
df_final.drop(columns=categorical_columns, inplace=True)
# Removendo as colunas originais de texto.

In [43]:

print("Status de valores nulos ap√≥s a concatena√ß√£o final:")
print(df_final.isnull().sum().sum())
# Verificando se ainda existem valores nulos no DataFrame.

Status de valores nulos ap√≥s a concatena√ß√£o final:
1


In [44]:
nulos = df_final[df_final.isnull().any(axis=1)]
# Criando um DataFrame com as linhas que cont√™m valores nulos.

In [45]:
nulos.head(30)
# Mostrando as primeiras linhas do DataFrame com valores nulos.

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,abtest_control,abtest_test,vehicleType_andere,vehicleType_bus,vehicleType_cabrio,vehicleType_coupe,...,brand_sonstige_autos,brand_subaru,brand_suzuki,brand_toyota,brand_trabant,brand_volkswagen,brand_volvo,brand_nan,notRepairedDamage_ja,notRepairedDamage_nein
301607,2800,2007,75,,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0


Pr√©-Processamento Numerico

In [46]:
ano = datetime.now().year
# Obtendo o ano atual.

In [47]:

df_final["idade_veiculo"] = ano - df_final["yearOfRegistration"]
# Criando uma coluna com a idade do ve√≠culo.

In [48]:

df_final.drop("yearOfRegistration", axis=1, inplace=True)
# Removendo a coluna original com o ano de registro.

In [49]:
columns_to_scale = ['powerPS', 'kilometer', 'idade_veiculo']
# Criando uma lista com os nomes das colunas que ser√£o padronizadas.


In [50]:
padronizacao = StandardScaler()
# Criando um objeto StandardScaler para padronizar os dados.

In [51]:
scaled_values = padronizacao.fit_transform(df_final[columns_to_scale])
# Padronizando as colunas selecionadas.

In [52]:
df_final[columns_to_scale] = scaled_values
# Substituindo as colunas originais pelas colunas padronizadas.

In [53]:
print(df_final.head())
# Mostrando as primeiras linhas do DataFrame para ver como ficou depois de padronizar os dados.

   price   powerPS  kilometer  abtest_control  abtest_test  \
0    480 -0.587355   0.609206             0.0          1.0   
1  18300  0.377031  -0.012762             0.0          1.0   
2   9800  0.239987  -0.012762             0.0          1.0   
3   1500 -0.206676   0.609206             0.0          1.0   
4   3600 -0.237131  -0.883517             0.0          1.0   

   vehicleType_andere  vehicleType_bus  vehicleType_cabrio  vehicleType_coupe  \
0                 0.0              0.0                 0.0                0.0   
1                 0.0              0.0                 0.0                1.0   
2                 0.0              0.0                 0.0                0.0   
3                 0.0              0.0                 0.0                0.0   
4                 0.0              0.0                 0.0                0.0   

   vehicleType_kleinwagen  ...  brand_subaru  brand_suzuki  brand_toyota  \
0                     0.0  ...           0.0           0.0      

### 4.2 - Divis√£o de Dados (Treinamento/Teste)

In [54]:
X = df_final.drop(columns=['price'])
# Criando uma matriz com as colunas que ser√£o usadas para prever o pre√ßo.


In [55]:
y = df_final['price']
# Criando um vetor com os pre√ßos dos carros.

In [56]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Dividindo os dados em dois conjuntos: um para treinar o modelo e outro para testar o modelo.
# O test_size=0.2 indica que 20% dos dados ser√£o usados para teste.
# O random_state=42 garante que a divis√£o seja sempre a mesma.

In [57]:
print("Tamanho do conjunto de treinamento:", X_train.shape)
# Imprimindo o formato do conjunto de treinamento.

Tamanho do conjunto de treinamento: (241286, 317)


In [58]:
print("Tamanho do conjunto de teste:", X_test.shape)
# Imprimindo o formato do conjunto de teste.

Tamanho do conjunto de teste: (60322, 317)


### 4.3 Treinamento do Modelo Random Forest:

In [59]:
# Definindo um conjunto de par√¢metros simples para acelerar o treinamento
param_grid = {
    'n_estimators': [40, 60],  # N√∫mero de √°rvores na floresta. Aqui estamos testando apenas 2 valores
    'max_depth': [5, 10],       # Profundidade m√°xima de cada √°rvore. Testaremos √°rvores mais rasas para reduzir custos computacionais
    'min_samples_split': [2, 5] # N√∫mero m√≠nimo de amostras necess√°rias para dividir um n√≥
}


In [60]:
grid_search = GridSearchCV(
    estimator=RandomForestRegressor(random_state=42),  # Modelo Random Forest com uma semente fixa para reprodutibilidade
    param_grid=param_grid,                             # Passando o grid de par√¢metros configurado acima
    cv=3,                                              # Valida√ß√£o cruzada com 3 folds (divis√µes dos dados para valida√ß√£o)
    scoring='neg_mean_absolute_error',                 # M√©trica para medir o desempenho (neste caso, MAE - erro absoluto)
    verbose=2,                                         # Mostra mensagens detalhadas no console durante a execu√ß√£o
    n_jobs=-1                                          # Utiliza todos os n√∫cleos dispon√≠veis no hardware para acelerar o c√°lculo
)


In [61]:
# Ajustando o modelo aos dados de treinamento
grid_search.fit(X_train, y_train)
# O GridSearchCV ir√° testar todas as combina√ß√µes de par√¢metros acima, calculando os resultados para cada combina√ß√£o usando valida√ß√£o cruzada

Fitting 3 folds for each of 8 candidates, totalling 24 fits


In [62]:
# Exibindo os melhores hiperpar√¢metros encontrados
print("Melhores hiperpar√¢metros:", grid_search.best_params_)


Melhores hiperpar√¢metros: {'max_depth': 10, 'min_samples_split': 2, 'n_estimators': 60}


In [63]:
# Selecionando o melhor modelo encontrado pelo GridSearchCV
modelo_rf = grid_search.best_estimator_
# Aqui, grid_search.best_estimator_ pega o modelo com a melhor combina√ß√£o de par√¢metros para futuros testes

In [64]:
# Realiza as previs√µes com o modelo treinado utilizando os dados de teste
y_pred = modelo_rf.predict(X_test)


# 5-  Avalia√ß√£o de Desempenho do Modelo

In [65]:
# Calcula o Mean Absolute Error (MAE) para medir o erro m√©dio absoluto
mae = mean_absolute_error(y_test, y_pred)

In [66]:
# Exibe os resultados das m√©tricas
print("Mean Absolute Error (MAE):", mae)

Mean Absolute Error (MAE): 1838.3872805686995


# 6 - Conclus√£o

## Projeto de Previs√£o de Pre√ßos de Ve√≠culos com Random Forest

### Vis√£o Geral

Este projeto tem como objetivo desenvolver um modelo de aprendizado de m√°quina capaz de prever com precis√£o os pre√ßos de ve√≠culos no mercado automotivo brasileiro. A √°rea automotiva √© um setor de grande import√¢ncia econ√¥mica no Brasil, movimentando bilh√µes de reais anualmente. A capacidade de prever com precis√£o os pre√ßos dos ve√≠culos pode trazer diversos benef√≠cios para diferentes stakeholders, incluindo:

*   **Consumidores:** Aux√≠lio na tomada de decis√£o de compra, permitindo identificar oportunidades e evitar pre√ßos inflacionados.
*   **Revendedores:** Otimiza√ß√£o da precifica√ß√£o de ve√≠culos, maximizando lucros e minimizando perdas.
*   **Institui√ß√µes Financeiras:** Avalia√ß√£o de riscos em financiamentos e seguros de ve√≠culos, garantindo opera√ß√µes mais seguras e rent√°veis.

Para alcan√ßar esse objetivo, utilizamos o algoritmo Random Forest, um modelo de ensemble learning baseado em m√∫ltiplas √°rvores de decis√£o. O Random Forest √© conhecido por sua capacidade de capturar padr√µes n√£o lineares, reduzir o risco de overfitting e gerar previs√µes mais est√°veis e confi√°veis, especialmente em grandes volumes de dados.

### Metodologia

O projeto foi desenvolvido seguindo as seguintes etapas:

1.  **Coleta de Dados:** Obtivemos um conjunto de dados contendo informa√ß√µes sobre ve√≠culos usados, incluindo caracter√≠sticas como marca, modelo, ano de fabrica√ß√£o, quilometragem, tipo de combust√≠vel, entre outros.
2.  **An√°lise Explorat√≥ria de Dados (EDA):** Realizamos uma an√°lise detalhada dos dados para entender sua distribui√ß√£o, identificar outliers e valores faltantes, e avaliar a rela√ß√£o entre as vari√°veis.
3.  **Pr√©-Processamento de Dados:**
    *   **Tratamento de Outliers:** Identificamos e tratamos outliers nos pre√ßos dos ve√≠culos, substituindo valores extremos pela mediana para evitar distor√ß√µes nas an√°lises subsequentes.
    *   **Tratamento de Valores Faltantes:** Imputamos valores faltantes em vari√°veis categ√≥ricas utilizando a moda, ou seja, o valor mais frequente em cada coluna.
    *   **Codifica√ß√£o de Vari√°veis Categ√≥ricas:** Transformamos vari√°veis categ√≥ricas em formato num√©rico utilizando a t√©cnica de One-Hot Encoding, que cria colunas bin√°rias para cada categoria.
    *   **Escalonamento de Vari√°veis Num√©ricas:** Padronizamos as vari√°veis num√©ricas utilizando o StandardScaler, que ajusta a m√©dia para 0 e o desvio padr√£o para 1, garantindo que todas as vari√°veis tenham a mesma escala.
4.  **Sele√ß√£o de Features:** Removemos colunas que n√£o contribuem para o modelo preditivo, como identificadores √∫nicos e informa√ß√µes irrelevantes.
5.  **Engenharia de Features:** Criamos novas vari√°veis a partir das existentes, como a idade do ve√≠culo, que pode ser mais informativa do que o ano de fabrica√ß√£o original.
6.  **Divis√£o de Dados:** Dividimos os dados em conjuntos de treinamento e teste para avaliar o desempenho do modelo em dados n√£o vistos.
7.  **Treinamento do Modelo:** Treinamos o modelo Random Forest utilizando o conjunto de dados de treinamento e ajustamos os hiperpar√¢metros utilizando a t√©cnica de GridSearchCV, que busca a melhor combina√ß√£o de par√¢metros atrav√©s de valida√ß√£o cruzada.
8.  **Avalia√ß√£o do Modelo:** Avaliamos o desempenho do modelo utilizando o conjunto de dados de teste e a m√©trica Mean Absolute Error (MAE), que mede a diferen√ßa m√©dia absoluta entre os pre√ßos previstos e os pre√ßos reais.

### Resultados

Nesta primeira etapa do projeto, o modelo Random Forest apresentou um Mean Absolute Error (MAE) de $$inserir valor do MAE aqui]. Isso significa que, em m√©dia, as previs√µes do modelo est√£o $$inserir valor do MAE aqui] unidades monet√°rias distantes dos pre√ßos reais dos ve√≠culos.

Embora este resultado seja promissor, reconhecemos que h√° espa√ßo para melhorias significativas. O MAE obtido indica que o modelo ainda n√£o est√° suficientemente preciso para ser utilizado em aplica√ß√µes pr√°ticas.

### Pr√≥ximos Passos

Para melhorar o desempenho do modelo, planejamos explorar as seguintes estrat√©gias:

1.  **Otimiza√ß√£o de Hiperpar√¢metros:** Realizar uma busca mais exaustiva no espa√ßo de hiperpar√¢metros do Random Forest, utilizando t√©cnicas como RandomizedSearchCV ou Bayesian Optimization, para encontrar a combina√ß√£o ideal de par√¢metros.
2.  **Engenharia de Features:** Criar novas vari√°veis a partir das existentes, como intera√ß√µes entre vari√°veis, transforma√ß√µes n√£o lineares ou indicadores de tend√™ncia de mercado.
3.  **Inclus√£o de Novas Vari√°veis:** Incorporar novas vari√°veis ao modelo, como informa√ß√µes detalhadas sobre o estado do ve√≠culo, dados de mercado (oferta e demanda), indicadores econ√¥micos e caracter√≠sticas regionais.
4.  **T√©cnicas Avan√ßadas de Imputa√ß√£o:** Utilizar m√©todos de imputa√ß√£o mais sofisticados, como KNN Imputer ou MICE, para lidar com os valores faltantes de forma mais precisa.
5.  **Modelos Mais Complexos:** Avaliar o uso de modelos mais avan√ßados, como redes neurais, gradient boosting (e.g., XGBoost, LightGBM) ou modelos de ensemble learning (e.g., stacking), que podem capturar rela√ß√µes n√£o lineares e intera√ß√µes complexas entre as vari√°veis.
6.  **An√°lise de Erros:** Realizar uma an√°lise detalhada dos erros do modelo, identificando os tipos de ve√≠culos ou situa√ß√µes em que ele tem maior dificuldade em prever os pre√ßos, e ajustar o modelo de acordo.

###  Considera√µes finais

Acreditamos que, ao implementar essas melhorias, ser√° poss√≠vel desenvolver um modelo de previs√£o de pre√ßos de ve√≠culos mais preciso e robusto, que possa trazer benef√≠cios significativos para o mercado automotivo brasileiro. Este √© apenas o primeiro passo em dire√ß√£o a um modelo preditivo mais refinado e √∫til. Continuaremos a iterar e aprimorar nosso trabalho para alcan√ßar resultados ainda melhores.