<a href="https://colab.research.google.com/github/felipesayegg/Previs-o-de-Pre-os-de-Ve-culos/blob/main/RandonFlorestAuto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Estrutura do Documento

1. Introdu√ß√£o

Nesta sess√£o, introduzimos o prop√≥sito do projeto: Previs√£o de pre√ßos de ve√≠culos utilizando t√©cnicas de aprendizado de m√°quina, com √™nfase no algoritmo Random Forest.

 2. Coleta de Dados

Descri√ß√£o do m√©todo de coleta de dados: Fonte dos dados, formato e poss√≠veis desafios na obten√ß√£o e prepara√ß√£o inicial.

 3. An√°lise de Dados e Tratamento

- **3.1 An√°lise de Vari√°veis:**
  - Avalia√ß√£o inicial para entender os dados dispon√≠veis, incluindo tipos de vari√°veis e poss√≠veis rela√ß√µes.

- **3.2 An√°lise Descritiva:**
  - Estat√≠sticas b√°sicas como m√©dia, mediana, desvio padr√£o, etc., para obter insights iniciais sobre a dispers√£o e centraliza√ß√£o dos dados.

- **3.3 Tratando Outliers:**
  - Identifica√ß√£o e ajustes em valores extremos para evitar distor√ß√µes nas an√°lises subsequentes.

- **3.4 Tratamento de Valores Faltantes:**
  - Estrat√©gias para lidar com dados ausentes, seja removendo ou imputando esses valores.

4. Pr√©-Processamento, Modelagem e Previs√£o

- **4.1 Pr√©-Processamento  (OneHot Encoding, Escalonamento e Vari√°veis Num√©ricas):**
  - **OneHot Encoding:** Transforma√ß√£o de vari√°veis categ√≥ricas em formato bin√°rio.
  - **Escalonamento:** Normaliza√ß√£o/padroniza√ß√£o das vari√°veis num√©ricas para consist√™ncia nos dados.
  - **Pr√©-Processamento de Vari√°veis Num√©ricas:**
    - Aplica√ß√£o de normaliza√ß√£o, padroniza√ß√£o, tratamento de outliers e transforma√ß√µes num√©ricas como log e root, al√©m da imputa√ß√£o de valores faltantes.

- **4.2 Divis√£o de Dados (Treinamento/Teste):**
  - Separa√ß√£o dos dados em conjuntos de treinamento e teste para valida√ß√£o do modelo.

- **4.3 Treinamento do Modelo Random Forest:**
  - Implementa√ß√£o e ajuste do modelo Random Forest usando o conjunto de dados de treinamento.

- **4.4 Avalia√ß√£o de Desempenho do Modelo:**
  - Avalia√ß√£o da efic√°cia do modelo utilizando m√©tricas de desempenho apropriadas.

 5. Conclus√£o

Revis√£o dos resultados obtidos, discuss√µes sobre as implica√ß√µes dos achados e sugest√µes para trabalhos futuros.

# 1  Introdu√ß√£o - Previs√£o de Pre√ßos de Ve√≠culos com Random Forest  

## üìå Desvendando o Mercado Automotivo  

Prever com precis√£o o pre√ßo de ve√≠culos √© um desafio essencial no mercado automotivo, onde diversos fatores como quilometragem, pot√™ncia do motor e tipo de combust√≠vel influenciam diretamente o valor final de um carro. Com um conjunto de dados extenso e diversificado, a tarefa exige uma abordagem robusta para lidar com a complexidade das vari√°veis e fornecer estimativas precisas.  

## üéØ Problema de Regress√£o  

Este projeto tem como foco a **previs√£o dos pre√ßos de ve√≠culos** utilizando vari√°veis num√©ricas e categ√≥ricas que capturam diferentes aspectos dos autom√≥veis. Como os pre√ßos s√£o valores cont√≠nuos e influenciados por m√∫ltiplos fatores interdependentes, este problema se enquadra em uma **tarefa de regress√£o** no campo do aprendizado de m√°quina.  

## üí° Solu√ß√£o Proposta  

Para lidar com esse desafio, utilizaremos o **Random Forest Regressor**, um modelo de aprendizado de m√°quina baseado em m√∫ltiplas √°rvores de decis√£o. Essa abordagem √© amplamente reconhecida por sua capacidade de capturar padr√µes n√£o lineares, reduzir o risco de overfitting e gerar previs√µes mais est√°veis e confi√°veis, especialmente em grandes volumes de dados.  

## üéØ Objetivos do Projeto  

‚úÖ Desenvolver um modelo preditivo capaz de estimar com precis√£o os pre√ßos dos ve√≠culos com base em suas caracter√≠sticas.  
‚úÖ Compreender as intera√ß√µes entre as vari√°veis mais relevantes para identificar os fatores que mais impactam o valor de um carro.  
‚úÖ Fornecer insights valiosos para consumidores, vendedores e analistas do setor automotivo.  

üöÄ **Vamos construir um modelo eficiente e entender melhor o mercado de ve√≠culos!**  




# 2 - Coleta de dados

In [47]:
import pandas as pd                    # Manipula√ß√£o e an√°lise de dados, especialmente DataFrames
import numpy as np                     # Suporte para arrays e opera√ß√µes matem√°ticas avan√ßadas
import matplotlib.pyplot as plt        # Cria√ß√£o de gr√°ficos est√°ticos
import seaborn as sns                  # Visualiza√ß√£o de dados estat√≠sticos mais atraente
from sklearn.model_selection import train_test_split, GridSearchCV  # Divis√£o de datasets e otimiza√ß√£o de hiperpar√¢metros
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder  # Escalonamento e codifica√ß√£o de dados
from sklearn.ensemble import RandomForestRegressor  # Implementa√ß√£o do modelo de regress√£o Random Forest
from sklearn.metrics import mean_absolute_error     # Avalia√ß√£o do modelo usando a m√©trica MAE
import missingno as msno               # Visualiza√ß√£o de dados ausentes (opcional)
import datetime                        # Manipula√ß√£o de dados de tempo e datas

In [48]:

dados = pd.read_csv('/content/autos.csv', encoding='ISO-8859-1', sep=',')
# Carrega o arquivo CSV 'autos.csv' localizado no diret√≥rio '/content' usando pandas
# encoding='ISO-8859-1': Especifica a codifica√ß√£o do arquivo necess√°rio para evitar problemas com caracteres especiais
# sep=',': Define que o delimitador dos campos no arquivo CSV √© uma v√≠rgula (o padr√£o para CSVs), garantindo a correta estrutura√ß√£o dos dados em colunas

In [49]:
dados.head() # Mostrar as 5 primeiras linhas do meu dataset

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3T√úRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


# 3 - Analise de dados ,  Tratamento

### 3.1 - Analise de variaveis

In [50]:
# Lista de colunas a remover (com base nas colunas que decidimos n√£o manter)
colunas_para_remover = [
    'dateCrawled', 'name', 'seller', 'offerType', 'dateCreated',
    'nrOfPictures', 'postalCode', 'lastSeen', 'monthOfRegistration'
]

In [51]:
# Utilizando o drop para remover as colunas indesejadas
dados = dados.drop(columns=colunas_para_remover, errors='ignore')

Neste modelo de previs√£o de pre√ßo de ve√≠culos, mantivemos as seguintes vari√°veis, cada uma selecionada por sua contribui√ß√£o significativa para prever o pre√ßo final do ve√≠culo:

- **price**: Vari√°vel alvo. Pre√ßo que estamos tentando prever.
- **abtest**: Indica a participa√ß√£o em testes A/B, podendo evidenciar varia√ß√µes na efici√™ncia do marketing.
- **vehicleType**: O tipo do ve√≠culo (SUV, sedan, etc.) afeta diretamente o valor de mercado.
- **yearOfRegistration**: Ano de fabrica√ß√£o do ve√≠culo; ve√≠culos mais novos geralmente t√™m pre√ßos mais altos.
- **gearbox**: Tipo de c√¢mbio (manual ou autom√°tico), que influenciam o pre√ßo devido a prefer√™ncias regionais/culturais.
- **powerPS**: Pot√™ncia do motor; motores mais potentes costumam ter pre√ßos mais elevados.
- **model**: O modelo pode variar bastante em pre√ßo dentro da mesma marca devido a caracter√≠sticas espec√≠ficas.
- **kilometer**: Quilometragem rodada; menor quilometragem usualmente implica em maior valor.
- **fuelType**: Tipo de combust√≠vel (gasolina, diesel, etc.), que pode afetar o pre√ßo devido a custos operacionais.
- **brand**: Marca do ve√≠culo; marcas com maior prest√≠gio frequentemente t√™m valores mais elevados.
- **notRepairedDamage**: Indica danos n√£o reparados, podendo diminuir significativamente o valor de um ve√≠culo.

Essas vari√°veis foram escolhidas por sua relev√¢ncia demonstrada na literatura e pr√°tica de modelagem preditiva de pre√ßos, capturando fatores cr√≠ticos que influenciam a avalia√ß√£o dos pre√ßos de ve√≠culos.

In [52]:
dados.head() # mostrando meu dataframe

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
0,480,test,,1993,manuell,0,golf,150000,benzin,volkswagen,
1,18300,test,coupe,2011,manuell,190,,125000,diesel,audi,ja
2,9800,test,suv,2004,automatik,163,grand,125000,diesel,jeep,
3,1500,test,kleinwagen,2001,manuell,75,golf,150000,benzin,volkswagen,nein
4,3600,test,kleinwagen,2008,manuell,69,fabia,90000,diesel,skoda,nein


### 3.2 - Analise Descritiva

In [53]:
dados.describe() # estat√≠sticas descritivas

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer
count,371528.0,371528.0,371528.0,371528.0
mean,17295.14,2004.577997,115.549477,125618.688228
std,3587954.0,92.866598,192.139578,40112.337051
min,0.0,1000.0,0.0,5000.0
25%,1150.0,1999.0,70.0,125000.0
50%,2950.0,2003.0,105.0,150000.0
75%,7200.0,2008.0,150.0,150000.0
max,2147484000.0,9999.0,20000.0,150000.0


Estat√≠sticas Descritivas das Vari√°veis Num√©ricas

Abaixo est√£o as estat√≠sticas descritivas principais sobre as vari√°veis num√©ricas do conjunto de dados, obtidas atrav√©s do m√©todo `describe()`:

Explica√ß√£o dos Termos:
- **count**: Quantidade total de valores n√£o nulos na vari√°vel.
- **mean**: M√©dia aritm√©tica dos valores.
- **std**: Desvio padr√£o, que mede a dispers√£o dos dados ao redor da m√©dia.
- **min**: Valor m√≠nimo encontrado.
- **25%**: Percentil 25, indicando o valor abaixo do qual est√£o 25% dos dados.
- **50%** (mediana): Valor no meio do conjunto de dados (50% acima e 50% abaixo).
- **75%**: Percentil 75, indicando o valor abaixo do qual est√£o 75% dos dados.
- **max**: Valor m√°ximo encontrado.

Resumo por Vari√°vel

1. **price** (Pre√ßo do ve√≠culo - vari√°vel alvo)
- **count**: 371,528 registros.
- **mean**: 17,291.4 unidades monet√°rias (valor m√©dio).
- **std**: 3,587,954.6, indicando alta dispers√£o, possivelmente devido a valores outliers (ve√≠culos com pre√ßos extremamente altos).
- **min**: 0, indicando que alguns pre√ßos podem estar incorretos (exemplo de dados inv√°lidos).
- **25%**: 1,150.
- **50% (mediana)**: 2,950.
- **75%**: 7,200.
- **max**: 2,147,483,647, um valor extremamente alto que pode ser um erro.

---

 2. **yearOfRegistration** (Ano de Registro do ve√≠culo)
- **count**: 371,528 registros.
- **mean**: 2004.58, sugerindo que a maioria dos ve√≠culos √© relativamente recente (p√≥s-2000).
- **std**: 92.87, indicando uma dispers√£o incomum, provavelmente devido a alguns valores de ano totalmente inv√°lidos.
- **min**: 1000, claramente um valor errado.
- **25%**: 1999.
- **50% (mediana)**: 2003.
- **75%**: 2008.
- **max**: 9999, valor inv√°lido.

---
3. **powerPS** (Pot√™ncia do ve√≠culo, em cavalos)
- **count**: 371,528 registros.
- **mean**: 115.55 cv (pot√™ncia m√©dia).
- **std**: 192.14, indicando dispers√£o significativa, possivelmente devido a valores an√¥malos (muito altos ou muito baixos).
- **min**: 0 cv, o que √© inv√°lido para ve√≠culos funcionais.
- **25%**: 70 cv.
- **50% (mediana)**: 105 cv.
- **75%**: 150 cv.
- **max**: 20,000 cv, um valor claramente irreal.

---

4. **kilometer** (Quilometragem percorrida)
- **count**: 371,528 registros.
- **mean**: 125,618.7 km (m√©dia de dist√¢ncia percorrida).
- **std**: 40,112.3, indicando dispers√£o razo√°vel para quilometragem.
- **min**: 5,000 km, representando ve√≠culos praticamente novos.
- **25%**: 125,000 km.
- **50% (mediana)**: 150,000 km.
- **75%**: 150,000 km.
- **max**: 150,000 km, sugerindo que os valores podem ser truncados, com muitas observa√ß√µes concentradas na mesma faixa.

---

Conclus√µes
- Algumas vari√°veis apresentam **valores inv√°lidos ou discrepantes**, como `yearOfRegistration` (anos fora do intervalo esperado), `powerPS` (pot√™ncias irrealisticamente altas) e `price` (valores extremamente altos ou zero).
- Esses **outliers e valores inv√°lidos podem ser tratados** antes do treinamento do modelo para evitar impacto negativo nos resultados.

### 3.3 - Tratando outliers

In [54]:
dados.loc[dados['price'] <= 100] # Verificando quantos dados tem com o valor a baixo de 100

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
7,0,test,limousine,1980,manuell,50,andere,40000,benzin,volkswagen,nein
40,0,test,,1990,,0,corsa,150000,benzin,opel,
60,1,control,suv,1994,manuell,286,,150000,,sonstige_autos,
91,1,control,limousine,1995,manuell,113,e_klasse,150000,diesel,mercedes_benz,nein
115,0,test,,2017,manuell,0,golf,5000,benzin,volkswagen,
...,...,...,...,...,...,...,...,...,...,...,...
371392,0,test,kleinwagen,2002,manuell,60,fiesta,150000,benzin,ford,
371402,0,control,kleinwagen,1999,manuell,53,swift,150000,benzin,suzuki,
371431,0,control,kleinwagen,1999,manuell,37,arosa,150000,benzin,seat,ja
371464,99,test,kleinwagen,1999,manuell,60,arosa,150000,benzin,seat,ja


In [55]:
dados.loc[dados['price'] >= 350000] # verificando quantos dados tem com valor acima de 350000

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
1846,579000,control,coupe,1980,manuell,277,andere,20000,benzin,bmw,nein
10649,420000,control,coupe,2004,manuell,483,911,50000,benzin,porsche,nein
14663,11111111,control,coupe,2003,manuell,64,polo,150000,benzin,volkswagen,
16889,1000000,control,kombi,1998,,0,mondeo,150000,benzin,ford,ja
20143,1250000,test,coupe,2016,manuell,500,911,5000,benzin,porsche,nein
...,...,...,...,...,...,...,...,...,...,...,...
364171,3890000,test,coupe,2006,,799,,5000,,sonstige_autos,nein
365461,599000,control,coupe,1980,manuell,377,andere,5000,benzin,bmw,nein
366653,99999999,control,cabrio,1996,manuell,192,3er,150000,,bmw,
366861,3895000,test,coupe,2006,,799,,5000,benzin,sonstige_autos,nein


In [56]:
mediana_preco = dados["price"].median()

In [57]:
# Substituindo valores de pre√ßo considerados muito baixos (abaixo de 100) pela mediana
dados.loc[dados['price'] < 100, 'price'] = mediana_preco

In [58]:
# Substituindo valores de pre√ßo considerados muito altos (acima de 350000) pela mediana
dados.loc[dados['price'] > 350000, 'price'] = mediana_preco

In [59]:
dados.describe() # Analise descritiva dos dados agora com price tratado tirando outlier

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer
count,371528.0,371528.0,371528.0,371528.0
mean,5832.207995,2004.577997,115.549477,125618.688228
std,8739.660684,92.866598,192.139578,40112.337051
min,100.0,1000.0,0.0,5000.0
25%,1300.0,1999.0,70.0,125000.0
50%,2950.0,2003.0,105.0,150000.0
75%,7200.0,2008.0,150.0,150000.0
max,350000.0,9999.0,20000.0,150000.0


### 3.4 - Tratamento Valores faltantes

In [60]:
dados.info() # buscar informa√ßoes do dataset como tipo da variavel e valores que n√£o s√£o nulos e quantos dados

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 371528 entries, 0 to 371527
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   price               371528 non-null  int64 
 1   abtest              371528 non-null  object
 2   vehicleType         333659 non-null  object
 3   yearOfRegistration  371528 non-null  int64 
 4   gearbox             351319 non-null  object
 5   powerPS             371528 non-null  int64 
 6   model               351044 non-null  object
 7   kilometer           371528 non-null  int64 
 8   fuelType            338142 non-null  object
 9   brand               371528 non-null  object
 10  notRepairedDamage   299468 non-null  object
dtypes: int64(4), object(7)
memory usage: 31.2+ MB


In [61]:
# Verificando o total de valores nulos em cada coluna
print(dados.isnull().sum())
# Isso exibir√° um resumo mostrando para cada coluna a quantidade de valores nulos (se houver). Assim, voc√™ saber√° onde precisa atuar.

price                     0
abtest                    0
vehicleType           37869
yearOfRegistration        0
gearbox               20209
powerPS                   0
model                 20484
kilometer                 0
fuelType              33386
brand                     0
notRepairedDamage     72060
dtype: int64


In [62]:
# Calcula a moda (valor mais frequente) da coluna 'vehicleType'
moda_vehicle_type = dados['vehicleType'].mode()[0]

In [63]:
# Exibe a moda calculada para verificar o resultado
print(f"A moda da coluna 'vehicleType' √©: {moda_vehicle_type}")

A moda da coluna 'vehicleType' √©: limousine


In [64]:
# Usa a fun√ß√£o fillna() para substituir valores nulos pela moda na coluna 'vehicleType'
dados['vehicleType'] = dados['vehicleType'].fillna(moda_vehicle_type)

In [65]:
# Verifica se ainda h√° valores nulos ap√≥s a substitui√ß√£o
print(f"Valores nulos restantes na coluna 'vehicleType': {dados['vehicleType'].isnull().sum()}")

Valores nulos restantes na coluna 'vehicleType': 0


In [66]:
dados['gearbox'].value_counts() # pega os valores dentro da variavel e mostra quantas linhas tem

Unnamed: 0_level_0,count
gearbox,Unnamed: 1_level_1
manuell,274214
automatik,77105


In [67]:
# Calcula a moda (valor mais frequente) da coluna 'gearbox'
moda_gearbox = dados['gearbox'].mode()[0]

# Exibe a moda calculada para verificar qual √© o valor mais comum
print(f"A moda da coluna 'gearbox' √©: {moda_gearbox}")

A moda da coluna 'gearbox' √©: manuell


In [68]:
# Substitui valores nulos em 'gearbox' pela moda calculada
dados['gearbox'] = dados['gearbox'].fillna(moda_gearbox)

# Verifica se ainda existem valores nulos ap√≥s a substitui√ß√£o
print(f"Valores nulos restantes na coluna 'gearbox': {dados['gearbox'].isnull().sum()}")

Valores nulos restantes na coluna 'gearbox': 0


In [69]:
dados['model'] = dados['model'].fillna('Desconhecido')

In [70]:
dados['model'].value_counts() # pega os valores dentro da variavel e mostra quantas linhas tem

Unnamed: 0_level_0,count
model,Unnamed: 1_level_1
golf,30070
andere,26400
3er,20567
Desconhecido,20484
polo,13092
...,...
serie_2,8
rangerover,6
serie_3,4
serie_1,2


In [71]:
# Calcula a moda de 'fuelType'
moda_fueltype = dados['fuelType'].mode()[0]

# Substitui valores nulos pela moda
dados['fuelType'] = dados['fuelType'].fillna(moda_fueltype)

# Verifica se restaram nulos
print(f"Valores nulos em 'fuelType': {dados['fuelType'].isnull().sum()}")

Valores nulos em 'fuelType': 0


In [72]:
# Substitui valores nulos na coluna 'notRepairedDamage' por 'Desconhecido'
dados['notRepairedDamage'] = dados['notRepairedDamage'].fillna('Desconhecido')

# Verifica se restam valores nulos na coluna
print(f"Valores nulos restantes na coluna 'notRepairedDamage': {dados['notRepairedDamage'].isnull().sum()}")

Valores nulos restantes na coluna 'notRepairedDamage': 0


In [73]:
# Checar a presen√ßa de valores nulos no DataFrame original
print("Valores nulos por coluna (antes do One-Hot Encoding):")
print(dados.isnull().sum())

Valores nulos por coluna (antes do One-Hot Encoding):
price                 0
abtest                0
vehicleType           0
yearOfRegistration    0
gearbox               0
powerPS               0
model                 0
kilometer             0
fuelType              0
brand                 0
notRepairedDamage     0
dtype: int64


In [74]:
# Exibir valores √∫nicos em cada coluna categ√≥rica antes do OneHotEncoder


# 4 - Pr√©-Processamento, Modelagem e Previs√£o

###   4.1 - Pr√©-Processamento (OneHot Encoding e Escalonamento)

Pr√©-Processamento Categorico

In [75]:
categorical_columns = ['abtest', 'vehicleType', 'gearbox', 'model', 'fuelType', 'brand', 'notRepairedDamage']

In [76]:
from sklearn.preprocessing import OneHotEncoder

# Criar um encoder que ignora categorias desconhecidas
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')

# Ajustar e transformar apenas essa dummy setup
encoded_data = encoder.fit_transform(dados[categorical_columns])

# Validar a expedi√ß√£o de dados
print(f"Shape dos dados codificados: {encoded_data.shape}")
colunas_codificadas = encoder.get_feature_names_out(categorical_columns)
print(f"N√∫mero de colunas geradas de codifica√ß√£o: {len(colunas_codificadas)}")

Shape dos dados codificados: (371528, 314)
N√∫mero de colunas geradas de codifica√ß√£o: 314


In [77]:


# Criar DataFrame a partir dos dados codificados
encoded_df = pd.DataFrame(encoded_data, columns=colunas_codificadas)

# Garantia de alinhamento correto dos √≠ndices
encoded_df.index = dados.index

In [78]:
# Concatenar os DataFrames
df_final = pd.concat([dados, encoded_df], axis=1)

# Remover as colunas categ√≥ricas originais
df_final.drop(columns=categorical_columns, inplace=True)

# Confirmar que estamos livres de valores nulos
print("Status de valores nulos ap√≥s a concatena√ß√£o final:")
print(df_final.isnull().sum().sum())  # Isso deve retornar zero

Status de valores nulos ap√≥s a concatena√ß√£o final:
0


In [79]:
nulos = df_final[df_final.isnull().any(axis=1)]
nulos.head(30)

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,abtest_control,abtest_test,vehicleType_andere,vehicleType_bus,vehicleType_cabrio,vehicleType_coupe,...,brand_sonstige_autos,brand_subaru,brand_suzuki,brand_toyota,brand_trabant,brand_volkswagen,brand_volvo,notRepairedDamage_Desconhecido,notRepairedDamage_ja,notRepairedDamage_nein


Pr√©-Processamento Numerico

In [80]:
# Importa√ß√£o das bibliotecas necess√°rias
from datetime import datetime
from sklearn.preprocessing import StandardScaler

In [81]:
# Captura o ano atual (utilizamos datetime.now().year)
ano = datetime.now().year

In [82]:

# Cria a coluna "idade_veiculo" subtraindo o ano de registro do ano atual
df_final["idade_veiculo"] = ano - df_final["yearOfRegistration"]

In [83]:
# Remove a coluna original "yearOfRegistration" para evitar redund√¢ncias
df_final.drop("yearOfRegistration", axis=1, inplace=True)

In [84]:
# Define as colunas num√©ricas a serem padronizadas, conforme os prints da professora
columns_to_scale = ['powerPS', 'kilometer', 'idade_veiculo']

In [85]:
# Instancia o StandardScaler (opcionalmente, o MinMaxScaler est√° comentado em alguns prints)
padronizacao = StandardScaler()
# normalizacao = MinMaxScaler() # Alternativa caso seja necess√°rio

In [89]:
# Aplica o m√©todo fit_transform nas colunas selecionadas
scaled_values = padronizacao.fit_transform(df_final[columns_to_scale])
df_final[columns_to_scale] = scaled_values

In [88]:
# Exibe as primeiras linhas do DataFrame para confirmar o resultado do pr√©-processamento
print(df_final.head())

   price   powerPS  kilometer  abtest_control  abtest_test  \
0    480 -0.601384   0.607827             0.0          1.0   
1  18300  0.387482  -0.015424             0.0          1.0   
2   9800  0.246959  -0.015424             0.0          1.0   
3   1500 -0.211042   0.607827             0.0          1.0   
4   3600 -0.242269  -0.887975             0.0          1.0   

   vehicleType_andere  vehicleType_bus  vehicleType_cabrio  vehicleType_coupe  \
0                 0.0              0.0                 0.0                0.0   
1                 0.0              0.0                 0.0                1.0   
2                 0.0              0.0                 0.0                0.0   
3                 0.0              0.0                 0.0                0.0   
4                 0.0              0.0                 0.0                0.0   

   vehicleType_kleinwagen  ...  brand_subaru  brand_suzuki  brand_toyota  \
0                     0.0  ...           0.0           0.0      

### 4.2 - Divis√£o de Dados (Treinamento/Teste)

In [90]:
# Define X e y:
# X cont√©m todas as vari√°veis preditoras (todas as colunas exceto 'price')
# y cont√©m a vari√°vel alvo, que nesse caso √© 'price'
X = df_final.drop(columns=['price'])
y = df_final['price']


In [91]:
# Realiza a divis√£o dos dados:
# - test_size=0.2 significa que 20% dos dados ser√£o destinados para teste
# - random_state=42 garante que a divis√£o seja reproduz√≠vel (ou seja, todo mundo obter√° os mesmos conjuntos)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [92]:
# Exibe os formatos dos conjuntos de treinamento e teste para confirmar a divis√£o
print("Tamanho do conjunto de treinamento:", X_train.shape)
print("Tamanho do conjunto de teste:", X_test.shape)

Tamanho do conjunto de treinamento: (297222, 317)
Tamanho do conjunto de teste: (74306, 317)


### 4.3 Treinamento do Modelo Random Forest:

In [93]:
# Importa o modelo RandomForestRegressor da biblioteca sklearn.ensemble
from sklearn.ensemble import RandomForestRegressor

In [94]:
# Instancia o modelo
# random_state=42 √© usado para garantir que os resultados sejam reproduz√≠veis,
# e voc√™ pode ajustar outros hiperpar√¢metros (como n_estimators, max_depth, etc.) conforme necess√°rio.
modelo_rf = RandomForestRegressor(random_state=42, n_estimators=100)

In [95]:
# Treina (ajusta) o modelo usando os dados de treinamento (X_train e y_train)
modelo_rf.fit(X_train, y_train)

# Ap√≥s o treinamento, o modelo aprendeu padr√µes que relacionam as caracter√≠sticas (X_train)
# aos valores do pre√ßo dos ve√≠culos (y_train)

4.4 Avalia√ß√£o de Desempenho do Modelo:

In [96]:
# Realiza as previs√µes com o modelo treinado utilizando os dados de teste
y_pred = modelo_rf.predict(X_test)


In [97]:
# Calcula o Mean Absolute Error (MAE) para medir o erro m√©dio absoluto
mae = mean_absolute_error(y_test, y_pred)

In [99]:
# Exibe os resultados das m√©tricas
print("Mean Absolute Error (MAE):", mae)

Mean Absolute Error (MAE): 1376.5421692174868
