<a href="https://colab.research.google.com/github/felipesayegg/Previs-o-de-Pre-os-de-Ve-culos/blob/main/RandonFlorestAuto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Estrutura do Documento

1. Introdução

Nesta sessão, introduzimos o propósito do projeto: Previsão de preços de veículos utilizando técnicas de aprendizado de máquina, com ênfase no algoritmo Random Forest.

 2. Coleta de Dados

Descrição do método de coleta de dados: Fonte dos dados, formato e possíveis desafios na obtenção e preparação inicial.

 3. Análise de Dados e Tratamento

- **3.1 Análise de Variáveis:**
  - Avaliação inicial para entender os dados disponíveis, incluindo tipos de variáveis e possíveis relações.

- **3.2 Análise Descritiva:**
  - Estatísticas básicas como média, mediana, desvio padrão, etc., para obter insights iniciais sobre a dispersão e centralização dos dados.

- **3.3 Tratando Outliers:**
  - Identificação e ajustes em valores extremos para evitar distorções nas análises subsequentes.

- **3.4 Tratamento de Valores Faltantes:**
  - Estratégias para lidar com dados ausentes, seja removendo ou imputando esses valores.

4. Pré-Processamento, Modelagem e Previsão

- **4.1 Pré-Processamento  (OneHot Encoding, Escalonamento e Variáveis Numéricas):**
  - **OneHot Encoding:** Transformação de variáveis categóricas em formato binário.
  - **Escalonamento:** Normalização/padronização das variáveis numéricas para consistência nos dados.
  - **Pré-Processamento de Variáveis Numéricas:**
    - Aplicação de normalização, padronização, tratamento de outliers e transformações numéricas como log e root, além da imputação de valores faltantes.

- **4.2 Divisão de Dados (Treinamento/Teste):**
  - Separação dos dados em conjuntos de treinamento e teste para validação do modelo.

- **4.3 Treinamento do Modelo Random Forest:**
  - Implementação e ajuste do modelo Random Forest usando o conjunto de dados de treinamento.

- **4.4 Avaliação de Desempenho do Modelo:**
  - Avaliação da eficácia do modelo utilizando métricas de desempenho apropriadas.

 5. Conclusão

Revisão dos resultados obtidos, discussões sobre as implicações dos achados e sugestões para trabalhos futuros.

# 1  Introdução - Previsão de Preços de Veículos com Random Forest  

## 📌 Desvendando o Mercado Automotivo  

Prever com precisão o preço de veículos é um desafio essencial no mercado automotivo, onde diversos fatores como quilometragem, potência do motor e tipo de combustível influenciam diretamente o valor final de um carro. Com um conjunto de dados extenso e diversificado, a tarefa exige uma abordagem robusta para lidar com a complexidade das variáveis e fornecer estimativas precisas.  

## 🎯 Problema de Regressão  

Este projeto tem como foco a **previsão dos preços de veículos** utilizando variáveis numéricas e categóricas que capturam diferentes aspectos dos automóveis. Como os preços são valores contínuos e influenciados por múltiplos fatores interdependentes, este problema se enquadra em uma **tarefa de regressão** no campo do aprendizado de máquina.  

## 💡 Solução Proposta  

Para lidar com esse desafio, utilizaremos o **Random Forest Regressor**, um modelo de aprendizado de máquina baseado em múltiplas árvores de decisão. Essa abordagem é amplamente reconhecida por sua capacidade de capturar padrões não lineares, reduzir o risco de overfitting e gerar previsões mais estáveis e confiáveis, especialmente em grandes volumes de dados.  

## 🎯 Objetivos do Projeto  

✅ Desenvolver um modelo preditivo capaz de estimar com precisão os preços dos veículos com base em suas características.  
✅ Compreender as interações entre as variáveis mais relevantes para identificar os fatores que mais impactam o valor de um carro.  
✅ Fornecer insights valiosos para consumidores, vendedores e analistas do setor automotivo.  

🚀 **Vamos construir um modelo eficiente e entender melhor o mercado de veículos!**  




# 2 - Coleta de dados

In [172]:
import pandas as pd                    # Manipulação e análise de dados, especialmente DataFrames
import numpy as np                     # Suporte para arrays e operações matemáticas avançadas
import matplotlib.pyplot as plt        # Criação de gráficos estáticos
import seaborn as sns                  # Visualização de dados estatísticos mais atraente
from sklearn.model_selection import train_test_split, GridSearchCV  # Divisão de datasets e otimização de hiperparâmetros
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder  # Escalonamento e codificação de dados
from sklearn.ensemble import RandomForestRegressor  # Implementação do modelo de regressão Random Forest
from sklearn.metrics import mean_absolute_error     # Avaliação do modelo usando a métrica MAE
import missingno as msno               # Visualização de dados ausentes (opcional)
import datetime                        # Manipulação de dados de tempo e datas

In [173]:

dados = pd.read_csv('/content/autos.csv', encoding='ISO-8859-1', sep=',')
# Carrega o arquivo CSV 'autos.csv' localizado no diretório '/content' usando pandas
# encoding='ISO-8859-1': Especifica a codificação do arquivo necessário para evitar problemas com caracteres especiais
# sep=',': Define que o delimitador dos campos no arquivo CSV é uma vírgula (o padrão para CSVs), garantindo a correta estruturação dos dados em colunas

In [174]:
dados.head() # Mostrar as 5 primeiras linhas do meu dataset

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


# 3 - Analise de dados ,  Tratamento

### 3.1 - Analise de variaveis

In [175]:
# Lista de colunas a remover (com base nas colunas que decidimos não manter)
colunas_para_remover = [
    'dateCrawled', 'name', 'seller', 'offerType', 'dateCreated',
    'nrOfPictures', 'postalCode', 'lastSeen', 'monthOfRegistration'
]

In [176]:
# Utilizando o drop para remover as colunas indesejadas
dados = dados.drop(columns=colunas_para_remover, errors='ignore')

Neste modelo de previsão de preço de veículos, mantivemos as seguintes variáveis, cada uma selecionada por sua contribuição significativa para prever o preço final do veículo:

- **price**: Variável alvo. Preço que estamos tentando prever.
- **abtest**: Indica a participação em testes A/B, podendo evidenciar variações na eficiência do marketing.
- **vehicleType**: O tipo do veículo (SUV, sedan, etc.) afeta diretamente o valor de mercado.
- **yearOfRegistration**: Ano de fabricação do veículo; veículos mais novos geralmente têm preços mais altos.
- **gearbox**: Tipo de câmbio (manual ou automático), que influenciam o preço devido a preferências regionais/culturais.
- **powerPS**: Potência do motor; motores mais potentes costumam ter preços mais elevados.
- **model**: O modelo pode variar bastante em preço dentro da mesma marca devido a características específicas.
- **kilometer**: Quilometragem rodada; menor quilometragem usualmente implica em maior valor.
- **fuelType**: Tipo de combustível (gasolina, diesel, etc.), que pode afetar o preço devido a custos operacionais.
- **brand**: Marca do veículo; marcas com maior prestígio frequentemente têm valores mais elevados.
- **notRepairedDamage**: Indica danos não reparados, podendo diminuir significativamente o valor de um veículo.

Essas variáveis foram escolhidas por sua relevância demonstrada na literatura e prática de modelagem preditiva de preços, capturando fatores críticos que influenciam a avaliação dos preços de veículos.

In [177]:
dados.head() # mostrando meu dataframe

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
0,480,test,,1993,manuell,0,golf,150000,benzin,volkswagen,
1,18300,test,coupe,2011,manuell,190,,125000,diesel,audi,ja
2,9800,test,suv,2004,automatik,163,grand,125000,diesel,jeep,
3,1500,test,kleinwagen,2001,manuell,75,golf,150000,benzin,volkswagen,nein
4,3600,test,kleinwagen,2008,manuell,69,fabia,90000,diesel,skoda,nein


### 3.2 - Analise Descritiva

In [178]:
dados.describe() # estatísticas descritivas

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer
count,371528.0,371528.0,371528.0,371528.0
mean,17295.14,2004.577997,115.549477,125618.688228
std,3587954.0,92.866598,192.139578,40112.337051
min,0.0,1000.0,0.0,5000.0
25%,1150.0,1999.0,70.0,125000.0
50%,2950.0,2003.0,105.0,150000.0
75%,7200.0,2008.0,150.0,150000.0
max,2147484000.0,9999.0,20000.0,150000.0


Estatísticas Descritivas das Variáveis Numéricas

Abaixo estão as estatísticas descritivas principais sobre as variáveis numéricas do conjunto de dados, obtidas através do método `describe()`:

Explicação dos Termos:
- **count**: Quantidade total de valores não nulos na variável.
- **mean**: Média aritmética dos valores.
- **std**: Desvio padrão, que mede a dispersão dos dados ao redor da média.
- **min**: Valor mínimo encontrado.
- **25%**: Percentil 25, indicando o valor abaixo do qual estão 25% dos dados.
- **50%** (mediana): Valor no meio do conjunto de dados (50% acima e 50% abaixo).
- **75%**: Percentil 75, indicando o valor abaixo do qual estão 75% dos dados.
- **max**: Valor máximo encontrado.

Resumo por Variável

1. **price** (Preço do veículo - variável alvo)
- **count**: 371,528 registros.
- **mean**: 17,291.4 unidades monetárias (valor médio).
- **std**: 3,587,954.6, indicando alta dispersão, possivelmente devido a valores outliers (veículos com preços extremamente altos).
- **min**: 0, indicando que alguns preços podem estar incorretos (exemplo de dados inválidos).
- **25%**: 1,150.
- **50% (mediana)**: 2,950.
- **75%**: 7,200.
- **max**: 2,147,483,647, um valor extremamente alto que pode ser um erro.

---

 2. **yearOfRegistration** (Ano de Registro do veículo)
- **count**: 371,528 registros.
- **mean**: 2004.58, sugerindo que a maioria dos veículos é relativamente recente (pós-2000).
- **std**: 92.87, indicando uma dispersão incomum, provavelmente devido a alguns valores de ano totalmente inválidos.
- **min**: 1000, claramente um valor errado.
- **25%**: 1999.
- **50% (mediana)**: 2003.
- **75%**: 2008.
- **max**: 9999, valor inválido.

---
3. **powerPS** (Potência do veículo, em cavalos)
- **count**: 371,528 registros.
- **mean**: 115.55 cv (potência média).
- **std**: 192.14, indicando dispersão significativa, possivelmente devido a valores anômalos (muito altos ou muito baixos).
- **min**: 0 cv, o que é inválido para veículos funcionais.
- **25%**: 70 cv.
- **50% (mediana)**: 105 cv.
- **75%**: 150 cv.
- **max**: 20,000 cv, um valor claramente irreal.

---

4. **kilometer** (Quilometragem percorrida)
- **count**: 371,528 registros.
- **mean**: 125,618.7 km (média de distância percorrida).
- **std**: 40,112.3, indicando dispersão razoável para quilometragem.
- **min**: 5,000 km, representando veículos praticamente novos.
- **25%**: 125,000 km.
- **50% (mediana)**: 150,000 km.
- **75%**: 150,000 km.
- **max**: 150,000 km, sugerindo que os valores podem ser truncados, com muitas observações concentradas na mesma faixa.

---

Conclusões
- Algumas variáveis apresentam **valores inválidos ou discrepantes**, como `yearOfRegistration` (anos fora do intervalo esperado), `powerPS` (potências irrealisticamente altas) e `price` (valores extremamente altos ou zero).
- Esses **outliers e valores inválidos podem ser tratados** antes do treinamento do modelo para evitar impacto negativo nos resultados.

### 3.3 - Tratando outliers

In [179]:
dados.loc[dados['price'] <= 100] # Verificando quantos dados tem com o valor a baixo de 100

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
7,0,test,limousine,1980,manuell,50,andere,40000,benzin,volkswagen,nein
40,0,test,,1990,,0,corsa,150000,benzin,opel,
60,1,control,suv,1994,manuell,286,,150000,,sonstige_autos,
91,1,control,limousine,1995,manuell,113,e_klasse,150000,diesel,mercedes_benz,nein
115,0,test,,2017,manuell,0,golf,5000,benzin,volkswagen,
...,...,...,...,...,...,...,...,...,...,...,...
371392,0,test,kleinwagen,2002,manuell,60,fiesta,150000,benzin,ford,
371402,0,control,kleinwagen,1999,manuell,53,swift,150000,benzin,suzuki,
371431,0,control,kleinwagen,1999,manuell,37,arosa,150000,benzin,seat,ja
371464,99,test,kleinwagen,1999,manuell,60,arosa,150000,benzin,seat,ja


In [180]:
dados.loc[dados['price'] >= 350000] # verificando quantos dados tem com valor acima de 350000

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
1846,579000,control,coupe,1980,manuell,277,andere,20000,benzin,bmw,nein
10649,420000,control,coupe,2004,manuell,483,911,50000,benzin,porsche,nein
14663,11111111,control,coupe,2003,manuell,64,polo,150000,benzin,volkswagen,
16889,1000000,control,kombi,1998,,0,mondeo,150000,benzin,ford,ja
20143,1250000,test,coupe,2016,manuell,500,911,5000,benzin,porsche,nein
...,...,...,...,...,...,...,...,...,...,...,...
364171,3890000,test,coupe,2006,,799,,5000,,sonstige_autos,nein
365461,599000,control,coupe,1980,manuell,377,andere,5000,benzin,bmw,nein
366653,99999999,control,cabrio,1996,manuell,192,3er,150000,,bmw,
366861,3895000,test,coupe,2006,,799,,5000,benzin,sonstige_autos,nein


In [181]:
mediana_preco = dados["price"].median()

In [182]:
# Substituindo valores de preço considerados muito baixos (abaixo de 100) pela mediana
dados.loc[dados['price'] < 100, 'price'] = mediana_preco

In [183]:
# Substituindo valores de preço considerados muito altos (acima de 350000) pela mediana
dados.loc[dados['price'] > 350000, 'price'] = mediana_preco

In [184]:
dados.describe() # Analise descritiva dos dados agora com price tratado tirando outlier

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer
count,371528.0,371528.0,371528.0,371528.0
mean,5832.207995,2004.577997,115.549477,125618.688228
std,8739.660684,92.866598,192.139578,40112.337051
min,100.0,1000.0,0.0,5000.0
25%,1300.0,1999.0,70.0,125000.0
50%,2950.0,2003.0,105.0,150000.0
75%,7200.0,2008.0,150.0,150000.0
max,350000.0,9999.0,20000.0,150000.0


### 3.4 - Tratamento Valores faltantes

In [185]:
dados.info() # buscar informaçoes do dataset como tipo da variavel e valores que não são nulos e quantos dados

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 371528 entries, 0 to 371527
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   price               371528 non-null  int64 
 1   abtest              371528 non-null  object
 2   vehicleType         333659 non-null  object
 3   yearOfRegistration  371528 non-null  int64 
 4   gearbox             351319 non-null  object
 5   powerPS             371528 non-null  int64 
 6   model               351044 non-null  object
 7   kilometer           371528 non-null  int64 
 8   fuelType            338142 non-null  object
 9   brand               371528 non-null  object
 10  notRepairedDamage   299468 non-null  object
dtypes: int64(4), object(7)
memory usage: 31.2+ MB


In [186]:
# Verificando o total de valores nulos em cada coluna
print(dados.isnull().sum())
# Isso exibirá um resumo mostrando para cada coluna a quantidade de valores nulos (se houver). Assim, você saberá onde precisa atuar.

price                     0
abtest                    0
vehicleType           37869
yearOfRegistration        0
gearbox               20209
powerPS                   0
model                 20484
kilometer                 0
fuelType              33386
brand                     0
notRepairedDamage     72060
dtype: int64


In [187]:
# Calcula a moda (valor mais frequente) da coluna 'vehicleType'
moda_vehicle_type = dados['vehicleType'].mode()[0]

In [188]:
# Exibe a moda calculada para verificar o resultado
print(f"A moda da coluna 'vehicleType' é: {moda_vehicle_type}")

A moda da coluna 'vehicleType' é: limousine


In [189]:
# Usa a função fillna() para substituir valores nulos pela moda na coluna 'vehicleType'
dados['vehicleType'] = dados['vehicleType'].fillna(moda_vehicle_type)

In [190]:
# Verifica se ainda há valores nulos após a substituição
print(f"Valores nulos restantes na coluna 'vehicleType': {dados['vehicleType'].isnull().sum()}")

Valores nulos restantes na coluna 'vehicleType': 0


In [191]:
dados['gearbox'].value_counts() # pega os valores dentro da variavel e mostra quantas linhas tem

Unnamed: 0_level_0,count
gearbox,Unnamed: 1_level_1
manuell,274214
automatik,77105


In [192]:
# Calcula a moda (valor mais frequente) da coluna 'gearbox'
moda_gearbox = dados['gearbox'].mode()[0]

# Exibe a moda calculada para verificar qual é o valor mais comum
print(f"A moda da coluna 'gearbox' é: {moda_gearbox}")

A moda da coluna 'gearbox' é: manuell


In [193]:
# Substitui valores nulos em 'gearbox' pela moda calculada
dados['gearbox'] = dados['gearbox'].fillna(moda_gearbox)

# Verifica se ainda existem valores nulos após a substituição
print(f"Valores nulos restantes na coluna 'gearbox': {dados['gearbox'].isnull().sum()}")

Valores nulos restantes na coluna 'gearbox': 0


In [194]:
dados['model'] = dados['model'].fillna('Desconhecido')

In [195]:
dados['model'].value_counts() # pega os valores dentro da variavel e mostra quantas linhas tem

Unnamed: 0_level_0,count
model,Unnamed: 1_level_1
golf,30070
andere,26400
3er,20567
Desconhecido,20484
polo,13092
...,...
serie_2,8
rangerover,6
serie_3,4
serie_1,2


In [196]:
# Calcula a moda de 'fuelType'
moda_fueltype = dados['fuelType'].mode()[0]

# Substitui valores nulos pela moda
dados['fuelType'] = dados['fuelType'].fillna(moda_fueltype)

# Verifica se restaram nulos
print(f"Valores nulos em 'fuelType': {dados['fuelType'].isnull().sum()}")

Valores nulos em 'fuelType': 0


In [197]:
# Substitui valores nulos na coluna 'notRepairedDamage' por 'Desconhecido'
dados['notRepairedDamage'] = dados['notRepairedDamage'].fillna('Desconhecido')

# Verifica se restam valores nulos na coluna
print(f"Valores nulos restantes na coluna 'notRepairedDamage': {dados['notRepairedDamage'].isnull().sum()}")

Valores nulos restantes na coluna 'notRepairedDamage': 0


In [198]:
# Checar a presença de valores nulos no DataFrame original
print("Valores nulos por coluna (antes do One-Hot Encoding):")
print(dados.isnull().sum())

Valores nulos por coluna (antes do One-Hot Encoding):
price                 0
abtest                0
vehicleType           0
yearOfRegistration    0
gearbox               0
powerPS               0
model                 0
kilometer             0
fuelType              0
brand                 0
notRepairedDamage     0
dtype: int64


In [199]:
# Exibir valores únicos em cada coluna categórica antes do OneHotEncoder


Coluna: vehicleType
Valores únicos: ['limousine' 'coupe' 'suv' 'kleinwagen' 'cabrio' 'bus' 'kombi' 'andere']
Valores nulos: 0
Coluna: gearbox
Valores únicos: ['manuell' 'automatik']
Valores nulos: 0
Coluna: fuelType
Valores únicos: ['benzin' 'diesel' 'lpg' 'andere' 'hybrid' 'cng' 'elektro']
Valores nulos: 0
Coluna: brand
Valores únicos: ['volkswagen' 'audi' 'jeep' 'skoda' 'bmw' 'peugeot' 'ford' 'mazda'
 'nissan' 'renault' 'mercedes_benz' 'opel' 'seat' 'citroen' 'honda' 'fiat'
 'mini' 'smart' 'hyundai' 'sonstige_autos' 'alfa_romeo' 'subaru' 'volvo'
 'mitsubishi' 'kia' 'suzuki' 'lancia' 'porsche' 'toyota' 'chevrolet'
 'dacia' 'daihatsu' 'trabant' 'saab' 'chrysler' 'jaguar' 'daewoo' 'rover'
 'land_rover' 'lada']
Valores nulos: 0
Coluna: notRepairedDamage
Valores únicos: ['Desconhecido' 'ja' 'nein']
Valores nulos: 0
Coluna: model
Valores únicos: ['golf' 'Desconhecido' 'grand' 'fabia' '3er' '2_reihe' 'andere' 'c_max'
 '3_reihe' 'passat' 'navara' 'ka' 'polo' 'twingo' 'a_klasse' 'scirocco'
 '

# 4 - Pré-Processamento, Modelagem e Previsão

###   4.1 - Pré-Processamento (OneHot Encoding e Escalonamento)

Pré-Processamento Categorico

In [201]:
from sklearn.preprocessing import OneHotEncoder

# Criar um encoder que ignora categorias desconhecidas
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')

# Ajustar e transformar apenas essa dummy setup
encoded_data = encoder.fit_transform(dados[categorical_columns])

# Validar a expedição de dados
print(f"Shape dos dados codificados: {encoded_data.shape}")
colunas_codificadas = encoder.get_feature_names_out(categorical_columns)
print(f"Número de colunas geradas de codificação: {len(colunas_codificadas)}")

Shape dos dados codificados: (371528, 312)
Número de colunas geradas de codificação: 312


In [202]:


# Criar DataFrame a partir dos dados codificados
encoded_df = pd.DataFrame(encoded_data, columns=colunas_codificadas)

# Garantia de alinhamento correto dos índices
encoded_df.index = dados.index

In [203]:
# Concatenar os DataFrames
df_final = pd.concat([dados, encoded_df], axis=1)

# Remover as colunas categóricas originais
df_final.drop(columns=categorical_columns, inplace=True)

# Confirmar que estamos livres de valores nulos
print("Status de valores nulos após a concatenação final:")
print(df_final.isnull().sum().sum())  # Isso deve retornar zero

Status de valores nulos após a concatenação final:
0


In [204]:
nulos = df_final[df_final.isnull().any(axis=1)]
nulos.head(30)

Unnamed: 0,price,abtest,yearOfRegistration,powerPS,kilometer,vehicleType_andere,vehicleType_bus,vehicleType_cabrio,vehicleType_coupe,vehicleType_kleinwagen,...,model_wrangler,model_x_reihe,model_x_trail,model_x_type,model_xc_reihe,model_yaris,model_yeti,model_ypsilon,model_z_reihe,model_zafira


Pré-Processamento Numerico

In [211]:
# Importação das bibliotecas necessárias
from datetime import datetime
from sklearn.preprocessing import StandardScaler

In [210]:
# Captura o ano atual (utilizamos datetime.now().year)
ano = datetime.now().year

In [212]:

# Cria a coluna "idade_veiculo" subtraindo o ano de registro do ano atual
df_final["idade_veiculo"] = ano - df_final["yearOfRegistration"]

In [213]:
# Remove a coluna original "yearOfRegistration" para evitar redundâncias
df_final.drop("yearOfRegistration", axis=1, inplace=True)

In [214]:
# Define as colunas numéricas a serem padronizadas, conforme os prints da professora
columns_to_scale = ['powerPS', 'kilometer', 'idade_veiculo']

In [215]:
# Instancia o StandardScaler (opcionalmente, o MinMaxScaler está comentado em alguns prints)
padronizacao = StandardScaler()
# normalizacao = MinMaxScaler() # Alternativa caso seja necessário

In [216]:
# Aplica o método fit_transform nas colunas selecionadas
scaled_values = padronizacao.fit_transform(df_final[columns_to_scale])
df_final[columns_to_scale] = scaled_values

In [217]:
# Exibe as primeiras linhas do DataFrame para confirmar o resultado do pré-processamento
print(df_final.head())

   price abtest   powerPS  kilometer  vehicleType_andere  vehicleType_bus  \
0    480   test -0.601384   0.607827                 0.0              0.0   
1  18300   test  0.387482  -0.015424                 0.0              0.0   
2   9800   test  0.246959  -0.015424                 0.0              0.0   
3   1500   test -0.211042   0.607827                 0.0              0.0   
4   3600   test -0.242269  -0.887975                 0.0              0.0   

   vehicleType_cabrio  vehicleType_coupe  vehicleType_kleinwagen  \
0                 0.0                0.0                     0.0   
1                 0.0                1.0                     0.0   
2                 0.0                0.0                     0.0   
3                 0.0                0.0                     1.0   
4                 0.0                0.0                     1.0   

   vehicleType_kombi  ...  model_x_reihe  model_x_trail  model_x_type  \
0                0.0  ...            0.0            0.0

### 4.2 - Divisão de Dados (Treinamento/Teste)