
### **Planejamento da Limpeza**

Antes de iniciar a Análise Exploratória de Dados (EDA), será necessário realizar uma etapa de **limpeza dos dados** para preparar a base de forma adequada. Essa fase terá como objetivo organizar e padronizar os dados, evitando que a EDA fique sobrecarregada com tarefas de limpeza e garantindo que a análise seja mais objetiva.

As ações previstas para essa etapa são:

1. **Remoção de colunas inúteis:**
   Irei identificar e remover colunas que não tenham relevância para a análise ou para a modelagem, como identificadores sem valor analítico, informações redundantes ou atributos que não contribuem para o problema de negócio.

2. **Tratamento de outliers:**
   Será realizada a análise e o tratamento dos outliers apenas no conjunto de **treinamento**. Essa escolha é importante, pois o conjunto de teste deve simular um cenário de produção. Portanto, não se deve alterar o teste — dessa forma, o modelo será avaliado em condições mais realistas.

3. **Identificação e tratamento de valores ausentes (missing values):**
   Irei verificar a existência de valores ausentes e definir estratégias de tratamento, que podem incluir:

   * remoção de registros com muitos dados faltantes,
   * imputação de valores por estatísticas como média, mediana ou moda,
   * ou aplicação de métodos específicos dependendo do tipo de variável.

Esse processo de **pré-EDA** garantirá que, ao chegar na análise exploratória, os dados já estejam limpos e padronizados, evitando retrabalho e permitindo que a atenção esteja focada na extração de insights e no entendimento das variáveis.




In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split

In [4]:
used_cars = pd.read_csv("../Dados/cars.csv")
used_cars.head()

Unnamed: 0,manufacturer,model,year,mileage,engine,transmission,drivetrain,fuel_type,mpg,exterior_color,interior_color,accidents_or_damage,one_owner,personal_use_only,seller_name,seller_rating,driver_rating,driver_reviews_num,price_drop,price
0,Acura,ILX Hybrid 1.5L,2013,92945.0,"1.5L I-4 i-VTEC variable valve control, engine...",Automatic,Front-wheel Drive,Gasoline,39-38,Black,Parchment,0.0,0.0,0.0,Iconic Coach,,4.4,12.0,300.0,13988.0
1,Acura,ILX Hybrid 1.5L,2013,47645.0,1.5L I4 8V MPFI SOHC Hybrid,Automatic CVT,Front-wheel Drive,Hybrid,39-38,Gray,Ebony,1.0,1.0,1.0,Kars Today,,4.4,12.0,,17995.0
2,Acura,ILX Hybrid 1.5L,2013,53422.0,1.5L I4 8V MPFI SOHC Hybrid,Automatic CVT,Front-wheel Drive,Hybrid,39-38,Bellanova White Pearl,Ebony,0.0,1.0,1.0,Weiss Toyota of South County,4.3,4.4,12.0,500.0,17000.0
3,Acura,ILX Hybrid 1.5L,2013,117598.0,1.5L I4 8V MPFI SOHC Hybrid,Automatic CVT,Front-wheel Drive,Hybrid,39-38,Polished Metal Metallic,,0.0,1.0,1.0,Apple Tree Acura,,4.4,12.0,675.0,14958.0
4,Acura,ILX Hybrid 1.5L,2013,114865.0,1.5L I4 8V MPFI SOHC Hybrid,Automatic CVT,Front-wheel Drive,Hybrid,39-38,,Ebony,1.0,0.0,1.0,Herb Connolly Chevrolet,3.7,4.4,12.0,300.0,14498.0


In [5]:
print(f"O dataset apresenta {used_cars.shape[0]} linhas e {used_cars.shape[1]} colunas")

O dataset apresenta 762091 linhas e 20 colunas


In [6]:
used_cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 762091 entries, 0 to 762090
Data columns (total 20 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   manufacturer         762091 non-null  object 
 1   model                762091 non-null  object 
 2   year                 762091 non-null  int64  
 3   mileage              761585 non-null  float64
 4   engine               747041 non-null  object 
 5   transmission         752187 non-null  object 
 6   drivetrain           740529 non-null  object 
 7   fuel_type            739164 non-null  object 
 8   mpg                  620020 non-null  object 
 9   exterior_color       753232 non-null  object 
 10  interior_color       705116 non-null  object 
 11  accidents_or_damage  737879 non-null  float64
 12  one_owner            730608 non-null  float64
 13  personal_use_only    737239 non-null  float64
 14  seller_name          753498 non-null  object 
 15  seller_rating    

Todas as colunas apresentam seus valores no tipo certo, agora irei ver se há duplicatas

In [7]:
used_cars.duplicated().sum()

np.int64(9145)

Como ela apresenta essas duplicatas eu irei remove-las para não atrapalha nas modelagens futuras

In [8]:
used_cars.drop_duplicates(inplace=True)
used_cars.duplicated().sum()

np.int64(0)

In [9]:
used_cars.select_dtypes(include="object").describe()

Unnamed: 0,manufacturer,model,engine,transmission,drivetrain,fuel_type,mpg,exterior_color,interior_color,seller_name
count,752946,752946,738491,743467,732055,730793,613056,744224,697081,744451
unique,30,12187,6903,1313,33,36,865,7681,4679,18254
top,Ford,Fusion SE,2.0L I4 16V GDI DOHC Turbo,6-Speed Automatic,Front-wheel Drive,Gasoline,19-26,Black,Black,Gateway Classic Cars
freq,78851,3172,74823,146979,238528,637168,15955,59562,283070,1628


In [10]:
used_cars.describe()

Unnamed: 0,year,mileage,accidents_or_damage,one_owner,personal_use_only,seller_rating,driver_rating,driver_reviews_num,price_drop,price
count,752946.0,752468.0,729288.0,722176.0,728652.0,541438.0,721666.0,752946.0,406236.0,752946.0
mean,2017.790013,55791.03,0.228017,0.562032,0.657201,4.15933,4.62359,89.692752,1007.430934,35208.99
std,5.114479,43541.12,0.419554,0.496137,0.474645,0.804872,0.276817,115.374787,1374.759058,1629960.0
min,1915.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,100.0,1.0
25%,2016.0,23305.0,0.0,0.0,0.0,3.8,4.5,13.0,380.0,19595.0
50%,2019.0,45614.0,0.0,1.0,1.0,4.5,4.7,51.0,643.0,27990.0
75%,2021.0,78368.0,0.0,1.0,1.0,4.7,4.8,119.0,1007.0,39488.0
max,2024.0,1119067.0,1.0,1.0,1.0,5.0,5.0,1025.0,170995.0,1000000000.0


Após uma análise inicial da descrição estatística dos dados, o conjunto parece apresentar uma distribuição relativamente coerente, com exceção de um ponto crítico. Na coluna price, foi identificado um valor máximo de 1.000.000.000 (um bilhão de dólares), o que é claramente inviável para um carro, especialmente um veículo usado, caracterizando-se como um outlier extremo.

Para garantir a robustez do modelo, o tratamento deste outlier será realizado seguindo um protocolo rigoroso de prevenção a data leakage. Primeiramente, os dados serão divididos em conjuntos de treino e teste. Todo e qualquer tratamento ou ajuste será aplicado apenas com base nas estatísticas do conjunto de treino, que então serão replicadas no conjunto de teste. Essa abordagem assegura que o modelo não tenha acesso a informações do mundo real (o teste) durante sua fase de treinamento.

É importante salientar que a remoção de outliers será feita com critério. O objetivo não é eliminar todos os veículos de alto valor, pois o mercado inclui carros luxuosos e esportivos com preços elevados, que devem ser representados no modelo. No entanto, o caso específico do valor de um bilhão é um erro evidente de registro de dados e, portanto, será removido para não distorcer completamente o treinamento do algoritmo de regressão.

In [11]:
used_car_train, used_car_test = train_test_split(used_cars, test_size=0.2, random_state=42)

In [12]:
used_car_train = used_car_train[used_car_train["price"]< 1000000000.0]
max(used_car_train["price"])

8888889.0

Após a deparação dos dados e remoção do outlier(só no terino pois no teste só vamos encostar na parte de imputação de valores vazios no pre-processamento) irei análisar os valores vazios e ver quais colunas irei manter ou remover para a análise dos dados.

In [13]:
used_car_train.isna().sum()/used_car_train.shape[0]*100

manufacturer            0.000000
model                   0.000000
year                    0.000000
mileage                 0.062090
engine                  1.910833
transmission            1.256900
drivetrain              2.764151
fuel_type               2.932324
mpg                    18.527612
exterior_color          1.163766
interior_color          7.427514
accidents_or_damage     3.135194
one_owner               4.079488
personal_use_only       3.220360
seller_name             1.132555
seller_rating          28.075968
driver_rating           4.162994
driver_reviews_num      0.000000
price_drop             46.028671
price                   0.000000
dtype: float64

**Justificativa para Remoção da Variável `price_drop`**

A variável `price_drop` será removida do conjunto de dados devido a três problemas fundamentais:

1. **Vazamento de Dados (Data Leakage):**
   - Esta variável é calculada a partir do preço final (`price`), que é nossa variável alvo. Usá-la para prever o preço seria como "trapacear", pois na realidade não sabemos qual será o desconto antes de definir o preço.

2. **Alta Taxa de Valores Nulos:**
   - Cerca de 46,17% dos registros (281522 de 609672) estão faltando nesta coluna. Imputar valores seria artificial e distorceria a análise.

3. **Não é uma Característica do Carro:**
   - O desconto é uma decisão do vendedor, não uma propriedade do veículo. Para agrupar carros por suas características naturais (clusterização) e prever preços com base em seus atributos, esta informação é irrelevante e até enganosa.

**Conclusão:** Remover a coluna é a abordagem mais segura para garantir um modelo válido e generalizável, focado apenas nas características reais dos veículos.

In [14]:
used_car_train.drop(columns=["price_drop"], axis=1, inplace=True)
used_car_test.drop(columns=["price_drop"], axis=1, inplace=True)


#### Situação dos Valores Nulos

O dataset **aparenta apresentar poucos valores nulos** na maioria das colunas, com exceção de:

- **seller_rating**: 28,06% de valores nulos
- **mpg**: 18,61% de valores nulos

Logo irei analisar essas colunas e ver se apresentam alguma correlação com a target, se tiver alguma correlação eu mantnho se não eu só retiro da tabela pra não perder tempo com uma coluna que não irá ter valore nenhum preditivo

In [15]:
used_car_train[["seller_rating", "price"]].corr()

Unnamed: 0,seller_rating,price
seller_rating,1.0,0.09237
price,0.09237,1.0


Após a análise realizada, foi possível identificar que essa coluna não apresenta relevância preditiva, portanto não será necessário investir tempo em estratégias de tratamento para ela. Já as demais colunas apresentam uma baixa porcentagem de valores ausentes, não ultrapassando 7%, o que permite a imputação durante o pré-processamento dos modelos. A exceção é a coluna *mgp*, que possui cerca de 18% de dados faltantes. Nesse caso, a imputação simples poderia enviesar os resultados. Além disso, a variável apresenta 829 valores únicos, conforme observado na tabela de descrição das colunas categóricas, o que dificulta a verificação de correlações diretas. Diante disso, será necessário aplicar técnicas de *feature engineering* para tratar essa variável de forma adequada.

In [16]:
used_car_train.drop(columns=["seller_rating"], axis=1, inplace=True)
used_car_test.drop(columns=["seller_rating"], axis=1, inplace=True)

## Feature Engineering

In [17]:
colunas_categoricas = used_car_train.select_dtypes(include="object")
colunas_categoricas.nunique()

manufacturer         30
model             11382
engine             6305
transmission       1163
drivetrain           31
fuel_type            35
mpg                 829
exterior_color     7066
interior_color     4308
seller_name       18105
dtype: int64


O primeiro passo será a remoção de colunas que não trarão utilidade para a análise ou para a modelagem. Conforme observado, o dataset apresenta algumas variáveis com **alta cardinalidade**, ou seja, um número muito elevado de valores únicos, o que dificulta o processamento e pode inviabilizar análises consistentes.

Entre essas colunas estão:

* **`seller_name`**: possui muitos valores distintos, sem relevância preditiva.
* **`model`**: contém 11.381 modelos diferentes, tornando a variável pouco útil e de difícil tratamento.
* **`engine`**: apesar de trazer informações sobre o motor, já existem outras colunas mais detalhadas que cobrem esse aspecto, além de apresentar alta cardinalidade.

Dessa forma, a exclusão dessas colunas permitirá reduzir a dimensionalidade do dataset, eliminar ruído e facilitar a criação de variáveis mais relevantes nas próximas etapas.

In [18]:
used_car_train.drop(columns=["seller_name", "model", "engine"], axis=1, inplace=True)
used_car_test.drop(columns=["seller_name", "model", "engine"], axis=1, inplace=True)

O próximo passo será o tratamento da coluna transmission, responsável por informar o tipo de transmissão do veículo (por exemplo, automática ou manual).

In [19]:
used_car_train["transmission"].value_counts().reset_index().head(50)

Unnamed: 0,transmission,count
0,6-Speed Automatic,117453
1,8-Speed Automatic,110462
2,Automatic CVT,86141
3,Automatic,76588
4,9-Speed Automatic,48290
5,10-Speed Automatic,31632
6,5-Speed Automatic,18333
7,7-Speed Automatic,15104
8,7-Speed Automatic with Auto-Shift,12162
9,6-Speed Manual,10983


Analisando a amostra acima percebe-se que em sua maioria é automatico ou manual, logo resumirei nessas duas categorias.

In [20]:
def categorizar_transmission(transmission):
    if pd.isna(transmission):
        return np.nan
    
    transmission_lower = str(transmission).lower()
    
    # Manual
    if any(keyword in transmission_lower for keyword in ['manual', 'm/t', 'shift']):
        return 'Manual'
    
    # Automático
    if any(keyword in transmission_lower for keyword in ['automatic', 'a/t', 'cvt', 'variable', 'ivt', 'a', 'elec', 'tiptronic', 'xtronic', 'lineartronic', 'geartronic']):
        return 'Automatic'
    
    # Default para automático (para casos como "6-Speed", "8-Speed" sem especificação)
    return "other"

# Aplicar a categorização
used_car_train['transmission_simple'] = used_car_train['transmission'].apply(categorizar_transmission)
used_car_test['transmission_simple'] = used_car_test['transmission'].apply(categorizar_transmission)
used_car_train.drop(columns=["transmission"], axis=1, inplace=True)
used_car_test.drop(columns=["transmission"], axis=1, inplace=True)
# Verificar a distribuição
transmission_counts = used_car_train['transmission_simple'].value_counts()
print(transmission_counts)

transmission_simple
Automatic    550550
Manual        42410
other          1824
Name: count, dtype: int64


Como visto acima, percebe-se que realmente se resumia em duas categorias mesmo só com algumas diferentes mas numa quantidade muito pequena.

In [21]:
used_car_train.select_dtypes(include="object").nunique()

manufacturer             30
drivetrain               31
fuel_type                35
mpg                     829
exterior_color         7066
interior_color         4308
transmission_simple       3
dtype: int64

Irei analisar agora exterior_color e interior_color.

In [22]:
used_car_train.exterior_color.value_counts().reset_index().head(60)

Unnamed: 0,exterior_color,count
0,Black,47625
1,White,40454
2,Gray,23981
3,Silver,19325
4,Blue,13759
5,Summit White,13290
6,Red,12117
7,Bright White Clearcoat,10868
8,Oxford White,6528
9,Gun Metallic,6192




Com base na amostra observada, foi possível identificar que a maioria das cores se concentra em seis categorias principais: **Black, White, Gray, Silver, Blue** e **Red**. As demais correspondem apenas a variações ou descrições adicionais dessas mesmas cores.

Dessa forma, irei aplicar um **filtro de categorias** para padronização:

* Valores que contenham **“White”** serão agrupados em **White**.
* Valores que contenham **“Black”** serão agrupados em **Black**.
* Valores que contenham **“Gray”** serão agrupados em **Gray**.
* Valores que contenham **“Silver”** ou **“Metallic”** serão agrupados em **Silver**.
* Valores que contenham **“Blue”** serão agrupados em **Blue**.
* Valores que contenham **“Red”** serão agrupados em **Red**.
* Todas as demais variações serão tratadas como pertencentes à categoria correspondente ou agrupadas em uma classe genérica (“Other”), caso não se encaixem em nenhuma das seis principais.

Essa padronização permitirá reduzir a cardinalidade da coluna e facilitar tanto a análise quanto a modelagem.


In [23]:
def categorizar_color_exterior(color):
    if pd.isna(color):
        return np.nan
    
    color_lower = str(color).lower()
    
    # Categorias principais
    if "white" in color_lower:
        return 'white'
    if "black" in color_lower:
        return 'black'
    if "gray" in color_lower or "grey" in color_lower:
        return 'gray'
    if "silver" in color_lower or "metallic" in color_lower:
        return 'silver'
    if "blue" in color_lower:
        return 'blue'
    if "red" in color_lower:
        return 'red'
    
    # Default para cores não mapeadas
    return 'other'


# Aplicar a categorização
used_car_train['color_exterior_simple'] = used_car_train['exterior_color'].apply(categorizar_color_exterior)
used_car_test['color_exterior_simple'] = used_car_test['exterior_color'].apply(categorizar_color_exterior)
used_car_train.drop(columns=["exterior_color"], axis=1, inplace=True)
used_car_test.drop(columns=["exterior_color"], axis=1, inplace=True)
# Verificar a distribuição
color_counts = used_car_train['color_exterior_simple'].value_counts()
print(color_counts)

color_exterior_simple
white     142350
silver    139571
black     126928
gray       66049
other      48717
red        36920
blue       34810
Name: count, dtype: int64


In [24]:
used_car_train.interior_color.value_counts().reset_index().head(60)

Unnamed: 0,interior_color,count
0,Black,226691
1,Gray,39517
2,Jet Black,36384
3,Ebony,29999
4,Charcoal,20765
5,Beige,11937
6,Graphite,11475
7,Titan Black,7408
8,Tan,7292
9,Charcoal Black,4915


Como as cores acima são diferentes, logo terei que fazer uma função especifica para o interior do carro, a estratégia de agrupamento com base na amostra acima vai ser essa:

   * **Black / Jet Black / Ebony / Titan Black / Charcoal / Charcoal Black / Black Onyx / etc.** → agrupar como **Black**
   * **Gray / Light Gray / Medium Ash Gray / Dark Gray / Graphite / Steel / Shale / etc.** → agrupar como **Gray**
   * **Beige / Tan / Macchiato Beige / Sand / Sandstone / Almond / Cream / Parchment / etc.** → agrupar como **Beige**
   * **Red / Black / Red / Burgundy** → agrupar como **Red**
   * **White** → manter como **White**
   * **Outros raros** → agrupar como **Other**

In [25]:

def categorizar_interior_color(color):
    if pd.isna(color):
        return np.nan
    
    color_lower = str(color).lower()
    
    # Black
    if any(keyword in color_lower for keyword in ['black', 'ebony', 'jet black', 'onyx', 'charcoal', 'titan']):
        return 'black'
    
    # Gray
    if any(keyword in color_lower for keyword in ['gray', 'grey', 'graphite', 'steel', 'shale']):
        return 'gray'
    
    # Beige / Cream / Tan
    if any(keyword in color_lower for keyword in ['beige', 'tan', 'macchiato', 'sand', 'almond', 'cream', 'parchment', 'cappuccino', 'dune', 'cashmere', 'cognac']):
        return 'beige'
    
    # Red
    if 'red' in color_lower:
        return 'red'
    
    # White
    if 'white' in color_lower:
        return 'white'
    
    # Default para cores não mapeadas
    return 'other'


# Aplicar a categorização
used_car_train['color_interior_simple'] = used_car_train['interior_color'].apply(categorizar_interior_color)
used_car_test['color_interior_simple'] = used_car_test['interior_color'].apply(categorizar_interior_color)
used_car_train.drop(columns=["interior_color"], axis=1, inplace=True)
used_car_test.drop(columns=["interior_color"], axis=1, inplace=True)
# Verificar a distribuição
color_counts = used_car_train['color_interior_simple'].value_counts()
print(color_counts)

color_interior_simple
black    371829
gray      72095
other     58484
beige     45728
red        6840
white      2639
Name: count, dtype: int64


In [26]:
used_car_train.select_dtypes(include="object").nunique()

manufacturer              30
drivetrain                31
fuel_type                 35
mpg                      829
transmission_simple        3
color_exterior_simple      7
color_interior_simple      6
dtype: int64

A coluna manufacturer é responsável por informar a marca de cada veículo. Essa variável é importante, pois o fabricante influencia diretamente o preço, a percepção de valor e o perfil do carro.

In [27]:
used_car_train.manufacturer.value_counts().reset_index()

Unnamed: 0,manufacturer,count
0,Ford,63062
1,Toyota,47420
2,Chevrolet,44473
3,Nissan,38297
4,Jeep,32988
5,Mercedes-Benz,32393
6,Honda,29932
7,BMW,29687
8,Kia,27540
9,GMC,23259


Como temos 30 valores unicos, irei pegar os 15 com maiores aparentes o resto irei deixar como others.

In [28]:
top_carros = used_car_train['manufacturer'].value_counts().nlargest(15).index
used_car_train['manufacturer'] = used_car_train['manufacturer'].apply(lambda x: x if x in top_carros else 'Other')
used_car_test['manufacturer'] = used_car_test['manufacturer'].apply(lambda x: x if x in top_carros else 'Other')




Agora irei analisar a coluna **`drivetrain`**, que indica o tipo de tração do carro. Essa coluna mostra se o veículo possui **tração dianteira, traseira, integral ou nas quatro rodas**, informações que podem influenciar no desempenho, preço e perfil de uso do carro. Vou observar os valores presentes para entender melhor a distribuição e identificar possíveis variações ou inconsistências que precisem ser tratadas.



In [29]:
used_car_train.drivetrain.value_counts().reset_index()

Unnamed: 0,drivetrain,count
0,Front-wheel Drive,190902
1,All-wheel Drive,182233
2,Four-wheel Drive,124317
3,Rear-wheel Drive,77271
4,FWD,4954
5,AWD,2721
6,4WD,1474
7,RWD,1355
8,All-Wheel Drive,95
9,Unknown,81


Percebe-se que tem muitas categorias com poucas amostras e que signifiam a mesma coisa, logo irei dividir assim:

1. **Definir categorias principais**
   A partir da amostra, podemos criar 4 categorias principais:

   * **FWD (Front-Wheel Drive / Tração dianteira)**
   * **RWD (Rear-Wheel Drive / Tração traseira)**
   * **AWD (All-Wheel Drive / Tração integral)**
   * **4WD (Four-Wheel Drive / 4x4 / Tração 4 rodas)**

2. **Mapear abreviações e variações de escrita**

   * Ex.:

     * “FWD”, “Front-wheel Drive”, “Front Wheel Drive” → **FWD**
     * “RWD”, “Rear-wheel Drive” → **RWD**
     * “AWD”, “All-wheel Drive”, “All Wheel Drive” → **AWD**
     * “4WD”, “Four-wheel Drive”, “4x4” → **4WD**

3. **Tratar valores raros ou não especificados**

   * Valores como “Unknown”, ou descrições longas tipo “Four-Wheel Drive with Locking and Limited-Slip…” podem ser agrupados na categoria correspondente se possível, ou em **Other/Unknown** se não for claro.


In [30]:

def categorizar_drivetrain(drivetrain):
    if pd.isna(drivetrain):
        return np.nan
    
    dt_lower = str(drivetrain).lower()
    
    # FWD - Front Wheel Drive
    if any(keyword in dt_lower for keyword in ['fwd', 'front-wheel', 'front wheel']):
        return 'FWD'
    
    # RWD - Rear Wheel Drive
    if any(keyword in dt_lower for keyword in ['rwd', 'rear-wheel', 'rear wheel']):
        return 'RWD'
    
    # AWD - All Wheel Drive
    if any(keyword in dt_lower for keyword in ['awd', 'all-wheel', 'all wheel']):
        return 'AWD'
    
    # 4WD - Four Wheel Drive / 4x4
    if any(keyword in dt_lower for keyword in ['4wd', 'four-wheel', 'four wheel', '4x4']):
        return '4WD'
    
    # Unknown / Other
    return 'Other'


# Aplicar a categorização
used_car_train['drivetrain_simple'] = used_car_train['drivetrain'].apply(categorizar_drivetrain)
used_car_test['drivetrain_simple'] = used_car_test['drivetrain'].apply(categorizar_drivetrain)
used_car_train.drop(columns=["drivetrain"], axis=1, inplace=True)
used_car_test.drop(columns=["drivetrain"], axis=1, inplace=True)
# Verificar a distribuição
color_counts = used_car_train['drivetrain_simple'].value_counts()
print(color_counts)

drivetrain_simple
FWD      195981
AWD      185093
4WD      125875
RWD       78665
Other        91
Name: count, dtype: int64


Agora irei analisar o tipo do combustivel do carro o fuel_type.

In [31]:
used_car_train.fuel_type.value_counts().reset_index()

Unnamed: 0,fuel_type,count
0,Gasoline,509848
1,Hybrid,23169
2,Diesel,22081
3,E85 Flex Fuel,14820
4,Electric,12876
5,B,1126
6,Flexible Fuel,371
7,Plug-In Hybrid,97
8,Gasoline Fuel,53
9,Gasoline/Mild Electric Hybrid,50


Estratégia de Agrupamento para `fuel_type`

1. **Gasoline**

   * Inclui: `Gasoline`, `Gasoline Fuel`, `Regular Unleaded`, `Premium Unleaded`, `Flex Fuel Capability` (se fizer sentido)
   * Categoria final: **Gasoline**

2. **Hybrid**

   * Inclui: `Hybrid`, `Plug-In Hybrid`, `Gasoline/Mild Electric Hybrid`, `Hybrid Fuel`, `PHEV`, `Plug-In Electric/Gas`
   * Categoria final: **Hybrid**

3. **Diesel**

   * Inclui: `Diesel`, `Diesel Fuel`
   * Categoria final: **Diesel**

4. **Electric**

   * Inclui: `Electric`, `Electric Fuel System`, `Hydrogen Fuel Cell` (opcional, dependendo do objetivo)
   * Categoria final: **Electric**

5. **Outros / Não especificados**

   * Inclui: `E85 Flex Fuel`, `Flexible Fuel`, `Compressed Natural Gas`, `Unspecified`, `Other`, `B`, `F`, `G`
   * Categoria final: **Other** ou **Unknown**, se quiser tratar como missing.



In [32]:


def categorizar_fuel_type(fuel):
    if pd.isna(fuel):
        return np.nan
    
    fuel_lower = str(fuel).lower()
    
    # Gasoline
    if any(keyword in fuel_lower for keyword in ['gasoline', 'regular unleaded', 'premium unleaded', 'flex fuel capability']):
        return 'Gasoline'
    
    # Hybrid
    if any(keyword in fuel_lower for keyword in ['hybrid', 'plug-in', 'phev', 'mild electric']):
        return 'Hybrid'
    
    # Diesel
    if any(keyword in fuel_lower for keyword in ['diesel']):
        return 'Diesel'
    
    # Electric
    if any(keyword in fuel_lower for keyword in ['electric', 'hydrogen']):
        return 'Electric'
    
    # Outros / Não especificados
    return 'Other'


# Aplicar a categorização
used_car_train['fuel_type_simple'] = used_car_train['fuel_type'].apply(categorizar_fuel_type)
used_car_test['fuel_type_simple'] = used_car_test['fuel_type'].apply(categorizar_fuel_type)
used_car_train.drop(columns=["fuel_type"], axis=1, inplace=True)
used_car_test.drop(columns=["fuel_type"], axis=1, inplace=True)
# Verificar a distribuição
color_counts = used_car_train['fuel_type_simple'].value_counts()
print(color_counts)

fuel_type_simple
Gasoline    510039
Hybrid       23274
Diesel       22086
Other        16413
Electric     12880
Name: count, dtype: int64


A coluna mpg indica a eficiência de combustível do veículo, geralmente medida em milhas por galão. Essa variável é importante, pois impacta diretamente no custo de operação do carro e pode influenciar o preço e a preferência dos consumidores

In [33]:
used_car_train.mpg.value_counts().reset_index().head(50)

Unnamed: 0,mpg,count
0,19-26,12783
1,18-25,12456
2,17-25,11280
3,20-27,10762
4,16-23,9131
5,19-28,8818
6,21-28,8324
7,17-23,8275
8,22-29,7965
9,17-24,7336


Os valores esão muito bagunçadosEstratégia para normalizar `mpg`

1. **Transformar intervalos em números únicos**

   * Para valores do tipo `X-Y`, você pode calcular a **média** `(X+Y)/2`.
   * Isso converte todos os intervalos em um único valor numérico, útil para modelagem.

2. **Tratar valores invertidos ou inválidos**

   * Se `X > Y`, inverter ou calcular a média normalmente `(X+Y)/2`.
   * Se houver zeros absurdos (como `13-0` ou `0-30`), tratar como **missing** ou ignorar, dependendo da frequência.

3. **Valores únicos / raros**

   * Entradas como `86-86` podem ser usadas normalmente (o intervalo vira `86`).
   * Valores isolados podem ser mantidos, mas você pode limitar o **range aceitável** para detectar outliers extremos (ex.: `mpg < 5` ou `mpg > 60`).

4. **Padronização final**

   * Converter tudo para **float**


Após isso eu irei ver seu valor preditivos, se não tiver muito valor preditivo eu a removo pelo falo que na imputação dos valores como ela tem 18% de valores vazios seria um risco de vies, logo irei fazer esse tratamento e analisar essas coisas.

In [34]:
import re
def tratar_mpg(mpg_value):
    """
    Função para normalizar valores da coluna mpg.
    - Converte intervalos X-Y em média.
    - Trata valores invertidos ou inválidos.
    - Converte tudo para float, mantendo NaN quando necessário.
    """
    if pd.isna(mpg_value):
        return np.nan
    
    mpg_str = str(mpg_value).strip()
    
    # Verifica se é um intervalo
    if '-' in mpg_str:
        parts = mpg_str.split('-')
        try:
            nums = [float(p) for p in parts if re.match(r'^\d+(\.\d+)?$', p)]
            if len(nums) == 2:
                # Se os números são válidos, calcula a média
                return np.mean(nums)
            elif len(nums) == 1:
                # Se só há um número válido, retorna ele
                return nums[0]
            else:
                return np.nan
        except:
            return np.nan
    else:
        # Tenta converter valor único para float
        try:
            return float(mpg_str)
        except:
            return np.nan

# Aplicar a categorização
used_car_train['mpg'] = used_car_train['mpg'].apply(tratar_mpg)
used_car_test['mpg'] = used_car_train['mpg'].apply(tratar_mpg)

used_car_train[['mpg', 'price']].corr()

Unnamed: 0,mpg,price
mpg,1.0,-0.244032
price,-0.244032,1.0


Decidi **manter a coluna `mpg`** no dataset, pois ela apresenta uma correlação negativa relevante com o preço (`-0.244`), indicando que veículos mais econômicos tendem a ter preços ligeiramente menores. Apesar de não ser extremamente forte, essa relação ainda fornece informação útil que pode contribuir para o desempenho do modelo.

Para lidar com os valores ausentes, irei **aplicar uma imputação**, garantindo que todos os registros tenham um valor numérico consistente. Com isso, a coluna estará pronta para ser utilizada na modelagem, preservando sua capacidade preditiva.
Com a parte de limpeza finalizada, posso salvar os 2 data sets para utiliza-los na analise exploratória!


In [None]:
used_car_test.to_csv("../Dados/used_car_test.csv")
used_car_train.to_csv("../Dados/used_car_train.csv")