# Análise Exploratória de Dados (EDA) - Veículos

In [None]:
import pandas as pd

import plotly.express as px

from pathlib import Path
import warnings

warnings.filterwarnings("ignore")
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)


In [44]:
# Definindo o diretório raiz do projeto
BASE_DIR = Path().resolve().parent

# Definindo o caminho para o arquivo CSV de veículos
car_data_path = BASE_DIR / "data/vehicles.csv"

# Carregando os dados
car_data = pd.read_csv(car_data_path)

print(car_data.head())


   price  model_year           model  condition  cylinders fuel  odometer  \
0   9400      2011.0          bmw x5       good        6.0  gas  145000.0   
1  25500         NaN      ford f-150       good        6.0  gas   88705.0   
2   5500      2013.0  hyundai sonata   like new        4.0  gas  110000.0   
3   1500      2003.0      ford f-150       fair        8.0  gas       NaN   
4  14900      2017.0    chrysler 200  excellent        4.0  gas   80903.0   

  transmission    type paint_color  is_4wd date_posted  days_listed  
0    automatic     SUV         NaN     1.0  2018-06-23           19  
1    automatic  pickup       white     1.0  2018-10-19           50  
2    automatic   sedan         red     NaN  2019-02-07           79  
3    automatic  pickup         NaN     NaN  2019-03-22            9  
4    automatic   sedan       black     NaN  2019-04-02           28  


In [45]:
# Informações gerais sobre os tipos de dados
print(car_data.dtypes)

# Análise de valores ausentes
missing_data = car_data.isnull().sum()
print("\n", missing_data)

# Verificar duplicados
duplicados = car_data.duplicated().sum()
print("\n", duplicados)


price             int64
model_year      float64
model            object
condition        object
cylinders       float64
fuel             object
odometer        float64
transmission     object
type             object
paint_color      object
is_4wd          float64
date_posted      object
days_listed       int64
dtype: object

 price               0
model_year       3619
model               0
condition           0
cylinders        5260
fuel                0
odometer         7892
transmission        0
type                0
paint_color      9267
is_4wd          25953
date_posted         0
days_listed         0
dtype: int64

 0


In [46]:
# Removendo Valores Ausentes
car_data = car_data.dropna()
missing_data = car_data.isnull().sum()
print("\n", missing_data)



 price           0
model_year      0
model           0
condition       0
cylinders       0
fuel            0
odometer        0
transmission    0
type            0
paint_color     0
is_4wd          0
date_posted     0
days_listed     0
dtype: int64


In [47]:
def converter_para_numerico(serie, nome_coluna):
    # Converter para string, dividir por ponto e pegar a primeira parte (remove decimais)
    serie_limpa = serie.astype(str).str.split(".").str[0]
    # Converter para numérico, tratando erros
    serie_numerica = pd.to_numeric(serie_limpa, errors="coerce").astype(
        "Int64"
    )
    return serie_numerica


# Convertendo cada coluna numérica
car_data["model_year"] = converter_para_numerico(
    car_data["model_year"], "ano do modelo"
)
car_data["odometer"] = converter_para_numerico(
    car_data["odometer"], "quilometragem"
)
car_data["cylinders"] = converter_para_numerico(
    car_data["cylinders"], "cilindros"
)
car_data["is_4wd"] = converter_para_numerico(car_data["is_4wd"], "tração 4x4")

print(car_data.head())


    price  model_year                     model  condition  cylinders fuel  \
5   14990        2014              chrysler 300  excellent          6  gas   
7   15990        2013               honda pilot  excellent          6  gas   
10  19500        2011  chevrolet silverado 1500  excellent          8  gas   
14  12990        2009                 gmc yukon  excellent          8  gas   
16  14990        2010                  ram 1500  excellent          8  gas   

    odometer transmission    type paint_color  is_4wd date_posted  days_listed  
5      57954    automatic   sedan       black       1  2018-06-20           15  
7     109473    automatic     SUV       black       1  2019-01-07           68  
10    128413    automatic  pickup       black       1  2018-09-17           38  
14    132285    automatic     SUV       black       1  2019-01-31           24  
16    130725    automatic  pickup         red       1  2018-12-30           13  


In [48]:
# Extraindo a marca (primeira palavra) e modelo (segunda palavra)
car_data["brand"] = car_data["model"].str.split(" ").str[0]
car_data["model"] = car_data["model"].str.split(" ").str[1]

print(car_data.head())


    price  model_year      model  condition  cylinders fuel  odometer  \
5   14990        2014        300  excellent          6  gas     57954   
7   15990        2013      pilot  excellent          6  gas    109473   
10  19500        2011  silverado  excellent          8  gas    128413   
14  12990        2009      yukon  excellent          8  gas    132285   
16  14990        2010       1500  excellent          8  gas    130725   

   transmission    type paint_color  is_4wd date_posted  days_listed  \
5     automatic   sedan       black       1  2018-06-20           15   
7     automatic     SUV       black       1  2019-01-07           68   
10    automatic  pickup       black       1  2018-09-17           38   
14    automatic     SUV       black       1  2019-01-31           24   
16    automatic  pickup         red       1  2018-12-30           13   

        brand  
5    chrysler  
7       honda  
10  chevrolet  
14        gmc  
16        ram  


In [49]:
# Convertendo a coluna de data para formato datetime
car_data["date_posted"] = pd.to_datetime(
    car_data["date_posted"], errors="coerce"
)

# Reorganizando as colunas em ordem lógica
colunas_organizadas = [
    "date_posted",  # Data de postagem
    "brand",  # Marca
    "model",  # Modelo
    "model_year",  # Ano do modelo
    "condition",  # Condição
    "odometer",  # Quilometragem
    "cylinders",  # Cilindros
    "fuel",  # Combustível
    "transmission",  # Transmissão
    "type",  # Tipo de veículo
    "paint_color",  # Cor
    "is_4wd",  # Tração 4x4
    "days_listed",  # Dias listado
    "price",  # Preço
]

car_data = car_data[colunas_organizadas]

print(car_data.head())


   date_posted      brand      model  model_year  condition  odometer  \
5   2018-06-20   chrysler        300        2014  excellent     57954   
7   2019-01-07      honda      pilot        2013  excellent    109473   
10  2018-09-17  chevrolet  silverado        2011  excellent    128413   
14  2019-01-31        gmc      yukon        2009  excellent    132285   
16  2018-12-30        ram       1500        2010  excellent    130725   

    cylinders fuel transmission    type paint_color  is_4wd  days_listed  \
5           6  gas    automatic   sedan       black       1           15   
7           6  gas    automatic     SUV       black       1           68   
10          8  gas    automatic  pickup       black       1           38   
14          8  gas    automatic     SUV       black       1           24   
16          8  gas    automatic  pickup         red       1           13   

    price  
5   14990  
7   15990  
10  19500  
14  12990  
16  14990  


In [50]:
# Agregação de dados por marca

df_brands = (
    car_data.groupby("brand")
    .agg(
        {
            "cylinders": "mean",  # Média de cilindros
            "odometer": "mean",  # Quilometragem média
            "is_4wd": "mean",  # Proporção com tração 4x4
            "days_listed": "mean",  # Dias médios listado
            "price": "mean",  # Preço médio
            "model_year": "mean",  # Ano médio
        }
    )
    .round(0)
)

df_brands = df_brands.reset_index()
df_brands = df_brands.astype(
    {
        "cylinders": int,
        "odometer": int,
        "is_4wd": int,
        "days_listed": int,
        "price": int,
        "model_year": int,
    }
)

# Agregação de dados por tipo

df_type = (
    car_data.groupby("type")
    .agg(
        {
            "cylinders": "mean",  # Média de cilindros
            "odometer": "mean",  # Quilometragem média
            "is_4wd": "mean",  # Proporção com tração 4x4
            "days_listed": "mean",  # Dias médios listado
            "price": "mean",  # Preço médio
            "model_year": "mean",  # Ano médio
        }
    )
    .round(0)
)

df_type = df_type.reset_index()
df_type = df_type.astype(
    {
        "cylinders": int,
        "odometer": int,
        "is_4wd": int,
        "days_listed": int,
        "price": int,
        "model_year": int,
    }
)

# Agregação de dados por condição

df_condition = (
    car_data.groupby("condition")
    .agg(
        {
            "cylinders": "mean",  # Média de cilindros
            "odometer": "mean",  # Quilometragem média
            "is_4wd": "mean",  # Proporção com tração 4x4
            "days_listed": "mean",  # Dias médios listado
            "price": "mean",  # Preço médio
            "model_year": "mean",  # Ano médio
        }
    )
    .round(0)
)

df_condition = df_condition.reset_index()
df_condition = df_condition.astype(
    {
        "cylinders": int,
        "odometer": int,
        "is_4wd": int,
        "days_listed": int,
        "price": int,
        "model_year": int,
    }
)

# Agregação de dados por combustível

df_fuel = (
    car_data.groupby("fuel")
    .agg(
        {
            "cylinders": "mean",  # Média de cilindros
            "odometer": "mean",  # Quilometragem média
            "is_4wd": "mean",  # Proporção com tração 4x4
            "days_listed": "mean",  # Dias médios listado
            "price": "mean",  # Preço médio
            "model_year": "mean",  # Ano médio
        }
    )
    .round(0)
)

df_fuel = df_fuel.reset_index()
df_fuel = df_fuel.astype(
    {
        "cylinders": int,
        "odometer": int,
        "is_4wd": int,
        "days_listed": int,
        "price": int,
        "model_year": int,
    }
)

print(df_brands)
print("\n", df_type)
print("\n", df_condition)
print("\n", df_fuel)


         brand  cylinders  odometer  is_4wd  days_listed  price  model_year
0        acura          6    163706       1           53   9604        2011
1          bmw          6    113899       1           43  10821        2009
2        buick          6    118102       1           44  11313        2012
3     cadillac          8    120406       1           42  18846        2009
4    chevrolet          8    119658       1           40  17308        2011
5     chrysler          6     77948       1           42  13806        2014
6        dodge          8    114912       1           37   5017        2008
7         ford          7    120925       1           40  15733        2010
8          gmc          8    123784       1           41  17439        2010
9        honda          5    128334       1           39   8554        2009
10     hyundai          6    109203       1           43   8138        2009
11        jeep          6    110910       1           40  13440        2008
12         k

In [51]:
# Gráfico de preços por marca
fig1 = px.bar(
    df_brands,
    x="brand",
    y="price",
    title="Preço Médio por Marca de Veículo",
    labels={"brand": "Marca do Veículo", "price": "Preço Médio (USD)"},
    color="price",
    color_continuous_scale="viridis",
    height=500,
)
fig1.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig1.show()

# Gráfico de preços por tipo de veículo
fig2 = px.bar(
    df_type,
    x="type",
    y="price",
    title="Preço Médio por Tipo de Veículo",
    labels={"type": "Tipo de Veículo", "price": "Preço Médio (USD)"},
    color="price",
    color_continuous_scale="plasma",
    height=500,
)
fig2.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig2.show()

# Gráfico de preços por condição de veículo
fig3 = px.bar(
    df_condition,
    x="condition",
    y="price",
    title="Preço Médio por Condição de Veículo",
    labels={"condition": "Condição do Veículo", "price": "Preço Médio (USD)"},
    color="price",
    color_continuous_scale="cividis",
    height=500,
)
fig3.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig3.show()

# Gráfico de preços por combustível
fig4 = px.bar(
    df_fuel,
    x="fuel",
    y="price",
    title="Preço Médio por Tipo de Combustível",
    labels={"fuel": "Tipo de Combustível", "price": "Preço Médio (USD)"},
    color="price",
    color_continuous_scale="magma",
    height=500,
)
fig4.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig4.show()


In [52]:
# Gráfico de dias listado por marca
fig5 = px.bar(
    df_brands,
    x="brand",
    y="days_listed",
    title="Dias Médios Listado por Marca",
    labels={"brand": "Marca do Veículo", "days_listed": "Dias Médios Listado"},
    color="days_listed",
    color_continuous_scale="reds",
    height=500,
)
fig5.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig5.show()

# Gráfico de dias listado por tipo
fig6 = px.bar(
    df_type,
    x="type",
    y="days_listed",
    title="Dias Médios Listado por Tipo de Veículo",
    labels={"type": "Tipo de Veículo", "days_listed": "Dias Médios Listado"},
    color="days_listed",
    color_continuous_scale="oranges",
    height=500,
)
fig6.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig6.show()

# Gráfico de dias listado pro condição
fig7 = px.bar(
    df_condition,
    x="condition",
    y="days_listed",
    title="Dias Médios Listado por Condição do Veículo",
    labels={
        "condition": "Condição do Veículo",
        "days_listed": "Dias Médios Listado",
    },
    color="days_listed",
    color_continuous_scale="purples",
    height=500,
)
fig7.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig7.show()

# Gráfico de dias listado por combustível
fig8 = px.bar(
    df_fuel,
    x="fuel",
    y="days_listed",
    title="Dias Médios Listado por Tipo de Combustível",
    labels={
        "fuel": "Tipo de Combustível",
        "days_listed": "Dias Médios Listado",
    },
    color="days_listed",
    color_continuous_scale="blues",
    height=500,
)
fig8.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig8.show()


In [53]:
# Gráfico de quilometragem por marca
fig9 = px.bar(
    df_brands,
    x="brand",
    y="odometer",
    title="Quilometragem Média por Marca",
    labels={
        "brand": "Marca do Veículo",
        "odometer": "Quilometragem Média (km)",
    },
    color="odometer",
    color_continuous_scale="blues",
    height=500,
)
fig9.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig9.show()

# Gráfico de quilometragem por tipo
fig10 = px.bar(
    df_type,
    x="type",
    y="odometer",
    title="Quilometragem Média por Tipo de Veículo",
    labels={"type": "Tipo de Veículo", "odometer": "Quilometragem Média (km)"},
    color="odometer",
    color_continuous_scale="greens",
    height=500,
)
fig10.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig10.show()

# Gráfico de quilometragem por condição
fig11 = px.bar(
    df_condition,
    x="condition",
    y="odometer",
    title="Quilometragem Média por Condição do Veículo",
    labels={
        "condition": "Condição do Veículo",
        "odometer": "Quilometragem Média (km)",
    },
    color="odometer",
    color_continuous_scale="purples",
    height=500,
)
fig11.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig11.show()

# Gráfico de quilometragem por combustível
fig12 = px.bar(
    df_fuel,
    x="fuel",
    y="odometer",
    title="Quilometragem Média por Tipo de Combustível",
    labels={
        "fuel": "Tipo de Combustível",
        "odometer": "Quilometragem Média (km)",
    },
    color="odometer",
    color_continuous_scale="blues",
    height=500,
)
fig12.update_layout(
    xaxis_tickangle=-45,
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig12.show()


In [57]:

fig13 = px.histogram(
    car_data,
    x="model_year",
    y="price",
    title="Distribuição de Preços por Ano do Modelo",
    labels={
        "model_year": "Ano do Modelo",
        "price": "Preço (USD)",
        "count": "Frequência",
    },
    nbins=50,
    height=500,
    color_discrete_sequence=["skyblue"],
)
fig13.update_layout(
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
    bargap=0.1,
)
fig13.show()

In [58]:
fig14 = px.histogram(
    car_data,
    x="days_listed",
    y="price",
    title="Distribuição de Preços por Dias Listado",
    labels={
        "days_listed": "Dias Listado",
        "price": "Preço (USD)",
        "count": "Frequência",
    },
    nbins=100,
    height=500,
    color_discrete_sequence=["lightcoral"],
)
fig14.update_layout(
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
    bargap=0.1,
)
fig14.show()


In [64]:

# Gráfico: Preço vs Quilometragem
fig15 = px.scatter(
    car_data,
    x="odometer",
    y="price",
    title="Correlação: Preço vs Quilometragem",
    labels={
        "odometer": "Quilometragem (km)",
        "price": "Preço (USD)",
        "model_year": "Ano Modelo",
    },
    height=500,
    trendline="ols",
    color="model_year",
    color_continuous_scale="plasma",
    range_x=[0, 300000],
    range_y=[0, 60000],
    opacity=0.7,
)
fig15.update_layout(
    title_font_size=16, xaxis_title_font_size=14, yaxis_title_font_size=14
)
fig15.show()

# Gráfico: Dias Listado vs Combustível
fig16 = px.box(
    car_data,
    x="days_listed",
    y="fuel",
    title="Distribuição do Combustível por Dias Listado",
    labels={
        "days_listed": "Dias Listado",
        "fuel": "Tipo de Combustível",
    },
    height=500,
)
fig16.update_layout(
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14,
)
fig16.show()
