In [2]:
import pandas as pd
import plotly.express as px


In [3]:
car_data = pd.read_csv('vehicles.csv')
print(car_data.info())
display(car_data.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB
None


Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28


In [4]:
fig = px.histogram(car_data, x="odometer") # criar um histograma
fig.show() # exibindo

In [6]:
car_data['manufacturer'] = car_data['model'].apply(lambda x: str(x).split(' ')[0])
car_data['manufacturer'] = car_data['manufacturer'].str.title()
print(car_data[['model', 'manufacturer']].head())

            model manufacturer
0          bmw x5          Bmw
1      ford f-150         Ford
2  hyundai sonata      Hyundai
3      ford f-150         Ford
4    chrysler 200     Chrysler


In [7]:
print("\nFabricantes únicos encontrados:")
print(car_data['manufacturer'].unique())


Fabricantes únicos encontrados:
['Bmw' 'Ford' 'Hyundai' 'Chrysler' 'Toyota' 'Honda' 'Kia' 'Chevrolet'
 'Ram' 'Gmc' 'Jeep' 'Nissan' 'Subaru' 'Dodge' 'Mercedes-Benz' 'Acura'
 'Cadillac' 'Volkswagen' 'Buick']


In [9]:
car_data_filtered = car_data.dropna(subset=['manufacturer', 'type']).copy()
# Criando o gráfico de barras
fig = px.histogram(
    car_data_filtered,
    x="manufacturer",
    color="type",
    title="Tipos de Veículos por Fabricante",
    labels={
        "manufacturer": "Fabricante",
        "type": "Tipo de Veículo",
        "count": "Número de Veículos"
    },
    template="plotly_white" # ou "plotly_dark" para tema escuro
)

# Melhorando a exibição: ordenando fabricantes por contagem total
# e garantindo que o tipo de agrupamento seja 'overlay' ou 'group' para clareza
fig.update_layout(barmode='stack') # Pode ser 'group' para barras agrupadas ou 'stack' para barras empilhadas

# Exibindo o gráfico
fig.show()

In [None]:
car_data_filtered_cond_year = car_data.dropna(subset=['model_year', 'condition']).copy()
car_data_filtered_cond_year['model_year'] = car_data_filtered_cond_year['model_year'].astype(int)

fig = px.histogram(
    car_data_filtered_cond_year,
    x="model_year",
    color="condition",
    title="Densidade da Condição dos Veículos por Ano do Modelo (Curvas de Distribuição)",
    labels={
        "model_year": "Ano do Modelo",
        "condition": "Condição do Veículo",
        "count": "Densidade de Veículos" # O rótulo do eixo Y mudará para refletir a densidade
    },
    histnorm='probability density', # Normaliza a altura das barras para que a área total seja 1
    barmode='overlay',             # Faz com que as barras se sobreponham
    opacity=0.7,                   # Adiciona transparência para ver as sobreposições
    template="plotly_white"        # Ou "plotly_dark" para um tema escuro
)

# Garante que o 'model_year' seja tratado como categorias discretas no eixo X
fig.update_xaxes(type='category')

# Exibindo o gráfico
fig.show()

In [14]:
# É importante filtrar NaNs das colunas que serão usadas no gráfico
car_data_filtered_price_odo = car_data.dropna(subset=['price', 'odometer', 'condition']).copy()

# Criando o gráfico de dispersão (scatter plot)
fig = px.scatter(
    car_data_filtered_price_odo,
    x="odometer",
    y="price",
    color="condition", # Adiciona a condição como cor, mostrando o impacto visualmente
    title="Preço vs. Quilometragem (Odômetro) por Condição do Veículo",
    labels={
        "odometer": "Quilometragem (Odômetro)",
        "price": "Preço",
        "condition": "Condição do Veículo"
    },
    hover_data=['model_year', 'model'], # Mostra informações adicionais ao passar o mouse
    template="plotly_white", # Ou "plotly_dark"
    opacity=0.7 # Adiciona um pouco de transparência para ver pontos sobrepostos
)

# Opcional: Ajustar o tipo do eixo para melhor visualização (por exemplo, logarítmico se os valores variam muito)
# fig.update_yaxes(type="log") # Descomente se os preços variarem muito, para melhor distribuição
# fig.update_xaxes(type="log") # Descomente se as quilometragens variarem muito

# Exibindo o gráfico
fig.show()