# O que vende um carro?

Você é analista na Lista de Eixo de Manivela. Centenas de propagandas gratuitas de veículos são publicadas no seu site todos os dias. Você precisa estudar os dados coletados nos últimos anos e determinar quais fatores influenciaram o preço de um veículo.

# Instruções para completar o projeto 
*Passo1 - Baixar o conjunto de dados* 

*Passo 2. - Pré-processamento de dados* 
- Identifique e estude valores ausentes:     
    - Em alguns casos há uma maneira óbvia de substituir valores ausentes. Por exemplo, se um campo booleano contém apenas valores True, é razoável presumir que valores ausentes são False. Não há correções tão óbvias para outros tipos de dados, e há casos quando o fato de que um valor está ausente é significativo. Quando for apropriado, preencha os valores. 
    - Descreva os fatores que podem ter resultado em valores ausentes.

*Passo 3. Calcule e adicione à tabela o seguinte:*
- ​Dia da semana, mês, e ano que a propaganda foi colocada A idade do veículo (em anos) quando a propaganda foi colocada. A média de quilometragem por ano Na coluna condition, substitua valores de string por uma escala numérica:​
    - novo = 5
    - como novo = 4
    - excellente = 3
    - bom = 2
    - razoável = 1
    - sucata = 0

*Passo 4. - Realize uma análise exploratória de dados, seguindo as instruções abaixo:* 
- Estude os seguintes parâmetros: preço, idade do veículo quando a propaganda foi colocada, quilometragem, número de cilindros, e condição.
- Construa histogramas para cada um desses parâmetros.
- Estude como valores atípicos afetam a forma e a legibilidade dos histogramas.
- Determine os limites superiores de valores atípicos, remova os valores atípicos, armazene-os em um DataFrame separado e continue seu trabalho com os dados filtrados.
- Use os dados filtrados para construir novos histogramas. Compare-os com os histogramas anteriores (aqueles que incluem valores atípicos).
- Tire conclusões para cada histograma.
- Analise o número de propagandas e o preço médio para cada tipo de veículo.
- Construa um gráfico mostrando a dependência do número de propagandas em relação ao tipo de veículo.
- Selecione os dois tipos com o maior número de propagandas. Pegue cada um dos tipos populares que você detectou no estágio anterior e estude se o preço depende da idade, quilometragem, condição, tipo de transmissão e cor. Ao analisar variáveis categóricas, note que as categorias precisam ter pelo menos 50 propagandas; de outro modo, seus parâmetros não serão válidos para análise.

*Passo 5. Escreva uma conclusão geral. 
- Formato: Complete a tarefa em um notebook Jupyter. Coloque seu código nas células de código e suas explicações de texto em células Markdown, então aplique a formatação e os cabeçalhos.*

*Descrição dos dados:*
- O conjunto de dados contém os seguintes campos:
    - price
    - model_year
    - model
    - condition
    - cylinders
    - fuel — gasolina, diesel etc.
    - odometer — a quilometragem do veículo quando a propaganda foi
    - publicada
    - transmission
    - paint_color
    - is_4wd — Se o veículo é 4 por 4 (tipo Booleano)
    - date_posted — a data que a propaganda foi publicada
    - days_listed — dias desde a publicação até a retirada

# Iniciação

In [None]:
# Carregando todas as bibliotecas necessárias
import pandas as pd
import plotly.express as px
import plotly.subplots as ps

### Carreguamento dos dados

In [None]:
# Carregue o arquivo com os dados em um DataFrame
df_cars = pd.read_csv('vehicles_us.csv')

### Exploração dos dados iniciais

In [None]:
# verificando nomes das colunas
df_cars.columns

`Sem problemas nos nomes das colunas.`

In [None]:
# imprima as informações gerais/resumidas sobre o DataFrame
df_cars.info()

`Temos 13 colunas. Percebe-se dados ausentes. O Dtype nos mostra que teremos que transformar os tipos de dados em algumas colunas.`

In [None]:
# chamando .describe()
df_cars.describe()

In [None]:
# chamando .shape
df_cars.shape

In [None]:
# imprima uma amostragem dos dados
df_cars.head(15)

In [None]:
# chamando .tail()
df_cars.tail(15)

In [None]:
# verificando valores ausentes
df_cars.isna().sum()

`Valores ausentes nas colunas model_year, cylinders, odometer, paint_color e is_4wd.`

In [None]:
# verificando duplicados
df_cars.duplicated().sum()

`Sem duplicados no df_cars. Coluna date_posted está em formato object e is_4wd apresenta valores float64. Provavelmente teremos que tratar esses dados mais abaixo.`

In [None]:
# contando a porcentagem de valores ausentes nas colunas

# tamanho de df_cars
df_cars_size = len(df_cars)

# coluna a coluna

# model_year
nan_model_year = df_cars['model_year'].isna().sum()
print(f'Valores ausentes em model_year: {nan_model_year}. Percentual: {round((nan_model_year / df_cars_size) * 100)}% do DataFrame.')

# cylinders
nan_cylinders = df_cars['cylinders'].isna().sum()
print(f'Valores ausentes em cylinders: {nan_cylinders}. Percentual: {round((nan_cylinders / df_cars_size) * 100)}% do DataFrame.')

# odometer
nan_odometer = df_cars['odometer'].isna().sum()
print(f'Valores ausentes em odometer: {nan_odometer}. Percentual: {round((nan_odometer / df_cars_size) * 100)}% do DataFrame.')

# paint color
nan_paint_color = df_cars['paint_color'].isna().sum()
print(f'Valores ausentes em paint_color: {nan_paint_color}. Percentual: {round((nan_paint_color / df_cars_size) * 100)}% do DataFrame.')

`Como o percentual de valores ausentes nas colunas são consideráveis, avaliaremos como vamos tratá-los em cada caso.`

*Vamos verificar se existe uma correlação entre model_year e odometer.*

In [None]:
corr_model_year_odometer = df_cars['odometer'].corr(df_cars['model_year'])
corr_model_year_odometer

In [None]:
# gráfico de dispersão para odometer e price
fig = px.scatter(df_cars, x='model_year', y='odometer', 
                 color_discrete_sequence=px.colors.qualitative.Set3) 

fig.update_traces(marker=dict(size=8, line=dict(width=2, color='grey')), 
                  selector=dict(mode='markers'))

fig.update_layout(scattermode="group", scattergap=0.75, 
                  title='Gráfico de Dispersão entre model_year e odometer', 
                  autosize=False, width=500, height=500)

fig.show() 

`Existe uma correlação negativa entre odometer e model_year.`

*Criando uma matriz de correlação entre todas as colunas numéricas.*

In [None]:
df_cars.head(1)

In [None]:
# variável com as colunas numéricas
numeric_columns = df_cars.iloc[:, [0, 1, 4, 6, 10]]

In [None]:
# aplicando o método corr
corr_matrix = numeric_columns.corr()
corr_matrix

*Vamos ver graficamente.*

In [None]:
# criar um gráfico de dispersão
fig = px.imshow(corr_matrix, text_auto=True, 
                color_continuous_scale=[(0, "blue"), (0.5, "orange"), (1, "purple")])

fig.update_layout(title='Matriz de Correlação', 
                  autosize=False, width=500, height=500)

fig.show()

`Obtivemos bons insights verificando as correlações.`

*Certificando sobre a coluna is_4wd.*

In [None]:
# valores únicos na coluna is_4wd
df_cars['is_4wd'].unique()

`A coluna is_4wd está como coluna booleana. Discorreremos que 1 representa sim, e nan (0), como não.`

In [None]:
# corrigindo os valores ausentes na coluna is_4wd e conferindo o resultado
df_cars['is_4wd'] = df_cars['is_4wd'].fillna(0)
print(f"Dados ausentes em is_4wd: {df_cars['is_4wd'].isna().sum()}")
print(f"valores únicos em is_4wd: {df_cars['is_4wd'].unique()}")

`Coluna is_4wd ajustada.`

*Verificando coluna paint_color.*

In [None]:
# analisando valores únicos
df_cars['paint_color'].unique()

In [None]:
# buscando mais informações com o value_counts
df_cars_paint_color = df_cars.paint_color.value_counts()
df_cars_paint_color

In [None]:
# plotando um gráfico de barras para melhor visualização
fig = px.bar(df_cars_paint_color, barmode="group", text_auto=True)

fig.update_layout(title='Cores dos carros', 
                  autosize=False, width=500, height=500)

fig.show()

`Dado que a visualização dos dados da coluna paint_color não trouxe insights significativos, considerando que se trata de uma variável categórica, optamos por preencher os valores ausentes com "unknown".`

In [None]:
# preenchendo com unknown a coluna paint_model com fillna
df_cars['paint_color'] = df_cars['paint_color'].fillna('unknown')

In [None]:
# verificando...
df_cars.paint_color.isna().sum()

`Coluna paint_color sem valores ausentes agora.`

*Vamos agora olhar a coluna cylinders.*

In [None]:
# dtype
df_cars.cylinders.dtype

*Vamos transformar para números a coluna cylinders.*

In [None]:
# transformando...
df_cars['cylinders'] = pd.to_numeric(df_cars['cylinders'], errors='coerce')

In [None]:
# conferindo...
df_cars.cylinders.dtype

*Olhando a correlação mais forte.*

In [None]:
# correlação
df_cars.corr(numeric_only=True)

In [None]:
# valores únicos em is_4wd
df_cars.is_4wd.unique()

In [None]:
# olhando média e mediana...
grouped_cylinders_by_is_4wd = df_cars.groupby('is_4wd')['cylinders'].agg(['mean', 'median'])
grouped_cylinders_by_is_4wd

In [None]:
# salvando em uma variável a mediana
median_cylinders_by_is_4wd = df_cars.groupby('is_4wd')['cylinders'].transform('median')
median_cylinders_by_is_4wd

In [None]:
# preenchendo com mediana a coluna cylinders
df_cars['cylinders'].fillna(median_cylinders_by_is_4wd, inplace=True)

In [None]:
# atestando
df_cars['cylinders'].isna().sum()

`Sem valores ausentes em cylinders agora. Prosseguimos.`

## Cuidamento dos valores ausentes (se houver algum)

*Vamos agora melhorar os dados em model_year com base em price, pois como verificado no mapa de calor, existe uma "boa" correlação.*

In [None]:
# contando valores únicos...
len(df_cars.price.unique())

`São muitos valores, vamos agrupar.`

In [None]:
# qcut para intervalos
df_cars['price_bins'] = pd.qcut(df_cars.price, q = 6)

In [None]:
# olhanda a média e mediana
grouped = df_cars.groupby('price_bins')['model_year'].agg(['mean', 'median']).reset_index()
grouped

In [None]:
# qcut usando os quartis
df_cars['price_bins'] = pd.qcut(df_cars['price'], q=(0, 0.25, 0.5, 0.75, 1))

In [None]:
# média e mediana pelos quartis...
grouped = df_cars.groupby('price_bins')['model_year'].agg(['mean', 'median']).reset_index()
grouped

`Vamos preencher os valores ausnetes em model_year pela mediana do grouped.`

In [None]:
# agrupando pela mediana
grouped_median = df_cars.groupby('price_bins')['model_year'].transform('median')

In [None]:
# preenchendo...
df_cars['model_year'].fillna(grouped_median, inplace=True)

In [None]:
# valores ausentes?
df_cars['model_year'].isna().sum()

`Coluna model_year solucionada.`

*Agora vamos resolver a coluna odometer*

In [None]:
# qcut usando os quartis novamente
df_cars['price_bins'] = pd.qcut(df_cars['price'], q=(0, 0.25, 0.5, 0.75, 1))

In [None]:
# média e mediana pelos quartis...
grouped = df_cars.groupby('price_bins')['odometer'].agg(['mean', 'median']).reset_index()
grouped

In [None]:
# mediana sempre a melhor opção, vamos agrupar
grouped_median = df_cars.groupby('price_bins')['odometer'].transform('median')
grouped_median

In [None]:
# retirando os valores ausnetes
df_cars['odometer'].fillna(grouped_median, inplace=True)

In [None]:
# conferindo
df_cars['odometer'].isna().sum()

`Tudo okay com a coluna odometer.`

## Correção dos tipos de dados

*Vamos alterar o formato de coluna date_posted.*

In [None]:
df_cars['date_posted'].info()

In [None]:
# alterando com to_datetime do pandas
df_cars['date_posted'] = pd.to_datetime(df_cars['date_posted'])

In [None]:
# verificando...
df_cars['date_posted'].info()

`Coluna date_posted em formato adequado agora.`

## Enriquecimento dos dados

*Adicionando nova coluna date_listed na qual iremos realizar a soma.*

In [None]:
# Adicione valores data/hora para quando a propaganda estiver colocada
df_cars['days_listed'] = pd.to_timedelta(df_cars['days_listed'], unit='D')

In [None]:
# somando...
df_cars['date_listed'] = df_cars['date_posted'] + df_cars['days_listed']

In [None]:
# conferindo
df_cars.head()

`Coluna date_listed criada com sucesso.`

*Vamos calcular a idade do veículo conforme a data de propaganda.*

In [None]:
# verificando os formatos
df_cars.date_posted.info()

In [None]:
# verificando formato de model_year
df_cars.model_year.info()

In [None]:
# subtraindo e criando uma nova coluna com a idade do veículo...
df_cars['vehicle_age'] = df_cars['date_posted'].dt.year - df_cars['model_year'].astype(float)

In [None]:
# conferindo
df_cars.vehicle_age.head()

*Vamos agora calcular a quilometragem por ano.*

In [None]:
# dividindo a coluna odometers por vehicle_age
df_cars['avg_km_per_year'] = df_cars['odometer'] / df_cars['vehicle_age']

In [None]:
# constatando...
df_cars.avg_km_per_year.head()

*Transformando coluna condition.*

In [None]:
# verificando valores únicos
df_cars.condition.unique()

In [None]:
# substituindo...
# 'good' = 2, 'like new' = 4, 'fair' = 1, 'excellent' = 3, 'salvage' = 0, 'new' = 5
df_cars['condition'] = df_cars['condition'].replace({'new': 5,
                                                     'like new': 4,
                                                     'excellent': 3,
                                                     'good': 2,
                                                     'fair': 1,
                                                     'salvage': 0})

In [None]:
# verificando
df_cars.condition.unique()

`Valores na coluna condition alterados para numéricos.`

## Verificação os dos dados limpos

In [None]:
# imprima as informações gerais/resumidas sobre o DataFrame
df_cars.info()

In [None]:
# imprima uma amostragem dos dados
df_cars.head()

*Vamos criar 5 histogramas para demosntrar os dados.*

In [None]:
fig1 = px.histogram(df_cars, x="price", 
                    template='none', nbins=20, text_auto=True,
                    color_discrete_sequence=px.colors.qualitative.Antique)

# Atualizando o layout, se necessário
fig1.update_layout(title='Visualização da coluna - PRICE', 
                   autosize=False, width=500, height=500)

fig1.update_traces(marker_line_width=1, marker_line_color="black")

fig1.show()

In [None]:
fig2 = px.histogram(df_cars, x="model_year", 
                    nbins=20, template='none', text_auto=True,
                    color_discrete_sequence=px.colors.qualitative.Antique)

# Atualizando o layout, se necessário
fig2.update_layout(title='Visualização da coluna - MODEL_YEAR', 
                   autosize=False, width=500, height=500)

fig2.update_traces(marker_line_width=1, marker_line_color="black")

# Mostrando a figura
fig2.show()

In [None]:
fig3 = px.histogram(df_cars, x="odometer", 
                    template='none', nbins=20, text_auto=True,
                    color_discrete_sequence=px.colors.qualitative.Antique)

# Atualizando o layout, se necessário
fig3.update_layout(title='Visualização da coluna - ODOMETER', 
                   autosize=False, width=500, height=500)

fig3.update_traces(marker_line_width=1, marker_line_color="black")

# Mostrando a figura
fig3.show()

In [None]:
fig4 = px.histogram(df_cars, x="cylinders", 
                    template='none', nbins=20, text_auto=True,
                    color_discrete_sequence=px.colors.qualitative.Antique)

# Atualizando o layout, se necessário
fig4.update_layout(title='Visualização da coluna - CYLINDERS', 
                   autosize=False, width=500, height=500)

fig4.update_traces(marker_line_width=1, marker_line_color="black")

# Mostrando a figura
fig4.show()

In [None]:
fig5 = px.histogram(df_cars, x="condition", 
                    template='none', nbins=20, text_auto=True,
                    color_discrete_sequence=px.colors.qualitative.Antique)

# Atualizando o layout, se necessário
fig5.update_layout(title='Visualização da coluna - CONDITION', 
                   autosize=False, width=500, height=500)

fig5.update_traces(marker_line_width=1, marker_line_color="black")

# Mostrando a figura
fig5.show()

`Através da visualização dos histogramas acima, teremos que gerar boxplots das colunas para averiguar valores atípicos.`

*Vamos fazer uma cópia do nosso df_cars.*

In [None]:
original_df_cars = df_cars.copy()

*Gerando boxplot das colunas para verificação dos outliers e removendo-os quando necessário.*

### *Coluna price.*

In [None]:
# informaçãoes
df_cars.price.describe()

In [None]:
# histograma para verificar
fig = px.histogram(original_df_cars, 
                   x='price', nbins=10, text_auto=True,
                   color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Distribuição de Preços', 
                  autosize=False, width=500, height=500)

fig.update_traces(marker_line_width=1, marker_line_color="black")

fig.show()

In [None]:
# boxplot da coluna price
fig = px.box(original_df_cars, x='price', 
             color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Boxplot da Coluna "price"', 
                  autosize=False, width=500, height=500)

fig.show()

*Muitos outliers. Definindo limites superiores e inferiores*

In [None]:
# removendo carros com price menor do $5000
df_cars_out_pr = df_cars[df_cars['price'] >= 5000]

In [None]:
# acima de $50000 também
df_cars_out_pr = df_cars[df_cars['price'] <= 50000]

In [None]:
# histograma de verificação
fig = px.histogram(df_cars_out_pr, 
                   x='price', nbins=10, text_auto=True,
                   color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Distribuição de Preços', 
                  autosize=False, width=500, height=500)

fig.update_traces(marker_line_width=1, marker_line_color="black")

fig.show()

In [None]:
# boxplot da coluna price
fig = px.box(df_cars_out_pr, x='price',
             color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Boxplot da Coluna "price"', 
                  autosize=False, width=500, height=500)

fig.show()

In [None]:
df_cars.price.describe()

`Removemos do df_cars outliers, com valores abaixo de $5000 para carros, melhorando assim tanto a visualização do histograma que apresentou uma distribuição mais uniforme. Também tínhamos outliers com valores muito altos e os removemos do df_cars.`

### *Coluna model_year.*

In [None]:
# histograma de model_year
fig = px.histogram(original_df_cars, 
                   x='model_year', nbins=10, text_auto=True,
                   color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Distribuição dos Anos dos Modelos', 
                  autosize=False, width=500, height=500)

fig.update_traces(marker_line_width=1, marker_line_color="black")

fig.show()

In [None]:
# boxplot da coluna model_year
fig = px.box(original_df_cars, x='model_year',
             color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Boxplot da Coluna "model_year"', 
                  autosize=False, width=500, height=500)

fig.show()

In [None]:
# contanto carros com model_year abaixo de 2000
(df_cars['model_year'] < 1980).sum()

*Removendo outliers da coluna model_year.*

In [None]:
# removendo com base no histograma da distribuição
df_cars_out_my = df_cars[df_cars['model_year'] > 1980]

In [None]:
# histograma de model_year para averiguação
fig = px.histogram(df_cars_out_my, 
                   x='model_year', nbins=10, text_auto=True,
                   color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Distribuição dos Anos dos Modelos', 
                  autosize=False, width=500, height=500)

fig.update_traces(marker_line_width=1, marker_line_color="black")

fig.show()

In [None]:
# boxplot da coluna para averiguação
fig = px.box(df_cars_out_my, x='model_year',
             color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Boxplot da Coluna "model_year"', 
                  autosize=False, width=500, height=500)

fig.show()

In [None]:
df_cars.model_year.describe()

`Apresentação na coluna model_year está melhorada, conforme histograma e boxplot acima.`

### *Coluna odometer.*

In [None]:
# histograma da coluna odometer
fig = px.histogram(original_df_cars, 
                   x='odometer', nbins=20, text_auto=True,
                   color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Distribuição do Odômetro', 
                  autosize=False, width=500, height=500)

fig.update_traces(marker_line_width=1, marker_line_color="black")

fig.show()

In [None]:
# boxplot da coluna odometer
fig = px.box(original_df_cars, x='odometer',
             color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Boxplot da Coluna "odometer"', 
                  autosize=False, width=500, height=500)

fig.show()

In [None]:
# informações
df_cars.odometer.describe()

In [None]:
# calculando o quartis e definindo IQR
Q1 = df_cars['odometer'].quantile(0.25)
Q3 = df_cars['odometer'].quantile(0.75)
IQR = Q3 - Q1

In [None]:
# vamos definir os limites superiores apenas, pois sabendo que podemos ter carro em estado de novo...
upper_limit = Q3 + 1.5 * IQR
upper_limit

In [None]:
# outliers sendo removidos
df_cars_out_od = df_cars[(df_cars['odometer'] <= upper_limit)]

In [None]:
# histograma novamente
fig = px.histogram(df_cars_out_od, 
                   x='odometer', nbins=20, text_auto=True,
                   color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Distribuição do Odômetro', 
                  autosize=False, width=500, height=500)

fig.update_traces(marker_line_width=1, marker_line_color="black")

fig.show()

In [None]:
# aquele boxplot para conferência
fig = px.box(df_cars_out_od, x='odometer',
             color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Boxplot da Coluna "odometer"', 
                  autosize=False, width=500, height=500)

fig.show()

In [None]:
# verificando
df_cars.odometer.describe()

`Processo de remoção dos outliers em odometer concluído com sucesso.`

### *Coluna cylinders.*

In [None]:
# boxplot da coluna cylinders
fig = px.box(df_cars, x='cylinders',
             color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Boxplot da Coluna "cylinders"', 
                  autosize=False, width=500, height=500)

fig.show()

`Sem outliers, prosseguimos.`

### *Coluna condition.*

In [None]:
# boxplot da coluna condition
fig = px.box(df_cars, x='condition', 
             color_discrete_sequence=px.colors.qualitative.Dark24_r)

fig.update_layout(title='Boxplot da Coluna "condition"', 
                  autosize=False, width=500, height=500)

fig.show()

`Coluna condition é praticamente uma coluna categórica. O que o boxplot mostrou são dados padrões desta coluna. Seguiremos adiante.`

In [None]:
# verificando as informação do df_cars com outliers removidos
df_cars.info()

## Estudo dos parâmetros fundamentais sem valores atípicos

In [None]:
# nosso df_cars original
original_df_cars.info()

In [None]:
# diferença de linhas após a "limpeza"
len(original_df_cars) - len(df_cars)

In [None]:
# em porcentagem
len(df_cars) / len(original_df_cars)

*Realizando algumas comparações com histogramas.*

In [None]:
fig1 = px.histogram(original_df_cars, x="price", 
                    color_discrete_sequence=px.colors.qualitative.Vivid, 
                    template='none', nbins=20, text_auto=True)

# Atualizando o layout, se necessário
fig1.update_layout(title="Comparação de preço: Histograma de Preço - Original", 
                   autosize=False, width=500, height=500)

fig1.update_traces(marker_line_width=1, marker_line_color="black")

# Mostrando a figura
fig1.show()

In [None]:
fig2 = px.histogram(df_cars_out_pr, x="price", 
                    color_discrete_sequence=px.colors.qualitative.Prism, 
                    template='none', nbins=24, text_auto=True)

# Atualizando o layout, se necessário
fig2.update_layout(title="Comparação de preço: Histograma de Preço - Sem Outliers", 
                   autosize=False, width=500, height=500)

fig2.update_traces(marker_line_width=1, marker_line_color="black")

# Mostrando a figura
fig2.show()

In [None]:
fig1 = px.histogram(original_df_cars, x="odometer", 
                    color_discrete_sequence=px.colors.qualitative.Vivid, 
                    template='none', nbins=20, text_auto=True)

# Atualizando o layout, se necessário
fig1.update_layout(title="Comparação de odômetro: Histograma de Odômetro - Original", 
                   autosize=False, width=500, height=500)

fig1.update_traces(marker_line_width=1, marker_line_color="black")

# Mostrando a figura
fig1.show()

In [None]:
fig2 = px.histogram(df_cars_out_od, x="odometer", 
                    color_discrete_sequence=px.colors.qualitative.Prism, 
                    template='none', nbins=20, text_auto=True)

# Atualizando o layout, se necessário
fig2.update_layout(title="Comparação de odômetro: Histograma de Odômetro - Sem Outliers", 
                   autosize=False, width=500, height=500)

fig2.update_traces(marker_line_width=1, marker_line_color="black")

# Mostrando a figura
fig2.show()

In [None]:
# verificando coluna
df_cars.days_listed.describe()

In [None]:
# mais informações
df_cars.head()

In [None]:
# cálculos rápidos para extrair o número em dias para float
df_cars['days_listed_number'] = (df_cars['date_listed'] - df_cars['date_posted']).dt.days
df_cars['days_listed_number'].describe()

In [None]:
# Histograma para visualizar melhor
fig = px.histogram(df_cars, x='days_listed_number', 
                   color_discrete_sequence=px.colors.qualitative.Set2, 
                   text_auto=True, nbins=20)

fig.update_layout(title='Número de Dias Listados', 
                  autosize=False, width=500, height=500)

fig.update_traces(marker_line_width=1, marker_line_color="black")

fig.show()

In [None]:
# mediana
median = df_cars['days_listed_number'].median()
median

In [None]:
# média
mean = df_cars['days_listed_number'].mean()
mean

`As propagandas ficaram em média por mais de 39 dias. Já a mediana informa que são 33 dias. Vamos verificar os tempos mais longos e os mais curtos.`

In [None]:
# vamos ver o valor máximo
max_time = df_cars['days_listed_number'].max()
max_time

In [None]:
# Encontrar o tempo mais curto
shortest_time = df_cars['days_listed_number'].min()
shortest_time

In [None]:
# usando len
short_time_occurrence_count = (df_cars['days_listed_number'] == 0).sum()
short_time_occurrence_count

In [None]:
# Contando os valores maiores que a média
avg_days_listed = df_cars['days_listed_number'].mean()
above_avg_occurrence = (df_cars['days_listed_number'] > avg_days_listed).sum()
above_avg_occurrence

In [None]:
# Contando os valores maiores que a mediana...
median_days_listed = df_cars['days_listed_number'].median()
above_median_occurrence = (df_cars['days_listed_number'] > median_days_listed).sum()
above_median_occurrence

- `Temos alguns fatos interessantes após olhar esses valores.`
- `Existem 38 ocorrencias com menos de 1 dia. Ou venderam o veículo no mesmo dia ou existe algum erro de informação ali.`
- `Outro fato, é de que temos mais de 15 mil ocorrencias, onde as propagandas excederam o tempo médio e mais de 18 mil que excederam o tempo mediano. Se as propagandas tiverem algum custo para a empresa, melhor repensar a estratégia!`

## Média de preços por cada tipo de veículo

In [None]:
pivot_per_type = pd.pivot_table(df_cars, index='type', values=['days_listed_number', 'price'], aggfunc='mean')
pivot_per_type = pivot_per_type.sort_values(by='days_listed_number', ascending=False)
pivot_per_type

In [None]:
fig = px.bar(x=pivot_per_type.index, y=pivot_per_type['days_listed_number'], 
             color_discrete_sequence=px.colors.qualitative.Light24_r, 
             template='none', barmode='group', text_auto=True)

fig.update_layout(title='Média dos Dias de Anúncio por Tipo de Veículo', 
                  autosize=False, width=500, height=500)

fig.show()

`Os tipos com maiores tempos de propaganda são veículos grandes, como ônibus e van. Ônibus chega a ter 10 dias a mais em média do que os outros tipos de veículos.`

## Fatores de preço

In [None]:
# matriz de correlação
correlation_matrix = df_cars[['price', 'odometer', 'vehicle_age']].corr()
correlation_matrix

In [None]:
# Criando um gráfico da matriz
fig = px.imshow(correlation_matrix, text_auto=True, 
                color_continuous_scale=[(0, "pink"), (0.5, "blue"), (1, "purple")], aspect="auto")

fig.update_layout(title='Matriz de Correlação - PRICE, ODOMETER, VEHICLE_AGE', 
                  autosize=False, width=500, height=500)

fig.show()

In [None]:
# gráfico de dispersão para visualizar as relações entre as variáveis
fig = px.scatter(df_cars, x='vehicle_age', y='price', 
                 color_discrete_sequence=px.colors.qualitative.G10) 

fig.update_traces(marker=dict(size=10, line=dict(width=2, color='black')), 
                  selector=dict(mode='markers'))

fig.update_layout(scattermode="group", title='Dispersão entre Idade do Veículo e Preço', 
                  autosize=False, width=500, height=500)

fig.show() 

In [None]:
# gráfico de dispersão para odometer e price
fig = px.scatter(df_cars, x='odometer', y='price', 
                 color_discrete_sequence=px.colors.qualitative.Pastel) 

fig.update_traces(marker=dict(size=8, line=dict(width=2, color='black')), 
                  selector=dict(mode='markers'))

fig.update_layout(scattermode="group", title='Dispersão entre Quilometragem e Preço',
                  autosize=False, width=500, height=500)
fig.show() 

In [None]:
# Boxplot de transmission
fig = px.box(df_cars, x='transmission', y='price', color='transmission')

fig.update_layout(title='Boxplot de Preço por Tipo de Transmissão', 
                  autosize=False, width=500, height=500)

fig.show()

In [None]:
# verificando a preferência por tipo de transmissão
fig = px.bar(df_cars, x="transmission", template='none', color='transmission')

fig.update_layout(title='Contagem de Veículos por Tipo de Transmissão', 
                  autosize=False, width=500, height=500)

fig.show()

In [None]:
# contagem por paint_color
fig = px.bar(df_cars, x="paint_color", template='none', color='paint_color')

fig.update_layout(title='Contagem de Veículos por Cor', 
                  autosize=False, width=500, height=500)

fig.show()

# Conclusão Geral

*Novamente foi um imenso prazer de realizar essa tarefa e também um desafio, pois este dataset estava bem "machucado", sem dados duplicados, mas com muitos valores ausentes e os dados em formatos diferentes do ideal. A parte de tratamento de dados e análise exploratória levaram um tempo relativamente grande do trabalho e foi preciso em alguns casos gerar correlações e gráficos entre as variáveis para melhor entendimento do dataset. Muitos outliers e com a remoção deles, perdemos uma parcela generosa dos nossos dados. Ossos do ofício.*

*O fator preço é fortemente influenciado por odometer e idade do veículo, mas de maneira inversa e faz muito sentido. Quanto mais velho e mais "rodado" o veículo, mais o preço decai. O tipo de transmissão que vai dominar o mundo é a transmissão automática, conforme esse dataset nos mostra. Conveniência, conforto e segurança. Uma olhada nas cores dos veículos nos mostrou que a ocorrência das cores clássicas permanecem em alta e com maior frequência. Branco, preto, prata, cinza, além de vermelho e azul. Cores mais "vibrantes" aparecem com menos frequência nos veículos deste dataset.*

*Enfim, um dataset interessante de se trabalhar onde conseguimos descobrir:*
*   os fatores que mais influenciam nos preços dos veículos;
*   o tempo médio de dias das propagandas para cada tipo;
*   a preferência por transmissão automática;
*   que os carros conversíveis tem o menor tempo médio de propaganda ou a venda seja mais rápida;
*   que existem pouquíssimos veículos na cor roxa;
*   e que mesmo o dataset contendo carros com data de fabricação entre 1908 e 2019, a média e mediana de idade dos veículos ficou entre 2009 e 2011.