In [3]:
import pandas as pd
import os
import plotly.graph_objects as go


pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', None)
pd.set_option('display.float_format', '{:.2f}'.format)


In [28]:
def plot_histogram(data, column_name, nbins=10):
    fig = go.Figure()
    fig.add_trace(go.Histogram(x=data[column_name], nbinsx=nbins))

    fig.update_layout(
        title=f'Histogram of {column_name}',
        xaxis_title=column_name,
        yaxis_title='Frequency',
        showlegend=False
    )

    fig.show()


In [4]:
file_path = os.path.join(os.getcwd(), "data", "cars_train.csv")

df = pd.read_csv(file_path, encoding="utf-16", sep="\t", skipinitialspace=True)

df[:5]

Unnamed: 0,id,num_fotos,marca,modelo,versao,ano_de_fabricacao,ano_modelo,hodometro,cambio,num_portas,tipo,blindado,cor,tipo_vendedor,cidade_vendedor,estado_vendedor,anunciante,entrega_delivery,troca,elegivel_revisao,dono_aceita_troca,veiculo_único_dono,revisoes_concessionaria,ipva_pago,veiculo_licenciado,garantia_de_fábrica,revisoes_dentro_agenda,veiculo_alienado,preco
0,300716223898539419613863097469899222392,8.0,NISSAN,KICKS,1.6 16V FLEXSTART SL 4P XTRONIC,2017,2017.0,67772.0,CVT,4,Sedã,N,Branco,PF,Rio de Janeiro,São Paulo (SP),Pessoa Física,False,False,False,,,Todas as revisões feitas pela concessionária,IPVA pago,Licenciado,,,,74732.590084
1,279639842134129588306469566150288644214,8.0,JEEP,COMPASS,2.0 16V FLEX LIMITED AUTOMÁTICO,2017,2017.0,62979.0,Automática,4,Sedã,N,Branco,PF,Belo Horizonte,Minas Gerais (MG),Pessoa Física,False,False,False,Aceita troca,,,IPVA pago,,,,,81965.332634
2,56414460810621048900295678236538171981,16.0,KIA,SORENTO,2.4 16V GASOLINA EX 7L AWD AUTOMÁTICO,2018,2019.0,44070.0,Automática,4,Sedã,N,Preto,PJ,Santos,São Paulo (SP),Loja,True,False,False,Aceita troca,,,,,,,,162824.814472
3,56862509826849933428086372390159405545,14.0,VOLKSWAGEN,AMAROK,2.0 HIGHLINE 4X4 CD 16V TURBO INTERCOOLER DIES...,2013,2015.0,85357.0,Automática,4,Picape,N,Branco,PJ,Sorocaba,São Paulo (SP),Loja,True,True,False,Aceita troca,,,IPVA pago,Licenciado,,,,123681.358857
4,338980975753200343894519909855598027197,8.0,SSANGYONG,KORANDO,2.0 GLS 4X4 16V TURBO DIESEL 4P AUTOMÁTICO,2013,2015.0,71491.0,Automática,4,Utilitário esportivo,N,Preto,PF,Rio de Janeiro,Rio de Janeiro (RJ),Pessoa Física,False,False,False,,,Todas as revisões feitas pela concessionária,,,Garantia de fábrica,Todas as revisões feitas pela agenda do carro,,82419.763891


In [5]:
df.shape

(29584, 29)

In [12]:
assert df["id"].nunique() == df.shape[0]

In [6]:
df.columns

Index(['id', 'num_fotos', 'marca', 'modelo', 'versao', 'ano_de_fabricacao',
       'ano_modelo', 'hodometro', 'cambio', 'num_portas', 'tipo', 'blindado',
       'cor', 'tipo_vendedor', 'cidade_vendedor', 'estado_vendedor',
       'anunciante', 'entrega_delivery', 'troca', 'elegivel_revisao',
       'dono_aceita_troca', 'veiculo_único_dono', 'revisoes_concessionaria',
       'ipva_pago', 'veiculo_licenciado', 'garantia_de_fábrica',
       'revisoes_dentro_agenda', 'veiculo_alienado', 'preco'],
      dtype='object')

In [7]:
df.isnull().mean().sort_values(ascending=False)[:10]

veiculo_alienado           1.000000
garantia_de_fábrica        0.852454
revisoes_dentro_agenda     0.800230
revisoes_concessionaria    0.689968
veiculo_único_dono         0.647681
veiculo_licenciado         0.462345
ipva_pago                  0.335485
dono_aceita_troca          0.258991
num_fotos                  0.005983
id                         0.000000
dtype: float64

In [48]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29584 entries, 0 to 29583
Data columns (total 29 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id                       29584 non-null  object 
 1   num_fotos                29407 non-null  float64
 2   marca                    29584 non-null  object 
 3   modelo                   29584 non-null  object 
 4   versao                   29584 non-null  object 
 5   ano_de_fabricacao        29584 non-null  int64  
 6   ano_modelo               29584 non-null  float64
 7   hodometro                29584 non-null  float64
 8   cambio                   29584 non-null  object 
 9   num_portas               29584 non-null  int64  
 10  tipo                     29584 non-null  object 
 11  blindado                 29584 non-null  object 
 12  cor                      29584 non-null  object 
 13  tipo_vendedor            29584 non-null  object 
 14  cidade_vendedor       

In [None]:
def plot_histogram(dataframe, column_name, nbins=10):
    fig = go.Figure()
    fig.add_trace(go.Histogram(x=dataframe[column_name], nbinsx=nbins))

    fig.update_layout(
        title=f'Histogram of {column_name}',
        xaxis_title=column_name,
        yaxis_title='Frequency',
        showlegend=False
    )

    fig.show()


def plot_top_categories_bar_chart(dataframe, category_column, show_chart=True):
    top_categories = dataframe[category_column].value_counts().nlargest(10)
    category_names = top_categories.index.tolist()
    category_counts = top_categories.values.tolist()
    if show_chart:
        fig = go.Figure(data=[go.Bar(x=category_names, y=category_counts)])
        fig.update_layout(
            title=f"Top 10 Categories - {category_column}",
            xaxis_title="Categories",
            yaxis_title="Count"
        )
        fig.show()
    else:
        data = {'Category': category_names, 'Count': category_counts}
        df = pd.DataFrame(data)
        print(df)

In [8]:
# Count, mean, standard deviation, minimum, quartiles, and maximum
summary_stats = df.describe()
summary_stats

Unnamed: 0,num_fotos,ano_de_fabricacao,ano_modelo,hodometro,num_portas,veiculo_alienado,preco
count,29407.0,29584.0,29584.0,29584.0,29584.0,0.0,29584.0
mean,10.323834,2016.758552,2017.808985,58430.592077,3.940677,,133023.9
std,3.487334,4.062422,2.67393,32561.769309,0.33836,,81662.87
min,8.0,1985.0,1997.0,100.0,2.0,,9869.951
25%,8.0,2015.0,2016.0,31214.0,4.0,,76571.77
50%,8.0,2018.0,2018.0,57434.0,4.0,,114355.8
75%,14.0,2019.0,2020.0,81953.5,4.0,,163679.6
max,21.0,2022.0,2023.0,390065.0,4.0,,1359813.0


In [32]:
continuous_column_names = ["num_fotos", "ano_de_fabricacao", "ano_modelo", "hodometro", "num_portas", "veiculo_alienado", "preco"]

In [34]:
plot_histogram(df, "ano_de_fabricacao", nbins=10)

In [47]:
df[continuous_column_names[1]].value_counts(normalize=True)[:10]


The behavior of `series[i:j]` with an integer-dtype index is deprecated. In a future version, this will be treated as *label-based* indexing, consistent with e.g. `series[i]` lookups. To retain the old behavior, use `series.iloc[i:j]`. To get the future behavior, use `series.loc[i:j]`.



2020    0.159850
2017    0.147681
2019    0.131152
2018    0.129124
2021    0.088359
2013    0.082578
2014    0.075074
2016    0.061587
2015    0.059255
2012    0.017205
Name: ano_de_fabricacao, dtype: float64

---

In [26]:
categorical_column_names = ["marca", "modelo", "versao", "cambio", "tipo", "blindado", "cor", "tipo_vendedor", 
                "cidade_vendedor", "estado_vendedor", "anunciante", "entrega_delivery", 
                "troca_elegivel_revisao", "dono_aceita_troca", "veiculo_unico_dono", 
                "revisoes_concessionaria", "ipva_pago", "veiculo_licenciado", "garantia_de_fabrica", 
                "revisoes_dentro_agenda"]

In [27]:
plot_top_categories_bar_chart(df, category_column="marca", show_chart=True)

In [19]:
plot_top_categories_bar_chart(df, category_column="marca", show_chart=False)

     Category  Count
0  VOLKSWAGEN   4594
1   CHEVROLET   3020
2      TOYOTA   2180
3     HYUNDAI   2043
4        JEEP   2000
5        FIAT   1918
6         BMW   1784
7        AUDI   1698
8     PEUGEOT   1675
9       HONDA   1586


In [21]:
df["troca"].value_counts(normalize=True)

False    0.828928
True     0.171072
Name: troca, dtype: float64

In [24]:
plot_top_categories_bar_chart(df, category_column=categorical_column_names[0], show_chart=False)

     Category  Count
0  VOLKSWAGEN   4594
1   CHEVROLET   3020
2      TOYOTA   2180
3     HYUNDAI   2043
4        JEEP   2000
5        FIAT   1918
6         BMW   1784
7        AUDI   1698
8     PEUGEOT   1675
9       HONDA   1586


-----

In [None]:
# Desafio

# Você foi alocado(a) em um time da Indicium que está trabalhando atualmente junto a
# um cliente que o core business é compra e venda de veículos usados. Essa empresa 
# está com dificuldades na área de revenda dos automóveis usados em seu catálogo.

# Iremos verficiar como está a situação dos carros usados em comparação com os carros novos. 

In [53]:
df["preco"].describe()

count    2.958400e+04
mean     1.330239e+05
std      8.166287e+04
min      9.869951e+03
25%      7.657177e+04
50%      1.143558e+05
75%      1.636796e+05
max      1.359813e+06
Name: preco, dtype: float64

In [54]:
plot_histogram(df, "preco", nbins=100)

In [61]:
df["veiculo_único_dono"].fillna("Carro usado").value_counts()

carro usado    19161
Único dono     10423
Name: veiculo_único_dono, dtype: int64

In [81]:
df = df.assign(veiculo_único_dono=lambda df: df["veiculo_único_dono"].fillna("Carro usado"))
(
    df
    .groupby(["veiculo_único_dono"])
    .agg({
        "id": "count", 
        "preco": sum
    })
    .assign(percent=lambda df: df["preco"] / df["preco"].sum())
    .assign(preco_medio=lambda df: df["preco"] / df["id"])
)

Unnamed: 0_level_0,id,preco,percent,preco_medio
veiculo_único_dono,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Carro usado,19161,2463337904.84,0.63,128559.99
Único dono,10423,1472040557.54,0.37,141230.03


In [97]:
fig = go.Figure()

plot_df = (
    df
    .groupby(["ano_de_fabricacao", "veiculo_único_dono"])
    .agg({
        "id": "nunique"
    })
    .reset_index()
)


for category in df["veiculo_único_dono"].unique():
    fig.add_trace(go.Scatter(
        x=(
            plot_df
            .pipe(lambda df: df[df["veiculo_único_dono"].isin([category])])
            ['ano_de_fabricacao']
        ),
        y=(
            plot_df
            .pipe(lambda df: df[df["veiculo_único_dono"].isin([category])])
            ["id"]
        ),
        mode='lines',
        name=category
    ))

fig.update_layout(title='Valores em relação ao tempo',
                xaxis_title='ano_de_fabricacao',
                yaxis_title='veiculo_unico_dono')

fig.show()

------

In [None]:
# Para as perguntas seguintes existem outras possiveis formas de serem avaliados qual o estado que faz mais sentido.
# Caso tenha o modelo e marca do veiculos é possivel fazer as analises seguintes utilizando apenas os dados da base referente ao 
# veiculo escolhido ou até mesmo veiculos semelhantes.

In [None]:
# Qual o melhor estado cadastrado na base de dados para se vender um carro de marca popular e por quê?

In [106]:
# Primeiro definir o que é uma marca popular. 
# Assumiremos que sejam as marcas mais vendidas e que 
# as marcas populares sejam responsaveis por 50% das vendas.

popular_brands = (
    df
    ["marca"]
    .value_counts(normalize=False)
    .reset_index()
    .assign(pareto=lambda df: df["marca"].cumsum() / df["marca"].sum())
    [:10]
)

popular_brands

Unnamed: 0,index,marca,pareto
0,VOLKSWAGEN,4594,0.16
1,CHEVROLET,3020,0.26
2,TOYOTA,2180,0.33
3,HYUNDAI,2043,0.4
4,JEEP,2000,0.47
5,FIAT,1918,0.53
6,BMW,1784,0.59
7,AUDI,1698,0.65
8,PEUGEOT,1675,0.71
9,HONDA,1586,0.76


In [110]:
eval_brands = (
    popular_brands
    .pipe(lambda df: df[df['pareto'] < 0.5])
    ["index"]
    .unique()
)

eval_brands

array(['VOLKSWAGEN', 'CHEVROLET', 'TOYOTA', 'HYUNDAI', 'JEEP'],
      dtype=object)

In [122]:
# Os estados com maior preço medio juntamento com o volume é um bom indicativo que possibilita avaliar qual é 
# o melhor estado para se vender um carro de marca popular.
# É imporante notar que os valores do preço médio podem não ser muito significativos (dado a baixa quantidade de veiculos).
(
    df
    .pipe(lambda df: df[df["marca"].isin(eval_brands)])
    .groupby(["estado_vendedor"])
    .agg({
        "preco": ["mean", "sum"],
        "id": "count"
    })
    .sort_values(by=[("id", "count"), ("preco", "mean")], ascending=[False, False])
    [:10]
)

Unnamed: 0_level_0,preco,preco,id
Unnamed: 0_level_1,mean,sum,count
estado_vendedor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
São Paulo (SP),112093.55,854713305.43,7625
Rio de Janeiro (RJ),120177.16,146616140.22,1220
Santa Catarina (SC),119718.58,132169317.29,1104
Paraná (PR),129108.76,140728549.64,1090
Minas Gerais (MG),122539.18,101217361.61,826
Rio Grande do Sul (RS),124832.28,94622868.65,758
Goiás (GO),135321.49,50745559.81,375
Bahia (BA),117015.99,36274956.91,310
Pernambuco (PE),105115.33,17238914.23,164
Paraíba (PB),90839.01,7357959.56,81


----

In [None]:
# Qual o melhor estado para se comprar uma picape com transmissão automática e por quê?
# Podemos avaliar o melhor estado utilizando como metricas o seu preço e km rodados. Novamente a questao da quantidade
# de veiculos no momento de ser efetuado a média deve ser levado em consideração.

In [136]:
(
    df
    .pipe(lambda df: df[df["tipo"].isin(["Picape"])])
    .pipe(lambda df: df[df["cambio"].isin(["Automática"])])
    .groupby(["estado_vendedor"])
    .agg({
        "hodometro": "mean",
        "preco": ["mean", "sum"],
        "id": "count"
    })
    .sort_values(by=[("id", "count"), ("preco", "mean")], ascending=[False, True])
    [:10]
)

Unnamed: 0_level_0,hodometro,preco,preco,id
Unnamed: 0_level_1,mean,mean,sum,count
estado_vendedor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
São Paulo (SP),56197.06,188427.48,322587853.7,1712
Paraná (PR),54328.71,198384.95,69037962.48,348
Rio de Janeiro (RJ),61491.83,181660.34,57767989.61,318
Santa Catarina (SC),59165.55,185848.62,52595159.05,283
Minas Gerais (MG),55988.16,195702.91,41293315.02,211
Rio Grande do Sul (RS),58099.39,195251.76,38659849.1,198
Goiás (GO),46952.05,208153.66,21231673.16,102
Bahia (BA),52613.91,206364.8,14032806.35,68
Pernambuco (PE),35662.5,192566.76,2695934.7,14
Alagoas (AL),29637.0,218671.54,2624058.51,12


In [None]:
# Qual o melhor estado para se comprar carros que ainda estejam dentro da garantia de fábrica e por quê?

In [146]:
(
    df
    .assign(garantia_de_fábrica=lambda df: df["garantia_de_fábrica"].fillna("Sem garantia"))
    .pipe(lambda df: df[df["garantia_de_fábrica"].isin(["Garantia de fábrica"])])
    .groupby(["estado_vendedor"])
    .agg({
        "hodometro": "mean",
        "preco": ["mean", "sum"],
        "id": "count"
    })
    .sort_values(by=[("id", "count"), ("preco", "mean")], ascending=[False, True])
    [:10]
)

Unnamed: 0_level_0,hodometro,preco,preco,id
Unnamed: 0_level_1,mean,mean,sum,count
estado_vendedor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
São Paulo (SP),22564.16,166751.08,384694743.88,2307
Rio de Janeiro (RJ),22200.23,179109.86,73793261.66,412
Paraná (PR),21444.41,175578.25,68299937.5,389
Santa Catarina (SC),22705.57,173798.44,57353485.15,330
Rio Grande do Sul (RS),23600.32,176442.24,49580268.44,281
Minas Gerais (MG),22794.82,161206.27,42558456.31,264
Goiás (GO),21036.02,174521.41,32460982.85,186
Alagoas (AL),22418.6,154268.68,8947583.24,58
Bahia (BA),18506.0,165221.24,8426283.05,51
Pernambuco (PE),30212.3,149898.42,2997968.34,20
