# Limpeza de dados do eBay utilizando a biblioteca pandas

O eBay é uma empresa multinacional americana do ramo de e-commerce, com sede em San Jose, California, que facilita a vendas entre consumidores e empresas com consumidores através de seu website.

O objetivo desse projeto é limpar os dados e analisá-los utilizando a biblioteca `pandas`.

Para esse cenário será utilizado um dataset (conjunto de dados) de anúncios de carros do Ebay da Alemanha. O dataset será distribuído junto desse arquivo.

### Dicionário de dados

|Coluna|Descrição|
|------|---------|
|dateCrawled | Quando o dado foi extraído do site.|
|name | Nome do carro.|
|seller | Se o vendedor é particular (private) ou revendedor (dealer).|
|offerType | Tipo da oferta|
|price | Preço do carro cadastrado no anúncio.|
|abtest | Se a lista está incluída em um teste A / B.|
|vehicleType | Tipo do carro.|
|yearOfRegistration | Ano de registro do carro.|
|gearbox | Tipo de transmissão.|
|powerPS | Potência do carro.|
|model | Modelo do carro.|
|kilometer | Quilometragem do carro.|
|monthOfRegistration | Mês de registro do carro.|
|fuelType | Tipo do combustível que o carro usa.|
|brand | Marca do carro.|
|notRepairedDamage | Se o carro tem algum dano que ainda não foi reparado.|
|dateCreated | Data que o anúncio foi criado no eBay.|
|nrOfPictures | Quantidade de fotos no anúncio.|
|postalCode | Código postal de localização do veículo.|
|lastSeenOnline | Quando o anúncio foi visto por último.|

### Importando o arquivo

Para iniciar a análise, utilizaremos a biblioteca `pandas` e importaremos o arquivo `autos.csv`.

In [1]:
import pandas as pd

In [2]:
autos = pd.read_csv('data/autos.csv', encoding='Latin-1')

In [3]:
autos.head()

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,odometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50


In [4]:
print('O dataset contém {linhas} linhas e {colunas} colunas.'.format(linhas=autos.shape[0], colunas=autos.shape[1]))

O dataset contém 50000 linhas e 20 colunas.


In [5]:
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   dateCrawled          50000 non-null  object
 1   name                 50000 non-null  object
 2   seller               50000 non-null  object
 3   offerType            50000 non-null  object
 4   price                50000 non-null  object
 5   abtest               50000 non-null  object
 6   vehicleType          44905 non-null  object
 7   yearOfRegistration   50000 non-null  int64 
 8   gearbox              47320 non-null  object
 9   powerPS              50000 non-null  int64 
 10  model                47242 non-null  object
 11  odometer             50000 non-null  object
 12  monthOfRegistration  50000 non-null  int64 
 13  fuelType             45518 non-null  object
 14  brand                50000 non-null  object
 15  notRepairedDamage    40171 non-null  object
 16  date

Algumas colunas (`vehicleType, gearbox, model, fuelType, notRepairedDamage`) possuem valores null (sem valor para a variável).

### Limpando o nome das colunas

Verificando o nome das colunas do dataset.

In [6]:
autos.columns

Index(['dateCrawled', 'name', 'seller', 'offerType', 'price', 'abtest',
       'vehicleType', 'yearOfRegistration', 'gearbox', 'powerPS', 'model',
       'odometer', 'monthOfRegistration', 'fuelType', 'brand',
       'notRepairedDamage', 'dateCreated', 'nrOfPictures', 'postalCode',
       'lastSeen'],
      dtype='object')

Algumas colunas estão no formato CamelCase e não no formato sneak_case. Para ficar mais fácil a análise, alterarei os nomes das colunas para o formato sneak_case.

Exemplo CamelCase: **dateCrawled**

Exemplo sneak_case: **date_crawled**

In [7]:
renamed_columns = ['date_crawled', 'name', 'seller', 'offer_type', 'price', 'abtest',
                  'vehicle_type', 'registration_year', 'gearbox', 'power_ps', 'model',
                  'odometer', 'registration_month', 'fuel_type', 'brand',
                  'unrepaired_damage', 'ad_created', 'nr_pictures', 'postal_code',
                  'last_seen']

In [8]:
autos.columns = renamed_columns

In [9]:
autos.head()

Unnamed: 0,date_crawled,name,seller,offer_type,price,abtest,vehicle_type,registration_year,gearbox,power_ps,model,odometer,registration_month,fuel_type,brand,unrepaired_damage,ad_created,nr_pictures,postal_code,last_seen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50


### Exploração inicial dos dados e limpeza

In [10]:
autos.describe(include='all')

Unnamed: 0,date_crawled,name,seller,offer_type,price,abtest,vehicle_type,registration_year,gearbox,power_ps,model,odometer,registration_month,fuel_type,brand,unrepaired_damage,ad_created,nr_pictures,postal_code,last_seen
count,50000,50000,50000,50000,50000,50000,44905,50000.0,47320,50000.0,47242,50000,50000.0,45518,50000,40171,50000,50000.0,50000.0,50000
unique,48213,38754,2,2,2357,2,8,,2,,245,13,,7,40,2,76,,,39481
top,2016-04-02 15:49:30,Ford_Fiesta,privat,Angebot,$0,test,limousine,,manuell,,golf,"150,000km",,benzin,volkswagen,nein,2016-04-03 00:00:00,,,2016-04-07 06:17:27
freq,3,78,49999,49999,1421,25756,12859,,36993,,4024,32424,,30107,10687,35232,1946,,,8
mean,,,,,,,,2005.07328,,116.35592,,,5.72336,,,,,0.0,50813.6273,
std,,,,,,,,105.712813,,209.216627,,,3.711984,,,,,0.0,25779.747957,
min,,,,,,,,1000.0,,0.0,,,0.0,,,,,0.0,1067.0,
25%,,,,,,,,1999.0,,70.0,,,3.0,,,,,0.0,30451.0,
50%,,,,,,,,2003.0,,105.0,,,6.0,,,,,0.0,49577.0,
75%,,,,,,,,2008.0,,150.0,,,9.0,,,,,0.0,71540.0,


Algumas considerações identificadas com a tabela de descrição do dataset `autos`:

- As colunas `vehicle_type`, `gearbox`, `model`, `fuel_type` e `unrepaired_damage` possuem valores null (vazios).

- A coluna `seller` possui 49999 registros de 50000 com a descrição privat.
- A coluna `offer_type` possui 49999 registros de 50000 com a descrição Angebot.
- A coluna `price` está com tipo string ao invés de número. Muito provavelmente por possuir caracteres texto, como por exemplo *$*.
- A coluna `registration_year` possui um valor mínimo de 1000 e um valor máximo 9999.
- A coluna `power_ps` possui um valor mínimo de 0.
- A coluna `odometer` está com tipo string ao invés de número. Muito provavelmente por possuir caracteres texto, como por exemplo *km*.
- A coluna `registration_month` possui um valor mínimo de 0.
- A coluna `nr_pictures` possui **todos** os valores como sendo 0. Essa é uma coluna que provavelmente excluíremos do dataset.
- A coluna `postal_code` está com o tipo número, mas na realidade é uma categoria e deveria ser do tipo string. Não se faz operações de soma ou subtração com o CEP por exemplo.


As colunas price e odometer foram reconhecidas como string ao invés de número. Esse comportamento ocorreu porque as colunas possuem caracteres de texto como por exemplo: *$* *,* *km*

Limparei as colunas `price` e `odometer`, removendo os caracteres de textos. Ex: $, km, ','

In [11]:
autos['price'] = autos['price'].str.replace('$', '').str.replace(',', '')

In [12]:
autos['odometer'] = autos['odometer'].str.replace('km', '').str.replace(',', '')

Alterando o nome da coluna `odometer` para `odometer_km`

In [13]:
autos.rename({'odometer' : 'odometer_km'}, inplace=True, axis='columns')

Convertendo o tipo das colunas `price` e `odometer_km` para float e int respectivamente.

In [14]:
autos['price'] = autos['price'].astype(float)
autos['odometer_km'] = autos['odometer_km'].astype(int)

### Explorando as colunas price e odometer_km

Iniciaremos a análise pela coluna price, exibindo quantos registros únicos existem e a informação da coluna.

In [15]:
autos['price'].unique().shape

(2357,)

In [16]:
autos['price'].value_counts(ascending=False).sort_index()

0.0           1421
1.0            156
2.0              3
3.0              1
5.0              2
              ... 
10000000.0       1
11111111.0       2
12345678.0       3
27322222.0       1
99999999.0       1
Name: price, Length: 2357, dtype: int64

De início é possível notar que existem vários preços com 0 e por isso esses registros deverão serem excluídos. 

Também existem registros com valores pequenos (como por exemplo 1). Em uma pesquisa mais detalhada, identificou-se que esses preços se referem a leilão e que esses preços começaram com o valor 1. Quando os dados foram extraídos, esse era o preço do carro no leilão daquele momento.

Exemplo: 

![](img/leilao.png "Exemplo de leilão")

Outro ponto que chamou a atenção foram os preços dos carros mais caros.

Vamos analisar mais a fundo olhando os últimos 10 registros que foram ordenados do maior preço para o menor.

In [17]:
autos['price'].value_counts().sort_index().tail(15)

265000.0      1
295000.0      1
299000.0      1
345000.0      1
350000.0      1
999990.0      1
999999.0      2
1234566.0     1
1300000.0     1
3890000.0     1
10000000.0    1
11111111.0    2
12345678.0    3
27322222.0    1
99999999.0    1
Name: price, dtype: int64

Existem alguns carros com valores estranhos, como por exemplo:
- 11111111, 99999999: parece que usuário colocou vários 1's ou 9's
- 12345678: parece que o usuário colocou uma sequência de números de 1 à 8.

Vamos analisar então os carros que possuem o preço maior que 999990.

In [18]:
autos[autos['price'] >= 999990 ]

Unnamed: 0,date_crawled,name,seller,offer_type,price,abtest,vehicle_type,registration_year,gearbox,power_ps,model,odometer_km,registration_month,fuel_type,brand,unrepaired_damage,ad_created,nr_pictures,postal_code,last_seen
514,2016-03-17 09:53:08,Ford_Focus_Turnier_1.6_16V_Style,privat,Angebot,999999.0,test,kombi,2009,manuell,101,focus,125000,4,benzin,ford,nein,2016-03-17 00:00:00,0,12205,2016-04-06 07:17:35
2897,2016-03-12 21:50:57,Escort_MK_1_Hundeknochen_zum_umbauen_auf_RS_2000,privat,Angebot,11111111.0,test,limousine,1973,manuell,48,escort,50000,3,benzin,ford,nein,2016-03-12 00:00:00,0,94469,2016-03-12 22:45:27
7814,2016-04-04 11:53:31,Ferrari_F40,privat,Angebot,1300000.0,control,coupe,1992,,0,,50000,12,,sonstige_autos,nein,2016-04-04 00:00:00,0,60598,2016-04-05 11:34:11
11137,2016-03-29 23:52:57,suche_maserati_3200_gt_Zustand_unwichtig_laufe...,privat,Angebot,10000000.0,control,coupe,1960,manuell,368,,100000,1,benzin,sonstige_autos,nein,2016-03-29 00:00:00,0,73033,2016-04-06 21:18:11
22947,2016-03-22 12:54:19,Bmw_530d_zum_ausschlachten,privat,Angebot,1234566.0,control,kombi,1999,automatik,190,,150000,2,diesel,bmw,,2016-03-22 00:00:00,0,17454,2016-04-02 03:17:32
24384,2016-03-21 13:57:51,Schlachte_Golf_3_gt_tdi,privat,Angebot,11111111.0,test,,1995,,0,,150000,0,,volkswagen,,2016-03-21 00:00:00,0,18519,2016-03-21 14:40:18
27371,2016-03-09 15:45:47,Fiat_Punto,privat,Angebot,12345678.0,control,,2017,,95,punto,150000,0,,fiat,,2016-03-09 00:00:00,0,96110,2016-03-09 15:45:47
37585,2016-03-29 11:38:54,Volkswagen_Jetta_GT,privat,Angebot,999990.0,test,limousine,1985,manuell,111,jetta,150000,12,benzin,volkswagen,ja,2016-03-29 00:00:00,0,50997,2016-03-29 11:38:54
39377,2016-03-08 23:53:51,Tausche_volvo_v40_gegen_van,privat,Angebot,12345678.0,control,,2018,manuell,95,v40,150000,6,,volvo,nein,2016-03-08 00:00:00,0,14542,2016-04-06 23:17:31
39705,2016-03-22 14:58:27,Tausch_gegen_gleichwertiges,privat,Angebot,99999999.0,control,limousine,1999,automatik,224,s_klasse,150000,9,benzin,mercedes_benz,,2016-03-22 00:00:00,0,73525,2016-04-06 05:15:30


É muito estranho que um Ford Focus custe 999.999 ou que um Fiat Punto custe 12.345.678. O único registro dessa lista que parece ser o preço real mesmo seria a Ferrari_FXX 3.890.000.

Para se ter a certeza, precisaria analisar cada carro e seu respectivo valor. Como o objetivo do projeto não é esse, vou excluir os registros com preço maior que 999.990 pois parecem serem erros de digitção ou alguma brincadeira por parte dos usuários (como o caso de um Ford Focus custar 999 999).

Os registros com preço igual a 0 também serão excluídos.

Uma forma de executar essa ação é manter os registros com preço entre 1 e 350000, a qual será executada.

In [19]:
autos = autos[autos['price'].between(1,350000)]

Continuando a análise, vamos verificar a coluna `odometer_km`.

In [20]:
autos['odometer_km'].unique().shape

(13,)

In [21]:
autos['odometer_km'].value_counts(ascending=False).sort_index()

5000        836
10000       253
20000       762
30000       780
40000       815
50000      1012
60000      1155
70000      1217
80000      1415
90000      1734
100000     2115
125000     5057
150000    31414
Name: odometer_km, dtype: int64

Após execução dos comandos notou-se que não existem diferenças tão grandes, logo essa coluna não precisará ser limpa ou tratada.

### Explorando as colunas do tipo data

As colunas que possuem informações de data foram reconhecidas como objetos do tipo string.

In [22]:
autos[['date_crawled','ad_created','last_seen']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 48565 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   date_crawled  48565 non-null  object
 1   ad_created    48565 non-null  object
 2   last_seen     48565 non-null  object
dtypes: object(3)
memory usage: 1.5+ MB


Vamos analisar os primeiros 5 registros dessas colunas:

In [23]:
autos[['date_crawled','ad_created','last_seen']][0:5]

Unnamed: 0,date_crawled,ad_created,last_seen
0,2016-03-26 17:47:46,2016-03-26 00:00:00,2016-04-06 06:45:54
1,2016-04-04 13:38:56,2016-04-04 00:00:00,2016-04-06 14:45:08
2,2016-03-26 18:57:24,2016-03-26 00:00:00,2016-04-06 20:15:37
3,2016-03-12 16:58:10,2016-03-12 00:00:00,2016-03-15 03:16:28
4,2016-04-01 14:38:50,2016-04-01 00:00:00,2016-04-01 14:38:50


Os 10 primeiros caracteres de cada registro representa uma data. Vamos aproveitar que o registro está como string e fazer a contagem por data, organizando do mais antigo para o mais novo. Essa contagem exibirá a quantidade relativa, ou seja, a porcentagem que representa do conjunto de dados.

Contagem da coluna `date_crawled`:

In [24]:
autos['date_crawled'].str[:10].value_counts(normalize=True, dropna=False).sort_index(ascending=True)

2016-03-05    0.025327
2016-03-06    0.014043
2016-03-07    0.036014
2016-03-08    0.033296
2016-03-09    0.033090
2016-03-10    0.032184
2016-03-11    0.032575
2016-03-12    0.036920
2016-03-13    0.015670
2016-03-14    0.036549
2016-03-15    0.034284
2016-03-16    0.029610
2016-03-17    0.031628
2016-03-18    0.012911
2016-03-19    0.034778
2016-03-20    0.037887
2016-03-21    0.037373
2016-03-22    0.032987
2016-03-23    0.032225
2016-03-24    0.029342
2016-03-25    0.031607
2016-03-26    0.032204
2016-03-27    0.031092
2016-03-28    0.034860
2016-03-29    0.034099
2016-03-30    0.033687
2016-03-31    0.031834
2016-04-01    0.033687
2016-04-02    0.035478
2016-04-03    0.038608
2016-04-04    0.036487
2016-04-05    0.013096
2016-04-06    0.003171
2016-04-07    0.001400
Name: date_crawled, dtype: float64

In [25]:
autos['ad_created'].str[:10].value_counts(normalize=True, dropna=False).sort_index(ascending=True)

2015-06-11    0.000021
2015-08-10    0.000021
2015-09-09    0.000021
2015-11-10    0.000021
2015-12-05    0.000021
                ...   
2016-04-03    0.038855
2016-04-04    0.036858
2016-04-05    0.011819
2016-04-06    0.003253
2016-04-07    0.001256
Name: ad_created, Length: 76, dtype: float64

In [26]:
autos['last_seen'].str[:10].value_counts(normalize=True, dropna=False).sort_index(ascending=True)

2016-03-05    0.001071
2016-03-06    0.004324
2016-03-07    0.005395
2016-03-08    0.007413
2016-03-09    0.009595
2016-03-10    0.010666
2016-03-11    0.012375
2016-03-12    0.023783
2016-03-13    0.008895
2016-03-14    0.012602
2016-03-15    0.015876
2016-03-16    0.016452
2016-03-17    0.028086
2016-03-18    0.007351
2016-03-19    0.015834
2016-03-20    0.020653
2016-03-21    0.020632
2016-03-22    0.021373
2016-03-23    0.018532
2016-03-24    0.019767
2016-03-25    0.019211
2016-03-26    0.016802
2016-03-27    0.015649
2016-03-28    0.020859
2016-03-29    0.022341
2016-03-30    0.024771
2016-03-31    0.023783
2016-04-01    0.022794
2016-04-02    0.024915
2016-04-03    0.025203
2016-04-04    0.024483
2016-04-05    0.124761
2016-04-06    0.221806
2016-04-07    0.131947
Name: last_seen, dtype: float64

Através das colunas `date_crawled` e `last_seen` nota-se que os dados foram buscados durante o periodo de 1 mês. 

Nesse periodo, o anúncio mais antigo data de 11-06-2015, informação essa identificada através da coluna `ad_created`.

Outra coluna que guarda uma informação de data é a `registration_year`. Vamos dar uma breve olhada nela:

In [27]:
autos['registration_year'].describe()

count    48565.000000
mean      2004.755421
std         88.643887
min       1000.000000
25%       1999.000000
50%       2004.000000
75%       2008.000000
max       9999.000000
Name: registration_year, dtype: float64

Perceba que essa coluna possui o valor mais baixo 1000 e o mais alto 9999. Esse é um caso para se olhar mais de perto.

### Verificando registros incorretas na coluna registration_year

Um datalhe que identificamos anteriormente na exploração dos dados e que nos chamaou a atenção foram:

- O valor mínimo sendo 1000, antes dos carros serem inventados
- O valor máximo de 9999, muitos anos no futuro

Para o exemplo, será mantido os carros registrados entre 1900 e 2021.

In [28]:
autos = autos[autos['registration_year'].between(1900,2021)]

Após essa limpeza, verificaremos como ficou a distribuição das informações.

In [29]:
autos['registration_year'].describe()

count    48545.000000
mean      2003.461510
std          7.566196
min       1910.000000
25%       1999.000000
50%       2004.000000
75%       2008.000000
max       2019.000000
Name: registration_year, dtype: float64

Agora o ano mais antigo se data de 1910 e o mais novo de 2019.

In [30]:
autos['registration_year'].value_counts(normalize=True)

2000    0.065012
2005    0.060480
1999    0.059677
2004    0.055680
2003    0.055598
          ...   
1929    0.000021
1939    0.000021
1938    0.000021
1931    0.000021
1952    0.000021
Name: registration_year, Length: 81, dtype: float64

Nota-se que ese conjunto de dados possui carros bem antigos, como por exemplo do ano de 1929.

### Analisando preço por marca

A agregação é uma das técnicas utilizadas na exploração de dados. Para esse caso, surgiu-se a pergunta: Quais as marcas possuem mais anúncios. Para resolver, contaremos as ocorrências por marca e exibiremos em forma relativa.

Popularidade: Pegar as marcas que possuem Mmais de 5% de participação nos anuncions

In [31]:
autos['brand'].value_counts(normalize=True)

volkswagen        0.212813
opel              0.108641
bmw               0.108641
mercedes_benz     0.095787
audi              0.085858
ford              0.069667
renault           0.047894
peugeot           0.029457
fiat              0.025996
seat              0.018931
skoda             0.016068
nissan            0.015264
mazda             0.015223
smart             0.014296
citroen           0.014111
toyota            0.012586
hyundai           0.009950
sonstige_autos    0.009641
volvo             0.009043
mini              0.008611
mitsubishi        0.008178
honda             0.007993
kia               0.007107
alfa_romeo        0.006612
porsche           0.005912
suzuki            0.005891
chevrolet         0.005665
chrysler          0.003481
dacia             0.002657
daihatsu          0.002513
jeep              0.002204
subaru            0.002101
land_rover        0.002039
saab              0.001627
daewoo            0.001566
jaguar            0.001524
trabant           0.001380
r

As marcas volkswagen, opel, bmw, mercedes_benz, audi, ford possuem mais de 5% dos anúncios nesse conjunto de dados.

Com essa informação, podemos fazer outra pergunta para o conjunto de dados: Das marcas mais populares, qual o preço médio de cada uma?

In [32]:
price_mean = {}
brands = autos['brand'].value_counts()[:6].index

In [33]:
for brand in brands:
    mean = autos[autos['brand'] == brand]['price'].mean()
    price_mean[brand] = mean

In [34]:
sorted(price_mean.items(), key=lambda brand: brand[1], reverse=True)

[('audi', 9212.9306621881),
 ('mercedes_benz', 8526.623225806452),
 ('bmw', 8261.382442169132),
 ('volkswagen', 5333.1962055948115),
 ('ford', 3728.4121821407452),
 ('opel', 2941.4664391353813)]

Identifica-se que as marcas audi, mercedes benz e bmw possuem um preço médio elevado (mais que 8000). A marca volkswagen está no meio (5333) enquanto as marcas ford e opel parecem serem mais populares (abaixo de 5000).

### Média de km por marca

O processo de análise sempre se inícia com uma pergunta, mas conforme as informações aparecem, outras perguntas surgem.

Das marcas mais populares, quando a média de quilometragem de cada uma?

In [35]:
odometer_mean = {}

for brand in brands:
    mean = autos[autos['brand'] == brand]['odometer_km'].mean()
    odometer_mean[brand] = mean

In [36]:
sorted(odometer_mean.items(), key=lambda brand: brand[1], reverse=True)

[('bmw', 132682.97307546454),
 ('mercedes_benz', 130848.3870967742),
 ('audi', 129492.56238003839),
 ('opel', 129452.02882062951),
 ('volkswagen', 128955.570612719),
 ('ford', 124349.49733885274)]

As marcas bmw, mercedes bens e audi possuem a quilometragem mais alta. Talvez por possuirem carros esportivos?

No processo, outra pergunta que vem à mente é: A quilometragem influencia no preço do carro?

Para ficar mais fácil, juntaremos essas duas informações em uma nova tabela.

### Criando uma nova tabela com as informações analisadas

Primeiro vamos criar as colunas com o preço e a quilometragem.

In [37]:
price_series = pd.Series(price_mean)
odometer_series = pd.Series(odometer_mean)

In [38]:
odometer_series

volkswagen       128955.570613
opel             129452.028821
bmw              132682.973075
mercedes_benz    130848.387097
audi             129492.562380
ford             124349.497339
dtype: float64

In [39]:
price_series

volkswagen       5333.196206
opel             2941.466439
bmw              8261.382442
mercedes_benz    8526.623226
audi             9212.930662
ford             3728.412182
dtype: float64

Criando um novo DataFrame (tabela) com a coluna de preço.

In [40]:
df = pd.DataFrame(price_series, columns=['price_mean'])

Inserindo a coluna `odometer_mean` na tabela criada.

In [41]:
df['odometer_mean'] = odometer_series

In [42]:
df.sort_values('price_mean', ascending=False)

Unnamed: 0,price_mean,odometer_mean
audi,9212.930662,129492.56238
mercedes_benz,8526.623226,130848.387097
bmw,8261.382442,132682.973075
volkswagen,5333.196206,128955.570613
ford,3728.412182,124349.497339
opel,2941.466439,129452.028821


Analisando as 3 marcas mais caras superfialmente (audi, mercedes e bmw) notamos que o preço aumenta conforme a quilometragem é menor. Aqui vale ressaltar a máxima: **Correlação não implica em Causalidade!** Não é porque encontramos essa informação que ela determinante! Outras análises devem serem realizadas para confirmar a hipótese.

### Conclusão

O curso nos mostrou uma nova ferramenta na análise de dados: a biblioteca `pandas`. A utilização da ferramenta fez que o código fonte da análise ficasse mais limpo e organizado. Durante o desenvolvimento, foi possível notar que análise foi mais rápida e simples de se fazer.

Assim a ferramenta se mostrou mais eficiente e prática para analisar os dados do que apenas utilizar o básico da linguagem Python.

### Referências

DataQuest: https://www.dataquest.io/course/pandas-fundamentals/

Ebay: https://www.ebay.com/