![](ebay-car-sales.jpg)

# Explorando Vendas de Carros Usados no eBay

A ideia desse projeto é trabalhar com um dataset de carros usados do _eBay Kleinanzeigen_, uma seção de classificados do site alemão do eBay.

Abaixo temos as infos das colunas do dataset:
* `dateCrawled` - data quando as infos sobre o anúncio foram capturadas
* `name` - nome do carro
* `seller` - se o vendedor é particular ou um revendedor
* `offerType` - o tipo de listagem
* `price` - preço do carro
* `abtest` - se foi feito um teste A/B
* `vehicleType` - tipo de veículo
* `yearOfRegistration` - ano que o carro foi registrado pela primeira vez
* `gearbox` - tipo do câmbio
* `powerPS` - potência do motor em PS (equivalente a cavalos)
* `model` - nome do modelo do carro
* `kilometer` - quantos quilômetros o carro já andou
* `monthOfRegistration` - mês que o carro foi registrado pela primeira vez
* `fuelType` - tipo de combustível
* `brand` - marca do carro
* `notRepairedDamage` - se o carro tem algo para ser consertado 
* `dateCreated` - data que o anúncio foi criado no eBay
* `nrOfPictures` - quantidade de fotos do anúncio
* `postalCode` - CEP que se encontra o veículo
* `lastSeenOnline` - quando o anúncio foi visto ativo pela última vez

**O objetivo do projeto é fazer a limpeza dos dados e analisar os anúncios que contém carros usados.**

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Como o dataset é em alemão, tivemos que passar o parâmetro para mudar a codificação
autos = pd.read_csv('autos.csv', encoding='Latin-1')

In [3]:
# Traz um resumo das primeiras e últimas linhas do dataset
autos

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,odometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49995,2016-03-27 14:38:19,Audi_Q5_3.0_TDI_qu._S_tr.__Navi__Panorama__Xenon,privat,Angebot,"$24,900",control,limousine,2011,automatik,239,q5,"100,000km",1,diesel,audi,nein,2016-03-27 00:00:00,0,82131,2016-04-01 13:47:40
49996,2016-03-28 10:50:25,Opel_Astra_F_Cabrio_Bertone_Edition___TÜV_neu+...,privat,Angebot,"$1,980",control,cabrio,1996,manuell,75,astra,"150,000km",5,benzin,opel,nein,2016-03-28 00:00:00,0,44807,2016-04-02 14:18:02
49997,2016-04-02 14:44:48,Fiat_500_C_1.2_Dualogic_Lounge,privat,Angebot,"$13,200",test,cabrio,2014,automatik,69,500,"5,000km",11,benzin,fiat,nein,2016-04-02 00:00:00,0,73430,2016-04-04 11:47:27
49998,2016-03-08 19:25:42,Audi_A3_2.0_TDI_Sportback_Ambition,privat,Angebot,"$22,900",control,kombi,2013,manuell,150,a3,"40,000km",11,diesel,audi,nein,2016-03-08 00:00:00,0,35683,2016-04-05 16:45:07


In [4]:
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   dateCrawled          50000 non-null  object
 1   name                 50000 non-null  object
 2   seller               50000 non-null  object
 3   offerType            50000 non-null  object
 4   price                50000 non-null  object
 5   abtest               50000 non-null  object
 6   vehicleType          44905 non-null  object
 7   yearOfRegistration   50000 non-null  int64 
 8   gearbox              47320 non-null  object
 9   powerPS              50000 non-null  int64 
 10  model                47242 non-null  object
 11  odometer             50000 non-null  object
 12  monthOfRegistration  50000 non-null  int64 
 13  fuelType             45518 non-null  object
 14  brand                50000 non-null  object
 15  notRepairedDamage    40171 non-null  object
 16  date

In [5]:
# Mostra as 15 primeiras linhas do dataset
autos.head(15)

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,odometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50
5,2016-03-21 13:47:45,Chrysler_Grand_Voyager_2.8_CRD_Aut.Limited_Sto...,privat,Angebot,"$7,900",test,bus,2006,automatik,150,voyager,"150,000km",4,diesel,chrysler,,2016-03-21 00:00:00,0,22962,2016-04-06 09:45:21
6,2016-03-20 17:55:21,VW_Golf_III_GT_Special_Electronic_Green_Metall...,privat,Angebot,$300,test,limousine,1995,manuell,90,golf,"150,000km",8,benzin,volkswagen,,2016-03-20 00:00:00,0,31535,2016-03-23 02:48:59
7,2016-03-16 18:55:19,Golf_IV_1.9_TDI_90PS,privat,Angebot,"$1,990",control,limousine,1998,manuell,90,golf,"150,000km",12,diesel,volkswagen,nein,2016-03-16 00:00:00,0,53474,2016-04-07 03:17:32
8,2016-03-22 16:51:34,Seat_Arosa,privat,Angebot,$250,test,,2000,manuell,0,arosa,"150,000km",10,,seat,nein,2016-03-22 00:00:00,0,7426,2016-03-26 18:18:10
9,2016-03-16 13:47:02,Renault_Megane_Scenic_1.6e_RT_Klimaanlage,privat,Angebot,$590,control,bus,1997,manuell,90,megane,"150,000km",7,benzin,renault,nein,2016-03-16 00:00:00,0,15749,2016-04-06 10:46:35


O dataset possui um total de 20 colunas, sendo que a maioria é do tipo `string` e temos algumas do tipo `int` também. Ainda, 5 colunas incluem valores `null`, mas que representam apenas aproximadamente 20% dos valores.

Vamos dar início primeiramente limpando o nome das colunas, assim fica mais fácil de trabalhar no dataset.

---

## Limpando os nomes das colunas

Ao verificar o nome das colunas, percebemos que elas utilizam o padrão [camelcase](https://en.wikipedia.org/wiki/Camel_case) ao invés do [snakecase](https://en.wikipedia.org/wiki/Snake_case), que é o mais recomendável para códigos em Python.

Dessa forma, a primeira tarefa aqui é transformar o nome das colunas para __snakecase__ e reescrever algumas colunas baseado no glossário das colunas que está no início desse notebook, deixando elas assim mais descritivas.

In [6]:
# Nome de todas as colunas
autos.columns

Index(['dateCrawled', 'name', 'seller', 'offerType', 'price', 'abtest',
       'vehicleType', 'yearOfRegistration', 'gearbox', 'powerPS', 'model',
       'odometer', 'monthOfRegistration', 'fuelType', 'brand',
       'notRepairedDamage', 'dateCreated', 'nrOfPictures', 'postalCode',
       'lastSeen'],
      dtype='object')

In [7]:
# Lista para editar o nome das colunas
new_columns_names = ['date_crawled', 'name', 'seller', 'offer_type', 'price', 'ab_test',
    'vehicle_type', 'registration_year', 'gearbox', 'power_ps', 'model',
    'odometer', 'registration_month', 'fuel_type', 'brand',
    'unrepaired_damage', 'ad_created', 'num_photos', 'postal_code',
    'last_seen']

In [8]:
# Substituição do nome das colunas pela lista que criamos acima
autos.columns = new_columns_names

In [9]:
autos.head(10)

Unnamed: 0,date_crawled,name,seller,offer_type,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer,registration_month,fuel_type,brand,unrepaired_damage,ad_created,num_photos,postal_code,last_seen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50
5,2016-03-21 13:47:45,Chrysler_Grand_Voyager_2.8_CRD_Aut.Limited_Sto...,privat,Angebot,"$7,900",test,bus,2006,automatik,150,voyager,"150,000km",4,diesel,chrysler,,2016-03-21 00:00:00,0,22962,2016-04-06 09:45:21
6,2016-03-20 17:55:21,VW_Golf_III_GT_Special_Electronic_Green_Metall...,privat,Angebot,$300,test,limousine,1995,manuell,90,golf,"150,000km",8,benzin,volkswagen,,2016-03-20 00:00:00,0,31535,2016-03-23 02:48:59
7,2016-03-16 18:55:19,Golf_IV_1.9_TDI_90PS,privat,Angebot,"$1,990",control,limousine,1998,manuell,90,golf,"150,000km",12,diesel,volkswagen,nein,2016-03-16 00:00:00,0,53474,2016-04-07 03:17:32
8,2016-03-22 16:51:34,Seat_Arosa,privat,Angebot,$250,test,,2000,manuell,0,arosa,"150,000km",10,,seat,nein,2016-03-22 00:00:00,0,7426,2016-03-26 18:18:10
9,2016-03-16 13:47:02,Renault_Megane_Scenic_1.6e_RT_Klimaanlage,privat,Angebot,$590,control,bus,1997,manuell,90,megane,"150,000km",7,benzin,renault,nein,2016-03-16 00:00:00,0,15749,2016-04-06 10:46:35


Como podemos verificar acima, fizemos as seguintes alterações no nome das colunas:
* Alterado a formatação para `snakecase`
* O nome de algumas colunas foram ajustados para serem mais descritivos

---

## Início da Exploração e Limpeza dos Dados

Agora vamos fazer uma exploração básica dos dados para verificar quais outras tarefas de limpeza precisam ser feitas. Inicialmente buscaremos:
* Colunas de texto onde todos ou quase todos os valores são os mesmos. Muitas vezes, eles podem ser descartados, pois não possuem informações úteis para análise
* Dados que estão como __string__ mas que podem ser convertidos para __números__

In [10]:
autos.describe(include='all')

Unnamed: 0,date_crawled,name,seller,offer_type,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer,registration_month,fuel_type,brand,unrepaired_damage,ad_created,num_photos,postal_code,last_seen
count,50000,50000,50000,50000,50000,50000,44905,50000.0,47320,50000.0,47242,50000,50000.0,45518,50000,40171,50000,50000.0,50000.0,50000
unique,48213,38754,2,2,2357,2,8,,2,,245,13,,7,40,2,76,,,39481
top,2016-04-02 11:37:04,Ford_Fiesta,privat,Angebot,$0,test,limousine,,manuell,,golf,"150,000km",,benzin,volkswagen,nein,2016-04-03 00:00:00,,,2016-04-07 06:17:27
freq,3,78,49999,49999,1421,25756,12859,,36993,,4024,32424,,30107,10687,35232,1946,,,8
mean,,,,,,,,2005.07328,,116.35592,,,5.72336,,,,,0.0,50813.6273,
std,,,,,,,,105.712813,,209.216627,,,3.711984,,,,,0.0,25779.747957,
min,,,,,,,,1000.0,,0.0,,,0.0,,,,,0.0,1067.0,
25%,,,,,,,,1999.0,,70.0,,,3.0,,,,,0.0,30451.0,
50%,,,,,,,,2003.0,,105.0,,,6.0,,,,,0.0,49577.0,
75%,,,,,,,,2008.0,,150.0,,,9.0,,,,,0.0,71540.0,


Observações iniciais:
* Duas colunas do tipo string possuem praticamente os mesmos valores:
    * `seller`
    * `offer_type`
* A coluna `num_photos` precisa ser investigada também

In [11]:
autos['num_photos'].value_counts()

0    50000
Name: num_photos, dtype: int64

In [12]:
autos['seller'].value_counts()

privat        49999
gewerblich        1
Name: seller, dtype: int64

In [13]:
autos['offer_type'].value_counts()

Angebot    49999
Gesuch         1
Name: offer_type, dtype: int64

Comprovamos que as colunas `num_photos`, `seller` e `offer_type` possuem basicamente um único valor. Abaixo iremos remover essas colunas.

In [14]:
autos = autos.drop(['num_photos', 'seller', 'offer_type'], axis=1)

In [15]:
# Confirmando se as colunas foram removidas
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 17 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   date_crawled        50000 non-null  object
 1   name                50000 non-null  object
 2   price               50000 non-null  object
 3   ab_test             50000 non-null  object
 4   vehicle_type        44905 non-null  object
 5   registration_year   50000 non-null  int64 
 6   gearbox             47320 non-null  object
 7   power_ps            50000 non-null  int64 
 8   model               47242 non-null  object
 9   odometer            50000 non-null  object
 10  registration_month  50000 non-null  int64 
 11  fuel_type           45518 non-null  object
 12  brand               50000 non-null  object
 13  unrepaired_damage   40171 non-null  object
 14  ad_created          50000 non-null  object
 15  postal_code         50000 non-null  int64 
 16  last_seen           50

Nas colunas `price` e `odometer`, vimos acima que estão como __object__, o que nos informa que são __strings__. Vamos converter essas duas colunas para números:
* Remover qualquer caractere não numérico
* Converter o dtype para numérico
* Renomear a coluna `odometer` para `odometer_km`

In [16]:
# Remover o caracter $ e , e assim converter para int
autos['price'] = autos['price'].str.replace('$', '').str.replace(',', '').astype(int)
autos['price'].head(10)

  autos['price'] = autos['price'].str.replace('$', '').str.replace(',', '').astype(int)


0    5000
1    8500
2    8990
3    4350
4    1350
5    7900
6     300
7    1990
8     250
9     590
Name: price, dtype: int64

In [17]:
# Remover o caracter km e , e assim converter para int
autos['odometer'] = autos['odometer'].str.replace('km', '').str.replace(',', '').astype(int)
autos.rename({'odometer': 'odometer_km'}, axis=1, inplace=True)
autos['odometer_km'].head(10)

0    150000
1    150000
2     70000
3     70000
4    150000
5    150000
6    150000
7    150000
8    150000
9    150000
Name: odometer_km, dtype: int64

### Explorando as colunas `price` e `odometer_km`

Tarefas para analisar essas colunas de forma mais aprofundada:
* Verificar os valores mínimos e máximos
* Remover os _outliers_ caso tenhamos valores irrealisticamente altos ou baixos

In [18]:
autos['odometer_km'].value_counts()

150000    32424
125000     5170
100000     2169
90000      1757
80000      1436
70000      1230
60000      1164
50000      1027
5000        967
40000       819
30000       789
20000       784
10000       264
Name: odometer_km, dtype: int64

Podemos perceber que os valores de quilometragem estão arredondados, o que significa que provavelmente os usuários tinham opções predefinidas para selecionar. Outro ponto aqui é que a maioria dos carros à venda estão com alta quilometragem.

In [19]:
print(autos['price'].unique().shape)
print(autos['price'].describe())
autos['price'].value_counts().head(20)

(2357,)
count    5.000000e+04
mean     9.840044e+03
std      4.811044e+05
min      0.000000e+00
25%      1.100000e+03
50%      2.950000e+03
75%      7.200000e+03
max      1.000000e+08
Name: price, dtype: float64


0       1421
500      781
1500     734
2500     643
1000     639
1200     639
600      531
800      498
3500     498
2000     460
999      434
750      433
900      420
650      419
850      410
700      395
4500     394
300      384
2200     382
950      379
Name: price, dtype: int64

Na coluna de preços também temos os valores arredondados, com 2357 preços diferentes no total.

Entretanto, 1421 carros foram listados com preço zerado, vamos remover essas linhas. Outro ponto é que o valor máximo está na casa dos 100 milhões de dólares. Vamos investigar um pouco mais os altos preços.

In [20]:
# Quantidade de carros por preço em ordem decrescente
autos['price'].value_counts().sort_index(ascending=False).head(20)

99999999    1
27322222    1
12345678    3
11111111    2
10000000    1
3890000     1
1300000     1
1234566     1
999999      2
999990      1
350000      1
345000      1
299000      1
295000      1
265000      1
259000      1
250000      1
220000      1
198000      1
197000      1
Name: price, dtype: int64

In [21]:
# Quantidade de carros por preço em ordem crescente
autos['price'].value_counts().sort_index(ascending=True).head(20)

0     1421
1      156
2        3
3        1
5        2
8        1
9        1
10       7
11       2
12       3
13       2
14       1
15       2
17       3
18       1
20       4
25       5
29       1
30       7
35       1
Name: price, dtype: int64

Aproximadamente 1500 carros estão à venda com preço 0, e outros tantos por menos de $30. Ainda, 14 carros estão com um valor acima de 1 milhão.

Como o eBay é um site de leilão, os carros com valor de $1 podem ser realmente o lance inicial do veículo. Será removido os que estiverem acima de $350000, sendo que acima desse valor os preços sobem de forma acentuada e irreal.

In [22]:
autos = autos[autos['price'].between(1, 351000)]
autos['price'].describe()

count     48565.000000
mean       5888.935591
std        9059.854754
min           1.000000
25%        1200.000000
50%        3000.000000
75%        7490.000000
max      350000.000000
Name: price, dtype: float64

### Explorando as colunas com datas

Algumas colunas do dataset possuem informações contendo data:

* `date_crawled`: adicionado pelo crawler
* `last_seen`: adicionado pelo crawler
* `ad_created`: obtido pelo próprio site
* `registration_month`: obtido pelo próprio site
* `registration_year`: obtido pelo próprio site

Exploraremos cada uma dessas colunas para saber mais sobre as listagens.

In [23]:
autos[['date_crawled', 'ad_created', 'last_seen']][0:5]

Unnamed: 0,date_crawled,ad_created,last_seen
0,2016-03-26 17:47:46,2016-03-26 00:00:00,2016-04-06 06:45:54
1,2016-04-04 13:38:56,2016-04-04 00:00:00,2016-04-06 14:45:08
2,2016-03-26 18:57:24,2016-03-26 00:00:00,2016-04-06 20:15:37
3,2016-03-12 16:58:10,2016-03-12 00:00:00,2016-03-15 03:16:28
4,2016-04-01 14:38:50,2016-04-01 00:00:00,2016-04-01 14:38:50


In [24]:
autos['date_crawled'].str[:10].value_counts(normalize=True, dropna=False).sort_index()

2016-03-05    0.025327
2016-03-06    0.014043
2016-03-07    0.036014
2016-03-08    0.033296
2016-03-09    0.033090
2016-03-10    0.032184
2016-03-11    0.032575
2016-03-12    0.036920
2016-03-13    0.015670
2016-03-14    0.036549
2016-03-15    0.034284
2016-03-16    0.029610
2016-03-17    0.031628
2016-03-18    0.012911
2016-03-19    0.034778
2016-03-20    0.037887
2016-03-21    0.037373
2016-03-22    0.032987
2016-03-23    0.032225
2016-03-24    0.029342
2016-03-25    0.031607
2016-03-26    0.032204
2016-03-27    0.031092
2016-03-28    0.034860
2016-03-29    0.034099
2016-03-30    0.033687
2016-03-31    0.031834
2016-04-01    0.033687
2016-04-02    0.035478
2016-04-03    0.038608
2016-04-04    0.036487
2016-04-05    0.013096
2016-04-06    0.003171
2016-04-07    0.001400
Name: date_crawled, dtype: float64

In [25]:
autos['date_crawled'].str[:10].value_counts(normalize=True, dropna=False).sort_values()

2016-04-07    0.001400
2016-04-06    0.003171
2016-03-18    0.012911
2016-04-05    0.013096
2016-03-06    0.014043
2016-03-13    0.015670
2016-03-05    0.025327
2016-03-24    0.029342
2016-03-16    0.029610
2016-03-27    0.031092
2016-03-25    0.031607
2016-03-17    0.031628
2016-03-31    0.031834
2016-03-10    0.032184
2016-03-26    0.032204
2016-03-23    0.032225
2016-03-11    0.032575
2016-03-22    0.032987
2016-03-09    0.033090
2016-03-08    0.033296
2016-04-01    0.033687
2016-03-30    0.033687
2016-03-29    0.034099
2016-03-15    0.034284
2016-03-19    0.034778
2016-03-28    0.034860
2016-04-02    0.035478
2016-03-07    0.036014
2016-04-04    0.036487
2016-03-14    0.036549
2016-03-12    0.036920
2016-03-21    0.037373
2016-03-20    0.037887
2016-04-03    0.038608
Name: date_crawled, dtype: float64

Parece que o site foi rastreado diariamente durante aproximadamente um mês, entre março e abril de 2016. A distribuição das listagens capturadas em cada dia é praticamente uniforme.

In [26]:
autos['last_seen'].str[:10].value_counts(normalize=True, dropna=False).sort_index()

2016-03-05    0.001071
2016-03-06    0.004324
2016-03-07    0.005395
2016-03-08    0.007413
2016-03-09    0.009595
2016-03-10    0.010666
2016-03-11    0.012375
2016-03-12    0.023783
2016-03-13    0.008895
2016-03-14    0.012602
2016-03-15    0.015876
2016-03-16    0.016452
2016-03-17    0.028086
2016-03-18    0.007351
2016-03-19    0.015834
2016-03-20    0.020653
2016-03-21    0.020632
2016-03-22    0.021373
2016-03-23    0.018532
2016-03-24    0.019767
2016-03-25    0.019211
2016-03-26    0.016802
2016-03-27    0.015649
2016-03-28    0.020859
2016-03-29    0.022341
2016-03-30    0.024771
2016-03-31    0.023783
2016-04-01    0.022794
2016-04-02    0.024915
2016-04-03    0.025203
2016-04-04    0.024483
2016-04-05    0.124761
2016-04-06    0.221806
2016-04-07    0.131947
Name: last_seen, dtype: float64

O rastreador registrou a última data que viu qualquer anúncio, o que nos permite determinar em que dia um anúncio foi removido, presumivelmente porque o carro foi vendido.

Os últimos três dias contêm uma quantidade desproporcional de valores `last_seen`. Dado que esses valores são de 6 a 10 vezes os valores dos dias anteriores, é improvável que tenha havido um grande aumento nas vendas e, mais provavelmente, esses valores estejam relacionados ao término do período de rastreamento e não indiquem vendas de carros.

In [27]:
print(autos['ad_created'].str[:10].unique().shape)
autos['ad_created'].str[:10].value_counts(normalize=True, dropna=False).sort_index()

(76,)


2015-06-11    0.000021
2015-08-10    0.000021
2015-09-09    0.000021
2015-11-10    0.000021
2015-12-05    0.000021
                ...   
2016-04-03    0.038855
2016-04-04    0.036858
2016-04-05    0.011819
2016-04-06    0.003253
2016-04-07    0.001256
Name: ad_created, Length: 76, dtype: float64

Há uma grande variedade de datas de criação de anúncios. A maioria varia de 1 a 2 meses da data de listagem, mas alguns são bastante antigos, sendo o mais antigo em torno de 9 meses.

In [28]:
autos['registration_year'].describe()

count    48565.000000
mean      2004.755421
std         88.643887
min       1000.000000
25%       1999.000000
50%       2004.000000
75%       2008.000000
max       9999.000000
Name: registration_year, dtype: float64

O ano que o carro foi registrado provavelmente indicará a idade do carro. Olhando para esta coluna, notamos alguns valores estranhos. O valor mínimo é 1000, muito antes dos carros serem inventados, e o máximo é 9999.

### Tratando valores incorretos na coluna `registration_year`

Como um carro não pode ser registrado (`registration_year`) antes da listagem ser vista (`last_seen`), qualquer veículo com um ano de registro acima de 2016 está definitivamente errado. Determinar o primeiro ano válido é mais difícil. Realisticamente, poderia estar em algum lugar nas primeiras décadas de 1900.

Uma opção é remover as listagens com esses valores. Vamos determinar qual porcentagem de nossos dados tem valores inválidos nesta coluna:

In [29]:
(~autos['registration_year'].between(1900, 2016)).sum() / autos.shape[0]

0.038793369710697

Como mostrado acima, é basicamente 4% dos dados. Dessa forma, vamos remover essas linhas.

In [30]:
autos = autos[autos['registration_year'].between(1900, 2016)]
autos['registration_year'].value_counts(normalize=True).head(10)

2000    0.067608
2005    0.062895
1999    0.062060
2004    0.057904
2003    0.057818
2006    0.057197
2001    0.056468
2002    0.053255
1998    0.050620
2007    0.048778
Name: registration_year, dtype: float64

A maioria dos veículos foram registrados nos últimos 20 anos.

### Explorando preço por marca

In [31]:
autos['brand'].value_counts(normalize=True)

volkswagen        0.211264
bmw               0.110045
opel              0.107581
mercedes_benz     0.096463
audi              0.086566
ford              0.069900
renault           0.047150
peugeot           0.029841
fiat              0.025642
seat              0.018273
skoda             0.016409
nissan            0.015274
mazda             0.015188
smart             0.014160
citroen           0.014010
toyota            0.012703
hyundai           0.010025
sonstige_autos    0.009811
volvo             0.009147
mini              0.008762
mitsubishi        0.008226
honda             0.007840
kia               0.007069
alfa_romeo        0.006641
porsche           0.006127
suzuki            0.005934
chevrolet         0.005698
chrysler          0.003513
dacia             0.002635
daihatsu          0.002506
jeep              0.002271
subaru            0.002142
land_rover        0.002099
saab              0.001649
jaguar            0.001564
daewoo            0.001500
trabant           0.001392
r

Os fabricantes alemães representam quatro das cinco principais marcas, quase 50% das listagens. Volkswagen é de longe a marca mais popular, com aproximadamente o dobro dos carros à venda das duas marcas seguintes combinadas.

Existem muitas marcas que não possuem uma porcentagem significativa, portanto, limitaremos nossa análise às marcas que representam mais de 5% do total de listagens.

In [32]:
# Representação em porcentagem de cada marca
brand_counts = autos['brand'].value_counts(normalize=True)
brand_counts

volkswagen        0.211264
bmw               0.110045
opel              0.107581
mercedes_benz     0.096463
audi              0.086566
ford              0.069900
renault           0.047150
peugeot           0.029841
fiat              0.025642
seat              0.018273
skoda             0.016409
nissan            0.015274
mazda             0.015188
smart             0.014160
citroen           0.014010
toyota            0.012703
hyundai           0.010025
sonstige_autos    0.009811
volvo             0.009147
mini              0.008762
mitsubishi        0.008226
honda             0.007840
kia               0.007069
alfa_romeo        0.006641
porsche           0.006127
suzuki            0.005934
chevrolet         0.005698
chrysler          0.003513
dacia             0.002635
daihatsu          0.002506
jeep              0.002271
subaru            0.002142
land_rover        0.002099
saab              0.001649
jaguar            0.001564
daewoo            0.001500
trabant           0.001392
r

In [33]:
# Selecionando as marcas com mais de 5% de representação
common_brands = brand_counts[brand_counts > .05].index
print(common_brands)

Index(['volkswagen', 'bmw', 'opel', 'mercedes_benz', 'audi', 'ford'], dtype='object')


In [34]:
# Coletando o preço médio das principais marcas
brand_mean_prices = dict()

for brand in common_brands:
    brand_only = autos[autos['brand'] == brand]
    mean_price = brand_only['price'].mean()
    brand_mean_prices[brand] = int(mean_price)

brand_mean_prices

{'volkswagen': 5402,
 'bmw': 8332,
 'opel': 2975,
 'mercedes_benz': 8628,
 'audi': 9336,
 'ford': 3749}

Das principais marcas, temos as seguintes diferenças:
* Audi, BMW e Mercedes Benz são mais caras
* Ford e Opel mais baratos
* Volkswagen está no meio termo - isso pode explicar sua popularidade, pode ser uma opção "melhor de ambos os mundos".

### Explorando a quilometragem

In [35]:
bmp_series = pd.Series(brand_mean_prices)
pd.DataFrame(bmp_series, columns=['mean_price'])

Unnamed: 0,mean_price
volkswagen,5402
bmw,8332
opel,2975
mercedes_benz,8628
audi,9336
ford,3749


In [36]:
brand_mean_mileage = dict()

for brand in common_brands:
    brand_only = autos[autos['brand'] == brand]
    mean_mileage = brand_only['odometer_km'].mean()
    brand_mean_mileage[brand] = int(mean_mileage)

mean_mileage = pd.Series(brand_mean_mileage).sort_values(ascending=True)
mean_prices = pd.Series(brand_mean_prices).sort_values(ascending=True)

In [37]:
brand_info = pd.DataFrame(mean_mileage, columns=['mean_mileage'])
brand_info

Unnamed: 0,mean_mileage
ford,124266
volkswagen,128707
audi,129157
opel,129310
mercedes_benz,130788
bmw,132572


In [38]:
brand_info['mean_price'] = mean_prices
brand_info

Unnamed: 0,mean_mileage,mean_price
ford,124266,3749
volkswagen,128707,5402
audi,129157,9336
opel,129310,2975
mercedes_benz,130788,8628
bmw,132572,8332


A quilometragem do carro não varia tanto quanto os preços por marca. Há uma ligeira tendência que os veículos mais caros tenham maior quilometragem, assim como os veículos mais baratos possuem menor quilometragem.

![](bot-reps-dataquest.jpg)