### Guided Project: Exploring eBay Car Sales Data

* Resumo: Neste projeto guiado, trabalharemos com um conjunto de dados de carros usados ​​do eBay Kleinanzeigen , uma seção de classificados do site alemão eBay. O conjunto de dados foi originalmente copiado e carregado no Kaggle pelo usuário orgesleka. Amostramos 50.000 pontos de dados do conjunto de dados completo para garantir que seu código seja executado rapidamente em nosso ambiente hospedado.

##### Dicionário de dados para o conjunto de dados:

    * dateCrawled- Quando o anúncio foi rastreado pela primeira vez. Todos os valores de campo são retirados desta data.
    * name - Nome do carro.
    * seller - Se o vendedor é particular ou revendedor.
    * offerType - O tipo de listagem.
    * price - O preço de venda listado do carro.
    * abtest - Se a listagem está incluída em um teste A/B.
    * vehicleType - O tipo de veículo.
    * yearOfRegistration - O ano em que o automóvel foi registado pela primeira vez.
    * gearbox - O tipo de transmissão.
    * powerPS - A potência do carro em PS.
    * model - O nome do modelo do carro.
    * odometer - Quantos quilômetros o carro percorreu.
    * monthOfRegistration - O mês em que o carro foi registado pela primeira vez.
    * fuelType - Que tipo de combustível o carro utiliza.
    * brand - A marca do carro.
    * notRepairedDamage - Se o carro apresentar algum dano que ainda não foi reparado.
    * dateCreated - A data em que a listagem do eBay foi criada.
    * nrOfPictures - O número de fotos no anúncio.
    * postalCode - O código postal da localização do veículo.
    * lastSeenOnline - Quando o rastreador viu este anúncio on-line pela última vez.

In [2]:
import numpy as np
import pandas as pd

autos = pd.read_csv('./autos.csv', encoding = 'latin1')

In [3]:
autos.info()
autos.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   dateCrawled          50000 non-null  object
 1   name                 50000 non-null  object
 2   seller               50000 non-null  object
 3   offerType            50000 non-null  object
 4   price                50000 non-null  object
 5   abtest               50000 non-null  object
 6   vehicleType          44905 non-null  object
 7   yearOfRegistration   50000 non-null  int64 
 8   gearbox              47320 non-null  object
 9   powerPS              50000 non-null  int64 
 10  model                47242 non-null  object
 11  odometer             50000 non-null  object
 12  monthOfRegistration  50000 non-null  int64 
 13  fuelType             45518 non-null  object
 14  brand                50000 non-null  object
 15  notRepairedDamage    40171 non-null  object
 16  date

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,odometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50


##### - OBSERVAÇÕES PRELIMINARES

    * Foi possível observar que 5 das 20 colunas possuem dados nulos 
    * O conjunto de dados contém 20 colunas, a maioria das quais são strings.
    * Algumas colunas têm valores nulos, mas nenhuma tem mais de aproximadamente 20% de valores nulos.
    * Os nomes das colunas usam camelcase em vez do Snakecase preferido do Python , o que significa que não podemos simplesmente substituir espaços por sublinhados.
    * Algumas das colunas possuem tipo string para valores numéricos. Por exemplo: Price $5,000 em autos['price'][0]

##### - No script abaixo renomeamos todas as colunas para o padrão snake_case recomendado pela comunidade Python seguindo o padrão PEP8.

In [4]:
columns = ['crawled_date', 'name', 'seller', 'offer_type', 'price', 'abtest',
       'type_vehicle', 'registration_year', 'gearbox', 'power_ps', 'model',
       'odometer', 'registration_month', 'type_fuel', 'brand',
       'unrepaired_damage', 'ad_created', 'nr_pictures', 'postal_code',
       'last_seen']

autos.columns = columns

In [5]:
# Initial Exploration and Cleaning
autos.describe(include = 'all')

Unnamed: 0,crawled_date,name,seller,offer_type,price,abtest,type_vehicle,registration_year,gearbox,power_ps,model,odometer,registration_month,type_fuel,brand,unrepaired_damage,ad_created,nr_pictures,postal_code,last_seen
count,50000,50000,50000,50000,50000,50000,44905,50000.0,47320,50000.0,47242,50000,50000.0,45518,50000,40171,50000,50000.0,50000.0,50000
unique,48213,38754,2,2,2357,2,8,,2,,245,13,,7,40,2,76,,,39481
top,2016-04-02 11:37:04,Ford_Fiesta,privat,Angebot,$0,test,limousine,,manuell,,golf,"150,000km",,benzin,volkswagen,nein,2016-04-03 00:00:00,,,2016-04-07 06:17:27
freq,3,78,49999,49999,1421,25756,12859,,36993,,4024,32424,,30107,10687,35232,1946,,,8
mean,,,,,,,,2005.07328,,116.35592,,,5.72336,,,,,0.0,50813.6273,
std,,,,,,,,105.712813,,209.216627,,,3.711984,,,,,0.0,25779.747957,
min,,,,,,,,1000.0,,0.0,,,0.0,,,,,0.0,1067.0,
25%,,,,,,,,1999.0,,70.0,,,3.0,,,,,0.0,30451.0,
50%,,,,,,,,2003.0,,105.0,,,6.0,,,,,0.0,49577.0,
75%,,,,,,,,2008.0,,150.0,,,9.0,,,,,0.0,71540.0,


In [6]:
autos["price"] = autos["price"].str.replace('$', '')
autos["price"] = autos["price"].str.replace(',', '').astype(float)
autos["odometer"] = autos["odometer"].str.replace('km', '')
autos["odometer"] = autos["odometer"].str.replace(',', '').astype(float)
autos.rename(columns = {'odometer' : 'odometer_km'}, inplace = True)

  autos["price"] = autos["price"].str.replace('$', '')


In [7]:
# Exploring the Odometer and Price Columns
autos['price'].unique().shape
autos['price'].value_counts().head().sort_index(ascending = False)

2500.0     643
1500.0     734
1000.0     639
500.0      781
0.0       1421
Name: price, dtype: int64

- COLUNA PRICE
    * Identificou-se um total de 1271 valores igual a 0
    * Foi realizado uma operação usando indexação booleana para excluir todos os valores iguais a 0

In [8]:
autos = autos[autos['price'] != 0]
autos['price'].value_counts().head().sort_index(ascending = False)

2500.0    643
1500.0    734
1200.0    639
1000.0    639
500.0     781
Name: price, dtype: int64

In [9]:
autos['odometer_km'].unique().shape
autos['odometer_km'].value_counts()


150000.0    31422
125000.0     5058
100000.0     2116
90000.0      1734
80000.0      1415
70000.0      1217
60000.0      1155
50000.0      1014
5000.0        837
40000.0       816
30000.0       780
20000.0       762
10000.0       253
Name: odometer_km, dtype: int64

In [10]:
# Exploring the Date Columns
autos[['crawled_date','ad_created','last_seen']][0:5]


Unnamed: 0,crawled_date,ad_created,last_seen
0,2016-03-26 17:47:46,2016-03-26 00:00:00,2016-04-06 06:45:54
1,2016-04-04 13:38:56,2016-04-04 00:00:00,2016-04-06 14:45:08
2,2016-03-26 18:57:24,2016-03-26 00:00:00,2016-04-06 20:15:37
3,2016-03-12 16:58:10,2016-03-12 00:00:00,2016-03-15 03:16:28
4,2016-04-01 14:38:50,2016-04-01 00:00:00,2016-04-01 14:38:50


In [11]:
# Exploring the Date Columns
# Explorando apenas os primeiros 10 caracteres da string
# Calculando a contagem de cada data
contagem_datas = autos['crawled_date'].str[:10].value_counts(normalize=True, dropna=False)

# Calculando o total de entradas na série
total_entradas = contagem_datas.sum()

# Calculando a distribuição percentual
distribuicao_percentual = contagem_datas / total_entradas * 100

# Mapeando os valores percentuais de volta para a coluna 'crawled_date'
autos['crawled_date'] = autos['crawled_date'].str[:10].map(distribuicao_percentual)

print(autos['crawled_date'].sort_index())

0        3.219498
1        3.651784
2        3.219498
3        3.692954
4        3.367710
           ...   
49995    3.108339
49996    3.485045
49997    3.546800
49998    3.332716
49999    3.653842
Name: crawled_date, Length: 48579, dtype: float64


In [12]:
contagem_datas = autos['ad_created'].str[:10].value_counts(normalize=True, dropna=False)
total_entradas = contagem_datas.sum()
distribuicao_percentual = contagem_datas / total_entradas * 100
autos['ad_created'] = autos['ad_created'].str[:10].map(distribuicao_percentual)
print(autos['ad_created'].sort_index())

0        3.225674
1        3.688837
2        3.225674
3        3.676486
4        3.367710
           ...   
49995    3.098046
49996    3.497396
49997    3.513864
49998    3.334774
49999    1.700323
Name: ad_created, Length: 48579, dtype: float64


In [13]:
contagem_datas = autos['last_seen'].str[:10].value_counts(normalize=True, dropna=False)
total_entradas = contagem_datas.sum()
distribuicao_percentual = contagem_datas / total_entradas * 100
autos['last_seen'] = autos['last_seen'].str[:10].map(distribuicao_percentual)
print(autos['last_seen'].sort_index())

0        22.182425
1        22.182425
2        22.182425
3         1.587106
4         2.278762
           ...    
49995     2.278762
49996     2.492847
49997     2.447560
49998    12.476585
49999    22.182425
Name: last_seen, Length: 48579, dtype: float64


### Foi identificado anos acima de 2016 que poderiam impactar a análise, dessa forma, o intervalo foi configurado de 1900-2019. Valores fora desse intervalo foram excluídos do DataFrame.

In [14]:
# Dealing with Incorrect Registration Year Data
autos['registration_year'].describe()
index_booleano = (autos['registration_year'] >= 1900) & (autos['registration_year'] <= 2019)
autos = autos.loc[index_booleano]
print(autos['registration_year'])


0        2004
1        1997
2        2009
3        2007
4        2003
         ... 
49995    2011
49996    1996
49997    2014
49998    2013
49999    1996
Name: registration_year, Length: 48559, dtype: int64


In [26]:
# Exploring Price by Brand
autos["brand"].value_counts(normalize=True)
brand_counts = autos["brand"].value_counts(normalize=True)
common_brands = brand_counts[brand_counts > .05].index
print(common_brands)


Index(['volkswagen', 'opel', 'bmw', 'mercedes_benz', 'audi', 'ford'], dtype='object')


In [27]:
brand_mean_prices = {}

for brand in common_brands:
    brand_only = autos[autos["brand"] == brand]
    mean_price = brand_only["price"].mean()
    brand_mean_prices[brand] = int(mean_price)

brand_mean_prices

{'volkswagen': 6600,
 'opel': 5281,
 'bmw': 8493,
 'mercedes_benz': 30025,
 'audi': 9212,
 'ford': 7305}

In [28]:
# Guided Project: Exploring eBay Car Sales Data

bmp_series = pd.Series(brand_mean_prices)
pd.DataFrame(bmp_series, columns=["mean_price"])

Unnamed: 0,mean_price
volkswagen,6600
opel,5281
bmw,8493
mercedes_benz,30025
audi,9212
ford,7305


In [29]:
brand_mean_mileage = {}

for brand in common_brands:
    brand_only = autos[autos["brand"] == brand]
    mean_mileage = brand_only["odometer_km"].mean()
    brand_mean_mileage[brand] = int(mean_mileage)

mean_mileage = pd.Series(brand_mean_mileage).sort_values(ascending=False)
mean_prices = pd.Series(brand_mean_prices).sort_values(ascending=False)

In [30]:
brand_info = pd.DataFrame(mean_mileage,columns=['mean_mileage'])
brand_info

Unnamed: 0,mean_mileage
bmw,132686
mercedes_benz,130852
audi,129492
opel,129455
volkswagen,128961
ford,124327


In [31]:
brand_info["mean_price"] = mean_prices
brand_info

Unnamed: 0,mean_mileage,mean_price
bmw,132686,8493
mercedes_benz,130852,30025
audi,129492,9212
opel,129455,5281
volkswagen,128961,6600
ford,124327,7305
