# Analyse des annonces de voitures d'occasion sur eBay Kleinanzeigen

Nous travaillerons sur un ensemble de données de voitures d'occasion d'eBay Kleinanzeigen, une section de petites annonces du site Web allemand eBay.

L'ensemble de données a été initialement récupéré et téléchargé sur [Kaggle](https://www.kaggle.com/orgesleka/used-cars-database/data). La version de l'ensemble de données avec laquelle nous travaillons est un échantillon de 50 000 points de données.

Le but de ce projet est de nettoyer les données et d'analyser les listes de voitures d'occasion incluses.

In [1]:
import pandas as pd
import numpy as np

In [2]:
autos = pd.read_csv('OneDrive\Documents\my_datasets\Autos.csv', encoding='Latin-1')

In [3]:
autos.head()

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,odometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50


In [4]:
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   dateCrawled          50000 non-null  object
 1   name                 50000 non-null  object
 2   seller               50000 non-null  object
 3   offerType            50000 non-null  object
 4   price                50000 non-null  object
 5   abtest               50000 non-null  object
 6   vehicleType          44905 non-null  object
 7   yearOfRegistration   50000 non-null  int64 
 8   gearbox              47320 non-null  object
 9   powerPS              50000 non-null  int64 
 10  model                47242 non-null  object
 11  odometer             50000 non-null  object
 12  monthOfRegistration  50000 non-null  int64 
 13  fuelType             45518 non-null  object
 14  brand                50000 non-null  object
 15  notRepairedDamage    40171 non-null  object
 16  date

Notre ensemble de données contient 20 colonnes, dont la plupart sont stockées sous forme de chaînes. Il existe quelques colonnes avec des valeurs nulles, mais aucune colonne n'a plus de 20% de valeurs nulles. Certaines colonnes contiennent des dates stockées sous forme de chaînes. 

Nous allons commencer par nettoyer les noms de colonnes pour faciliter le travail des données.


# Nettoyer les colonnes

In [5]:
autos.columns

Index(['dateCrawled', 'name', 'seller', 'offerType', 'price', 'abtest',
       'vehicleType', 'yearOfRegistration', 'gearbox', 'powerPS', 'model',
       'odometer', 'monthOfRegistration', 'fuelType', 'brand',
       'notRepairedDamage', 'dateCreated', 'nrOfPictures', 'postalCode',
       'lastSeen'],
      dtype='object')

#### Nous allons apporter quelques modifications ici:

    - Changez les colonnes de camelcase en snakecase.
    - Modifiez quelques mots pour décrire plus précisément les colonnes.

In [6]:
autos.columns = ['date_crawled', 'name', 'seller', 'offer_type', 'price', 'ab_test',
       'vehicle_type', 'registration_year', 'gearbox', 'power_ps', 'model',
       'odometer', 'registration_month', 'fuel_type', 'brand',
       'unrepaired_damage', 'ad_created', 'num_photos', 'postal_code',
       'last_seen']
autos.head(2)

Unnamed: 0,date_crawled,name,seller,offer_type,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer,registration_month,fuel_type,brand,unrepaired_damage,ad_created,num_photos,postal_code,last_seen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08


In [7]:
print(autos.isnull().sum())

date_crawled             0
name                     0
seller                   0
offer_type               0
price                    0
ab_test                  0
vehicle_type          5095
registration_year        0
gearbox               2680
power_ps                 0
model                 2758
odometer                 0
registration_month       0
fuel_type             4482
brand                    0
unrepaired_damage     9829
ad_created               0
num_photos               0
postal_code              0
last_seen                0
dtype: int64


In [8]:
autos.describe(include='all')

Unnamed: 0,date_crawled,name,seller,offer_type,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer,registration_month,fuel_type,brand,unrepaired_damage,ad_created,num_photos,postal_code,last_seen
count,50000,50000,50000,50000,50000,50000,44905,50000.0,47320,50000.0,47242,50000,50000.0,45518,50000,40171,50000,50000.0,50000.0,50000
unique,48213,38754,2,2,2357,2,8,,2,,245,13,,7,40,2,76,,,39481
top,2016-03-30 19:48:02,Ford_Fiesta,privat,Angebot,$0,test,limousine,,manuell,,golf,"150,000km",,benzin,volkswagen,nein,2016-04-03 00:00:00,,,2016-04-07 06:17:27
freq,3,78,49999,49999,1421,25756,12859,,36993,,4024,32424,,30107,10687,35232,1946,,,8
mean,,,,,,,,2005.07328,,116.35592,,,5.72336,,,,,0.0,50813.6273,
std,,,,,,,,105.712813,,209.216627,,,3.711984,,,,,0.0,25779.747957,
min,,,,,,,,1000.0,,0.0,,,0.0,,,,,0.0,1067.0,
25%,,,,,,,,1999.0,,70.0,,,3.0,,,,,0.0,30451.0,
50%,,,,,,,,2003.0,,105.0,,,6.0,,,,,0.0,49577.0,
75%,,,,,,,,2008.0,,150.0,,,9.0,,,,,0.0,71540.0,


Nos premières observations:

  -   Il existe un certain nombre de colonnes de texte dans lesquelles toutes (ou presque toutes) les valeurs sont identiques:
      * seller
      * offer_type
  - La colonne num_photos semble étrange, nous devrons approfondir cette question.

In [9]:
autos["num_photos"].value_counts()

0    50000
Name: num_photos, dtype: int64

Il semble que la colonne num_photos a 0 pour chaque colonne. Nous allons supprimer cette colonne, ainsi que les deux autres que nous avons notées comme étant principalement une valeur.

In [10]:
autos = autos.drop(["num_photos", "seller", "offer_type"], axis=1)

Il y a deux colonnes, price et odometer, qui sont des valeurs numériques avec des caractères supplémentaires stockés sous forme de texte. Nous allons nettoyer et convertir ces derniers.

In [11]:
autos.loc[:5, ['price', 'odometer']]

Unnamed: 0,price,odometer
0,"$5,000","150,000km"
1,"$8,500","150,000km"
2,"$8,990","70,000km"
3,"$4,350","70,000km"
4,"$1,350","150,000km"
5,"$7,900","150,000km"


In [12]:
autos['price'] = autos['price'].str.replace('$','').str.replace(',','').astype(int)

In [13]:
autos['odometer'] = autos['odometer'].str.replace('km', '').str.replace(',', '').astype(float)
autos.rename({'odometer':'odometer_km'}, axis=1, inplace=True) 

In [14]:
autos.loc[:5, ['price', 'odometer_km']]

Unnamed: 0,price,odometer_km
0,5000,150000.0
1,8500,150000.0
2,8990,70000.0
3,4350,70000.0
4,1350,150000.0
5,7900,150000.0


# Explorant Odometer et Price

In [15]:
autos["odometer_km"].value_counts()

150000.0    32424
125000.0     5170
100000.0     2169
90000.0      1757
80000.0      1436
70000.0      1230
60000.0      1164
50000.0      1027
5000.0        967
40000.0       819
30000.0       789
20000.0       784
10000.0       264
Name: odometer_km, dtype: int64

Nous pouvons voir que les valeurs de ce champ sont arrondies, ce qui peut indiquer que les vendeurs ont dû choisir parmi des options prédéfinies pour ce champ. De plus, les véhicules à énorme kilométrage sont plus nombreux que ceux faible kilométrage.

In [16]:
print(autos["price"].unique().shape)
print(autos["price"].describe())
autos["price"].value_counts().head(20)

(2357,)
count    5.000000e+04
mean     9.840044e+03
std      4.811044e+05
min      0.000000e+00
25%      1.100000e+03
50%      2.950000e+03
75%      7.200000e+03
max      1.000000e+08
Name: price, dtype: float64


0       1421
500      781
1500     734
2500     643
1000     639
1200     639
600      531
800      498
3500     498
2000     460
999      434
750      433
900      420
650      419
850      410
700      395
4500     394
300      384
2200     382
950      379
Name: price, dtype: int64

Encore une fois, les prix dans cette colonne semblent arrondis, mais étant donné qu'il y a 2357 valeurs uniques dans la colonne, cela peut simplement être la tendance des gens à arrondir les prix sur le site.

Il y a 1 421 voitures répertoriées avec un prix de 0 $ - étant donné qu'il ne s'agit que de 2% des voitures, nous pourrions envisager de supprimer ces lignes. Le prix maximum est de cent millions de dollars, ce qui semble beaucoup, regardons plus loin les prix les plus élevés.

In [17]:
autos["price"].value_counts().sort_index(ascending=False).head(20)

99999999    1
27322222    1
12345678    3
11111111    2
10000000    1
3890000     1
1300000     1
1234566     1
999999      2
999990      1
350000      1
345000      1
299000      1
295000      1
265000      1
259000      1
250000      1
220000      1
198000      1
197000      1
Name: price, dtype: int64

In [18]:
autos["price"].value_counts().sort_index(ascending=True).head(20)

0     1421
1      156
2        3
3        1
5        2
8        1
9        1
10       7
11       2
12       3
13       2
14       1
15       2
17       3
18       1
20       4
25       5
29       1
30       7
35       1
Name: price, dtype: int64

Il existe un certain nombre d'annonces avec des prix inférieurs à $30, dont environ 1,500 à 0 dollar. Il existe également un petit nombre d'annonces avec des valeurs très élevées, dont 14 à environ 1 million de dollars ou plus.

Étant donné qu'eBay est un site d'enchères, il pourrait légitimement y avoir des articles pour lesquels l'offre d'ouverture est de 1 dollar. Nous conserverons les articles 1 dollar, mais supprimons tout ce qui est supérieur à 350 000 $, car il semble que les prix augmentent régulièrement jusqu'à ce nombre, puis passent à des chiffres moins réalistes.

In [19]:
autos = autos[autos["price"].between(1,351000)]
autos["price"].describe()

count     48565.000000
mean       5888.935591
std        9059.854754
min           1.000000
25%        1200.000000
50%        3000.000000
75%        7490.000000
max      350000.000000
Name: price, dtype: float64

# Explorer les colonnes de dates

Il existe un certain nombre de colonnes avec des informations de date:

  -  date_crawled
  -  registration_month
  -  registration_year
  -  ad_created
  -  last_seen

Il s'agit d'une combinaison de dates explorées et de dates avec des méta-informations du robot d'exploration. Les dates de non-registration  sont stockées sous forme de chaînes.

Nous explorerons chacune de ces colonnes pour en savoir plus sur les listes.

In [20]:
autos[['date_crawled','ad_created','last_seen']][0:5]

Unnamed: 0,date_crawled,ad_created,last_seen
0,2016-03-26 17:47:46,2016-03-26 00:00:00,2016-04-06 06:45:54
1,2016-04-04 13:38:56,2016-04-04 00:00:00,2016-04-06 14:45:08
2,2016-03-26 18:57:24,2016-03-26 00:00:00,2016-04-06 20:15:37
3,2016-03-12 16:58:10,2016-03-12 00:00:00,2016-03-15 03:16:28
4,2016-04-01 14:38:50,2016-04-01 00:00:00,2016-04-01 14:38:50


In [21]:
print(autos['date_crawled'].str[:10])

0        2016-03-26
1        2016-04-04
2        2016-03-26
3        2016-03-12
4        2016-04-01
            ...    
49995    2016-03-27
49996    2016-03-28
49997    2016-04-02
49998    2016-03-08
49999    2016-03-14
Name: date_crawled, Length: 48565, dtype: object


In [22]:
autos['date_crawled'].str[:10].value_counts(normalize=True, dropna=False).sort_index()

2016-03-05    0.025327
2016-03-06    0.014043
2016-03-07    0.036014
2016-03-08    0.033296
2016-03-09    0.033090
2016-03-10    0.032184
2016-03-11    0.032575
2016-03-12    0.036920
2016-03-13    0.015670
2016-03-14    0.036549
2016-03-15    0.034284
2016-03-16    0.029610
2016-03-17    0.031628
2016-03-18    0.012911
2016-03-19    0.034778
2016-03-20    0.037887
2016-03-21    0.037373
2016-03-22    0.032987
2016-03-23    0.032225
2016-03-24    0.029342
2016-03-25    0.031607
2016-03-26    0.032204
2016-03-27    0.031092
2016-03-28    0.034860
2016-03-29    0.034099
2016-03-30    0.033687
2016-03-31    0.031834
2016-04-01    0.033687
2016-04-02    0.035478
2016-04-03    0.038608
2016-04-04    0.036487
2016-04-05    0.013096
2016-04-06    0.003171
2016-04-07    0.001400
Name: date_crawled, dtype: float64

In [23]:
(autos["date_crawled"].str[:10].value_counts(normalize=True, dropna=False).sort_values(ascending=False))

2016-04-03    0.038608
2016-03-20    0.037887
2016-03-21    0.037373
2016-03-12    0.036920
2016-03-14    0.036549
2016-04-04    0.036487
2016-03-07    0.036014
2016-04-02    0.035478
2016-03-28    0.034860
2016-03-19    0.034778
2016-03-15    0.034284
2016-03-29    0.034099
2016-03-30    0.033687
2016-04-01    0.033687
2016-03-08    0.033296
2016-03-09    0.033090
2016-03-22    0.032987
2016-03-11    0.032575
2016-03-23    0.032225
2016-03-26    0.032204
2016-03-10    0.032184
2016-03-31    0.031834
2016-03-17    0.031628
2016-03-25    0.031607
2016-03-27    0.031092
2016-03-16    0.029610
2016-03-24    0.029342
2016-03-05    0.025327
2016-03-13    0.015670
2016-03-06    0.014043
2016-04-05    0.013096
2016-03-18    0.012911
2016-04-06    0.003171
2016-04-07    0.001400
Name: date_crawled, dtype: float64

Il semble que le site ait été exploré quotidiennement sur une période d'environ un mois en mars et avril 2016. La distribution des annonces explorées chaque jour est à peu près uniforme.

In [24]:
(autos["last_seen"].str[:10].value_counts(normalize=True, dropna=False).sort_index())

2016-03-05    0.001071
2016-03-06    0.004324
2016-03-07    0.005395
2016-03-08    0.007413
2016-03-09    0.009595
2016-03-10    0.010666
2016-03-11    0.012375
2016-03-12    0.023783
2016-03-13    0.008895
2016-03-14    0.012602
2016-03-15    0.015876
2016-03-16    0.016452
2016-03-17    0.028086
2016-03-18    0.007351
2016-03-19    0.015834
2016-03-20    0.020653
2016-03-21    0.020632
2016-03-22    0.021373
2016-03-23    0.018532
2016-03-24    0.019767
2016-03-25    0.019211
2016-03-26    0.016802
2016-03-27    0.015649
2016-03-28    0.020859
2016-03-29    0.022341
2016-03-30    0.024771
2016-03-31    0.023783
2016-04-01    0.022794
2016-04-02    0.024915
2016-04-03    0.025203
2016-04-04    0.024483
2016-04-05    0.124761
2016-04-06    0.221806
2016-04-07    0.131947
Name: last_seen, dtype: float64

Le robot a enregistré la date à laquelle il a vu une annonce pour la dernière fois, ce qui nous permet de déterminer à quel jour une annonce a été supprimée, probablement parce que la voiture a été vendue.

Les trois derniers jours contiennent une quantité disproportionnée de valeurs «vues pour la dernière fois». Étant donné qu'il s'agit de 6 à 10 fois les valeurs des jours précédents, il est peu probable qu'il y ait eu une augmentation massive des ventes, et il est plus probable que ces valeurs soient liées à la fin de la période d'exploration et n'indiquent pas les ventes de voitures.

In [25]:
print(autos["ad_created"].str[:10].unique().shape)
autos["ad_created"].str[:10].value_counts(normalize=True, dropna=False).sort_index()

(76,)


2015-06-11    0.000021
2015-08-10    0.000021
2015-09-09    0.000021
2015-11-10    0.000021
2015-12-05    0.000021
                ...   
2016-04-03    0.038855
2016-04-04    0.036858
2016-04-05    0.011819
2016-04-06    0.003253
2016-04-07    0.001256
Name: ad_created, Length: 76, dtype: float64

Il existe une grande variété de dates de création d'annonces. La plupart tombent dans les 1 à 2 mois suivant la date d'inscription, mais quelques-uns sont assez anciens, le plus ancien à environ 9 mois.

In [26]:
autos["registration_year"].describe()

count    48565.000000
mean      2004.755421
std         88.643887
min       1000.000000
25%       1999.000000
50%       2004.000000
75%       2008.000000
max       9999.000000
Name: registration_year, dtype: float64

L'année que la voiture a été enregistrée sera probablement indiquer l'âge de la voiture. En regardant cette colonne, nous notons quelques valeurs étranges. La valeur minimale est de 1000, bien avant l'invention des voitures et la valeur maximale est de 9999, de nombreuses années dans le futur.

# Traitement des données d'année d'enregistrement incorrectes


Puisqu'une voiture ne peut pas être enregistrée pour la première fois avant que la liste ne soit vue, tout véhicule dont l'année d'immatriculation est supérieure à 2016 est définitivement inexact. Il est plus difficile de déterminer la première année valide. En réalité, cela pourrait être quelque part dans les premières décennies des années 1900.

Une option consiste à supprimer les annonces avec ces valeurs. Déterminons quel pourcentage de nos données contient des valeurs invalides dans cette colonne:

In [27]:
(~autos["registration_year"].between(1900,2016)).sum() / autos.shape[0]

0.038793369710697

Étant donné que cela représente moins de **4%** de nos données, nous supprimerons ces lignes.

In [28]:
autos = autos[autos["registration_year"].between(1900,2016)]
autos["registration_year"].value_counts(normalize=True).head(10)

2000    0.067608
2005    0.062895
1999    0.062060
2004    0.057904
2003    0.057818
2006    0.057197
2001    0.056468
2002    0.053255
1998    0.050620
2007    0.048778
Name: registration_year, dtype: float64

Il semble que la plupart des véhicules aient été immatriculés pour la première fois au cours des 20 dernières années.


# Explorer le prix par marque

In [29]:
autos["brand"].value_counts(normalize=True)

volkswagen        0.211264
bmw               0.110045
opel              0.107581
mercedes_benz     0.096463
audi              0.086566
ford              0.069900
renault           0.047150
peugeot           0.029841
fiat              0.025642
seat              0.018273
skoda             0.016409
nissan            0.015274
mazda             0.015188
smart             0.014160
citroen           0.014010
toyota            0.012703
hyundai           0.010025
sonstige_autos    0.009811
volvo             0.009147
mini              0.008762
mitsubishi        0.008226
honda             0.007840
kia               0.007069
alfa_romeo        0.006641
porsche           0.006127
suzuki            0.005934
chevrolet         0.005698
chrysler          0.003513
dacia             0.002635
daihatsu          0.002506
jeep              0.002271
subaru            0.002142
land_rover        0.002099
saab              0.001649
jaguar            0.001564
daewoo            0.001500
trabant           0.001392
r

Les fabricants allemands représentent quatre des cinq premières marques, soit près de 50% de l'ensemble des listes. Volkswagen est de loin la marque la plus populaire, avec environ le double des voitures à vendre des deux marques suivantes combinées.

Il y a beaucoup de marques qui n'ont pas un pourcentage significatif d'annonces, nous limiterons donc notre analyse aux marques représentant plus de 5% du nombre total d'annonces.

In [30]:
brand_counts = autos["brand"].value_counts(normalize=True)
common_brands = brand_counts[brand_counts > .05].index
print(common_brands)

Index(['volkswagen', 'bmw', 'opel', 'mercedes_benz', 'audi', 'ford'], dtype='object')


In [31]:
brand_mean_prices = {}

for brand in common_brands:
    brand_only = autos[autos["brand"] == brand]
    mean_price = brand_only["price"].mean()
    brand_mean_prices[brand] = int(mean_price)

brand_mean_prices

{'volkswagen': 5402,
 'bmw': 8332,
 'opel': 2975,
 'mercedes_benz': 8628,
 'audi': 9336,
 'ford': 3749}

# Explorer le kilométrage

In [32]:
bmp_series = pd.Series(brand_mean_prices)
print(bmp_series)

volkswagen       5402
bmw              8332
opel             2975
mercedes_benz    8628
audi             9336
ford             3749
dtype: int64


In [33]:
pd.DataFrame(bmp_series, columns=["mean_price"])

Unnamed: 0,mean_price
volkswagen,5402
bmw,8332
opel,2975
mercedes_benz,8628
audi,9336
ford,3749


In [34]:
brand_mean_mileage = {}

for brand in common_brands:
    brand_only = autos[autos["brand"] == brand]
    mean_mileage = brand_only["odometer_km"].mean()
    brand_mean_mileage[brand] = int(mean_mileage)

In [35]:
mean_mileage = pd.Series(brand_mean_mileage).sort_values(ascending=False)
brand_info = pd.DataFrame(mean_mileage,columns=['mean_mileage'])
brand_info

Unnamed: 0,mean_mileage
bmw,132572
mercedes_benz,130788
opel,129310
audi,129157
volkswagen,128707
ford,124266


In [36]:
mean_prices = pd.Series(brand_mean_prices).sort_values(ascending=False)
brand_info["mean_price"] = mean_prices
brand_info

Unnamed: 0,mean_mileage,mean_price
bmw,132572,8332
mercedes_benz,130788,8628
opel,129310,2975
audi,129157,9336
volkswagen,128707,5402
ford,124266,3749


Le kilométrage des voitures ne varie pas autant que les prix par marque, mais se situent tous à moins de 10% pour les grandes marques. Il y a une légère tendance à ce que les véhicules plus chers aient un kilométrage plus élevé, les véhicules moins chers ayant un kilométrage inférieur.