# Анализ данных подержанных автомобилей с сайта eBay
Данные были взяты с [сайта](https://data.world/data-society/used-cars-data), уменьшены до 50000 строк и испорчены.

Мы имеем вот такие столбцы:
* dateCrawled - Когда объявление было впервые обнаружено сканером.
* name - Имя машины.
* seller - Продавец собственник или же дилер.
* offerType - Тип объявления. 
* price - Цена, которую поставил продавец на автромобиль.
* abtest - Включено ли объявление в A/B тест.
* vehicleType - Тип автомобиля.
* yearOfRegistration - Год первой регистрации автомобиля.
* gearbox - Тип трансмиссии.
* powerPS - Мощность в PS.
* model - Модель автомобиля.
* kilometer - Пробег.
* monthOfRegistration - Месяц, в котором автомобиль был впервые зарегистрирован.
* fuelType - Тип топлива.
* brand - Марка автомобиля.
* notRepairedDamage - Был ли нанесён автомобилю ещё не отремонтированный урон.
* dateCreated - Дата публикации объявления.
* nrOfPictures - Количество фотографий в объявлении.
* postalCode - Почтовый индекс местонахождения автомобиля.
* lastSeenOnline - Дата последнего обнаружения сканером объявления.

In [1]:
import numpy as np 
import pandas as pd
autos = pd.read_csv('autos.csv', encoding="Latin-1")

# Анализ столбцов и строк

In [2]:
autos.head()

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,odometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50


In [3]:
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   dateCrawled          50000 non-null  object
 1   name                 50000 non-null  object
 2   seller               50000 non-null  object
 3   offerType            50000 non-null  object
 4   price                50000 non-null  object
 5   abtest               50000 non-null  object
 6   vehicleType          44905 non-null  object
 7   yearOfRegistration   50000 non-null  int64 
 8   gearbox              47320 non-null  object
 9   powerPS              50000 non-null  int64 
 10  model                47242 non-null  object
 11  odometer             50000 non-null  object
 12  monthOfRegistration  50000 non-null  int64 
 13  fuelType             45518 non-null  object
 14  brand                50000 non-null  object
 15  notRepairedDamage    40171 non-null  object
 16  date

Наша таблица состоит из 20 столбцов и 50000 строк с информацией о объявлениях по продаже поддержанных автомобилей на сайте eBay. Некоторые даты представлены строками (str). В датасете есть несколько столбцов с нулевыми значениями, но они не составляют больше 20%. 

In [4]:
autos.columns

Index(['dateCrawled', 'name', 'seller', 'offerType', 'price', 'abtest',
       'vehicleType', 'yearOfRegistration', 'gearbox', 'powerPS', 'model',
       'odometer', 'monthOfRegistration', 'fuelType', 'brand',
       'notRepairedDamage', 'dateCreated', 'nrOfPictures', 'postalCode',
       'lastSeen'],
      dtype='object')

## Нам следует кое-что изменить:
1. Изменить формат написания с camelcase на snakecase.
2. Изменить название некоторых столбцов, для лучшего описания данных этих столбцов.

In [5]:
autos.columns = ["data_crawled", "name", "seller", "offer_type", "price", "ab_test", "vehicle_type", "registration_year", "gearbox", "power_ps", "model", "odometer", "registration_month", "fuel_type", "brand", "unrepaired_damage", "ad_created", "num_photos", "postal_code", "last_seen"]
autos.head()

Unnamed: 0,data_crawled,name,seller,offer_type,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer,registration_month,fuel_type,brand,unrepaired_damage,ad_created,num_photos,postal_code,last_seen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,privat,Angebot,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,0,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,privat,Angebot,"$8,500",control,limousine,1997,automatik,286,7er,"150,000km",6,benzin,bmw,nein,2016-04-04 00:00:00,0,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,privat,Angebot,"$8,990",test,limousine,2009,manuell,102,golf,"70,000km",7,benzin,volkswagen,nein,2016-03-26 00:00:00,0,35394,2016-04-06 20:15:37
3,2016-03-12 16:58:10,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,privat,Angebot,"$4,350",control,kleinwagen,2007,automatik,71,fortwo,"70,000km",6,benzin,smart,nein,2016-03-12 00:00:00,0,33729,2016-03-15 03:16:28
4,2016-04-01 14:38:50,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,privat,Angebot,"$1,350",test,kombi,2003,manuell,0,focus,"150,000km",7,benzin,ford,nein,2016-04-01 00:00:00,0,39218,2016-04-01 14:38:50


In [6]:
autos.describe(include='all')

Unnamed: 0,data_crawled,name,seller,offer_type,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer,registration_month,fuel_type,brand,unrepaired_damage,ad_created,num_photos,postal_code,last_seen
count,50000,50000,50000,50000,50000,50000,44905,50000.0,47320,50000.0,47242,50000,50000.0,45518,50000,40171,50000,50000.0,50000.0,50000
unique,48213,38754,2,2,2357,2,8,,2,,245,13,,7,40,2,76,,,39481
top,2016-03-10 15:36:24,Ford_Fiesta,privat,Angebot,$0,test,limousine,,manuell,,golf,"150,000km",,benzin,volkswagen,nein,2016-04-03 00:00:00,,,2016-04-07 06:17:27
freq,3,78,49999,49999,1421,25756,12859,,36993,,4024,32424,,30107,10687,35232,1946,,,8
mean,,,,,,,,2005.07328,,116.35592,,,5.72336,,,,,0.0,50813.6273,
std,,,,,,,,105.712813,,209.216627,,,3.711984,,,,,0.0,25779.747957,
min,,,,,,,,1000.0,,0.0,,,0.0,,,,,0.0,1067.0,
25%,,,,,,,,1999.0,,70.0,,,3.0,,,,,0.0,30451.0,
50%,,,,,,,,2003.0,,105.0,,,6.0,,,,,0.0,49577.0,
75%,,,,,,,,2008.0,,150.0,,,9.0,,,,,0.0,71540.0,


In [7]:
autos["num_photos"].value_counts()

0    50000
Name: num_photos, dtype: int64

Столбцы: "seller", "offer_type" нерелевантный, так как почти все значения там одинаковые, а "num_photos" имеет только нулевые значения. 
Давайте удалим их.

In [8]:
autos.drop(["seller", "offer_type", "num_photos"], axis=1, inplace=True)
autos.head(1)

Unnamed: 0,data_crawled,name,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer,registration_month,fuel_type,brand,unrepaired_damage,ad_created,postal_code,last_seen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,"$5,000",control,bus,2004,manuell,158,andere,"150,000km",3,lpg,peugeot,nein,2016-03-26 00:00:00,79588,2016-04-06 06:45:54


In [9]:
autos["price"] = (autos["price"]
                              .str.replace("$", "")
                              .str.replace(",", "")
                              .astype(int))
autos.rename({"odometer":"odometer_km"}, axis=1, inplace=True)
autos["odometer_km"] = (autos["odometer_km"]
                       .str.replace("km", "")
                       .str.replace(",", "")
                       .astype(int))

  


In [10]:
autos.head(3)

Unnamed: 0,data_crawled,name,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer_km,registration_month,fuel_type,brand,unrepaired_damage,ad_created,postal_code,last_seen
0,2016-03-26 17:47:46,Peugeot_807_160_NAVTECH_ON_BOARD,5000,control,bus,2004,manuell,158,andere,150000,3,lpg,peugeot,nein,2016-03-26 00:00:00,79588,2016-04-06 06:45:54
1,2016-04-04 13:38:56,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,8500,control,limousine,1997,automatik,286,7er,150000,6,benzin,bmw,nein,2016-04-04 00:00:00,71034,2016-04-06 14:45:08
2,2016-03-26 18:57:24,Volkswagen_Golf_1.6_United,8990,test,limousine,2009,manuell,102,golf,70000,7,benzin,volkswagen,nein,2016-03-26 00:00:00,35394,2016-04-06 20:15:37


# Изучение цен и пробегов

In [11]:
print(autos["price"].unique().shape[0])
print(autos["price"].describe())
print(autos["price"].value_counts())
print(autos["price"].value_counts().sort_index(ascending=True).head(20))
print(autos["price"].value_counts().sort_index(ascending=False).head(20))

2357
count    5.000000e+04
mean     9.840044e+03
std      4.811044e+05
min      0.000000e+00
25%      1.100000e+03
50%      2.950000e+03
75%      7.200000e+03
max      1.000000e+08
Name: price, dtype: float64
0        1421
500       781
1500      734
2500      643
1000      639
         ... 
6770        1
61999       1
20987       1
6578        1
48600       1
Name: price, Length: 2357, dtype: int64
0     1421
1      156
2        3
3        1
5        2
8        1
9        1
10       7
11       2
12       3
13       2
14       1
15       2
17       3
18       1
20       4
25       5
29       1
30       7
35       1
Name: price, dtype: int64
99999999    1
27322222    1
12345678    3
11111111    2
10000000    1
3890000     1
1300000     1
1234566     1
999999      2
999990      1
350000      1
345000      1
299000      1
295000      1
265000      1
259000      1
250000      1
220000      1
198000      1
197000      1
Name: price, dtype: int64


Мы можем видеть, что есть 2357 уникальных цен, скорее всего пользователи сами округляют эти значения. Также есть 1421 объявление с нулевой стоимостью машины, это следует считать вбросом. Ещё мы имеем невероятно большие расценки, например, 
\\$99999999. Поскольку eBay является аукционным сайтом, машины стоимостью \\$1 имеют место быть. До \\$350000 цены растут достаточно плавно, а уже после резко цены начинают взлетать \\$999990, \\$999999, \\$1234566, поэтому мы можем считать эти данные ошибочными и удалить их. 

In [12]:
autos = autos[autos["price"].between(1,350000)]
autos["price"].describe()

count     48565.000000
mean       5888.935591
std        9059.854754
min           1.000000
25%        1200.000000
50%        3000.000000
75%        7490.000000
max      350000.000000
Name: price, dtype: float64

In [13]:
autos["odometer_km"].value_counts()

150000    31414
125000     5057
100000     2115
90000      1734
80000      1415
70000      1217
60000      1155
50000      1012
5000        836
40000       815
30000       780
20000       762
10000       253
Name: odometer_km, dtype: int64

Очевидно, что пробег был округлен на сайте. Значений, бросающихся в глаза, нет.

# Очистка и анализ данных о дате: публикации объявления, последнем обнаружении объявления, и первом обнаружении объявления

In [14]:
autos["data_crawled"].str[:10].value_counts(normalize=True, dropna=False).sort_index()

2016-03-05    0.025327
2016-03-06    0.014043
2016-03-07    0.036014
2016-03-08    0.033296
2016-03-09    0.033090
2016-03-10    0.032184
2016-03-11    0.032575
2016-03-12    0.036920
2016-03-13    0.015670
2016-03-14    0.036549
2016-03-15    0.034284
2016-03-16    0.029610
2016-03-17    0.031628
2016-03-18    0.012911
2016-03-19    0.034778
2016-03-20    0.037887
2016-03-21    0.037373
2016-03-22    0.032987
2016-03-23    0.032225
2016-03-24    0.029342
2016-03-25    0.031607
2016-03-26    0.032204
2016-03-27    0.031092
2016-03-28    0.034860
2016-03-29    0.034099
2016-03-30    0.033687
2016-03-31    0.031834
2016-04-01    0.033687
2016-04-02    0.035478
2016-04-03    0.038608
2016-04-04    0.036487
2016-04-05    0.013096
2016-04-06    0.003171
2016-04-07    0.001400
Name: data_crawled, dtype: float64

Сайт сканировался ежедневно в матре и апреле 2016 годаю Распределение примерно одинаковое.

In [15]:
autos["last_seen"].str[:10].value_counts(normalize=True, dropna=False).sort_index()

2016-03-05    0.001071
2016-03-06    0.004324
2016-03-07    0.005395
2016-03-08    0.007413
2016-03-09    0.009595
2016-03-10    0.010666
2016-03-11    0.012375
2016-03-12    0.023783
2016-03-13    0.008895
2016-03-14    0.012602
2016-03-15    0.015876
2016-03-16    0.016452
2016-03-17    0.028086
2016-03-18    0.007351
2016-03-19    0.015834
2016-03-20    0.020653
2016-03-21    0.020632
2016-03-22    0.021373
2016-03-23    0.018532
2016-03-24    0.019767
2016-03-25    0.019211
2016-03-26    0.016802
2016-03-27    0.015649
2016-03-28    0.020859
2016-03-29    0.022341
2016-03-30    0.024771
2016-03-31    0.023783
2016-04-01    0.022794
2016-04-02    0.024915
2016-04-03    0.025203
2016-04-04    0.024483
2016-04-05    0.124761
2016-04-06    0.221806
2016-04-07    0.131947
Name: last_seen, dtype: float64

"last_seen" столбец свидетельствует о последнем обнаружении сканером конкретной публикации, то есть когда объявлениие было снято с сайта по различным причинам, чаще из-за продажи автомобиля. Видно, что в последние три дня имеют аномально большое значение: в 6-10 раз больше, чем обычно. Маловероятно, что произошёл резкий скачок продаж, скорее всего, это указывает на окончание периода сканирования. 

In [16]:
print(autos["ad_created"].str[:10].value_counts(normalize=True, dropna=False).sort_index()[:10])
autos["ad_created"].str[:10].value_counts(normalize=True, dropna=False).sort_index()[-50:]

2015-06-11    0.000021
2015-08-10    0.000021
2015-09-09    0.000021
2015-11-10    0.000021
2015-12-05    0.000021
2015-12-30    0.000021
2016-01-03    0.000021
2016-01-07    0.000021
2016-01-10    0.000041
2016-01-13    0.000021
Name: ad_created, dtype: float64


2016-02-18    0.000041
2016-02-19    0.000062
2016-02-20    0.000041
2016-02-21    0.000062
2016-02-22    0.000021
2016-02-23    0.000082
2016-02-24    0.000041
2016-02-25    0.000062
2016-02-26    0.000041
2016-02-27    0.000124
2016-02-28    0.000206
2016-02-29    0.000165
2016-03-01    0.000103
2016-03-02    0.000103
2016-03-03    0.000865
2016-03-04    0.001483
2016-03-05    0.022897
2016-03-06    0.015320
2016-03-07    0.034737
2016-03-08    0.033316
2016-03-09    0.033151
2016-03-10    0.031895
2016-03-11    0.032904
2016-03-12    0.036755
2016-03-13    0.017008
2016-03-14    0.035190
2016-03-15    0.034016
2016-03-16    0.030125
2016-03-17    0.031278
2016-03-18    0.013590
2016-03-19    0.033687
2016-03-20    0.037949
2016-03-21    0.037579
2016-03-22    0.032801
2016-03-23    0.032060
2016-03-24    0.029280
2016-03-25    0.031751
2016-03-26    0.032266
2016-03-27    0.030989
2016-03-28    0.034984
2016-03-29    0.034037
2016-03-30    0.033501
2016-03-31    0.031875
2016-04-01 

В столбце даты создания объявлений значения очень разнообразны, но большинство значаний приходятся на сам период сканирования и мясяц до его начала, но также есть и достаточно старые объявления, а самым старым является объявление девятимесячной давности.  

In [17]:
autos["registration_year"].describe()

count    48565.000000
mean      2004.755421
std         88.643887
min       1000.000000
25%       1999.000000
50%       2004.000000
75%       2008.000000
max       9999.000000
Name: registration_year, dtype: float64

"registration_year" - столбец, описывающий дату первой регистрации, с помощью этого можно достаточно точно понять возраст автомобиля. <span style="color:red">Явно видно, что кто-то в будущем изобрер машину времени и теперь продаёт машины из 9999 года на сайте eBay</span>. Очевидно, что данные неточны, поскольку есть публикации с машинами, чье дата регистрации оставляет желать лучшего: минимальное значение - 1000, а это задолго до появления первого автомобиля (1885), максимальное значение - 9999, что также не может быть правдой. Так как машина не может быть зарегистрирована после сканирования, мы вправе считать неточными все значения даты регистрации выше 2016. 

In [18]:
autos["registration_year"].value_counts().sort_index()[:10]

1000    1
1001    1
1111    1
1800    2
1910    5
1927    1
1929    1
1931    1
1934    2
1937    4
Name: registration_year, dtype: int64

Как мы уже отметили выше [первый автомобиль](https://ru.wikipedia.org/wiki/%D0%98%D1%81%D1%82%D0%BE%D1%80%D0%B8%D1%8F_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%BE%D0%B1%D0%B8%D0%BB%D1%8F#:~:text=%D0%9E%D0%B1%D1%89%D0%B5%D0%B8%D0%B7%D0%B2%D0%B5%D1%81%D1%82%D0%BD%D0%BE%2C%20%D1%87%D1%82%D0%BE%20%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%20%D1%80%D0%B5%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%20%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D1%83%D1%8E%D1%89%D0%B8%D0%B9%D1%81%D1%8F,Motorwagen\)%20%D0%B2%201885%20%D0%B2%20%D0%9C%D0%B0%D0%BD%D0%B3%D0%B5%D0%B9%D0%BC%D0%B5) был изобретён в 1885, следовательно все ранние значения мы можем с легкостью считать ошибочными, а вот в 1910 автомобиль мог быть зарегистрирован. 


In [19]:
(~autos["registration_year"].between(1900,2016)).sum() / autos.shape[0]

0.038793369710697

Видно, что данных, неподходящих по временным нормам меньше 4%, значит мы можем без больших потерь их удалить. 

In [20]:
autos = autos[autos["registration_year"].between(1910, 2016)]
print(autos["registration_year"].describe())
autos["registration_year"].value_counts(normalize=True).head(20)

count    46681.000000
mean      2002.910756
std          7.185103
min       1910.000000
25%       1999.000000
50%       2003.000000
75%       2008.000000
max       2016.000000
Name: registration_year, dtype: float64


2000    0.067608
2005    0.062895
1999    0.062060
2004    0.057904
2003    0.057818
2006    0.057197
2001    0.056468
2002    0.053255
1998    0.050620
2007    0.048778
2008    0.047450
2009    0.044665
1997    0.041794
2011    0.034768
2010    0.034040
1996    0.029412
2012    0.028063
1995    0.026285
2016    0.026135
2013    0.017202
Name: registration_year, dtype: float64

Большинство автомобилей были зарегистрированы в течение последних 20 лет.

In [21]:
brand_counts = autos["brand"].value_counts(normalize=True) 
brand_counts = brand_counts[brand_counts > 0.05]
print(brand_counts)
brand_counts = brand_counts.index
brand_mean_price = {}
for b in brand_counts:
    avg = autos[autos["brand"] == b]["price"].mean()
    brand_mean_price[b] = int(avg)
brand_mean_price_list = []
for b, p in brand_mean_price.items():
    brand_mean_price_list.append([p, b])
brand_mean_price_list.sort(reverse=True)
for p, b in brand_mean_price_list:
    print(b + ":", p)

volkswagen       0.211264
bmw              0.110045
opel             0.107581
mercedes_benz    0.096463
audi             0.086566
ford             0.069900
Name: brand, dtype: float64
audi: 9336
mercedes_benz: 8628
bmw: 8332
volkswagen: 5402
ford: 3749
opel: 2975


Мы получили топ 5 наиболее распространенных автомобилей на сайте eBay. Видно, что Audi, Mercedes_benz, BMW намного дороже, чем Opel, Ford в то время как, Volkswagen находится где-то посередине, также Volkswagen лидирует по популярности с отрывом практически в два раза, это может свидетельствовать о том, что Volkswagen наилучших по категории цена/качество.

In [22]:
brand_mean_mileage = {}
for b in brand_counts:
    avg = autos[autos["brand"] == b]["odometer_km"].mean()
    brand_mean_mileage[b] = int(avg)
brand_m_p = pd.DataFrame(pd.Series(brand_mean_mileage).sort_values(ascending=False), columns=["mean_mileage"])
brand_m_p["mean_price"] = pd.Series(brand_mean_price).sort_values(ascending=False)
brand_m_p

Unnamed: 0,mean_mileage,mean_price
bmw,132572,8332
mercedes_benz,130788,8628
opel,129310,2975
audi,129157,9336
volkswagen,128707,5402
ford,124266,3749


## Вывод
Разница пробегов не такая большая, как разница в ценах, она составляет 10% для ведущих брендов. Есть небольшая тенденция к тому, что дорогие машины имееют больший пробег.  

# Перевод немецких слов на английские
Мы рассмотрим уникальные значения таких столбцов как: `vehicle_type`, `gearbox`, `model`, `fuel_type`, `brand`, `unrepaired_damage`.

## vehicle_type

In [23]:
autos["vehicle_type"].unique()


array(['bus', 'limousine', 'kleinwagen', 'kombi', nan, 'coupe', 'suv',
       'cabrio', 'andere'], dtype=object)

Такие значения как: `kleinwagen`, `kombi`, `cabrio`, `andere` требуют перевода.

In [24]:
vt_dict = {
    'limousine': 'limousine',
    'kleinwagen': 'small_car',
    'kombi': 'combi',
    'bus': 'bus',
    'cabrio': 'convertible',
    'coupe': 'coupe',
    'suv': 'suv',
    'andere': 'other'
}
autos["vehicle_type"] = autos["vehicle_type"].map(vt_dict)

## gearbox

In [25]:
autos["gearbox"].unique()

array(['manuell', 'automatik', nan], dtype=object)

`manuell`, `automatik` нуждаются в переводе.

In [26]:
gb_dict = {
    'manuell': 'manual',
    'automatik': 'automatic'
}
autos["gearbox"] = autos["gearbox"].map(gb_dict)

## model

In [27]:
autos["model"].unique()

array(['andere', '7er', 'golf', 'fortwo', 'focus', 'voyager', 'arosa',
       'megane', nan, 'a3', 'clio', 'vectra', 'scirocco', '3er', 'a4',
       '911', 'cooper', '5er', 'polo', 'e_klasse', '2_reihe', 'c_klasse',
       'corsa', 'mondeo', 'altea', 'a1', 'twingo', 'a_klasse', 'cl',
       '3_reihe', 's_klasse', 'sandero', 'passat', 'primera', 'wrangler',
       'a6', 'transporter', 'astra', 'v40', 'ibiza', 'micra', '1er',
       'yaris', 'colt', '6_reihe', '5_reihe', 'corolla', 'ka', 'tigra',
       'punto', 'vito', 'cordoba', 'galaxy', '100', 'octavia', 'm_klasse',
       'lupo', 'fiesta', 'superb', 'meriva', 'c_max', 'laguna', 'touran',
       '1_reihe', 'm_reihe', 'touareg', 'seicento', 'avensis', 'vivaro',
       'x_reihe', 'ducato', 'carnival', 'boxster', 'signum', 'sharan',
       'zafira', 'rav', 'a5', 'beetle', 'c_reihe', 'phaeton', 'i_reihe',
       'sl', 'insignia', 'up', 'civic', '80', 'mx_reihe', 'omega',
       'sorento', 'z_reihe', 'berlingo', 'clk', 's_max', 'kalos',
 

Необходимо поменять только `andere`.

In [28]:
autos['model'] = autos['model'].str.replace('andere','other')

## fuel_type

In [29]:
autos["fuel_type"].unique()

array(['lpg', 'benzin', 'diesel', nan, 'cng', 'hybrid', 'elektro',
       'andere'], dtype=object)

`benzin`, `elektro`, `andere` - немецкие слова. 

In [30]:
ft_dict = {
    'benzin': 'petrol',
    'diesel': 'diesel',
    'lpg': 'lpg',
    'cng': 'cng',
    'hybrid': 'hybrid',
    'elektro': 'electric',
    'andere': 'other'
}
autos["fuel_type"] = autos["fuel_type"].map(ft_dict)

## brand

In [31]:
autos["brand"].unique()

array(['peugeot', 'bmw', 'volkswagen', 'smart', 'ford', 'chrysler',
       'seat', 'renault', 'mercedes_benz', 'audi', 'sonstige_autos',
       'opel', 'mazda', 'porsche', 'mini', 'toyota', 'dacia', 'nissan',
       'jeep', 'saab', 'volvo', 'mitsubishi', 'jaguar', 'fiat', 'skoda',
       'subaru', 'kia', 'citroen', 'chevrolet', 'hyundai', 'honda',
       'daewoo', 'suzuki', 'trabant', 'land_rover', 'alfa_romeo', 'lada',
       'rover', 'daihatsu', 'lancia'], dtype=object)

`sonstige_autos` - требует перевода.

In [32]:
autos['brand'] = autos['brand'].str.replace('sonstige_autos','other')

In [33]:
## unrepaired_damage

In [34]:
autos["unrepaired_damage"].unique()

array(['nein', nan, 'ja'], dtype=object)

`nein`, `ja` - слова на немецком

In [35]:
ud_dict = {
    "ja": "yes",
    "nein": "no"
}
autos["unrepaired_damage"] = autos["unrepaired_damage"].map(ud_dict)

# Преобразование столбцов с датами в единое числовое значение
Задача:
* Превратить "2016-04-01" в "20160401"

Шаги:
* Преобразовать значения столбца с датой в `datetime`
* Преобразовать `datetime` в `string` в нужном формат

In [36]:
import datetime as dt
autos["data_crawled"] = pd.to_datetime(autos["data_crawled"], format="%Y-%m-%d %H:%M:%S")
autos["data_crawled"] = autos["data_crawled"].dt.strftime("%Y%m%d")
autos["ad_created"] = pd.to_datetime(autos["ad_created"], format="%Y-%m-%d %H:%M:%S")
autos["ad_created"] = autos["ad_created"].dt.strftime("%Y%m%d")
autos["last_seen"] = pd.to_datetime(autos["last_seen"], format="%Y-%m-%d %H:%M:%S")
autos["last_seen"] = autos["last_seen"].dt.strftime("%Y%m%d")
autos

Unnamed: 0,data_crawled,name,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer_km,registration_month,fuel_type,brand,unrepaired_damage,ad_created,postal_code,last_seen
0,20160326,Peugeot_807_160_NAVTECH_ON_BOARD,5000,control,bus,2004,manual,158,other,150000,3,lpg,peugeot,no,20160326,79588,20160406
1,20160404,BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik,8500,control,limousine,1997,automatic,286,7er,150000,6,petrol,bmw,no,20160404,71034,20160406
2,20160326,Volkswagen_Golf_1.6_United,8990,test,limousine,2009,manual,102,golf,70000,7,petrol,volkswagen,no,20160326,35394,20160406
3,20160312,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,4350,control,small_car,2007,automatic,71,fortwo,70000,6,petrol,smart,no,20160312,33729,20160315
4,20160401,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,1350,test,combi,2003,manual,0,focus,150000,7,petrol,ford,no,20160401,39218,20160401
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49995,20160327,Audi_Q5_3.0_TDI_qu._S_tr.__Navi__Panorama__Xenon,24900,control,limousine,2011,automatic,239,q5,100000,1,diesel,audi,no,20160327,82131,20160401
49996,20160328,Opel_Astra_F_Cabrio_Bertone_Edition___TÜV_neu+...,1980,control,convertible,1996,manual,75,astra,150000,5,petrol,opel,no,20160328,44807,20160402
49997,20160402,Fiat_500_C_1.2_Dualogic_Lounge,13200,test,convertible,2014,automatic,69,500,5000,11,petrol,fiat,no,20160402,73430,20160404
49998,20160308,Audi_A3_2.0_TDI_Sportback_Ambition,22900,control,combi,2013,manual,150,a3,40000,11,diesel,audi,no,20160308,35683,20160405


# Нахождение наиболее популярной комбинации модель/бренд

In [37]:
brand = autos["brand"].unique()
br_mod_dict = {}
for b in brand:
    m = autos[autos["brand"] == b]["name"].value_counts().index[0]
    print(b + ":", m)

peugeot: Peugeot_206
bmw: BMW_316i
volkswagen: Volkswagen_Golf_1.4
smart: Smart_ForTwo
ford: Ford_Fiesta
chrysler: Chrysler_Stratus_2.5_LX
seat: Seat_Ibiza
renault: Renault_Twingo
mercedes_benz: Mercedes_Benz_SLK_200_Kompressor
audi: Audi_A4_Avant_2.0_TDI_DPF
other: Dodge_RAM
opel: Opel_Corsa
mazda: Mazda_MX_5_1.6i_16V
porsche: Porsche_Boxster
mini: MINI_Mini_One
toyota: Toyota_Aygo
dacia: Dacia_Sandero_1.6_MPI_Stepway
nissan: Nissan_Micra
jeep: Jeep_Grand_Cherokee_3.0_CRD_Automatik_Limited
saab: Saab_Cabrio_V6
volvo: Volvo_V70_2.5
mitsubishi: Mitsubishi_Colt
jaguar: Jaguar_XF_2.2_Diesel
fiat: Fiat_Punto
skoda: Skoda_Fabia
subaru: Subaru_Legacy_2.5_4WD_Automatik_GX
kia: Kia_Picanto
citroen: Citroën_C1_1.0_Style
chevrolet: Chevrolet_Spark_1.0_LS
hyundai: Hyundai_i30_1.4_Classic
honda: Honda_Civic
daewoo: Daewoo_Matiz
suzuki: Suzuki_Swift_1.6_Sport
trabant: Trabant_601
land_rover: Land_Rover_Freelander_1.8i
alfa_romeo: Alfa_Romeo_147
lada: Lada_Niva
rover: Land_Rover___Range_Rover_Sport_

# Поиск зависимости меджу пробегом и ценой

Шаги:
* Поиск уникальных значений столбца `odometer_km`
* Агрегирование на группы


In [38]:
od_values = sorted(autos["odometer_km"].unique())
avg_price = {}
for km in od_values:
    ap = autos[autos["odometer_km"] == km]["price"].mean()
    avg_price[km] = int(ap)
print(avg_price)
od_price = pd.DataFrame(pd.Series(avg_price), columns=["price"])
od_price

{5000: 8873, 10000: 20550, 20000: 18448, 30000: 16608, 40000: 15499, 50000: 13812, 60000: 12385, 70000: 10927, 80000: 9721, 90000: 8465, 100000: 8132, 125000: 6214, 150000: 3767}


Unnamed: 0,price
5000,8873
10000,20550
20000,18448
30000,16608
40000,15499
50000,13812
60000,12385
70000,10927
80000,9721
90000,8465


## Вывод
Существует зависимость меджу ценой и пробегом: чем больше пробег, тем меньше цена, но нужно отметить, что машины с пробегом 5000км стоят более чем в два раза дешевле (8873\\$), чем машины с пробегом в 10000км (20550\\$). 
Ниже мы рассмотрим почему:

In [39]:
print("10000km")
autos[autos["odometer_km"]==10000][["brand", "name", "price"]]

10000km


Unnamed: 0,brand,name,price
22,mini,MINI_Cooper_S_Cabrio,25450
224,volkswagen,Volkswagen_T5_Multivan_Special_2.0l_TDI_103KW,32950
469,hyundai,Hyundai_i10_1.1,5900
532,bmw,BMW_M235i_Cabrio_Sport_Aut.,46800
748,jaguar,Vermietung_Luxus_Autos,70
...,...,...,...
49140,bmw,BMW_X4_xDrive20d_Aut.,51900
49325,audi,Audi_A4_1.8_TFSI_Ambiente,14200
49468,volkswagen,VW_EOS_1.4TSI_*7755KM*,21000
49787,volkswagen,Volkswagen_Golf_1.2_TSI_BlueMotion_Modell_Cup_...,16500


In [40]:
print("5000km")
autos[autos["odometer_km"]==5000][["brand", "name", "price"]]

5000km


Unnamed: 0,brand,name,price
52,opel,Senator_A_3.0E_Karosserie_restauriert_m._viele...,3500
76,bmw,BMW_318i_neustes_Model_0Km,31999
102,ford,Ford_Ka_dunkel_blau,320
106,opel,Opel_Tigra_A_1.6_16V_Schlachtfahrzeug__GSI_C20...,150
121,ford,verkaufe_Ford_focus_1_8_Diesel,1100
...,...,...,...
49722,alfa_romeo,fghgfhfghfgh,200
49844,opel,Fahrzeug_Ankauf!!!!,22222
49845,volkswagen,Schlachte_VW_Sharan_vr6_Automatik___no_GTI_16V...,1
49865,mercedes_benz,Mercedes_CLK_270_CDI_TÜV_bis_11_2017_klimaauto...,5200


## Вывод
Дорогие машины редко продаются людьми с пробегом в 5000км, чаще всего с таким пробегом продают машины класса ниже, так как они быстрее ломаются и изнашиваются.

# Насколько машины с повреждениями дешевле, чем их неповрежденные аналоги?

In [41]:
print(autos["model"].unique())
autos["name"].unique()

['other' '7er' 'golf' 'fortwo' 'focus' 'voyager' 'arosa' 'megane' nan 'a3'
 'clio' 'vectra' 'scirocco' '3er' 'a4' '911' 'cooper' '5er' 'polo'
 'e_klasse' '2_reihe' 'c_klasse' 'corsa' 'mondeo' 'altea' 'a1' 'twingo'
 'a_klasse' 'cl' '3_reihe' 's_klasse' 'sandero' 'passat' 'primera'
 'wrangler' 'a6' 'transporter' 'astra' 'v40' 'ibiza' 'micra' '1er' 'yaris'
 'colt' '6_reihe' '5_reihe' 'corolla' 'ka' 'tigra' 'punto' 'vito'
 'cordoba' 'galaxy' '100' 'octavia' 'm_klasse' 'lupo' 'fiesta' 'superb'
 'meriva' 'c_max' 'laguna' 'touran' '1_reihe' 'm_reihe' 'touareg'
 'seicento' 'avensis' 'vivaro' 'x_reihe' 'ducato' 'carnival' 'boxster'
 'signum' 'sharan' 'zafira' 'rav' 'a5' 'beetle' 'c_reihe' 'phaeton'
 'i_reihe' 'sl' 'insignia' 'up' 'civic' '80' 'mx_reihe' 'omega' 'sorento'
 'z_reihe' 'berlingo' 'clk' 's_max' 'kalos' 'cx_reihe' 'grand' 'swift'
 'tiguan' 'sprinter' 'mii' 'viano' 'kaefer' 'almera' 'picanto' 'espace'
 'scenic' 'one' 'bora' 'fox' 'leon' 'transit' 'tucson' 'tt' 'qashqai'
 'mustang' 'ja

array(['Peugeot_807_160_NAVTECH_ON_BOARD',
       'BMW_740i_4_4_Liter_HAMANN_UMBAU_Mega_Optik',
       'Volkswagen_Golf_1.6_United', ...,
       'Audi_Q5_3.0_TDI_qu._S_tr.__Navi__Panorama__Xenon',
       'Opel_Astra_F_Cabrio_Bertone_Edition___TÜV_neu+Reifen_neu_!!',
       'Fiat_500_C_1.2_Dualogic_Lounge'], dtype=object)

In [42]:
v_model = autos["name"].unique()
with_damage = {}
without_damage = {}
for m in v_model:
    w_d = autos[(autos["name"] == m) & (autos["unrepaired_damage"] == "yes")]["price"].mean()
    wo_d = autos[(autos["name"] == m) & (autos["unrepaired_damage"] == "no")]["price"].mean()
    with_damage[m] = w_d
    without_damage[m] = wo_d

In [43]:
s_wo_d = pd.Series(without_damage)
s_w_d =  pd.Series(with_damage)
diff = (s_wo_d - s_w_d)
per_diff = (s_wo_d / s_w_d) * 100
diff_price = pd.DataFrame(s_w_d, columns=["price_with_damage"])
diff_price["price_without_damage"] = s_wo_d
diff_price["difference"] = diff
diff_price["difference(%)"] = per_diff

In [44]:
diff_price.dropna(inplace=True)
diff_price

Unnamed: 0,price_with_damage,price_without_damage,difference,difference(%)
Seat_Arosa,310.000000,725.000000,415.000000,233.870968
Opel_Vectra_B_Kombi,700.000000,350.000000,-350.000000,50.000000
MINI_Cooper_D,5250.000000,12562.500000,7312.500000,239.285714
Ford_Mondeo,899.333333,1752.500000,853.166667,194.866568
Zu_verkaufen,150.000000,1160.888889,1010.888889,773.925926
...,...,...,...,...
Mazda_RX_8,3390.000000,2500.000000,-890.000000,73.746313
Fiat_Grande_Punto_1.3_Multijet_16V_DPF_Dynamic,1790.000000,3900.000000,2110.000000,217.877095
Nissan_Micra_Automatik,850.000000,5899.500000,5049.500000,694.058824
Volkswagen_Golf_1.9_TDI_4Motion,2200.000000,1500.000000,-700.000000,68.181818


In [45]:
diff_price.describe()

Unnamed: 0,price_with_damage,price_without_damage,difference,difference(%)
count,801.0,801.0,801.0,801.0
mean,2949.818385,4587.850275,1638.031889,233.911916
std,3720.97177,5098.226484,3031.150388,295.830357
min,75.0,150.0,-9778.0,14.271429
25%,750.0,1595.0,250.0,113.621212
50%,1600.0,2966.666667,1035.0,168.676768
75%,3700.0,5749.5,2273.625,260.974359
max,38800.0,48296.666667,34796.666667,5600.0


In [46]:
print(diff_price["difference"].sort_values().head(10))

Mercedes_Benz_C_200_CDI_Classic                    -9778.000000
Audi_A5_Cabrio_3.0_TDI_DPF_quattro_S_tronic        -8214.333333
BMW_Andere                                         -7700.000000
Volkswagen_Sharan_1.9_TDI_Family                   -6362.000000
Audi_A4_Allroad                                    -6001.000000
Mercedes_Benz_E_320_CDI_7G_TRONIC_Avantgarde_DPF   -6000.000000
Ford_Focus_2.5_ST                                  -4821.000000
Skoda_Octavia_1.9_TDI_Combi_Tour                   -4350.000000
Mercedes_Benz_C_200_T_Kompressor_Automatik         -4300.000000
Seat_Ibiza_1.4_16V_Reference                       -4212.500000
Name: difference, dtype: float64


## Вывод
В среднем цена поврежденного автомобиля меньше на 1638\\$, но при этом есть более 80 моделей, которые дорожают, что звучит достаточно абсурдно, например, повреждённый Mercedes_Benz_C_200_CDI_Classic дороже на 9778\\$, чем его аналог без повреждений. 

Попробуем учитывать пробег:

In [47]:
od_model_d = {}
od_model_no_d ={}
for m in v_model:
    avg_od_d = autos[(autos["name"] == m) & (autos["unrepaired_damage"] == "yes")]["odometer_km"].mean()
    avg_od_no_d = autos[(autos["name"] == m) & (autos["unrepaired_damage"] == "no")]["odometer_km"].mean()
    od_model_d[m] = avg_od_d
    od_model_no_d[m] = avg_od_no_d

In [48]:
s_od_model_d = pd.Series(od_model_d)
s_od_model_no_d = pd.Series(od_model_no_d)
coef_d = s_od_model_d / diff_price["price_with_damage"] 
coef_no_d = s_od_model_no_d / diff_price["price_without_damage"] 
diff_price["od_km_model_with_damage"] = s_od_model_d
diff_price["od_km_model_without_damage"] = s_od_model_no_d
diff_price["coefficient(km/price)_with_damage"] = coef_d
diff_price["coefficient(km/price)_without_damage"] = coef_no_d

In [49]:
diff_price

Unnamed: 0,price_with_damage,price_without_damage,difference,difference(%),od_km_model_with_damage,od_km_model_without_damage,coefficient(km/price)_with_damage,coefficient(km/price)_without_damage
Seat_Arosa,310.000000,725.000000,415.000000,233.870968,150000.0,150000.000000,483.870968,206.896552
Opel_Vectra_B_Kombi,700.000000,350.000000,-350.000000,50.000000,150000.0,150000.000000,214.285714,428.571429
MINI_Cooper_D,5250.000000,12562.500000,7312.500000,239.285714,150000.0,65000.000000,28.571429,5.174129
Ford_Mondeo,899.333333,1752.500000,853.166667,194.866568,150000.0,141818.181818,166.790215,80.923356
Zu_verkaufen,150.000000,1160.888889,1010.888889,773.925926,150000.0,126666.666667,1000.000000,109.111792
...,...,...,...,...,...,...,...,...
Mazda_RX_8,3390.000000,2500.000000,-890.000000,73.746313,150000.0,150000.000000,44.247788,60.000000
Fiat_Grande_Punto_1.3_Multijet_16V_DPF_Dynamic,1790.000000,3900.000000,2110.000000,217.877095,150000.0,150000.000000,83.798883,38.461538
Nissan_Micra_Automatik,850.000000,5899.500000,5049.500000,694.058824,150000.0,77500.000000,176.470588,13.136707
Volkswagen_Golf_1.9_TDI_4Motion,2200.000000,1500.000000,-700.000000,68.181818,150000.0,150000.000000,68.181818,100.000000


In [50]:
diff_price.describe()

Unnamed: 0,price_with_damage,price_without_damage,difference,difference(%),od_km_model_with_damage,od_km_model_without_damage,coefficient(km/price)_with_damage,coefficient(km/price)_without_damage
count,801.0,801.0,801.0,801.0,801.0,801.0,801.0,801.0
mean,2949.818385,4587.850275,1638.031889,233.911916,134574.454416,132346.794041,136.355223,70.088603
std,3720.97177,5098.226484,3031.150388,295.830357,29841.874653,26305.437788,180.213408,83.67557
min,75.0,150.0,-9778.0,14.271429,5000.0,5000.0,0.434783,0.37037
25%,750.0,1595.0,250.0,113.621212,125000.0,125000.0,32.608696,21.428571
50%,1600.0,2966.666667,1035.0,168.676768,150000.0,145833.333333,83.333333,46.01227
75%,3700.0,5749.5,2273.625,260.974359,150000.0,150000.0,187.5,89.253188
max,38800.0,48296.666667,34796.666667,5600.0,150000.0,150000.0,2000.0,1000.0


In [51]:
diff_price.loc["Audi_A5_Cabrio_3.0_TDI_DPF_quattro_S_tronic", ["price_with_damage", "price_without_damage", "od_km_model_with_damage", "od_km_model_without_damage"]]

price_with_damage             38800.000000
price_without_damage          30585.666667
od_km_model_with_damage       40000.000000
od_km_model_without_damage    80000.000000
Name: Audi_A5_Cabrio_3.0_TDI_DPF_quattro_S_tronic, dtype: float64

In [52]:
diff_price.loc["BMW_Andere", ["price_with_damage", "price_without_damage", "od_km_model_with_damage", "od_km_model_without_damage"]]

price_with_damage             11500.0
price_without_damage           3800.0
od_km_model_with_damage        5000.0
od_km_model_without_damage    70000.0
Name: BMW_Andere, dtype: float64

In [53]:
diff_price.loc["Skoda_Octavia_1.9_TDI_Combi_Tour", ["price_with_damage", "price_without_damage", "od_km_model_with_damage", "od_km_model_without_damage"]]

price_with_damage               8300.0
price_without_damage            3950.0
od_km_model_with_damage        90000.0
od_km_model_without_damage    150000.0
Name: Skoda_Octavia_1.9_TDI_Combi_Tour, dtype: float64

## Вывод
Наглядно видно, что машина с повреждением может стоить дороже, чем аналогичная машина без дефектов, потому что у нее меньше пробег. Людям иногда проще продать автомобиль с малым пробегом и с повреждением, чем чинить его.

# Определяем среднее время затраченное на продажу
Выше мы уже упоминали о том, что три последних дня столбце "last_seen" неточны, поскольку в это время заканчивался период сканирования. Нам для качественного анализа стоит удалить эти строчки.

In [54]:
autos_copy = autos
autos_copy["last_seen"] = autos_copy["last_seen"].astype(int)
autos_copy.loc[autos_copy["last_seen"] >= 20160405, "last_seen"] = np.nan
autos_copy.dropna(inplace=True)
autos_copy

Unnamed: 0,data_crawled,name,price,ab_test,vehicle_type,registration_year,gearbox,power_ps,model,odometer_km,registration_month,fuel_type,brand,unrepaired_damage,ad_created,postal_code,last_seen
3,20160312,Smart_smart_fortwo_coupe_softouch/F1/Klima/Pan...,4350,control,small_car,2007,automatic,71,fortwo,70000,6,petrol,smart,no,20160312,33729,20160315.0
4,20160401,Ford_Focus_1_6_Benzin_TÜV_neu_ist_sehr_gepfleg...,1350,test,combi,2003,manual,0,focus,150000,7,petrol,ford,no,20160401,39218,20160401.0
13,20160323,Audi_A3_1.6_tuning,1350,control,limousine,1999,manual,101,a3,150000,11,petrol,audi,no,20160323,12043,20160401.0
16,20160316,Opel_Vectra_B_Kombi,350,test,combi,1999,manual,101,vectra,150000,5,petrol,opel,no,20160316,57299,20160318.0
19,20160317,mazda_tribute_2.0_mit_gas_und_tuev_neu_2018,4150,control,suv,2004,manual,124,other,150000,2,lpg,mazda,no,20160317,40878,20160317.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49989,20160311,VW_Polo_zum_Ausschlachten_oder_Wiederaufbau,150,test,small_car,1997,manual,0,polo,150000,5,petrol,volkswagen,yes,20160311,21244,20160312.0
49992,20160310,Fiat_Grande_Punto_1.4_T_Jet_16V_Sport,4800,control,small_car,2009,manual,120,other,125000,9,lpg,fiat,no,20160310,68642,20160313.0
49995,20160327,Audi_Q5_3.0_TDI_qu._S_tr.__Navi__Panorama__Xenon,24900,control,limousine,2011,automatic,239,q5,100000,1,diesel,audi,no,20160327,82131,20160401.0
49996,20160328,Opel_Astra_F_Cabrio_Bertone_Edition___TÜV_neu+...,1980,control,convertible,1996,manual,75,astra,150000,5,petrol,opel,no,20160328,44807,20160402.0


Назовём столбец с временем продажи автомобиля - `difference in time`.

In [55]:
autos_copy["difference_in_time"] = pd.to_datetime(autos_copy["last_seen"], format="%Y%m%d") - pd.to_datetime(autos_copy["ad_created"], format="%Y%m%d")
autos_copy["difference_in_time"].value_counts(normalize=True)

0 days      0.231614
2 days      0.111653
1 days      0.101603
3 days      0.072557
4 days      0.065993
5 days      0.054665
7 days      0.047519
6 days      0.044963
8 days      0.034274
9 days      0.032880
10 days     0.030557
11 days     0.025909
13 days     0.020507
12 days     0.019229
14 days     0.016672
15 days     0.015278
16 days     0.010631
17 days     0.010457
18 days     0.009004
20 days     0.007378
19 days     0.007378
21 days     0.005867
22 days     0.005635
23 days     0.005112
25 days     0.003660
24 days     0.003137
27 days     0.001627
26 days     0.001568
29 days     0.001046
28 days     0.000639
32 days     0.000116
38 days     0.000116
59 days     0.000116
30 days     0.000116
33 days     0.000058
31 days     0.000058
36 days     0.000058
68 days     0.000058
55 days     0.000058
62 days     0.000058
34 days     0.000058
49 days     0.000058
109 days    0.000058
Name: difference_in_time, dtype: float64

## Вывод
Чем новее объявление, тем оно выше в списке объявлений, поэтому машины уходят с рынка быстрее в первые дни.

# Анализ отношения марки автомобиля и скорости его продажи

In [56]:
avg_time_brands = {}
avg_price_brands = {}
for b in brand:
    avg_t = autos_copy[autos_copy["brand"] == b]["difference_in_time"].mean()
    avg_time_brands[b] = avg_t.round("1d")
    avg_pr = autos[autos["brand"] == b]["price"].mean()
    avg_price_brands[b] = avg_pr
del avg_time_brands["other"]
avg_price_b_s = pd.Series(avg_price_brands)
avg_time_b_s = pd.Series(avg_time_brands).sort_values()
price_and_time = pd.DataFrame(avg_time_b_s, columns=["time"])
price_and_time["price"] = avg_price_b_s
price_and_time

Unnamed: 0,time,price
trabant,3 days,2018.533333
daewoo,4 days,970.69697
porsche,4 days,48188.94382
peugeot,5 days,2797.585317
rover,5 days,1046.521739
lada,5 days,2468.923077
land_rover,5 days,16886.891892
suzuki,5 days,3700.899083
honda,5 days,4036.177419
citroen,5 days,3541.566116


Прослеживается небольшая тенденция, что дорогие и качественные автомобили продаются немного дольше. Проверим это, разделив объявления по ценовым категориям.

In [57]:
print(sorted(autos_copy["price"].unique()))

[1, 47, 50, 60, 66, 70, 75, 80, 90, 99, 100, 110, 117, 120, 125, 129, 139, 145, 149, 150, 156, 160, 173, 175, 180, 185, 188, 190, 195, 199, 200, 215, 220, 222, 225, 230, 235, 248, 249, 250, 260, 270, 275, 280, 290, 299, 300, 320, 325, 330, 333, 340, 349, 350, 360, 370, 380, 390, 399, 400, 420, 430, 435, 449, 450, 460, 475, 480, 490, 495, 499, 500, 520, 525, 530, 549, 550, 555, 560, 570, 575, 579, 580, 590, 598, 599, 600, 606, 620, 625, 630, 640, 649, 650, 666, 670, 675, 680, 690, 695, 699, 700, 720, 725, 730, 740, 744, 745, 749, 750, 760, 770, 777, 780, 790, 799, 800, 810, 820, 825, 830, 840, 849, 850, 855, 870, 880, 885, 888, 890, 895, 899, 900, 920, 930, 940, 945, 949, 950, 951, 958, 960, 965, 970, 975, 980, 985, 989, 990, 995, 998, 999, 1000, 1040, 1049, 1050, 1059, 1070, 1080, 1090, 1095, 1099, 1100, 1111, 1120, 1149, 1150, 1170, 1180, 1189, 1190, 1199, 1200, 1201, 1209, 1212, 1221, 1222, 1234, 1249, 1250, 1265, 1270, 1275, 1280, 1285, 1290, 1299, 1300, 1310, 1325, 1330, 1333, 1340

In [58]:
start_value = 500
avg_time_price = {}
while start_value < 350000:
    avg_time = autos_copy[autos_copy["price"] <= start_value]["difference_in_time"].mean()
    avg_time_price[start_value] = str(avg_time.round("1d"))[:6]
    start_value *= 2
avg_time_price

{500: '4 days',
 1000: '4 days',
 2000: '5 days',
 4000: '5 days',
 8000: '5 days',
 16000: '5 days',
 32000: '5 days',
 64000: '5 days',
 128000: '5 days',
 256000: '5 days'}

## Вывод
Наше предварительное предположение было верным: чем дороже автомобиль, тем он дольше будет продаватся, но разница в среднем составляет всего 1 день, и большинство автомобилей будут проданы в течении 5 дней. 

# Время продажи автомобиля с повреждением и без них

In [59]:
avg_time_with_damage = str(autos_copy[autos_copy["unrepaired_damage"] == "yes"]["difference_in_time"].mean())[:6]
avg_time_without_damage = str(autos_copy[autos_copy["unrepaired_damage"] == "no"]["difference_in_time"].mean())[:6]
print("Среднее время, затраченное на продажу автомобиля с повреждением:", avg_time_with_damage)
print("Среднее время, затраченное на продажу автомобиля без повреждений:", avg_time_without_damage)
print("Средняя цена поврежденного автомобиля:", int(autos_copy[autos_copy["unrepaired_damage"] == "yes"]["price"].mean()))
print("Средняя цена автомобиля без повреждений:", int(autos_copy[autos_copy["unrepaired_damage"] == "no"]["price"].mean()))

Среднее время, затраченное на продажу автомобиля с повреждением: 4 days
Среднее время, затраченное на продажу автомобиля без повреждений: 5 days
Средняя цена поврежденного автомобиля: 2222
Средняя цена автомобиля без повреждений: 5915


## Вывод
Проведя анализ, мы делаем вывод, что автомобили с повреждениями уходят с рынка быстрее, чем автомобили без повреждений, потому что, как мы уже говорили, они стоят меньше. 