In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

from sklearn import preprocessing

%matplotlib inline

In [2]:
data = pd.read_csv('data/all_models_data.csv')
data.sample(5)

Unnamed: 0,city,brand,model,href,price,year,mileage,body_type,colour,engine_info,annual_car_tax,transmission,drive,hand_drive,condition,owners_num,doc_unique
2144,sankt-peterburg,kia,ceed,https://auto.ru/cars/used/sale/kia/ceed/109926...,280 000 ₽,2008,225 000 км,универсал 5 дв.,серебристый,1.6 л / 122 л.с. / Бензин,4 270 ₽ / год,автоматическая,передний,Левый,Не требует ремонта,3 или более,Оригинал
5214,novosibirsk,hyundai,solaris,https://auto.ru/cars/used/sale/hyundai/solaris...,525 000 ₽,2014,174 613 км,седан,чёрный,1.6 л / 123 л.с. / Бензин,1 230 ₽ / год,автоматическая,передний,Левый,Не требует ремонта,3 или более,Оригинал
1447,kazan,skoda,octavia,https://auto.ru/cars/used/sale/skoda/octavia/1...,780 000 ₽,2015,143 000 км,лифтбек,белый,1.6 л / 110 л.с. / Бензин,3 080 ₽ / год,механическая,передний,Левый,Не требует ремонта,2 владельца,Оригинал
7762,nizhniy_novgorod,hyundai,solaris,https://auto.ru/cars/used/sale/hyundai/solaris...,355 000 ₽,2011,115 250 км,седан,белый,1.4 л / 107 л.с. / Бензин,2 140 ₽ / год,механическая,передний,Левый,Не требует ремонта,2 владельца,Дубликат
4680,moskva,skoda,octavia,https://auto.ru/cars/used/sale/skoda/octavia/1...,1 095 000 ₽,2018,20 894 км,лифтбек,серебристый,1.6 л / 110 л.с. / Бензин,2 750 ₽ / год,автоматическая,передний,Левый,Не требует ремонта,1 владелец,Оригинал


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8245 entries, 0 to 8244
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   city            8245 non-null   object
 1   brand           8245 non-null   object
 2   model           8245 non-null   object
 3   href            8245 non-null   object
 4   price           8245 non-null   object
 5   year            8245 non-null   int64 
 6   mileage         8245 non-null   object
 7   body_type       8245 non-null   object
 8   colour          8245 non-null   object
 9   engine_info     8245 non-null   object
 10  annual_car_tax  8245 non-null   object
 11  transmission    8245 non-null   object
 12  drive           8245 non-null   object
 13  hand_drive      8245 non-null   object
 14  condition       8245 non-null   object
 15  owners_num      8245 non-null   object
 16  doc_unique      8245 non-null   object
dtypes: int64(1), object(16)
memory usage: 1.1+ MB


# Cleaning data
## Numeric features
### Price

In [65]:
def clean_column(row):
    return float("".join(row.split()[:-1]))

In [66]:
clean_data = data.copy()
clean_data['price'] = clean_data[['price']].apply(lambda row: clean_column(row['price']), axis=1)

clean_data.sample(3)

Unnamed: 0,city,brand,model,href,price,year,mileage,body_type,colour,engine_info,annual_car_tax,transmission,drive,hand_drive,condition,owners_num,doc_unique
6693,ekaterinburg,volkswagen,polo,https://auto.ru/cars/used/sale/volkswagen/polo...,210000.0,2002,240 000 км,хэтчбек 5 дв.,белый,1.4 л / 75 л.с. / Бензин,188 ₽ / год,автоматическая,передний,Левый,Не требует ремонта,3 или более,Оригинал
7965,nizhniy_novgorod,volkswagen,polo,https://auto.ru/cars/used/sale/volkswagen/polo...,715000.0,2018,30 000 км,седан,чёрный,1.6 л / 110 л.с. / Бензин,3 465 ₽ / год,механическая,передний,Левый,Не требует ремонта,1 владелец,Оригинал
4103,moskva,hyundai,solaris,https://auto.ru/cars/used/sale/hyundai/solaris...,500000.0,2014,83 000 км,хэтчбек 5 дв.,серебристый,1.4 л / 107 л.с. / Бензин,2 675 ₽ / год,автоматическая,передний,Левый,Не требует ремонта,2 владельца,Оригинал


### Mileage

In [67]:
def clean_mileage(mileage):
    return clean_column(mileage)

In [68]:
clean_data['mileage'] = clean_data[['mileage']].apply(lambda row: clean_mileage(row['mileage']), axis=1)
clean_data.sample(3)

Unnamed: 0,city,brand,model,href,price,year,mileage,body_type,colour,engine_info,annual_car_tax,transmission,drive,hand_drive,condition,owners_num,doc_unique
720,kazan,hyundai,solaris,https://auto.ru/cars/used/sale/hyundai/solaris...,310000.0,2012,132800.0,седан,золотистый,"1.4 л / 107 л.с. / Бензин, газобаллонное обору...",2 568 ₽ / год,механическая,передний,Левый,Не требует ремонта,3 или более,Дубликат
3343,moskva,kia,rio,https://auto.ru/cars/used/sale/kia/rio/1099995...,545000.0,2013,90500.0,седан,серый,1.4 л / 107 л.с. / Бензин,2 675 ₽ / год,автоматическая,передний,Левый,Не требует ремонта,1 владелец,Оригинал
5725,ekaterinburg,kia,rio,https://auto.ru/cars/used/sale/kia/rio/1096459...,444000.0,2012,184000.0,седан,белый,1.6 л / 123 л.с. / Бензин,1 648 ₽ / год,механическая,передний,Левый,Не требует ремонта,3 или более,Оригинал


### Owners num

In [69]:
clean_data['owners_num'].unique()

array(['2 владельца', '1 владелец', '3 или более', 'Оригинал'],
      dtype=object)

In [70]:
print('Count wrong rows =', len(clean_data[clean_data['owners_num']=='Оригинал'].index))

Count wrong rows = 3


In [71]:
# Drop columns with wrong index
indexes = list(clean_data[clean_data['owners_num']=='Оригинал'].index)
clean_data = clean_data.drop(indexes, axis=0)

clean_data['owners_num'].unique()

array(['2 владельца', '1 владелец', '3 или более'], dtype=object)

In [72]:
owners_map = {'2 владельца':2, '1 владелец':1, '3 или более':3}

clean_data['owners_num'] = clean_data['owners_num'].map(owners_map)
clean_data.sample(3)

Unnamed: 0,city,brand,model,href,price,year,mileage,body_type,colour,engine_info,annual_car_tax,transmission,drive,hand_drive,condition,owners_num,doc_unique
452,kazan,kia,ceed,https://auto.ru/cars/used/sale/kia/ceed/109459...,810000.0,2017,43975.0,хэтчбек 5 дв.,белый,1.6 л / 130 л.с. / Бензин,4 290 ₽ / год,механическая,передний,Левый,Не требует ремонта,1,Оригинал
7964,nizhniy_novgorod,volkswagen,polo,https://auto.ru/cars/used/sale/volkswagen/polo...,170000.0,2002,340000.0,хэтчбек 5 дв.,синий,1.2 л / 64 л.с. / Бензин,1 440 ₽ / год,механическая,передний,Правый,Не требует ремонта,3,Оригинал
980,kazan,hyundai,solaris,https://auto.ru/cars/used/sale/hyundai/solaris...,389000.0,2012,160000.0,седан,фиолетовый,1.4 л / 107 л.с. / Бензин,2 996 ₽ / год,механическая,передний,Левый,Не требует ремонта,2,Оригинал


### Annual car tax

In [73]:
def clean_car_tax(tax):
    tax = tax.split('/')[0]
    return clean_column(tax)

In [74]:
clean_data['annual_car_tax'] = clean_data[['annual_car_tax']].apply(lambda row: 
                                                                     clean_car_tax(row['annual_car_tax']), axis=1)
clean_data.sample(3)

Unnamed: 0,city,brand,model,href,price,year,mileage,body_type,colour,engine_info,annual_car_tax,transmission,drive,hand_drive,condition,owners_num,doc_unique
2945,sankt-peterburg,skoda,octavia,https://auto.ru/cars/used/sale/skoda/octavia/1...,590000.0,2013,144700.0,лифтбек,белый,1.8 л / 180 л.с. / Бензин,9000.0,роботизированная,передний,Левый,Не требует ремонта,3,Оригинал
6350,ekaterinburg,hyundai,solaris,https://auto.ru/cars/used/sale/hyundai/solaris...,599000.0,2015,92301.0,хэтчбек 5 дв.,белый,1.6 л / 123 л.с. / Бензин,1156.0,автоматическая,передний,Левый,Не требует ремонта,1,Оригинал
6092,ekaterinburg,kia,ceed,https://auto.ru/cars/used/sale/kia/ceed/109814...,415000.0,2011,166000.0,хэтчбек 5 дв.,серебристый,1.6 л / 125 л.с. / Бензин,1175.0,механическая,передний,Левый,Не требует ремонта,3,Дубликат


### Engine info

In [75]:
def clean_engine_info(row, column_name):
    row = row.split('/')
    
    if column_name == 'volume':
        return float(row[0].split(' ')[0])
    elif column_name == 'horsepower':
        return float(row[1].split(' ')[1])
    else:
        return row[2].split(' ')[1]

In [76]:
%%time

clean_data['engine_type'] = clean_data[['engine_info']].apply(lambda row: 
                                                              clean_engine_info(row['engine_info'], 'engine_type'), axis=1)
clean_data['volume'] = clean_data[['engine_info']].apply(lambda row: 
                                                              clean_engine_info(row['engine_info'], 'volume'), axis=1)
clean_data['horsepower'] = clean_data[['engine_info']].apply(lambda row: 
                                                              clean_engine_info(row['engine_info'], 'horsepower'), axis=1)

Wall time: 1.21 s


In [77]:
# Drop useless columns

clean_data = clean_data.drop(['engine_info', 'href'], axis=1)
clean_data.sample(3)

Unnamed: 0,city,brand,model,price,year,mileage,body_type,colour,annual_car_tax,transmission,drive,hand_drive,condition,owners_num,doc_unique,engine_type,volume,horsepower
5976,ekaterinburg,kia,rio,979000.0,2019,15630.0,седан,серый,1156.0,автоматическая,передний,Левый,Не требует ремонта,1,Оригинал,Бензин,1.6,123.0
2614,sankt-peterburg,volkswagen,polo,345000.0,2013,192000.0,седан,чёрный,3675.0,механическая,передний,Левый,Не требует ремонта,2,Оригинал,"Бензин,",1.6,105.0
7363,nizhniy_novgorod,kia,rio,569990.0,2017,122048.0,седан,коричневый,3875.0,механическая,передний,Левый,Не требует ремонта,1,Оригинал,Бензин,1.6,123.0


## Categorical features

In [78]:
# Lets check unique values
for col in clean_data.columns:
    if clean_data[col].dtype == object:
        print(col, clean_data[col].unique())

city ['kazan' 'sankt-peterburg' 'moskva' 'novosibirsk' 'ekaterinburg'
 'nizhniy_novgorod']
brand ['kia' 'hyundai' 'volkswagen' 'skoda']
model ['rio' 'ceed' 'solaris' 'polo' 'octavia']
body_type ['седан' 'хэтчбек 5 дв.' 'универсал 5 дв.' 'хэтчбек 3 дв.' 'лифтбек']
colour ['серебристый' 'чёрный' 'белый' 'серый' 'коричневый' 'красный'
 'золотистый' 'зелёный' 'синий' 'фиолетовый' 'бежевый' 'оранжевый'
 'голубой' 'жёлтый' 'пурпурный']
transmission ['механическая' 'автоматическая' 'роботизированная']
drive ['передний' 'полный']
hand_drive ['Левый' 'Правый']
condition ['Не требует ремонта']
doc_unique ['Оригинал' 'Дубликат' 'Растаможен']
engine_type ['Бензин' 'Бензин,' 'Дизель']


In [79]:
# Firstly, drop condition column, because it has only one point.
clean_data = clean_data.drop(['condition'], axis=1)

In [84]:
# Secondly, lets check Бензин, values in engine type
clean_data['engine_type'].unique()

array(['Бензин', 'Бензин,', 'Дизель'], dtype=object)

In [81]:
len(clean_data[clean_data['engine_type']=='Бензин,'])

89

In [89]:
clean_data['engine_type'] = clean_data['engine_type'].replace('Бензин,', 'Бензин')
clean_data.sample(3)

Unnamed: 0,city,brand,model,price,year,mileage,body_type,colour,annual_car_tax,transmission,drive,hand_drive,owners_num,doc_unique,engine_type,volume,horsepower
1669,kazan,skoda,octavia,420000.0,2008,183000.0,лифтбек,серебристый,6880.0,механическая,передний,Левый,3,Оригинал,Бензин,1.8,160.0
6,kazan,kia,rio,730000.0,2017,93000.0,седан,белый,4305.0,автоматическая,передний,Левый,1,Оригинал,Бензин,1.6,123.0
7193,nizhniy_novgorod,kia,rio,645000.0,2016,52000.0,седан,белый,3444.0,автоматическая,передний,Левый,3,Оригинал,Бензин,1.6,123.0


In [91]:
clean_data.to_csv('data/clean_data.csv', index=False)

# One hot encoding

In [92]:
encoded_data = pd.get_dummies(clean_data, prefix_sep='_', drop_first=True)
encoded_data.sample(3)

Unnamed: 0,price,year,mileage,annual_car_tax,owners_num,volume,horsepower,city_kazan,city_moskva,city_nizhniy_novgorod,...,colour_синий,colour_фиолетовый,colour_чёрный,transmission_механическая,transmission_роботизированная,drive_полный,hand_drive_Правый,doc_unique_Оригинал,doc_unique_Растаможен,engine_type_Дизель
4510,595000.0,2014,59500.0,2625.0,1,1.6,105.0,0,1,0,...,0,0,0,0,0,0,0,1,0,0
4237,650000.0,2017,55000.0,3300.0,3,1.6,110.0,0,1,0,...,0,0,0,1,0,0,0,1,0,0
3162,770000.0,2018,90000.0,1200.0,1,1.4,100.0,0,1,0,...,0,0,0,1,0,0,0,1,0,0


In [94]:
encoded_data.to_csv('data/encoded_data.csv', index=False)