## Import libraries

In [366]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn import metrics 
from sklearn.metrics import mean_squared_error

## Import data

In [367]:
data = pd.read_csv("auto_data.csv", sep=";")

data.head()

In [368]:
data.shape

(4060, 13)

In [369]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4060 entries, 0 to 4059
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Type               4043 non-null   object
 1   auto_price         2159 non-null   object
 2   auto_year          4043 non-null   object
 3   auto_owners        4043 non-null   object
 4   auto_guarantee     4043 non-null   object
 5   auto_mileage       4043 non-null   object
 6   auto_engine        4043 non-null   object
 7   auto_transmission  4043 non-null   object
 8   auto_drive_unit    4043 non-null   object
 9   auto_wheel         4043 non-null   object
 10  auto_carcase       4031 non-null   object
 11  auto_color         3714 non-null   object
 12  link               4060 non-null   object
dtypes: object(13)
memory usage: 412.5+ KB


We see that there is a lot of data without info on car price. Cars with empty 'auto_price' column were sold, but information about them was not removed from the website.

## Removing lines with sold cars 

In [370]:
data = data.dropna(subset=['auto_price'])

In [371]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2159 entries, 0 to 3745
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Type               2159 non-null   object
 1   auto_price         2159 non-null   object
 2   auto_year          2159 non-null   object
 3   auto_owners        2159 non-null   object
 4   auto_guarantee     2159 non-null   object
 5   auto_mileage       2159 non-null   object
 6   auto_engine        2159 non-null   object
 7   auto_transmission  2159 non-null   object
 8   auto_drive_unit    2159 non-null   object
 9   auto_wheel         2159 non-null   object
 10  auto_carcase       2149 non-null   object
 11  auto_color         1964 non-null   object
 12  link               2159 non-null   object
dtypes: object(13)
memory usage: 236.1+ KB


There are also some empty cells in 'auto_color' column.
Actually, data on some cars were shifted 1 column to the left as those cars has empty 'auto_guarantee' column (which means that cars doesn't have guarantee).

## Shifting data with missing guarantee 1 column to the right

In [372]:
data['guarantee'] = 1
#data
data.loc[data['auto_color'].isnull(), ['guarantee']] = 0

In [373]:
data_to_shift = data.loc[data['guarantee'] == 0]
data = data.drop(data[data['guarantee'] == 0].index)
data_to_shift.shape, data.shape

((195, 14), (1964, 14))

In [374]:
data_to_shift

Unnamed: 0,Type,auto_price,auto_year,auto_owners,auto_guarantee,auto_mileage,auto_engine,auto_transmission,auto_drive_unit,auto_wheel,auto_carcase,auto_color,link,guarantee
45,\n Mercedes C-Класс АКПП 2016 с пробего...,\n 1 750 000 ₽,\n 110 000 км\n,\n 5 владельцев ...,\n 2016,\n 1.6 л /\n 156 л.с...,\n Автоматическая,\n Задний,Левый,\n Седан,\n Красный,,https://rolf-probeg.ru//spb/cars/mercedes/c-kl...,0
74,\n Peugeot 308 АКПП 2010 с пробегом 162...,\n 400 000 ₽,\n 162 760 км\n,\n 2 владельца ...,\n 2010,\n 1.6 л /\n 120 л.с...,\n Автоматическая,\n Передний,Левый,\n Хэтчбек 5 дв.,\n Черный,,https://rolf-probeg.ru//spb/cars/peugeot/308/1...,0
85,\n Mazda CX-3 АКПП 2018 с пробегом 29 6...,\n 2 095 000 ₽,\n 29 624 км\n,\n 1 владелец ...,\n 2018,\n 1.5 л /\n 105 л.с...,\n Автоматическая,\n Полный,Левый,\n Внедорожник 5 дв.,\n Красный,,https://rolf-probeg.ru//spb/cars/mazda/cx_3/16...,0
132,\n Mercedes M-Класс АКПП 2011 с пробего...,\n 1 325 000 ₽,\n 155 657 км\n,\n 4 владельца ...,\n 2011,\n 3.5 л /\n 272 л.с...,\n Автоматическая,\n Полный,Левый,\n Внедорожник 5 дв.,\n Серый,,https://rolf-probeg.ru//spb/cars/mercedes/m-kl...,0
142,\n Land Rover Range Rover Evoque АКПП 2...,\n 1 999 000 ₽,\n 107 000 км\n,\n 4 владельца ...,\n 2013,\n 2.2 л /\n 190 л.с...,\n Автоматическая,\n Полный,Левый,\n Внедорожник 3 дв.,\n Черный,,https://rolf-probeg.ru//spb/cars/land-rover/ra...,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2140,\n BMW 1 серии АКПП 2019 с пробегом 28 ...,\n 1 700 000 ₽,\n 28 863 км\n,\n 4 владельца ...,\n 2019,\n 1.5 л /\n 136 л.с...,\n Автоматическая,\n Задний,Левый,\n Хэтчбек 5 дв.,\n Синий,,https://rolf-probeg.ru//spb/cars/bmw/1-serii/1...,0
2153,\n Hyundai Solaris АКПП 2021 с пробегом...,\n 1 400 000 ₽,\n 70 км\n,\n 1 владелец ...,\n 2021,\n 1.6 л /\n 123 л.с...,\n Автоматическая,\n Передний,Левый,\n Седан,\n Серый,,https://rolf-probeg.ru//spb/cars/hyundai/solar...,0
2156,\n Volvo XC60 АКПП 2013 с пробегом 116 ...,\n 2 170 000 ₽,\n 116 900 км\n,\n 4 владельца ...,\n 2013,\n 2.4 л /\n 215 л.с...,\n Автоматическая,\n Полный,Левый,\n Внедорожник 5 дв.,\n Белый,,https://rolf-probeg.ru//spb/cars/volvo/xc60/16...,0
2160,\n Toyota Camry АКПП 2015 с пробегом 13...,\n 1 550 000 ₽,\n 132 122 км\n,\n 5 владельцев ...,\n 2015,\n 2.0 л /\n 150 л.с...,\n Автоматическая,\n Передний,Левый,\n Седан,\n Черный,,https://rolf-probeg.ru//spb/cars/toyota/camry/...,0


In [375]:
data_to_shift['auto_color'] = data_to_shift['auto_carcase']
data_to_shift['auto_carcase'] = data_to_shift['auto_wheel']
data_to_shift['auto_wheel'] = data_to_shift['auto_drive_unit']
data_to_shift['auto_drive_unit'] = data_to_shift['auto_transmission']
data_to_shift['auto_transmission'] = data_to_shift['auto_engine']
data_to_shift['auto_engine'] = data_to_shift['auto_mileage']
data_to_shift['auto_mileage'] = data_to_shift['auto_year']
data_to_shift['auto_year'] = data_to_shift['auto_guarantee']
data_to_shift['auto_guarantee'] = "Нет гарантии"

In [376]:
data_to_shift.head()

Unnamed: 0,Type,auto_price,auto_year,auto_owners,auto_guarantee,auto_mileage,auto_engine,auto_transmission,auto_drive_unit,auto_wheel,auto_carcase,auto_color,link,guarantee
45,\n Mercedes C-Класс АКПП 2016 с пробего...,\n 1 750 000 ₽,\n 2016,\n 5 владельцев ...,Нет гарантии,\n 110 000 км\n,\n 1.6 л /\n 156 л.с...,\n Автоматическая,\n Задний,Левый,\n Седан,\n Красный,https://rolf-probeg.ru//spb/cars/mercedes/c-kl...,0
74,\n Peugeot 308 АКПП 2010 с пробегом 162...,\n 400 000 ₽,\n 2010,\n 2 владельца ...,Нет гарантии,\n 162 760 км\n,\n 1.6 л /\n 120 л.с...,\n Автоматическая,\n Передний,Левый,\n Хэтчбек 5 дв.,\n Черный,https://rolf-probeg.ru//spb/cars/peugeot/308/1...,0
85,\n Mazda CX-3 АКПП 2018 с пробегом 29 6...,\n 2 095 000 ₽,\n 2018,\n 1 владелец ...,Нет гарантии,\n 29 624 км\n,\n 1.5 л /\n 105 л.с...,\n Автоматическая,\n Полный,Левый,\n Внедорожник 5 дв.,\n Красный,https://rolf-probeg.ru//spb/cars/mazda/cx_3/16...,0
132,\n Mercedes M-Класс АКПП 2011 с пробего...,\n 1 325 000 ₽,\n 2011,\n 4 владельца ...,Нет гарантии,\n 155 657 км\n,\n 3.5 л /\n 272 л.с...,\n Автоматическая,\n Полный,Левый,\n Внедорожник 5 дв.,\n Серый,https://rolf-probeg.ru//spb/cars/mercedes/m-kl...,0
142,\n Land Rover Range Rover Evoque АКПП 2...,\n 1 999 000 ₽,\n 2013,\n 4 владельца ...,Нет гарантии,\n 107 000 км\n,\n 2.2 л /\n 190 л.с...,\n Автоматическая,\n Полный,Левый,\n Внедорожник 3 дв.,\n Черный,https://rolf-probeg.ru//spb/cars/land-rover/ra...,0


In [377]:
data_to_shift.shape

(195, 14)

In [378]:
data = pd.concat([data, data_to_shift])

In [379]:
data.shape

(2159, 14)

In [380]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2159 entries, 0 to 2927
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Type               2159 non-null   object
 1   auto_price         2159 non-null   object
 2   auto_year          2159 non-null   object
 3   auto_owners        2159 non-null   object
 4   auto_guarantee     2159 non-null   object
 5   auto_mileage       2159 non-null   object
 6   auto_engine        2159 non-null   object
 7   auto_transmission  2159 non-null   object
 8   auto_drive_unit    2159 non-null   object
 9   auto_wheel         2159 non-null   object
 10  auto_carcase       2159 non-null   object
 11  auto_color         2149 non-null   object
 12  link               2159 non-null   object
 13  guarantee          2159 non-null   int64 
dtypes: int64(1), object(13)
memory usage: 253.0+ KB


In [381]:
data[data['auto_color'].isnull()]['link'].unique()

array(['https://rolf-probeg.ru//spb/cars/mitsubishi/pajero/16096144/',
       'https://rolf-probeg.ru//spb/cars/mitsubishi/pajero/16096132/',
       'https://rolf-probeg.ru//spb/cars/mazda/mx-30/16091848/',
       'https://rolf-probeg.ru//spb/cars/kia/carnival/16076387/',
       'https://rolf-probeg.ru//spb/cars/ford/f-150/16060346/',
       'https://rolf-probeg.ru//spb/cars/hyundai/grand-starex/16090529/',
       'https://rolf-probeg.ru//spb/cars/kia/carnival/16073953/',
       'https://rolf-probeg.ru//spb/cars/kia/optima/16091494/',
       'https://rolf-probeg.ru//spb/cars/hyundai/sonata/16074798/',
       'https://rolf-probeg.ru//spb/cars/lexus/gs/16069061/'],
      dtype=object)

In [382]:
data_shift_1 = data[data['auto_color'].isnull()]
data = data.drop(data[data['auto_color'].isnull()].index)
data.shape, data_shift_1.shape

((2149, 14), (10, 14))

In [383]:
data_shift_1

Unnamed: 0,Type,auto_price,auto_year,auto_owners,auto_guarantee,auto_mileage,auto_engine,auto_transmission,auto_drive_unit,auto_wheel,auto_carcase,auto_color,link,guarantee
262,\n Mitsubishi Pajero АКПП 2021 с пробег...,\n 4 299 000 ₽,\n 22 км\n,\n 2021,Нет гарантии,\n 3.0 л /\n 174 л.с...,\n Автоматическая,\n Полный,Левый,\n Внедорожник 5 дв.,\n Серый,,https://rolf-probeg.ru//spb/cars/mitsubishi/pa...,0
278,\n Mitsubishi Pajero АКПП 2021 с пробег...,\n 4 299 000 ₽,\n 21 км\n,\n 2021,Нет гарантии,\n 3.0 л /\n 174 л.с...,\n Автоматическая,\n Полный,Левый,\n Внедорожник 5 дв.,\n Серый,,https://rolf-probeg.ru//spb/cars/mitsubishi/pa...,0
930,\n Mazda MX-30 АКПП 2020 с пробегом 2 4...,\n 2 690 000 ₽,\n 2 410 км\n,\n 2020,Нет гарантии,\n 0.0 л /\n 145 л.с...,\n Автоматическая,\n Передний,Левый,\n Внедорожник 5 дв.,\n Серый,,https://rolf-probeg.ru//spb/cars/mazda/mx-30/1...,0
1130,\n Kia Carnival АКПП 2017 с пробегом 51...,\n 2 630 000 ₽,\n 51 978 км\n,\n 2017,Нет гарантии,\n 2.2 л /\n 202 л.с...,\n Автоматическая,\n Передний,Левый,\n Минивэн,\n Черный,,https://rolf-probeg.ru//spb/cars/kia/carnival/...,0
1530,\n Ford F-150 АКПП 2019 с пробегом 59 0...,\n 4 899 000 ₽,\n 59 000 км\n,\n 2019,Нет гарантии,\n 3.5 л /\n 375 л.с...,\n Автоматическая,\n Полный,Левый,\n Пикап Двойная кабина Super Cre...,\n Черный,,https://rolf-probeg.ru//spb/cars/ford/f-150/16...,0
1550,\n Hyundai Grand Starex АКПП 2018 с про...,\n 3 630 000 ₽,\n 40 269 км\n,\n 2018,Нет гарантии,\n 2.5 л /\n 175 л.с...,\n Автоматическая,\n Полный,Левый,\n Минивэн,\n Коричневый,,https://rolf-probeg.ru//spb/cars/hyundai/grand...,0
1560,\n Kia Carnival АКПП 2017 с пробегом 51...,\n 2 700 000 ₽,\n 51 917 км\n,\n 2017,Нет гарантии,\n 2.2 л /\n 202 л.с...,\n Автоматическая,\n Передний,Левый,\n Минивэн,\n Белый,,https://rolf-probeg.ru//spb/cars/kia/carnival/...,0
1580,\n Kia Optima АКПП 2018 с пробегом 83 0...,\n 1 880 000 ₽,\n 83 000 км\n,\n 2018,Нет гарантии,\n 2.4 л /\n 188 л.с...,\n Автоматическая,\n Передний,Левый,\n Седан,\n Белый,,https://rolf-probeg.ru//spb/cars/kia/optima/16...,0
2099,\n Hyundai Sonata АКПП 2021 с пробегом ...,\n 2 630 000 ₽,\n 40 км\n,\n 2021,Нет гарантии,\n 2.5 л /\n 180 л.с...,\n Автоматическая,\n Передний,Левый,\n Седан,\n Белый,,https://rolf-probeg.ru//spb/cars/hyundai/sonat...,0
2130,\n Lexus GS АКПП 2016 с пробегом 67 539...,\n 3 699 000 ₽,\n 67 539 км\n,\n 2016,Нет гарантии,\n 3.5 л /\n 311 л.с...,\n Автоматическая,\n Задний,Левый,\n Седан,\n Черный,,https://rolf-probeg.ru//spb/cars/lexus/gs/1606...,0


In [384]:
data_shift_1['auto_color'] = data_shift_1['auto_carcase']
data_shift_1['auto_carcase'] = data_shift_1['auto_wheel']
data_shift_1['auto_wheel'] = data_shift_1['auto_drive_unit']
data_shift_1['auto_drive_unit'] = data_shift_1['auto_transmission']
data_shift_1['auto_transmission'] = data_shift_1['auto_engine']
data_shift_1['auto_engine'] = data_shift_1['auto_year']
data_shift_1['auto_year'] = data_shift_1['auto_owners']
data_shift_1['auto_owners'] = "Нет данных"
data_shift_1

Unnamed: 0,Type,auto_price,auto_year,auto_owners,auto_guarantee,auto_mileage,auto_engine,auto_transmission,auto_drive_unit,auto_wheel,auto_carcase,auto_color,link,guarantee
262,\n Mitsubishi Pajero АКПП 2021 с пробег...,\n 4 299 000 ₽,\n 2021,Нет данных,Нет гарантии,\n 3.0 л /\n 174 л.с...,\n 22 км\n,\n Автоматическая,\n Полный,Левый,\n Внедорожник 5 дв.,\n Серый,https://rolf-probeg.ru//spb/cars/mitsubishi/pa...,0
278,\n Mitsubishi Pajero АКПП 2021 с пробег...,\n 4 299 000 ₽,\n 2021,Нет данных,Нет гарантии,\n 3.0 л /\n 174 л.с...,\n 21 км\n,\n Автоматическая,\n Полный,Левый,\n Внедорожник 5 дв.,\n Серый,https://rolf-probeg.ru//spb/cars/mitsubishi/pa...,0
930,\n Mazda MX-30 АКПП 2020 с пробегом 2 4...,\n 2 690 000 ₽,\n 2020,Нет данных,Нет гарантии,\n 0.0 л /\n 145 л.с...,\n 2 410 км\n,\n Автоматическая,\n Передний,Левый,\n Внедорожник 5 дв.,\n Серый,https://rolf-probeg.ru//spb/cars/mazda/mx-30/1...,0
1130,\n Kia Carnival АКПП 2017 с пробегом 51...,\n 2 630 000 ₽,\n 2017,Нет данных,Нет гарантии,\n 2.2 л /\n 202 л.с...,\n 51 978 км\n,\n Автоматическая,\n Передний,Левый,\n Минивэн,\n Черный,https://rolf-probeg.ru//spb/cars/kia/carnival/...,0
1530,\n Ford F-150 АКПП 2019 с пробегом 59 0...,\n 4 899 000 ₽,\n 2019,Нет данных,Нет гарантии,\n 3.5 л /\n 375 л.с...,\n 59 000 км\n,\n Автоматическая,\n Полный,Левый,\n Пикап Двойная кабина Super Cre...,\n Черный,https://rolf-probeg.ru//spb/cars/ford/f-150/16...,0
1550,\n Hyundai Grand Starex АКПП 2018 с про...,\n 3 630 000 ₽,\n 2018,Нет данных,Нет гарантии,\n 2.5 л /\n 175 л.с...,\n 40 269 км\n,\n Автоматическая,\n Полный,Левый,\n Минивэн,\n Коричневый,https://rolf-probeg.ru//spb/cars/hyundai/grand...,0
1560,\n Kia Carnival АКПП 2017 с пробегом 51...,\n 2 700 000 ₽,\n 2017,Нет данных,Нет гарантии,\n 2.2 л /\n 202 л.с...,\n 51 917 км\n,\n Автоматическая,\n Передний,Левый,\n Минивэн,\n Белый,https://rolf-probeg.ru//spb/cars/kia/carnival/...,0
1580,\n Kia Optima АКПП 2018 с пробегом 83 0...,\n 1 880 000 ₽,\n 2018,Нет данных,Нет гарантии,\n 2.4 л /\n 188 л.с...,\n 83 000 км\n,\n Автоматическая,\n Передний,Левый,\n Седан,\n Белый,https://rolf-probeg.ru//spb/cars/kia/optima/16...,0
2099,\n Hyundai Sonata АКПП 2021 с пробегом ...,\n 2 630 000 ₽,\n 2021,Нет данных,Нет гарантии,\n 2.5 л /\n 180 л.с...,\n 40 км\n,\n Автоматическая,\n Передний,Левый,\n Седан,\n Белый,https://rolf-probeg.ru//spb/cars/hyundai/sonat...,0
2130,\n Lexus GS АКПП 2016 с пробегом 67 539...,\n 3 699 000 ₽,\n 2016,Нет данных,Нет гарантии,\n 3.5 л /\n 311 л.с...,\n 67 539 км\n,\n Автоматическая,\n Задний,Левый,\n Седан,\n Черный,https://rolf-probeg.ru//spb/cars/lexus/gs/1606...,0


In [385]:
data = pd.concat([data, data_shift_1])
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2159 entries, 0 to 2130
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Type               2159 non-null   object
 1   auto_price         2159 non-null   object
 2   auto_year          2159 non-null   object
 3   auto_owners        2159 non-null   object
 4   auto_guarantee     2159 non-null   object
 5   auto_mileage       2159 non-null   object
 6   auto_engine        2159 non-null   object
 7   auto_transmission  2159 non-null   object
 8   auto_drive_unit    2159 non-null   object
 9   auto_wheel         2159 non-null   object
 10  auto_carcase       2159 non-null   object
 11  auto_color         2159 non-null   object
 12  link               2159 non-null   object
 13  guarantee          2159 non-null   int64 
dtypes: int64(1), object(13)
memory usage: 253.0+ KB


Ok, missing data were handled

## Data cleaning

In [386]:
data['auto_carcase'] = data['auto_carcase'].str.strip()
data['auto_color'] = data['auto_color'].str.strip()
data['auto_wheel'] = data['auto_wheel'].str.strip()
data['auto_drive_unit'] = data['auto_drive_unit'].str.strip()
data['auto_transmission'] = data['auto_transmission'].str.strip()
data['auto_price'] = data['auto_price'].str.strip()
data['auto_year'] = data['auto_year'].str.strip()
data['auto_owners'] = data['auto_owners'].str.strip()
data['auto_guarantee'] = data['auto_guarantee'].str.strip()
data['auto_mileage'] = data['auto_mileage'].str.strip()
data['auto_engine'] = data['auto_engine'].str.strip()
data['auto_carcase'].unique()

array(['Внедорожник 5 дв.', 'Седан', 'Универсал 5 дв.', 'Купе',
       'Хэтчбек 5 дв.', 'Хэтчбек 5 дв. Stepway', 'Лифтбек',
       'Седан Type-S', 'Внедорожник 3 дв.', 'Пикап Двойная кабина',
       'Фастбек Fastback', 'Хэтчбек 5 дв. X', 'Компактвэн', 'Седан Cross',
       'Внедорожник 5 дв. Coupe', 'Универсал 5 дв. SW', 'Минивэн L',
       'Фургон', 'Родстер', 'Хэтчбек 5 дв. GT Line', 'Хэтчбек 3 дв.',
       'Седан Long', 'Хэтчбек 5 дв. Sport', 'Компактвэн Grand',
       'Хэтчбек 5 дв. X-Line', 'Внедорожник 5 дв. Long',
       'Универсал 5 дв. Scout', 'Хэтчбек 3 дв. JCW',
       'Универсал 5 дв. Alltrack', 'Минивэн', 'Лифтбек Gran Coupe',
       'Внедорожник 5 дв. Allspace', 'Универсал 5 дв. SW Cross',
       'Лифтбек Sportback', 'Фургон Kasten', 'Хэтчбек 3 дв. GTC',
       'Седан Stepway', 'Седан Gran Coupe', 'Хэтчбек 3 дв. Cooper S',
       'Хэтчбек 5 дв. Cross', 'Тарга Targa', 'Седан LWB',
       'Пикап Двойная кабина Double Cab', 'Купе-хардтоп', 'Минивэн SWB',
       'Лифтбек Gran

In [387]:
data['auto_color'].unique()

array(['Красный', 'Светло-серо-голубой', 'Желтый', 'Белый', 'Коричневый',
       'Черный', 'Темно-синий', 'Серебристый', 'Бежевый', 'Бронзовый',
       'Серый', 'Синий', 'Темно-серый', 'Голубой', 'Золотистый',
       'Белый перламутр', 'Черно-серый', '', 'Зеленый', 'Оранжевый',
       'Вишневый', 'Серебряный', 'Фиолетовый', 'Бордовый',
       'Светло-коричневый', 'Оливковый', 'Темно-зеленый'], dtype=object)

In [388]:
data['auto_wheel'].unique()

array(['Левый'], dtype=object)

In [389]:
data['auto_drive_unit'].unique()

array(['Передний', 'Задний', 'Полный', ''], dtype=object)

In [390]:
data['auto_transmission'].unique()

array(['Автоматическая', 'Вариатор', 'Робот', 'Механическая', ''],
      dtype=object)

In [391]:
data['auto_price'].unique()

array(['1 499 000                ₽', '1 097 000                ₽',
       '6 995 600                ₽', ..., '300 000                ₽',
       '2 630 000                ₽', '3 699 000                ₽'],
      dtype=object)

In [392]:
data['auto_year'].unique()

array(['2015', '2008', '2021', '2016', '2012', '2007', '2013', '2014',
       '2004', '2010', '2005', '2018', '2017', '2011', '2019', '2020',
       '2003', '2006', '1998', '2002', '2009', '2022', '1997', '1995',
       '1993', '1999', '1994'], dtype=object)

In [393]:
data['auto_owners'].unique()

array(['3                владельца', '4                владельца',
       '1                владелец', '6                владельцев',
       '2                владельца', '9                владельцев',
       '5                владельцев', '7                владельцев',
       '8                владельцев', '16                владельцев',
       '11                владельцев', '10                владельцев',
       'до\n                  12.2023', 'до\n                  07.2024',
       'до\n                  11.2024', 'до\n                  01.2027',
       'до\n                  08.2025', 'до\n                  10.2024',
       'до\n                  11.2023', 'Нет данных'], dtype=object)

In [394]:
data['auto_guarantee'].unique()

array(['до\n                  02.2024', 'до\n                  01.2024',
       'до\n                  11.2023', 'до\n                  12.2023',
       'до\n                  10.2024', 'до\n                  03.2022',
       'до\n                  04.2023', 'до\n                  01.2023',
       'до\n                  06.2024', 'до\n                  11.2025',
       'до\n                  10.2023', 'до\n                  07.2022',
       'до\n                  05.2024', 'до\n                  05.2022',
       'до\n                  03.2026', 'до\n                  08.2023',
       'до\n                  08.2022', 'до\n                  10.2022',
       'до\n                  02.2023', 'до\n                  01.2026',
       'до\n                  06.2023', 'до\n                  11.2022',
       'до\n                  12.2026', 'до\n                  06.2022',
       'до\n                  03.2024', 'до\n                  08.2025',
       'до\n                  06.2026', 'до\n      

In [395]:
data['auto_mileage'].unique()

array(['133 499 км', '148 558 км', '28 022 км', ...,
       '2.4 л /\n              188 л.с. /\n              Бензин',
       '2.5 л /\n              180 л.с. /\n              Бензин',
       '3.5 л /\n              311 л.с. /\n              Бензин'],
      dtype=object)

In [396]:
data['auto_engine'].unique()

array(['2.0 л /\n              150 л.с. /\n              Бензин',
       '2.5 л /\n              208 л.с. /\n              Бензин',
       '5.6 л /\n              405 л.с. /\n              Бензин',
       '2.0 л /\n              144 л.с. /\n              Бензин',
       '2.0 л /\n              170 л.с. /\n              Бензин',
       '1.6 л /\n              122 л.с. /\n              Бензин',
       '3.0 л /\n              249 л.с. /\n              Дизель',
       '1.6 л /\n              115 л.с. /\n              Бензин',
       '2.4 л /\n              140 л.с. /\n              Бензин',
       '2.5 л /\n              169 л.с. /\n              Бензин',
       '1.6 л /\n              102 л.с. /\n              Бензин',
       '1.6 л /\n              114 л.с. /\n              Бензин',
       '2.2 л /\n              190 л.с. /\n              Дизель',
       '4.4 л /\n              333 л.с. /\n              Бензин',
       '1.6 л /\n              105 л.с. /\n              Бензин',
       '2.

In [397]:
data['auto_carcase'].unique()

array(['Внедорожник 5 дв.', 'Седан', 'Универсал 5 дв.', 'Купе',
       'Хэтчбек 5 дв.', 'Хэтчбек 5 дв. Stepway', 'Лифтбек',
       'Седан Type-S', 'Внедорожник 3 дв.', 'Пикап Двойная кабина',
       'Фастбек Fastback', 'Хэтчбек 5 дв. X', 'Компактвэн', 'Седан Cross',
       'Внедорожник 5 дв. Coupe', 'Универсал 5 дв. SW', 'Минивэн L',
       'Фургон', 'Родстер', 'Хэтчбек 5 дв. GT Line', 'Хэтчбек 3 дв.',
       'Седан Long', 'Хэтчбек 5 дв. Sport', 'Компактвэн Grand',
       'Хэтчбек 5 дв. X-Line', 'Внедорожник 5 дв. Long',
       'Универсал 5 дв. Scout', 'Хэтчбек 3 дв. JCW',
       'Универсал 5 дв. Alltrack', 'Минивэн', 'Лифтбек Gran Coupe',
       'Внедорожник 5 дв. Allspace', 'Универсал 5 дв. SW Cross',
       'Лифтбек Sportback', 'Фургон Kasten', 'Хэтчбек 3 дв. GTC',
       'Седан Stepway', 'Седан Gran Coupe', 'Хэтчбек 3 дв. Cooper S',
       'Хэтчбек 5 дв. Cross', 'Тарга Targa', 'Седан LWB',
       'Пикап Двойная кабина Double Cab', 'Купе-хардтоп', 'Минивэн SWB',
       'Лифтбек Gran

In [398]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2159 entries, 0 to 2130
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Type               2159 non-null   object
 1   auto_price         2159 non-null   object
 2   auto_year          2159 non-null   object
 3   auto_owners        2159 non-null   object
 4   auto_guarantee     2159 non-null   object
 5   auto_mileage       2159 non-null   object
 6   auto_engine        2159 non-null   object
 7   auto_transmission  2159 non-null   object
 8   auto_drive_unit    2159 non-null   object
 9   auto_wheel         2159 non-null   object
 10  auto_carcase       2159 non-null   object
 11  auto_color         2159 non-null   object
 12  link               2159 non-null   object
 13  guarantee          2159 non-null   int64 
dtypes: int64(1), object(13)
memory usage: 253.0+ KB


In [399]:
data.tail()

Unnamed: 0,Type,auto_price,auto_year,auto_owners,auto_guarantee,auto_mileage,auto_engine,auto_transmission,auto_drive_unit,auto_wheel,auto_carcase,auto_color,link,guarantee
1550,\n Hyundai Grand Starex АКПП 2018 с про...,3 630 000 ₽,2018,Нет данных,Нет гарантии,2.5 л /\n 175 л.с. /\n ...,40 269 км,Автоматическая,Полный,Левый,Минивэн,Коричневый,https://rolf-probeg.ru//spb/cars/hyundai/grand...,0
1560,\n Kia Carnival АКПП 2017 с пробегом 51...,2 700 000 ₽,2017,Нет данных,Нет гарантии,2.2 л /\n 202 л.с. /\n ...,51 917 км,Автоматическая,Передний,Левый,Минивэн,Белый,https://rolf-probeg.ru//spb/cars/kia/carnival/...,0
1580,\n Kia Optima АКПП 2018 с пробегом 83 0...,1 880 000 ₽,2018,Нет данных,Нет гарантии,2.4 л /\n 188 л.с. /\n ...,83 000 км,Автоматическая,Передний,Левый,Седан,Белый,https://rolf-probeg.ru//spb/cars/kia/optima/16...,0
2099,\n Hyundai Sonata АКПП 2021 с пробегом ...,2 630 000 ₽,2021,Нет данных,Нет гарантии,2.5 л /\n 180 л.с. /\n ...,40 км,Автоматическая,Передний,Левый,Седан,Белый,https://rolf-probeg.ru//spb/cars/hyundai/sonat...,0
2130,\n Lexus GS АКПП 2016 с пробегом 67 539...,3 699 000 ₽,2016,Нет данных,Нет гарантии,3.5 л /\n 311 л.с. /\n ...,67 539 км,Автоматическая,Задний,Левый,Седан,Черный,https://rolf-probeg.ru//spb/cars/lexus/gs/1606...,0


In [400]:
tmp = ['до\n                  12.2023', 'до\n                  07.2024',
       'до\n                  11.2024', 'до\n                  01.2027',
       'до\n                  08.2025', 'до\n                  10.2024',
       'до\n                  11.2023']

In [401]:
owners = data.loc[data['auto_owners'].isin(tmp)]
data = data.drop(data[data['auto_owners'].isin(tmp)].index)
owners.shape, data.shape

((7, 14), (2152, 14))

In [402]:
owners

Unnamed: 0,Type,auto_price,auto_year,auto_owners,auto_guarantee,auto_mileage,auto_engine,auto_transmission,auto_drive_unit,auto_wheel,auto_carcase,auto_color,link,guarantee
324,\n Citroen C4 Picasso РКПП 2011 с пробе...,480 000 ₽,2011,до\n 12.2023,Нет гарантии,189 239 км,1.6 л /\n 150 л.с. /\n ...,Робот,Передний,Левый,Компактвэн Grand,Серебристый,https://rolf-probeg.ru//spb/cars/citroen/c4-pi...,0
430,\n Hyundai Santa Fe РКПП 2021 с пробего...,3 950 000 ₽,2021,до\n 07.2024,Нет гарантии,48 км,2.2 л /\n 199 л.с. /\n ...,Робот,Полный,Левый,Внедорожник 5 дв.,Зеленый,https://rolf-probeg.ru//spb/cars/hyundai/santa...,0
455,\n ŠKODA Octavia АКПП 2021 с пробегом 3...,2 220 000 ₽,2021,до\n 11.2024,Нет гарантии,38 км,1.4 л /\n 150 л.с. /\n ...,Автоматическая,Передний,Левый,Лифтбек,Темно-серый,https://rolf-probeg.ru//spb/cars/skoda/octavia...,0
587,\n Hyundai Solaris АКПП 2021 с пробегом...,1 259 060 ₽,2021,до\n 01.2027,Нет гарантии,5 км,1.6 л /\n 123 л.с. /\n ...,Автоматическая,Передний,Левый,Седан,Белый,https://rolf-probeg.ru//spb/cars/hyundai/solar...,0
1492,\n Toyota Camry АКПП 2021 с пробегом 14...,2 575 000 ₽,2021,до\n 08.2025,Нет гарантии,140 км,2.5 л /\n 200 л.с. /\n ...,Автоматическая,Передний,Левый,Седан,Синий,https://rolf-probeg.ru//spb/cars/toyota/camry/...,0
1539,\n Hyundai Tucson АКПП 2021 с пробегом ...,2 840 000 ₽,2021,до\n 10.2024,Нет гарантии,15 км,2.0 л /\n 186 л.с. /\n ...,Автоматическая,Полный,Левый,Внедорожник 5 дв.,Белый,https://rolf-probeg.ru//spb/cars/hyundai/tucso...,0
1766,\n Haval Jolion РКПП 2021 с пробегом 10...,2 008 000 ₽,2021,до\n 11.2023,Нет гарантии,100 км,1.5 л /\n 150 л.с. /\n ...,Робот,Полный,Левый,Внедорожник 5 дв.,Черный,https://rolf-probeg.ru//spb/cars/haval/jolion/...,0


In [403]:
change_mil_eng = data[data['auto_owners']=='Нет данных']
data = data.drop(data[data['auto_owners']=='Нет данных'].index)
change_mil_eng

Unnamed: 0,Type,auto_price,auto_year,auto_owners,auto_guarantee,auto_mileage,auto_engine,auto_transmission,auto_drive_unit,auto_wheel,auto_carcase,auto_color,link,guarantee
262,\n Mitsubishi Pajero АКПП 2021 с пробег...,4 299 000 ₽,2021,Нет данных,Нет гарантии,3.0 л /\n 174 л.с. /\n ...,22 км,Автоматическая,Полный,Левый,Внедорожник 5 дв.,Серый,https://rolf-probeg.ru//spb/cars/mitsubishi/pa...,0
278,\n Mitsubishi Pajero АКПП 2021 с пробег...,4 299 000 ₽,2021,Нет данных,Нет гарантии,3.0 л /\n 174 л.с. /\n ...,21 км,Автоматическая,Полный,Левый,Внедорожник 5 дв.,Серый,https://rolf-probeg.ru//spb/cars/mitsubishi/pa...,0
930,\n Mazda MX-30 АКПП 2020 с пробегом 2 4...,2 690 000 ₽,2020,Нет данных,Нет гарантии,0.0 л /\n 145 л.с. /\n ...,2 410 км,Автоматическая,Передний,Левый,Внедорожник 5 дв.,Серый,https://rolf-probeg.ru//spb/cars/mazda/mx-30/1...,0
1130,\n Kia Carnival АКПП 2017 с пробегом 51...,2 630 000 ₽,2017,Нет данных,Нет гарантии,2.2 л /\n 202 л.с. /\n ...,51 978 км,Автоматическая,Передний,Левый,Минивэн,Черный,https://rolf-probeg.ru//spb/cars/kia/carnival/...,0
1530,\n Ford F-150 АКПП 2019 с пробегом 59 0...,4 899 000 ₽,2019,Нет данных,Нет гарантии,3.5 л /\n 375 л.с. /\n ...,59 000 км,Автоматическая,Полный,Левый,Пикап Двойная кабина Super Crew,Черный,https://rolf-probeg.ru//spb/cars/ford/f-150/16...,0
1550,\n Hyundai Grand Starex АКПП 2018 с про...,3 630 000 ₽,2018,Нет данных,Нет гарантии,2.5 л /\n 175 л.с. /\n ...,40 269 км,Автоматическая,Полный,Левый,Минивэн,Коричневый,https://rolf-probeg.ru//spb/cars/hyundai/grand...,0
1560,\n Kia Carnival АКПП 2017 с пробегом 51...,2 700 000 ₽,2017,Нет данных,Нет гарантии,2.2 л /\n 202 л.с. /\n ...,51 917 км,Автоматическая,Передний,Левый,Минивэн,Белый,https://rolf-probeg.ru//spb/cars/kia/carnival/...,0
1580,\n Kia Optima АКПП 2018 с пробегом 83 0...,1 880 000 ₽,2018,Нет данных,Нет гарантии,2.4 л /\n 188 л.с. /\n ...,83 000 км,Автоматическая,Передний,Левый,Седан,Белый,https://rolf-probeg.ru//spb/cars/kia/optima/16...,0
2099,\n Hyundai Sonata АКПП 2021 с пробегом ...,2 630 000 ₽,2021,Нет данных,Нет гарантии,2.5 л /\n 180 л.с. /\n ...,40 км,Автоматическая,Передний,Левый,Седан,Белый,https://rolf-probeg.ru//spb/cars/hyundai/sonat...,0
2130,\n Lexus GS АКПП 2016 с пробегом 67 539...,3 699 000 ₽,2016,Нет данных,Нет гарантии,3.5 л /\n 311 л.с. /\n ...,67 539 км,Автоматическая,Задний,Левый,Седан,Черный,https://rolf-probeg.ru//spb/cars/lexus/gs/1606...,0


In [404]:
owners.shape, change_mil_eng.shape, data.shape

((7, 14), (10, 14), (2142, 14))

In [405]:
owners['auto_guarantee'] = owners['auto_owners']
owners

Unnamed: 0,Type,auto_price,auto_year,auto_owners,auto_guarantee,auto_mileage,auto_engine,auto_transmission,auto_drive_unit,auto_wheel,auto_carcase,auto_color,link,guarantee
324,\n Citroen C4 Picasso РКПП 2011 с пробе...,480 000 ₽,2011,до\n 12.2023,до\n 12.2023,189 239 км,1.6 л /\n 150 л.с. /\n ...,Робот,Передний,Левый,Компактвэн Grand,Серебристый,https://rolf-probeg.ru//spb/cars/citroen/c4-pi...,0
430,\n Hyundai Santa Fe РКПП 2021 с пробего...,3 950 000 ₽,2021,до\n 07.2024,до\n 07.2024,48 км,2.2 л /\n 199 л.с. /\n ...,Робот,Полный,Левый,Внедорожник 5 дв.,Зеленый,https://rolf-probeg.ru//spb/cars/hyundai/santa...,0
455,\n ŠKODA Octavia АКПП 2021 с пробегом 3...,2 220 000 ₽,2021,до\n 11.2024,до\n 11.2024,38 км,1.4 л /\n 150 л.с. /\n ...,Автоматическая,Передний,Левый,Лифтбек,Темно-серый,https://rolf-probeg.ru//spb/cars/skoda/octavia...,0
587,\n Hyundai Solaris АКПП 2021 с пробегом...,1 259 060 ₽,2021,до\n 01.2027,до\n 01.2027,5 км,1.6 л /\n 123 л.с. /\n ...,Автоматическая,Передний,Левый,Седан,Белый,https://rolf-probeg.ru//spb/cars/hyundai/solar...,0
1492,\n Toyota Camry АКПП 2021 с пробегом 14...,2 575 000 ₽,2021,до\n 08.2025,до\n 08.2025,140 км,2.5 л /\n 200 л.с. /\n ...,Автоматическая,Передний,Левый,Седан,Синий,https://rolf-probeg.ru//spb/cars/toyota/camry/...,0
1539,\n Hyundai Tucson АКПП 2021 с пробегом ...,2 840 000 ₽,2021,до\n 10.2024,до\n 10.2024,15 км,2.0 л /\n 186 л.с. /\n ...,Автоматическая,Полный,Левый,Внедорожник 5 дв.,Белый,https://rolf-probeg.ru//spb/cars/hyundai/tucso...,0
1766,\n Haval Jolion РКПП 2021 с пробегом 10...,2 008 000 ₽,2021,до\n 11.2023,до\n 11.2023,100 км,1.5 л /\n 150 л.с. /\n ...,Робот,Полный,Левый,Внедорожник 5 дв.,Черный,https://rolf-probeg.ru//spb/cars/haval/jolion/...,0


In [406]:
owners['auto_owners'] = "Нет данных"

In [407]:
change_mil_eng['auto_guarantee'] = change_mil_eng['auto_mileage'] 
change_mil_eng['auto_mileage'] = change_mil_eng['auto_engine']
change_mil_eng['auto_engine'] = change_mil_eng['auto_guarantee']
change_mil_eng['auto_guarantee'] = "Нет гарантии"
change_mil_eng

Unnamed: 0,Type,auto_price,auto_year,auto_owners,auto_guarantee,auto_mileage,auto_engine,auto_transmission,auto_drive_unit,auto_wheel,auto_carcase,auto_color,link,guarantee
262,\n Mitsubishi Pajero АКПП 2021 с пробег...,4 299 000 ₽,2021,Нет данных,Нет гарантии,22 км,3.0 л /\n 174 л.с. /\n ...,Автоматическая,Полный,Левый,Внедорожник 5 дв.,Серый,https://rolf-probeg.ru//spb/cars/mitsubishi/pa...,0
278,\n Mitsubishi Pajero АКПП 2021 с пробег...,4 299 000 ₽,2021,Нет данных,Нет гарантии,21 км,3.0 л /\n 174 л.с. /\n ...,Автоматическая,Полный,Левый,Внедорожник 5 дв.,Серый,https://rolf-probeg.ru//spb/cars/mitsubishi/pa...,0
930,\n Mazda MX-30 АКПП 2020 с пробегом 2 4...,2 690 000 ₽,2020,Нет данных,Нет гарантии,2 410 км,0.0 л /\n 145 л.с. /\n ...,Автоматическая,Передний,Левый,Внедорожник 5 дв.,Серый,https://rolf-probeg.ru//spb/cars/mazda/mx-30/1...,0
1130,\n Kia Carnival АКПП 2017 с пробегом 51...,2 630 000 ₽,2017,Нет данных,Нет гарантии,51 978 км,2.2 л /\n 202 л.с. /\n ...,Автоматическая,Передний,Левый,Минивэн,Черный,https://rolf-probeg.ru//spb/cars/kia/carnival/...,0
1530,\n Ford F-150 АКПП 2019 с пробегом 59 0...,4 899 000 ₽,2019,Нет данных,Нет гарантии,59 000 км,3.5 л /\n 375 л.с. /\n ...,Автоматическая,Полный,Левый,Пикап Двойная кабина Super Crew,Черный,https://rolf-probeg.ru//spb/cars/ford/f-150/16...,0
1550,\n Hyundai Grand Starex АКПП 2018 с про...,3 630 000 ₽,2018,Нет данных,Нет гарантии,40 269 км,2.5 л /\n 175 л.с. /\n ...,Автоматическая,Полный,Левый,Минивэн,Коричневый,https://rolf-probeg.ru//spb/cars/hyundai/grand...,0
1560,\n Kia Carnival АКПП 2017 с пробегом 51...,2 700 000 ₽,2017,Нет данных,Нет гарантии,51 917 км,2.2 л /\n 202 л.с. /\n ...,Автоматическая,Передний,Левый,Минивэн,Белый,https://rolf-probeg.ru//spb/cars/kia/carnival/...,0
1580,\n Kia Optima АКПП 2018 с пробегом 83 0...,1 880 000 ₽,2018,Нет данных,Нет гарантии,83 000 км,2.4 л /\n 188 л.с. /\n ...,Автоматическая,Передний,Левый,Седан,Белый,https://rolf-probeg.ru//spb/cars/kia/optima/16...,0
2099,\n Hyundai Sonata АКПП 2021 с пробегом ...,2 630 000 ₽,2021,Нет данных,Нет гарантии,40 км,2.5 л /\n 180 л.с. /\n ...,Автоматическая,Передний,Левый,Седан,Белый,https://rolf-probeg.ru//spb/cars/hyundai/sonat...,0
2130,\n Lexus GS АКПП 2016 с пробегом 67 539...,3 699 000 ₽,2016,Нет данных,Нет гарантии,67 539 км,3.5 л /\n 311 л.с. /\n ...,Автоматическая,Задний,Левый,Седан,Черный,https://rolf-probeg.ru//spb/cars/lexus/gs/1606...,0


In [408]:
data = pd.concat([data, owners])
data = pd.concat([data, change_mil_eng])
data.shape

(2159, 14)

In [409]:
data.auto_owners.unique()

array(['3                владельца', '4                владельца',
       '1                владелец', '6                владельцев',
       '2                владельца', '9                владельцев',
       '5                владельцев', '7                владельцев',
       '8                владельцев', '16                владельцев',
       '11                владельцев', '10                владельцев',
       'Нет данных'], dtype=object)

In [410]:
data.auto_guarantee.unique()

array(['до\n                  02.2024', 'до\n                  01.2024',
       'до\n                  11.2023', 'до\n                  12.2023',
       'до\n                  10.2024', 'до\n                  03.2022',
       'до\n                  04.2023', 'до\n                  01.2023',
       'до\n                  06.2024', 'до\n                  11.2025',
       'до\n                  10.2023', 'до\n                  07.2022',
       'до\n                  05.2024', 'до\n                  05.2022',
       'до\n                  03.2026', 'до\n                  08.2023',
       'до\n                  08.2022', 'до\n                  10.2022',
       'до\n                  02.2023', 'до\n                  01.2026',
       'до\n                  06.2023', 'до\n                  11.2022',
       'до\n                  12.2026', 'до\n                  06.2022',
       'до\n                  03.2024', 'до\n                  08.2025',
       'до\n                  06.2026', 'до\n      

In [411]:
data.auto_mileage.unique()

array(['133 499 км', '148 558 км', '28 022 км', ..., '51 917 км', '40 км',
       '67 539 км'], dtype=object)

In [412]:
data.auto_engine.unique()

array(['2.0 л /\n              150 л.с. /\n              Бензин',
       '2.5 л /\n              208 л.с. /\n              Бензин',
       '5.6 л /\n              405 л.с. /\n              Бензин',
       '2.0 л /\n              144 л.с. /\n              Бензин',
       '2.0 л /\n              170 л.с. /\n              Бензин',
       '1.6 л /\n              122 л.с. /\n              Бензин',
       '3.0 л /\n              249 л.с. /\n              Дизель',
       '1.6 л /\n              115 л.с. /\n              Бензин',
       '2.4 л /\n              140 л.с. /\n              Бензин',
       '2.5 л /\n              169 л.с. /\n              Бензин',
       '1.6 л /\n              102 л.с. /\n              Бензин',
       '1.6 л /\n              114 л.с. /\n              Бензин',
       '2.2 л /\n              190 л.с. /\n              Дизель',
       '4.4 л /\n              333 л.с. /\n              Бензин',
       '1.6 л /\n              105 л.с. /\n              Бензин',
       '2.