# Обработка данных

## Подключение библиотек и считывание данных

In [2]:
# импорт библиотек
import pandas as pd

In [3]:
# считываем данные
data = pd.read_csv('../data/car_price.csv', index_col=0)

data.head()

Unnamed: 0,Год выпуска,Поколение,Пробег,История пробега,ПТС,Владельцев по ПТС,Состояние,Модификация,Объём двигателя,Тип двигателя,Коробка передач,Привод,Комплектация,Тип кузова,Цвет,Руль,VIN или номер кузова,Название,Цена,Обмен
0,2010,I рестайлинг (2009—2012),156 000 км,7 записей в отчёте Автотеки,Оригинал,2,Не битый,2.3 4WD AT (238 л.с.),2.3 л,Бензин,Автомат,Полный,Sport,Внедорожник 5-дверный,Белый,Левый,JMZE*************,Mazda CX-7,1050000,
1,2020,G07 (2018—2022),109 000 км,Проверить в Автотеке,Оригинал,1,Не битый,M50d 3.0 xDrive Steptronic (400 л.с.),3 л,Дизель,Автомат,Полный,Special by Individual,Внедорожник 5-дверный,Синий,Левый,WBAC*************,BMW X7,8800000,Не интересует
2,2023,I (2023—2024),15 км,,,1,Не битый,2.0 T-GDI 4WD DCT (249 л.с.),2 л,Бензин,Робот,Полный,Platinum,Внедорожник 5-дверный,Чёрный,Левый,LVTD*************,EXEED RX,3730000,
3,2024,I (2022—2024),300 км,2 записи в отчёте Автотеки,,1,Не битый,1.5hyb 4WD AT (530 л.с.),1.5 л,Гибрид,Автомат,Полный,Executive,Седан,Чёрный,Левый,LDP9*************,Voyah Passion (Chasing Light),6770000,
4,2024,I (2021—2024),10 км,,Электронный,1,Не битый,2.0 4WD AT (238 л.с.),2 л,Бензин,Автомат,Полный,Flagship,Внедорожник 5-дверный,Белый,Левый,LB37*************,Geely Monjaro,3600000,Не интересует


## Обработка пропущенных значений

### Обзор данных

In [4]:
# удалим дубликаты, пересоберем индексы, посмотрим размерность
data.drop_duplicates(keep='first', inplace=True)
data.reset_index(drop=True, inplace=True)
data.shape

(2109, 20)

In [5]:
# посмотрим на краткое содержание данных
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2109 entries, 0 to 2108
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Год выпуска           2109 non-null   int64 
 1   Поколение             2109 non-null   object
 2   Пробег                2109 non-null   object
 3   История пробега       2008 non-null   object
 4   ПТС                   1373 non-null   object
 5   Владельцев по ПТС     2109 non-null   object
 6   Состояние             2109 non-null   object
 7   Модификация           2108 non-null   object
 8   Объём двигателя       2107 non-null   object
 9   Тип двигателя         2109 non-null   object
 10  Коробка передач       2109 non-null   object
 11  Привод                2109 non-null   object
 12  Комплектация          1715 non-null   object
 13  Тип кузова            2109 non-null   object
 14  Цвет                  2109 non-null   object
 15  Руль                  2109 non-null   

Видно, что у признаков **История пробега**, **ПТС**, **Модификация**, **Объем двигателя**, **Комплектация** и **Обмен** есть пропущенные значения.

### Признак - **История пробега**

**История пробега** показывает количество информации об автомобиле на конкретном агрегаторе - Авито. Его можно удалить

In [6]:
data.drop(columns="История пробега", inplace=True)

### Признак - **ПТС**

In [7]:
# посмотрим, какие значения может принимать столбец ПТС
data['ПТС'].value_counts()

ПТС
Оригинал       1002
Электронный     213
Дубликат        158
Name: count, dtype: int64

Можно было бы сделать данный признак бинарным - ПТС указан/не указан, однако формат ПТС также может влиять на автомобиля. Считается, что с дубликат ПТС является менее предпочтительным вариантом, так как может, например, указывать на частую смену владельцев. Более подробно про виды ПТС:
- https://rolf-probeg.ru/blog/dublikat-pts-chem-opasen-i-kak-otlichit-ot-originala/?utm_source=google.com&utm_medium=organic&utm_campaign=google.com&utm_referrer=google.com
- https://ufa.tts.ru/blog/sovety-avtomobilistam/vse-ob-elektronnom-pts-v-chem-otlichiya-ot-bumazhnogo-formata-kak-poluchit-epts-i-postavit-mashinu-n/

Данный признак является категориальным. Заполним пропущенные ячейки значением "Не указан"

In [8]:
data['ПТС'].fillna('Не указан', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['ПТС'].fillna('Не указан', inplace=True)


### Признак - **Модификация**

In [9]:
# посмотрим на некоторые значения 
data['Модификация'].head()

0                    2.3 4WD AT (238 л.с.)
1    M50d 3.0 xDrive Steptronic (400 л.с.)
2             2.0 T-GDI 4WD DCT (249 л.с.)
3                 1.5hyb 4WD AT (530 л.с.)
4                    2.0 4WD AT (238 л.с.)
Name: Модификация, dtype: object

In [10]:
# посмотрим на строки с пропущенными значениями
data[data['Модификация'].isna()]

Unnamed: 0,Год выпуска,Поколение,Пробег,ПТС,Владельцев по ПТС,Состояние,Модификация,Объём двигателя,Тип двигателя,Коробка передач,Привод,Комплектация,Тип кузова,Цвет,Руль,VIN или номер кузова,Название,Цена,Обмен
1621,2014,I (2010—2014),109 000 км,Не указан,2,Не битый,,1.6 л,Бензин,Вариатор,Полный,,Внедорожник 5-дверный,Белый,Левый,SJNF*************,Nissan Juke,1419000,Возможен


Модификацию можно определить по другим признакам. Найдем машину с такими же характеристиками

In [11]:
data[(data['Название'] == 'Nissan Juke') & (data['Привод'] == 'Полный')]

Unnamed: 0,Год выпуска,Поколение,Пробег,ПТС,Владельцев по ПТС,Состояние,Модификация,Объём двигателя,Тип двигателя,Коробка передач,Привод,Комплектация,Тип кузова,Цвет,Руль,VIN или номер кузова,Название,Цена,Обмен
1621,2014,I (2010—2014),109 000 км,Не указан,2,Не битый,,1.6 л,Бензин,Вариатор,Полный,,Внедорожник 5-дверный,Белый,Левый,SJNF*************,Nissan Juke,1419000,Возможен
1667,2011,I (2010—2014),103 000 км,Оригинал,2,Не битый,1.6 CVT (190 л.с.) 4WD,1.6 л,Бензин,Вариатор,Полный,Базовая,Внедорожник 5-дверный,Чёрный,Левый,JN8A*************,Nissan Juke,1170000,Возможен


In [12]:
# запишем вместо пустого значения модификацию - "1.6 CVT (190 л.с.) 4WD"
data.loc[1621, 'Модификация'] = "1.6 CVT (190 л.с.) 4WD"

Модификация включает себя следующий параметры автомобиля: характеристики двигателя (объем, мощность, тип топлива, индекс/наименование), тип привода, тип КПП. Получается, данный признак дублирует информацию 4-х других признаков - **Объём двигателя**, **Тип двигателя**, **Коробка передач**, **Привод**. Тогда заменим признак **Модификация** на **Мощность**, вытащив нужную информацию

In [13]:
data['Мощность'] = data['Модификация'].apply(lambda x: str(x).split()[-2].replace('(', ''))
data.head()

Unnamed: 0,Год выпуска,Поколение,Пробег,ПТС,Владельцев по ПТС,Состояние,Модификация,Объём двигателя,Тип двигателя,Коробка передач,Привод,Комплектация,Тип кузова,Цвет,Руль,VIN или номер кузова,Название,Цена,Обмен,Мощность
0,2010,I рестайлинг (2009—2012),156 000 км,Оригинал,2,Не битый,2.3 4WD AT (238 л.с.),2.3 л,Бензин,Автомат,Полный,Sport,Внедорожник 5-дверный,Белый,Левый,JMZE*************,Mazda CX-7,1050000,,238
1,2020,G07 (2018—2022),109 000 км,Оригинал,1,Не битый,M50d 3.0 xDrive Steptronic (400 л.с.),3 л,Дизель,Автомат,Полный,Special by Individual,Внедорожник 5-дверный,Синий,Левый,WBAC*************,BMW X7,8800000,Не интересует,400
2,2023,I (2023—2024),15 км,Не указан,1,Не битый,2.0 T-GDI 4WD DCT (249 л.с.),2 л,Бензин,Робот,Полный,Platinum,Внедорожник 5-дверный,Чёрный,Левый,LVTD*************,EXEED RX,3730000,,249
3,2024,I (2022—2024),300 км,Не указан,1,Не битый,1.5hyb 4WD AT (530 л.с.),1.5 л,Гибрид,Автомат,Полный,Executive,Седан,Чёрный,Левый,LDP9*************,Voyah Passion (Chasing Light),6770000,,530
4,2024,I (2021—2024),10 км,Электронный,1,Не битый,2.0 4WD AT (238 л.с.),2 л,Бензин,Автомат,Полный,Flagship,Внедорожник 5-дверный,Белый,Левый,LB37*************,Geely Monjaro,3600000,Не интересует,238


In [14]:
# удалим теперь не нужный столбец "Модификация"
data.drop(columns='Модификация', inplace=True)

### Признак - **Объем двигателя**

Посмотрим, у каких строк отсутствуют значения данной колонки

In [15]:
data[data['Объём двигателя'].isna()] 

Unnamed: 0,Год выпуска,Поколение,Пробег,ПТС,Владельцев по ПТС,Состояние,Объём двигателя,Тип двигателя,Коробка передач,Привод,Комплектация,Тип кузова,Цвет,Руль,VIN или номер кузова,Название,Цена,Обмен,Мощность
1736,2022,II (2017—2024),15 220 км,Электронный,1,Не битый,,Электро,Автомат,Передний,Базовая,Хетчбек 5-дверный,Белый,Левый,1N4C*************,Nissan Leaf,2930000,Возможен,218
1810,2015,II рестайлинг (2015—2017),124 636 км,Не указан,3,Не битый,,Бензин,Автомат,Передний,Luxe,Хетчбек 5-дверный,Розовый,Левый,KNAB*************,Kia Picanto,1020000,,85


Сначала заполним строку с Kia Picanto, найдя машину с такими же остальными характеристиками

In [16]:
data[(data['Название'] == 'Kia Picanto') & (data['Мощность'] == 85)]

Unnamed: 0,Год выпуска,Поколение,Пробег,ПТС,Владельцев по ПТС,Состояние,Объём двигателя,Тип двигателя,Коробка передач,Привод,Комплектация,Тип кузова,Цвет,Руль,VIN или номер кузова,Название,Цена,Обмен,Мощность


В датасете не нашлось таких же авто. Найдем объем двигателя, обратясь к каталогу *Авито*:
- https://www.avito.ru/catalog/auto/kia/picanto/ii_restayling/hetchbek/specs-ASgBAgICBUTgtg3KmCjitg3yrCjmtg3Qtyjqtg3~_CjQvA78m9EB?uid=7OV8QUr

Объем двигателя - 1.3 л

In [17]:
# запишем в датафрейм
data.loc[1810, 'Объём двигателя'] = "1.3 л"

Заметим, что у автомобилей с электрическим типом двигателя не может быть такой характеристики, как **Объем двигателя**. Запишем в эту колонку `0` у электромобилей. Тогда модель просто не будет учитывать этот признак у авто с электродвигателем, что логично

In [18]:
# обновим значения
data.update(data[data['Тип двигателя'] == 'Электро']['Объём двигателя'].fillna('0 л'))

In [19]:
# посмотрим, что исправилось корректно
data[data['Тип двигателя'] == 'Электро'] 

Unnamed: 0,Год выпуска,Поколение,Пробег,ПТС,Владельцев по ПТС,Состояние,Объём двигателя,Тип двигателя,Коробка передач,Привод,Комплектация,Тип кузова,Цвет,Руль,VIN или номер кузова,Название,Цена,Обмен,Мощность
1736,2022,II (2017—2024),15 220 км,Электронный,1,Не битый,0 л,Электро,Автомат,Передний,Базовая,Хетчбек 5-дверный,Белый,Левый,1N4C*************,Nissan Leaf,2930000,Возможен,218


Сделаем этот признак вещественным, убрав букву "л"

In [20]:
data['Объём двигателя'] = data['Объём двигателя'].apply(lambda x: x.split()[0])

In [21]:
data.head()

Unnamed: 0,Год выпуска,Поколение,Пробег,ПТС,Владельцев по ПТС,Состояние,Объём двигателя,Тип двигателя,Коробка передач,Привод,Комплектация,Тип кузова,Цвет,Руль,VIN или номер кузова,Название,Цена,Обмен,Мощность
0,2010,I рестайлинг (2009—2012),156 000 км,Оригинал,2,Не битый,2.3,Бензин,Автомат,Полный,Sport,Внедорожник 5-дверный,Белый,Левый,JMZE*************,Mazda CX-7,1050000,,238
1,2020,G07 (2018—2022),109 000 км,Оригинал,1,Не битый,3.0,Дизель,Автомат,Полный,Special by Individual,Внедорожник 5-дверный,Синий,Левый,WBAC*************,BMW X7,8800000,Не интересует,400
2,2023,I (2023—2024),15 км,Не указан,1,Не битый,2.0,Бензин,Робот,Полный,Platinum,Внедорожник 5-дверный,Чёрный,Левый,LVTD*************,EXEED RX,3730000,,249
3,2024,I (2022—2024),300 км,Не указан,1,Не битый,1.5,Гибрид,Автомат,Полный,Executive,Седан,Чёрный,Левый,LDP9*************,Voyah Passion (Chasing Light),6770000,,530
4,2024,I (2021—2024),10 км,Электронный,1,Не битый,2.0,Бензин,Автомат,Полный,Flagship,Внедорожник 5-дверный,Белый,Левый,LB37*************,Geely Monjaro,3600000,Не интересует,238


### Признак - **Комплектация**

Каждая модель авто имеет свои названия комплектаций или не имеет их вообще, поэтому данный признак имеет очень большое количество различных невещественных значений. Удалим его

In [22]:
# посмотим, какие значения принимает данный признак
data['Комплектация'].value_counts()

Комплектация
Базовая                282
Comfort                156
Luxe                    97
Люкс                    45
Prestige                42
                      ... 
Black Vision             1
Prestige Black           1
Classic Кондиционер      1
Classique                1
Lifestyle Plus           1
Name: count, Length: 328, dtype: int64

In [23]:
data.drop(columns='Комплектация', inplace=True)

### Признак - **Обмен**

In [24]:
# посмотрим на распределение значений в данной колонке
data['Обмен'].value_counts()

Обмен
Не интересует    929
Возможен         625
Name: count, dtype: int64

Большая часть не рассматривает обмен. Это специфичный запрос, поэтому можно предположить, что если продавца интересует обмен, то он это скорее всего укажет. В противном случае, продавец может просто не обратить внимания на этот параметр и ничего не напишет. Заменим пустые значения на "Не интересует"

In [27]:
data['Обмен'].fillna('Не интересует', inplace=True)