## Предварительная обработка данных

*Подгружаем нужные библиотеки*

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

*Подгружаем файл*

In [2]:
df = pd.read_csv("data\\auto.csv", na_values = '?')
df.head(5)

Unnamed: 0,model auto,year of production,mileage,exterior colour,tax,transmission,wheel drive,condition,number of owners,engine volume,engine power,engine type,fuel type,acceleration,MPG,country of the car brand,class,top speed,environmental class,price
0,"Mercedes-Benz GLS 450, 2019",2019,98 500 км,чёрный,55 050 / год,автоматическая,полный,Не требует ремонта,1 владелец,3.0 л,367 л.с.,бензиновый,АИ-95,6.2 с,9.4 л,Германия,F,246 км/ч,Euro 6,9 299 000
1,"Mercedes-Benz V-Класс XL 200 d экстра длинный,...",2018,51 400 км,чёрный,4 760 / год,автоматическая,задний,Не требует ремонта,2 владельца,2.1 л,136 л.с.,дизельный,ДТ,12.8 с,5.8 л,Германия,M,181 км/ч,Euro 5,12 800 000
2,"Mercedes-Benz G-Класс 350 d, 2020",2020,23 500 км,чёрный,18 675 / год,автоматическая,полный,Не требует ремонта,1 владелец,2.9 л,249 л.с.,дизельный,ДТ,7.4 с,9.8 л,Германия,J,199 км/ч,Euro 6,17 499 000
3,"BMW X6 40i, 2021",2021,50 300 км,чёрный,51 000 / год,автоматическая,полный,Не требует ремонта,2 владельца,3.0 л,340 л.с.,бензиновый,АИ-95,5.5 с,8.6 л,Германия,E,250 км/ч,Euro 6,9 990 000
4,"BMW 5 серии 540d xDrive, 2022",2022,6 152 км,серый,51 000 / год,автоматическая,полный,Не требует ремонта,1 владелец,3.0 л,340 л.с.,дизельный,ДТ,4.6 с,5.1 л,Германия,E,250 км/ч,Euro 6,9 900 000


**Описание переменных**

* `model auto` — модель и марка автомобиля
* `year of production` — год выпуска
* `mileage` — пробег
* `exterior colour` — цвет кузова
* `tax` — налог
* `transmission` — тип коробки передач
* `wheel drive` — тип привода
* `condition` — состояние автомобиля
* `number of owners` — количество владельцев
* `engine volume` — объём двигателя
* `engine power` — мощность двигателя
* `engine type` — тип двигателя
* `fuel type` — тип топлива
* `acceleration` — время разгона до 100 км/ч
* `MPG` — средний расход топлива
* `country of the car brand` — страна-производитель
* `class` — класс автомобиля
* `top speed` — максимальная скорость
* `environmental class` — экологический класс
* `price` — цена

*Для начала из столбца `model auto` уберём всё, кроме марки автомобиля*

In [3]:
df["model auto"] = df["model auto"].apply(lambda x: x.split(' ')[0])

*Теперь в столбцах: `mileage`, `tax`, `volume`, `power`, `acceleration`, `consumption`, `speed`, `price` мы уберём символы и оставим только числовые данные*

In [4]:
def correct_values(value: str):
    result = ''
    for i in value:
        if (i.isdigit()):
            result += i
    return float(result if (result != '') else np.nan)

In [5]:
for col in ['mileage', 'tax', 'engine volume', 'engine power', 'acceleration', 'MPG', 'top speed', 'price']:
    df[col] = df[col].map(lambda x: correct_values(x), na_action = "ignore")

*Посмотрим на количество пропусков в данных*

In [6]:
df.isna().agg('mean')

model auto                  0.000000
year of production          0.000000
mileage                     0.000000
exterior colour             0.000000
tax                         0.007153
transmission                0.000000
wheel drive                 0.000000
condition                   0.000000
number of owners            0.000358
engine volume               0.000715
engine power                0.000358
engine type                 0.000358
fuel type                   0.027539
acceleration                0.033977
MPG                         0.030758
country of the car brand    0.000358
class                       0.000715
top speed                   0.028612
environmental class         0.234979
price                       0.000000
dtype: float64

*Можем заметить, что в столбце environmental class более чем в 20% случаев отсутствуют данные</br>
Сделаем предположение, что если не указан экологический класс автомобиля, то его просто нет, тогда заменим пропуски на значение **Euro 0***

In [7]:
df["environmental class"] = df["environmental class"].fillna("Euro 0")

*Посмотрим на значения в столбце `condition`*

In [8]:
df["condition"].value_counts()

condition
Не требует ремонта    2796
Name: count, dtype: int64

*Все значения в столбце одинаковые, он не несёт никакого смысла, поэтому удалим его*

In [9]:
df = df.drop(["condition"], axis = 1)

*Посмотрим на типы данных каждого столбца в нашей таблице и убедимся, что всё верно*

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2796 entries, 0 to 2795
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   model auto                2796 non-null   object 
 1   year of production        2796 non-null   int64  
 2   mileage                   2796 non-null   float64
 3   exterior colour           2796 non-null   object 
 4   tax                       2776 non-null   float64
 5   transmission              2796 non-null   object 
 6   wheel drive               2796 non-null   object 
 7   number of owners          2795 non-null   object 
 8   engine volume             2794 non-null   float64
 9   engine power              2795 non-null   float64
 10  engine type               2795 non-null   object 
 11  fuel type                 2719 non-null   object 
 12  acceleration              2701 non-null   float64
 13  MPG                       2710 non-null   float64
 14  country 

*Ещё раз посмотрим на количество пропусков в нашей таблице*

In [11]:
df.isna().agg('sum')

model auto                   0
year of production           0
mileage                      0
exterior colour              0
tax                         20
transmission                 0
wheel drive                  0
number of owners             1
engine volume                2
engine power                 1
engine type                  1
fuel type                   77
acceleration                95
MPG                         86
country of the car brand     1
class                        2
top speed                   80
environmental class          0
price                        0
dtype: int64

*Так как пропусков не очень много, а замена на медиану не будет точной метрикой, поскольку многое зависит от марки автомобиля и мы можем занизить характеристики дорогих автомобилей, то просто удалим строки, в которых есть пропущенные значения*

In [12]:
df = df.dropna()

*Сохранение данных*

In [13]:
df.to_csv('data\\auto_new.csv', index=False)

*Посмотрим на новые данные*

In [14]:
df_new = pd.read_csv("data\\auto_new.csv")
df_new.head(5)

Unnamed: 0,model auto,year of production,mileage,exterior colour,tax,transmission,wheel drive,number of owners,engine volume,engine power,engine type,fuel type,acceleration,MPG,country of the car brand,class,top speed,environmental class,price
0,Mercedes-Benz,2019,98500.0,чёрный,55050.0,автоматическая,полный,1 владелец,30.0,367.0,бензиновый,АИ-95,62.0,94.0,Германия,F,246.0,Euro 6,9299000.0
1,Mercedes-Benz,2018,51400.0,чёрный,4760.0,автоматическая,задний,2 владельца,21.0,136.0,дизельный,ДТ,128.0,58.0,Германия,M,181.0,Euro 5,12800000.0
2,Mercedes-Benz,2020,23500.0,чёрный,18675.0,автоматическая,полный,1 владелец,29.0,249.0,дизельный,ДТ,74.0,98.0,Германия,J,199.0,Euro 6,17499000.0
3,BMW,2021,50300.0,чёрный,51000.0,автоматическая,полный,2 владельца,30.0,340.0,бензиновый,АИ-95,55.0,86.0,Германия,E,250.0,Euro 6,9990000.0
4,BMW,2022,6152.0,серый,51000.0,автоматическая,полный,1 владелец,30.0,340.0,дизельный,ДТ,46.0,51.0,Германия,E,250.0,Euro 6,9900000.0
