<a href="https://colab.research.google.com/github/akbash-e/da-ai-course-kbsu-ncfu/blob/main/2024-fall/seminar2/Dataset_Preparation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/akbash-e/da-ai-course-kbsu-ncfu/blob/main/2024-fall/seminar2/Dataset_Preparation.ipynb)

# Подготовка реального набора данных

Рассмотрим датасет с объявлениями о продаже автомобилей в Германии на 2022 год. Осмотрим первично данные и выполним их предобработку, также сделаем соответствующие выводы по полученной информации.

Обзор данных:
* `mileage` — Пройденное расстояние на автомобиле
* `make` — Марка автомобиля
* `model` — Модель автомобиля
* `fuel` — Тип топлива
* `gear` — Тип коробки передач
* `offerType` — Тип предложения, то есть «Новые», «Демонстрационные» машины и т.д.
* `price` — Цена продажи автомобиля в объявлении (в долларах)
* `hp` — Количество лошадиных сил
* `year` — Год производства автомобиля

In [2]:
import numpy as np
import pandas as pd

pd.set_option("display.precision", 2)
pd.options.mode.copy_on_write = True

In [3]:
DATA_URL = "https://raw.githubusercontent.com/akbash-e/da-ai-course-kbsu-ncfu/main/data/"

In [4]:
df = pd.read_csv(DATA_URL + "germany_cars.csv")
df.head()

Unnamed: 0,mileage,make,model,fuel,gear,offerType,price,hp,year
0,235000,BMW,316,Diesel,Manual,Used,6800.0,116.0,2011
1,92800,Volkswagen,Golf,Gasoline,Manual,Used,6877.0,122.0,2011
2,149300,SEAT,Exeo,Gasoline,Manual,Used,6900.0,160.0,2011
3,96200,Renault,Megane,Gasoline,Manual,Used,6950.0,110.0,2011
4,156000,Peugeot,308,Gasoline,Manual,Used,6950.0,156.0,2011


Проведем первичный осмотр данных при помощи известных методов `info`, `describe`. И сделаем выводы на основе полученной информации

In [5]:
df.shape

(46405, 9)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46405 entries, 0 to 46404
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   mileage    46405 non-null  int64  
 1   make       46405 non-null  object 
 2   model      46262 non-null  object 
 3   fuel       46158 non-null  object 
 4   gear       46223 non-null  object 
 5   offerType  46405 non-null  object 
 6   price      44872 non-null  float64
 7   hp         46376 non-null  float64
 8   year       46405 non-null  int64  
dtypes: float64(2), int64(2), object(5)
memory usage: 3.2+ MB


- в датафрейме 9 столбцов
- 5 из них имеют тип `object`
- 2 из них имеют тип `float64`
- 2 столбца имеют тип `int64`
- всего в датафрейме `46405` строк
- в столбцах `model`, `fuel`, `gear`, `price`, `hp` есть пропуски (`NaN`)
- объем занимаемый датафреймом 3.2+ MB

In [7]:
df.describe()

Unnamed: 0,mileage,price,hp,year
count,46400.0,44900.0,46376.0,46405.0
mean,71200.0,16600.0,132.99,2016.01
std,62600.0,19400.0,75.45,3.16
min,0.0,1100.0,1.0,2011.0
25%,19800.0,7490.0,86.0,2013.0
50%,60000.0,11000.0,116.0,2016.0
75%,105000.0,19500.0,150.0,2019.0
max,1110000.0,1200000.0,850.0,2021.0


- средний пробег авто -- 71177.864
- средняя стоимость авто -- 16565.451
- в среднем год выпуска -- 2016, самый старый автомобиль 2011 года, самый новый 2021

In [8]:
df.describe(include='object')

Unnamed: 0,make,model,fuel,gear,offerType
count,46405,46262,46158,46223,46405
unique,77,841,11,3,5
top,Volkswagen,Golf,Gasoline,Manual,Used
freq,6931,1492,28702,30380,40122


- исходя из самых частых значений можно сказать, что больше всего продается бензиновых Volkswagen Golf на МКПП с пробегом

3. Переименуем столбец `offerType` под стандартное название `offer_type`

In [9]:
df = df.rename(columns={'offerType': 'offer_type'})
df.head()

Unnamed: 0,mileage,make,model,fuel,gear,offer_type,price,hp,year
0,235000,BMW,316,Diesel,Manual,Used,6800.0,116.0,2011
1,92800,Volkswagen,Golf,Gasoline,Manual,Used,6877.0,122.0,2011
2,149300,SEAT,Exeo,Gasoline,Manual,Used,6900.0,160.0,2011
3,96200,Renault,Megane,Gasoline,Manual,Used,6950.0,110.0,2011
4,156000,Peugeot,308,Gasoline,Manual,Used,6950.0,156.0,2011


# Работа с дубликатами данных

Выведем на экран количество дублированных строк в данных, если таковые имеются

In [10]:
df.duplicated().sum()

2003

Удалим дубликаты

In [12]:
df = df.drop_duplicates()

Сбросим индекс

In [13]:
df = df.reset_index(drop=True)

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44402 entries, 0 to 44401
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   mileage     44402 non-null  int64  
 1   make        44402 non-null  object 
 2   model       44265 non-null  object 
 3   fuel        44155 non-null  object 
 4   gear        44227 non-null  object 
 5   offer_type  44402 non-null  object 
 6   price       42882 non-null  float64
 7   hp          44378 non-null  float64
 8   year        44402 non-null  int64  
dtypes: float64(2), int64(2), object(5)
memory usage: 3.0+ MB


# Работа с пропусками

Выведем на экран количество пропусков в каждом столбце и опишем их

In [15]:
df.isnull().sum()

Unnamed: 0,0
mileage,0
make,0
model,137
fuel,247
gear,175
offer_type,0
price,1520
hp,24
year,0


- столбец `model` содержит `137` пропущенных значений
- столбец `fuel` содержит `247` пропущенных значений
- столбец `gear` содержит `175` пропущенных значений
- столбец `price` содержит `1520` пропущенных значений
- столбец `hp` содержит `24` пропущенных значений

Пропущенные значения могут возникать из различных причин, например:
- Во время сбора данных не были предоставлены значения для определенных атрибутов.
-Пропуски могут быть результатом ошибок при записи данных.
-Некоторые значения могут быть недоступны или неизвестны в момент заполнения данных.

Чтобы исправить пропущенные значения, можно применить различные стратегии:
1. Удалить строки или столбцы с пропущенными значениями, если они несущественны для анализа данных.
2. Заполнить пропущенные значения средним, медианой или наиболее часто встречающимся значением в столбце.
3. Использовать методы интерполяции для заполнения пропусков, основываясь на имеющихся значениях.
4. Использовать модели машинного обучения для предсказания пропущенных значений на основе других признаков.


Заполним пропуски модой (то есть наиболее часто встречающимся значением) в `model`,`fuel`,`gear`

In [16]:
df['model'] = df['model'].fillna(df['model'].mode())
df['fuel'] = df['fuel'].fillna(df['fuel'].mode())
df['gear'] = df['gear'].fillna(df['gear'].mode())

Заполним пропуски в столбце `price` с помощью медианного значения по моделям автомобиля

In [19]:
median_price = df.groupby(by='model', as_index=False).agg(mp=('price', 'median'))
median_price_dict = median_price.set_index('model')['mp'].to_dict()
df['price'] = df['price'].fillna(df['model'].map(median_price_dict))
display(df)

Unnamed: 0,mileage,make,model,fuel,gear,offer_type,price,hp,year
0,235000,BMW,316,Diesel,Manual,Used,6800.0,116.0,2011
1,92800,Volkswagen,Golf,Gasoline,Manual,Used,6877.0,122.0,2011
2,149300,SEAT,Exeo,Gasoline,Manual,Used,6900.0,160.0,2011
3,96200,Renault,Megane,Gasoline,Manual,Used,6950.0,110.0,2011
4,156000,Peugeot,308,Gasoline,Manual,Used,6950.0,156.0,2011
...,...,...,...,...,...,...,...,...,...
44397,10,Citroen,C1,Gasoline,Manual,Pre-registered,12340.0,72.0,2021
44398,99,Fiat,500,Electric/Gasoline,Manual,Pre-registered,12490.0,71.0,2021
44399,550,Fiat,500,Electric/Gasoline,Manual,Demonstration,12805.0,69.0,2021
44400,837,Fiat,Panda,Electric/Gasoline,Manual,Demonstration,12805.0,69.0,2021


Удалить оставшиеся пропуски можно так:

In [20]:
df = df.dropna().reset_index(drop=True)

Проверим, что пропусков больше нет

In [21]:
df.isnull().sum()

Unnamed: 0,0
mileage,0
make,0
model,0
fuel,0
gear,0
offer_type,0
price,0
hp,0
year,0


In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43835 entries, 0 to 43834
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   mileage     43835 non-null  int64  
 1   make        43835 non-null  object 
 2   model       43835 non-null  object 
 3   fuel        43835 non-null  object 
 4   gear        43835 non-null  object 
 5   offer_type  43835 non-null  object 
 6   price       43835 non-null  float64
 7   hp          43835 non-null  float64
 8   year        43835 non-null  int64  
dtypes: float64(2), int64(2), object(5)
memory usage: 3.0+ MB


Создадим новый столбец из `make` и `model`

In [23]:
df['make_model'] = df['make'] + ' ' + df['model']
df.head()

Unnamed: 0,mileage,make,model,fuel,gear,offer_type,price,hp,year,make_model
0,235000,BMW,316,Diesel,Manual,Used,6800.0,116.0,2011,BMW 316
1,92800,Volkswagen,Golf,Gasoline,Manual,Used,6877.0,122.0,2011,Volkswagen Golf
2,149300,SEAT,Exeo,Gasoline,Manual,Used,6900.0,160.0,2011,SEAT Exeo
3,96200,Renault,Megane,Gasoline,Manual,Used,6950.0,110.0,2011,Renault Megane
4,156000,Peugeot,308,Gasoline,Manual,Used,6950.0,156.0,2011,Peugeot 308
