In [180]:
import pandas as pd

# Ex02. Предварительная обработка

## 1. Чтение файла auto.csv

In [181]:
df = pd.read_csv("data/auto.csv", index_col='ID', sep=',', header=0)

## 2. Количество элементов в фрейме

In [182]:
df.count()

CarNumber       931
Make_n_model    931
Refund          914
Fines           869
History          82
dtype: int64

## 3. Удаление дубликатов по столбцам CarNumber, Make_n_model, Fines

In [183]:
df = df.drop_duplicates(subset=['CarNumber', 'Make_n_model', 'Fines'], keep='last')
df.count()

CarNumber       725
Make_n_model    725
Refund          713
Fines           665
History          65
dtype: int64

## 4. Работа с пропущенными значениями

### 4.1. Количество пропущенных значений

In [184]:
df.isnull().sum()

CarNumber         0
Make_n_model      0
Refund           12
Fines            60
History         660
dtype: int64

### 4.2. Удаление столбцов с более чем 500 пропущенными значениями

In [185]:
df = df.dropna(axis = 1, thresh = len(df) - 500)
df.count()

CarNumber       725
Make_n_model    725
Refund          713
Fines           665
dtype: int64

### 4.3. Замена пропущенных значений

In [186]:
df['Refund'] = df['Refund'].ffill()
df.count()

CarNumber       725
Make_n_model    725
Refund          725
Fines           665
dtype: int64

In [187]:
df['Fines'] = df['Fines'].fillna(df['Fines'].mean())
df.count()

CarNumber       725
Make_n_model    725
Refund          725
Fines           725
dtype: int64

## 5. Разделение Make_n_model

In [188]:
df[['Make', 'Model']] = df['Make_n_model'].apply(lambda x: pd.Series(x.split(' ')))
df = df.drop(columns=['Make_n_model'])
df.head()

Unnamed: 0_level_0,CarNumber,Refund,Fines,Make,Model
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,Y163O8161RUS,2.0,3200.0,Ford,Focus
1,E432XX77RUS,1.0,6500.0,Toyota,Camry
2,7184TT36RUS,1.0,2100.0,Ford,Focus
3,X582HE161RUS,2.0,2000.0,Ford,Focus
5,92918M178RUS,1.0,5700.0,Ford,Focus


## 6. Сохранение фрейма данных в csv файл

In [189]:
df.to_json("data/auto.json", orient='records')