# Preprocessing with Pandas

В этом ноутбуке мы загружаем данные, очищаем их от дубликатов, заполняем пропущенные значения и разбираем информацию о марке и модели автомобиля.

### 1. 📝 Загружаем данные и устанавливаем индекс ID


In [1]:
import pandas as pd

df = pd.read_csv("auto.csv")
df.set_index("ID", inplace=True)
df.head()

Unnamed: 0_level_0,CarNumber,Make_n_model,Refund,Fines,History
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,Y163O8161RUS,Ford Focus,2.0,3200.0,
1,E432XX77RUS,Toyota Camry,1.0,6500.0,
2,7184TT36RUS,Ford Focus,1.0,2100.0,
3,X582HE161RUS,Ford Focus,2.0,2000.0,
4,E34877152RUS,Ford Focus,2.0,6100.0,


### 2. Подсчёт количества записей в DataFrame

In [2]:
num_records_before = df.count()
num_records_before

CarNumber       931
Make_n_model    931
Refund          914
Fines           869
History          82
dtype: int64

### 3. Удаление дубликатов

In [4]:
df = df.drop_duplicates(subset=["CarNumber", "Make_n_model", "Refund"], keep="last")
num_records_after = df.count()
num_records_after

CarNumber       682
Make_n_model    682
Refund          665
Fines           639
History          63
dtype: int64

### 4. Работа с пропущенными значениями

#### 1️⃣ Подсчёт пропущенных значений в каждой колонке

In [5]:
missing_values_before = df.isna().sum()
missing_values_before

CarNumber         0
Make_n_model      0
Refund           17
Fines            43
History         619
dtype: int64

#### 2️⃣ Удаление колонок с более чем 500 пропущенными значениями

In [6]:
df = df.dropna(thresh=len(df) - 500, axis=1)

missing_values_after_dropping = df.isna().sum()
missing_values_after_dropping

CarNumber        0
Make_n_model     0
Refund          17
Fines           43
dtype: int64

#### 3️⃣ Заполнение пропущенных значений в колонке Refund значением из предыдущей строки

In [10]:
df["Refund"] = df["Refund"].ffill()

missing_values_after_refund = df.isna().sum()
missing_values_after_refund

CarNumber        0
Make_n_model     0
Refund           0
Fines           43
dtype: int64

#### 4️⃣ Заполнение пропущенных значений в колонке Fines средним значением

In [11]:
df["Fines"] = df["Fines"].fillna(df["Fines"].mean())

missing_values_after_fines = df.isna().sum()
missing_values_after_fines

CarNumber       0
Make_n_model    0
Refund          0
Fines           0
dtype: int64

### 5. Разделение колонки Make_n_model на Make и Model

In [12]:
df[["Make", "Model"]] = df["Make_n_model"].apply(lambda x: pd.Series(str(x).split(" ", 1)))

df.drop(columns=["Make_n_model"], inplace=True)

df.head()

Unnamed: 0_level_0,CarNumber,Refund,Fines,Make,Model
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,E432XX77RUS,1.0,6500.0,Toyota,Camry
2,7184TT36RUS,1.0,2100.0,Ford,Focus
3,X582HE161RUS,2.0,2000.0,Ford,Focus
7,X4128H125RUS,1.0,7458.528951,Ford,Focus
10,H234YH197RUS,2.0,6000.0,Ford,Focus


### 6. Сохранение в JSON-файл

In [13]:
df.to_json("auto.json", orient="records", indent=4)

df.head()

Unnamed: 0_level_0,CarNumber,Refund,Fines,Make,Model
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,E432XX77RUS,1.0,6500.0,Toyota,Camry
2,7184TT36RUS,1.0,2100.0,Ford,Focus
3,X582HE161RUS,2.0,2000.0,Ford,Focus
7,X4128H125RUS,1.0,7458.528951,Ford,Focus
10,H234YH197RUS,2.0,6000.0,Ford,Focus
