# Очистка данных

Импорт библиотек

In [1]:
import polars as pl

Загрузим датасет

In [2]:
url = "https://raw.githubusercontent.com/m-ardat/Library_Polars/main/dataset/cars.csv"
df = pl.read_csv(source=url)

In [3]:
df.head(4)

name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,torque,seats
str,i64,i64,i64,str,str,str,str,str,str,str,str,f64
"""Maruti Swift Dzire VDI""",2014,450000,145500,"""Diesel""","""Individual""","""Manual""","""First Owner""","""23.4 kmpl""","""1248 CC""","""74 bhp""","""190Nm@ 2000rpm""",5.0
"""Skoda Rapid 1.5 TDI Ambition""",2014,370000,120000,"""Diesel""","""Individual""","""Manual""","""Second Owner""","""21.14 kmpl""","""1498 CC""","""103.52 bhp""","""250Nm@ 1500-2500rpm""",5.0
"""Hyundai i20 Sportz Diesel""",2010,225000,127000,"""Diesel""","""Individual""","""Manual""","""First Owner""","""23.0 kmpl""","""1396 CC""","""90 bhp""","""22.4 kgm at 1750-2750rpm""",5.0
"""Maruti Swift VXI BSIII""",2007,130000,120000,"""Petrol""","""Individual""","""Manual""","""First Owner""","""16.1 kmpl""","""1298 CC""","""88.2 bhp""","""11.5@ 4,500(kgm@ rpm)""",5.0


Данный датасет содержит информацию о поддержанных автомобилях на рынке Индии.
В датасете представлены следующие данные:
- name: модель автомобиля;
- year: год выпуска с завода-изготовителя;
- selling_price: цена продажи, числовая;
- km_driven: пробег на продажу;
- fuel: тип топлива;
- seller_type: продавец;
- transmission: тип трансмиссии (коробка передач);
- owner: какой по счету владелец;
- mileage: километраж (расход);
- engine: рабочий объём двигателя;
- max_power: пиковая мощность двигателя;
- torque: крутящий момент;
- seats: число мест.

Воспользуемся методом `describe()`

In [4]:
df.describe()

statistic,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,torque,seats
str,str,f64,f64,f64,str,str,str,str,str,str,str,str,f64
"""count""","""6999""",6999.0,6999.0,6999.0,"""6999""","""6999""","""6999""","""6999""","""6797""","""6797""","""6803""","""6796""",6797.0
"""null_count""","""0""",0.0,0.0,0.0,"""0""","""0""","""0""","""0""","""202""","""202""","""196""","""203""",202.0
"""mean""",,2013.818403,639515.197171,69584.615517,,,,,,,,,5.419008
"""std""",,4.053095,808941.911915,57724.001817,,,,,,,,,0.965767
"""min""","""Ambassador CLASSIC 1500 DSL AC""",1983.0,29999.0,1.0,"""CNG""","""Dealer""","""Automatic""","""First Owner""","""0.0 kmpl""","""1047 CC""",""" bhp""","""10.2@ 2,600(kgm@ rpm)""",2.0
"""25%""",,2011.0,254999.0,35000.0,,,,,,,,,5.0
"""50%""",,2015.0,450000.0,60000.0,,,,,,,,,5.0
"""75%""",,2017.0,675000.0,97000.0,,,,,,,,,5.0
"""max""","""Volvo XC90 T8 Excellence BSIV""",2020.0,10000000.0,2360457.0,"""Petrol""","""Trustmark Dealer""","""Manual""","""Third Owner""","""9.5 kmpl""","""999 CC""","""99.6 bhp""","""99Nm@ 4500rpm""",14.0


На основе представленных статистических данных можно сказать следующее:
1. В наборе данных содержится 6 999 автомобилей.
2. Для большинства столбцов нет пропущенных значений, за исключением некоторых (seats, mileage, engine, max_power).
3. Средняя цена автомобиля составляет ~ 639 515 у.ед., при этом стандартное отклонение высокое (std = 808941.91). Это указывает на значительное разнообразие в ценах, что может быть связано с различиями в марках, моделях и состояниях автомобилей.
4. Есть машины как старые (от 1983 года выпуска), так и новые (условно новые, 2020 был 5 лет назад).
5. Что бросилось в глаза: у нас есть расход с "0.0 kmpl", что странно.

## Удаление данных

В *polars* для удаления данных есть следующие методы:
1. Метод `drop()` - удаление столбца/столбцов из *Dataframe*
2. Методы `remove()` и `filter()` - удаление по условию
3. Метод `clear()` - очистить *Dataframe*, но сохранить его структуру

**Метод `drop()`**

Метод `drop()` помогает удалить столбец/столбцы из *DataFrame* полностью. Удалим из нашего *DataFrame* признак torque

In [5]:
df = df.drop("torque")

df

name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,seats
str,i64,i64,i64,str,str,str,str,str,str,str,f64
"""Maruti Swift Dzire VDI""",2014,450000,145500,"""Diesel""","""Individual""","""Manual""","""First Owner""","""23.4 kmpl""","""1248 CC""","""74 bhp""",5.0
"""Skoda Rapid 1.5 TDI Ambition""",2014,370000,120000,"""Diesel""","""Individual""","""Manual""","""Second Owner""","""21.14 kmpl""","""1498 CC""","""103.52 bhp""",5.0
"""Hyundai i20 Sportz Diesel""",2010,225000,127000,"""Diesel""","""Individual""","""Manual""","""First Owner""","""23.0 kmpl""","""1396 CC""","""90 bhp""",5.0
"""Maruti Swift VXI BSIII""",2007,130000,120000,"""Petrol""","""Individual""","""Manual""","""First Owner""","""16.1 kmpl""","""1298 CC""","""88.2 bhp""",5.0
"""Hyundai Xcent 1.2 VTVT E Plus""",2017,440000,45000,"""Petrol""","""Individual""","""Manual""","""First Owner""","""20.14 kmpl""","""1197 CC""","""81.86 bhp""",5.0
…,…,…,…,…,…,…,…,…,…,…,…
"""Hyundai i20 Magna""",2013,320000,110000,"""Petrol""","""Individual""","""Manual""","""First Owner""","""18.5 kmpl""","""1197 CC""","""82.85 bhp""",5.0
"""Hyundai Verna CRDi SX""",2007,135000,119000,"""Diesel""","""Individual""","""Manual""","""Fourth & Above Owner""","""16.8 kmpl""","""1493 CC""","""110 bhp""",5.0
"""Maruti Swift Dzire ZDi""",2009,382000,120000,"""Diesel""","""Individual""","""Manual""","""First Owner""","""19.3 kmpl""","""1248 CC""","""73.9 bhp""",5.0
"""Tata Indigo CR4""",2013,290000,25000,"""Diesel""","""Individual""","""Manual""","""First Owner""","""23.57 kmpl""","""1396 CC""","""70 bhp""",5.0


**Методы `remove()` и `filter()` - удаление по условию**

Метод `remove()` помогает удалить только конкретные строки в *DataFrame*. Удалим строки, где расход (mileage) был "0.0 kmpl", т.к. это, скорее всего, ошибка в данных. Но прежде при помощи метода `filter()`, посмотрим сколько таких значений.

In [6]:
df.filter(pl.col("mileage") == "0.0 kmpl").shape[0]

16

Всего 16 записей, удаляем.

In [7]:
df = df.remove(pl.col("mileage") == "0.0 kmpl")

df

name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,seats
str,i64,i64,i64,str,str,str,str,str,str,str,f64
"""Maruti Swift Dzire VDI""",2014,450000,145500,"""Diesel""","""Individual""","""Manual""","""First Owner""","""23.4 kmpl""","""1248 CC""","""74 bhp""",5.0
"""Skoda Rapid 1.5 TDI Ambition""",2014,370000,120000,"""Diesel""","""Individual""","""Manual""","""Second Owner""","""21.14 kmpl""","""1498 CC""","""103.52 bhp""",5.0
"""Hyundai i20 Sportz Diesel""",2010,225000,127000,"""Diesel""","""Individual""","""Manual""","""First Owner""","""23.0 kmpl""","""1396 CC""","""90 bhp""",5.0
"""Maruti Swift VXI BSIII""",2007,130000,120000,"""Petrol""","""Individual""","""Manual""","""First Owner""","""16.1 kmpl""","""1298 CC""","""88.2 bhp""",5.0
"""Hyundai Xcent 1.2 VTVT E Plus""",2017,440000,45000,"""Petrol""","""Individual""","""Manual""","""First Owner""","""20.14 kmpl""","""1197 CC""","""81.86 bhp""",5.0
…,…,…,…,…,…,…,…,…,…,…,…
"""Hyundai i20 Magna""",2013,320000,110000,"""Petrol""","""Individual""","""Manual""","""First Owner""","""18.5 kmpl""","""1197 CC""","""82.85 bhp""",5.0
"""Hyundai Verna CRDi SX""",2007,135000,119000,"""Diesel""","""Individual""","""Manual""","""Fourth & Above Owner""","""16.8 kmpl""","""1493 CC""","""110 bhp""",5.0
"""Maruti Swift Dzire ZDi""",2009,382000,120000,"""Diesel""","""Individual""","""Manual""","""First Owner""","""19.3 kmpl""","""1248 CC""","""73.9 bhp""",5.0
"""Tata Indigo CR4""",2013,290000,25000,"""Diesel""","""Individual""","""Manual""","""First Owner""","""23.57 kmpl""","""1396 CC""","""70 bhp""",5.0


Видим, что количество машин сократилось - удалили 16 строк

В данные методы необходимы  передавать наименование колонки/колонок с условием. Метод `remove()` напрямую удаляет строки, которые отвечает заданному условию (True), но можно удалять и при помощи `filter()`, если задать условие противоположное условию из `remove()`.

**Метод `clear()`**

По сути данный метод удаляет все строки из *DataFrame*, но оставляет структуру: у нас есть стаблица, где у каждого столбца установлен свой тип данных.

In [8]:
df.clear()

name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,seats
str,i64,i64,i64,str,str,str,str,str,str,str,f64


## Работа с пропусками и дубликатами

### Работа с пропусками

Пропущенных значений в наборе данных - довольно частое явление. Библиотека *polars* предоставляет инструменты для:
- нахождения пропусков,
- заполнения их значениями,
- удаления пропусков из набора данных

Выведем наименование столбцов, где есть пропуски

In [9]:
# Выберем только те столбцы, в которых есть хотя бы один null
print(", ".join([col_name for col_name in df.columns if df[col_name].is_null().any()]))

mileage, engine, max_power, seats


Посчитаем долю пропусков в этих колонках. Для этого можно воспользоваться методом `is_null()` или `null_count()`. Разница этих двух методов заключается в том, что метод `is_null()` возращает по каждому пройденному значению 1 или 0, поэтому нам придется еще их суммировать (метод `sum()`). Методом `null_count()` сразу посчитает для столбца количество пропусков.

In [10]:
# Получим наименование колонок, где есть пропуски
list_column = [col_name for col_name in df.columns if df[col_name].is_null().any()]

# Выведем долю пропусков по каждому столбцу, где есть пропуски
df.select([(100 * pl.col(x).is_null().sum() / pl.len()).round(2).alias(f"{x}_null_share") for x in list_column])



mileage_null_share,engine_null_share,max_power_null_share,seats_null_share
f64,f64,f64,f64
2.89,2.89,2.81,2.89


Или же методом `null_count()`

In [11]:
# Получим наименование колонок, где есть пропуски
list_column = [col_name for col_name in df.columns if df[col_name].is_null().any()]

# Выведем долю пропусков по каждому столбцу, где есть пропуски
df.select([(100 * pl.col(x).null_count() / pl.len()).alias(f"{x}_null_share") for x in list_column])

mileage_null_share,engine_null_share,max_power_null_share,seats_null_share
f64,f64,f64,f64
2.89274,2.89274,2.806817,2.89274


**Стратегии заполнения пропусков**:

* если пропусков очень мало (~меньше процента) - строки с пропусками можно удалить или заполнить средним/медианой

* если пропусков мало (~5-10%) - их можно заполнить (средним, медианой, уникальным значением, самым популярным значением, спрогнозировать)

* если пропусков много - можно удалить столбец

* можно пытаться предсказывать пропуски моделью (на практике так редко делают)

Так как пропусков у нас мало, то заменим их медианой/средним. Для заполнение пропусков в *polars* используется метод `fill_null()`, который содержит в себе следующие параметры:
- value - значение, которым заполнить пропуски
- strategy - стратегия, которыми можно заполнить пропуски ({None, ‘forward’, ‘backward’, ‘min’, ‘max’, ‘mean’, ‘zero’, ‘one’})
- limit - Количество последовательных "нулевых" значений для заполнения при использовании стратегии ‘backward’ или ‘forward’.

Заменим пропуски средним значением.

In [12]:
# Получим наименование колонок, где есть пропуски
list_column = [col_name for col_name in df.columns if df[col_name].is_null().any()]

# Заполняем 
df = df.with_columns([pl.col(x).fill_null(value=pl.col(x).mean()) for x in list_column])

# Смотрим на пропуски
print(df.null_count())

shape: (1, 12)
┌──────┬──────┬───────────────┬───────────┬───┬─────────┬────────┬───────────┬───────┐
│ name ┆ year ┆ selling_price ┆ km_driven ┆ … ┆ mileage ┆ engine ┆ max_power ┆ seats │
│ ---  ┆ ---  ┆ ---           ┆ ---       ┆   ┆ ---     ┆ ---    ┆ ---       ┆ ---   │
│ u32  ┆ u32  ┆ u32           ┆ u32       ┆   ┆ u32     ┆ u32    ┆ u32       ┆ u32   │
╞══════╪══════╪═══════════════╪═══════════╪═══╪═════════╪════════╪═══════════╪═══════╡
│ 0    ┆ 0    ┆ 0             ┆ 0         ┆ … ┆ 202     ┆ 202    ┆ 196       ┆ 0     │
└──────┴──────┴───────────────┴───────────┴───┴─────────┴────────┴───────────┴───────┘


Пропуски у нас были в четырех столбцах (mileage, engine, max_power, seats), но смогли заменить только в признаке seats. Это связно с тем, что оставшиеся имеют текстовой формат данных, поэтому необходимо обработать данные столбцы. 

In [13]:
# Обработка 
df = df.with_columns([
    pl.col(x)
    .str.replace_all(r"[^\d.]", "")  # Удаляем всё, кроме цифр и точки
    .str.strip_chars()               # Убираем лишние пробелы
    .replace("", None)               # Заменяем пустые строки на null
    .cast(pl.Float64)                # Преобразуем в нужный тип данных
for x in ["mileage", "engine", "max_power"]
])

df

name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,seats
str,i64,i64,i64,str,str,str,str,f64,f64,f64,f64
"""Maruti Swift Dzire VDI""",2014,450000,145500,"""Diesel""","""Individual""","""Manual""","""First Owner""",23.4,1248.0,74.0,5.0
"""Skoda Rapid 1.5 TDI Ambition""",2014,370000,120000,"""Diesel""","""Individual""","""Manual""","""Second Owner""",21.14,1498.0,103.52,5.0
"""Hyundai i20 Sportz Diesel""",2010,225000,127000,"""Diesel""","""Individual""","""Manual""","""First Owner""",23.0,1396.0,90.0,5.0
"""Maruti Swift VXI BSIII""",2007,130000,120000,"""Petrol""","""Individual""","""Manual""","""First Owner""",16.1,1298.0,88.2,5.0
"""Hyundai Xcent 1.2 VTVT E Plus""",2017,440000,45000,"""Petrol""","""Individual""","""Manual""","""First Owner""",20.14,1197.0,81.86,5.0
…,…,…,…,…,…,…,…,…,…,…,…
"""Hyundai i20 Magna""",2013,320000,110000,"""Petrol""","""Individual""","""Manual""","""First Owner""",18.5,1197.0,82.85,5.0
"""Hyundai Verna CRDi SX""",2007,135000,119000,"""Diesel""","""Individual""","""Manual""","""Fourth & Above Owner""",16.8,1493.0,110.0,5.0
"""Maruti Swift Dzire ZDi""",2009,382000,120000,"""Diesel""","""Individual""","""Manual""","""First Owner""",19.3,1248.0,73.9,5.0
"""Tata Indigo CR4""",2013,290000,25000,"""Diesel""","""Individual""","""Manual""","""First Owner""",23.57,1396.0,70.0,5.0


Видим, что наши колонки (mileage, engine, max_power) изменили тип данных. Теперь заменим пропуски в них на медианные значения.

In [14]:
# Заполняем 
df = df.with_columns([pl.col(x).fill_null(value=pl.col(x).median()) for x in ["mileage", "engine", "max_power"]])

# Смотрим на пропуски
df.null_count()

name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,seats
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,0,0,0,0,0,0,0,0,0


Победа! Пропусков не осталось.

**Удаление пропущенных значений. Метод `drop_nulls()`**

Метод `drop_nulls()` удаляет строки, в которых есть хотя бы одно значение null (пропуск).

In [15]:
df_drop = pl.DataFrame({
    "a": [1, 2, None],
    "b": [4, None, 6],
    "c": [7, 8, 9]
})

print(df_drop)

shape: (3, 3)
┌──────┬──────┬─────┐
│ a    ┆ b    ┆ c   │
│ ---  ┆ ---  ┆ --- │
│ i64  ┆ i64  ┆ i64 │
╞══════╪══════╪═════╡
│ 1    ┆ 4    ┆ 7   │
│ 2    ┆ null ┆ 8   │
│ null ┆ 6    ┆ 9   │
└──────┴──────┴─────┘


In [16]:
# Удаляем строки с null
df_cleaned = df_drop.drop_nulls()

print(df_cleaned)

shape: (1, 3)
┌─────┬─────┬─────┐
│ a   ┆ b   ┆ c   │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╡
│ 1   ┆ 4   ┆ 7   │
└─────┴─────┴─────┘


### Работа с дубликатами

Один из важнейших этапов предобработки данных перед их анализом - работа с дубликатами: выявления и их удаления. Чтобы найти дубликаты в *polars* есть метод `is_duplicated()`, который возвращает булевую серию: True для строк, которые уже встречались ранее.

Вот строки, которые дублируются (т.е. 2 или более одинаковых строк)

In [17]:
df.filter(df.is_duplicated())

name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,seats
str,i64,i64,i64,str,str,str,str,f64,f64,f64,f64
"""Fiat Palio 1.2 ELX""",2003,70000,50000,"""Petrol""","""Individual""","""Manual""","""Second Owner""",19.3,1248.0,82.0,5.420882
"""Maruti Omni 8 Seater BSIV""",2012,150000,35000,"""Petrol""","""Individual""","""Manual""","""Second Owner""",14.0,796.0,35.0,5.0
"""Maruti Alto 800 CNG LXI Option…",2019,330000,10000,"""CNG""","""Individual""","""Manual""","""Second Owner""",33.44,796.0,40.3,4.0
"""Maruti Alto K10 VXI Airbag""",2019,366000,15000,"""Petrol""","""Individual""","""Manual""","""First Owner""",23.95,998.0,67.1,5.0
"""Hyundai Verna VTVT 1.6 SX Opti…",2019,1149000,5000,"""Petrol""","""Individual""","""Manual""","""First Owner""",17.0,1591.0,121.3,5.0
…,…,…,…,…,…,…,…,…,…,…,…
"""Renault Captur 1.5 Diesel RXT""",2018,1265000,12000,"""Diesel""","""Individual""","""Manual""","""First Owner""",20.37,1461.0,108.45,5.0
"""Maruti Ciaz Alpha Diesel""",2019,1025000,32000,"""Diesel""","""Individual""","""Manual""","""First Owner""",28.09,1248.0,88.5,5.0
"""Maruti Swift Dzire VDI""",2015,625000,50000,"""Diesel""","""Individual""","""Manual""","""First Owner""",26.59,1248.0,74.0,5.0
"""Tata Indigo CR4""",2013,290000,25000,"""Diesel""","""Individual""","""Manual""","""First Owner""",23.57,1396.0,70.0,5.0


In [18]:
print(df.is_duplicated().sum())

1474


Имеем 1474 не уникальных строк. Удалим дубликаты. Сейчас у нас 6 983 записи.

In [19]:
df.shape[0]

6983

**Удаление дубликтов. Метод `unique()`**

Для удаления дубликатов используется метод `unique()`, который имеет следующий синтаксис:

`DataFrame.unique(subset=None, *, keep='any', maintain_order=False)`

Параметры:
- subset - параметр принимает наименование столбцов по которым искать дубли, и при нахождении - удалять строки, содержащие совпадения. По умолчанию ищет по всем столбцам.
- keep - параметр определяет, какие из совпадающих строк сохранить. Принимает значения:
  - any - не даёт никаких горантий, какая именно повторяющая строка будет сохранена (по умолчанию)
  - first - сохранит первую повторяющую строку
  - last - сохранит последнюю повторяющую строку
  - none - не сохранит повторяющие строки
- maintain_order - сохранения порядка строк (по умолчанию False)

In [20]:
# Удаляем дубликаты
df = df.unique()

После удаления дубликатов у нас осталось 6 000 различных машин

In [21]:
df.shape[0]

6000