# Специальные проверки

Часто наши данные довольно сложно анализировать из-за того, что в них содержатся дубликаты или незаполненные значения. Дублирующие и незаполненные поля могут привести к нежелательным дублям при объединении источников или к занулением всех значений при агрегации или математических операциях (в Python пустое значение NaN в операциях ведет себя следующим образом: `NaN + 2 == NaN`). Как найти и избавиться от таких значений?

In [None]:
import pandas as pd
orders = pd.read_excel('Superstore.xls')

## Дубликаты
Для работы с дубликатами есть 2 важные функции: `duplicated()` и `drop_duplicates()` (обе функции запускаются от имени таблицы). Функция `duplicated()` является фильтром и позволяет найти дублирующиеся строки:

In [None]:
# Найдем все строки, в которых Order ID и Customer ID повторяются
orders.loc[orders.loc[:, ['Order ID', 'Customer ID']].duplicated(), :]

**Обратите внимание!** По умолчанию функция помечает как дубликат все строки, кроме первой.

Попробуйте найти дубликаты только по столбцам 'Order ID', 'Order Date', 'Ship Date', 'Ship Mode', 'Customer ID', 'Customer Name'. Сравните получившуюся таблицу с полученной в предыдущей ячейке. 

Чтобы найти наоборот, не дубликаты, а не дублирующиеся значения, нужно инвертировать результат использования `duplicated()`. Для инверсии используется символ `~`.

Добавление параметра `keep=False` в функцию `duplicated(...)` позволит пометить как дубликаты все дублирующие строки, включая первую.

In [None]:
# Найдем всех покупателей, которые заказали только один товар, и информацию о их покупках
orders.loc[~orders.loc[:, 'Customer Name'].duplicated(keep=False), :]

Иногда нужно просто взять таблицу и удалить из нее все дубликаты. Это делается функцией `drop_duplicates()`.

In [None]:
orders.loc[:, ['Customer ID','Customer Name']].drop_duplicates()

Применение параметра `keep=False` также приведет к удалению всех дублирующих строк, включая первую.

На листе Returns находятся данные о возвратах, однако данные были внесены с ошибками и информация о возврате дублирована по количеству товаров в заказе. Посчитайте реальное количество возвратных заказов.

## Пустые ячейки

Чтобы найти незаполненные ячейки, можно использовать функцию `isna()`. Результатом выполнения этой функции будет таблица с теми же столбцами и строками, но заполненная `True` там, где значения отсутствует, и False в остальных случаях:

In [None]:
orders.isna()

Совместное использование с функциями `all()` и `any()` позволит определить, в каких столбцах все или хотя бы одно значение отсутствует соответственно:

In [None]:
orders.isna().any()

Это позволит нам быстро находить записи, в которых значения незаполненны. Для этого функцию `isna()` применим к интересующей нас колонке и используем как фильтр:

In [None]:
orders.loc[orders.loc[:, 'Postal Code'].isna(), :]

Заполнить эти значения можно по старинке присваиванием с фильтром:

In [None]:
orders.loc[:, 'Postal Code 1'] = orders.loc[orders.loc[:, 'Postal Code'].isna(), 'Postal Code'] = 'Без индекса'
orders

Либо с помощью короткого синтаксиса `fillna()`, который автоматически подставит фильтры где нужно (удобно, когда в качестве параметра указывается колонка). `fillna()` можно использовать с таблицей целиком.

In [None]:
orders.loc[:, 'Postal Code 2'] = orders.loc[:, 'Postal Code'].fillna('Без индекса')
orders

Если мы хотим избавиться от строк с дубликатами совсем, то можем использовать метод `dropna()`:

In [None]:
orders = orders.dropna(subset=['Postal Code'])
orders