In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

# Обработка пропусков в данных
Обрабатывая датасет planets вы могли заметить наличие пропусков в данных. Например, некоторые методы обнаружения могут позволить определить все параметры экзопланет, однако не массу.
Вместо того, чтобы выбрасывать эти данные целиком, пропущенные поля заполняются специльными значениями Not a Number - `NaN`. Pandas имеет набор функций для обработки таких значений.

## Выявление пропусков
Для выявления пропусков используются функции `pd.isna()` или эквивалентная ей `pd.isnull()`. Выберем из датасета planets записи заведомо содержащие пропуски:

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing'].head()
df

А теперь посмотрим на результат работы функции `pd.isna()`

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing'].head()
pd.isna(df)

Результат работы функции - `DataFrame`-маска, который содержит значения `True` в полях, где пропущены данные. Функцию так же можно применять к объектам `Series`:

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing'].head()
pd.isna(df['distance'])

Такие `Series` так же можно использовать как маску для исходного `DataFrame`, потому что индекс сохраняется. Выберем только те объекты, для которых удалось измерить расстояние:

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing']
havent_distance = pd.isna(df['distance'])

df[~havent_distance]

Для того, чтобы выделить все записи, которые не имеют пропусков, нам пришлось применить операцию инверсии `~` к маске пропущенных значений. 

Однако, удобнее сразу воспользоваться функцией `pd.notna()` (или эквивалентной ей `pd.notnull()`):

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing']
have_period = pd.notna(df['orbital_period'])

df[have_period]

## Удаление пропусков в данных
Бывает и такое, что записи с пустыми значениями не имеют смысла и их можно удалять. Делается это методом `DataFrame.dropna()`.

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Radial Velocity'].head(10)
df

Запись с индексом 7 имеет пропуск значения массы.

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Radial Velocity'].head(10)
df.dropna()

Запись с индексом 7 была удалена.

### Важный момент работы с методами DataFrame
Важно отметить, что все методы, изменяющие `DataFrame` не изменяют исходный объект, а **создают новый**.

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Radial Velocity'].head(10)
df.dropna()
df

Запись с индексом 7 **осталась** в `DataFrame`, **не смотря на то, что был вполнен метод** `DataFrame.dropna()`.

Если исходный объект в дальнейшем не потребуется делайте переприсваивание:

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Radial Velocity'].head(10)
df = df.dropna()
df

Так же, у метода `DataFrame.dropna()` есть параметр `subset`, который позволяет удалять поля только в указанных в `list` колонках:

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging'].head(10)
df = df.dropna(subset=['distance'])
df

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging']
df = df.dropna(subset=['distance', 'orbital_period'])
df

## Заполнение пропусков

Иногда предпочтительнее вместо отбрасывания пустых значений заполнить их каким-то допустимым значением. 
Это значение может быть фиксированным, например нулем, или интерполированным, или восстановленным по остальным данным значением. Для этого используется метод `DataFrame.fillna()`

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging'].head(10)
df

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging'].head(10)
df = df.fillna(0)
df

Метод `.fillna()` существует и у объектов типа `Series`. Для демонстрации заполним пропуски средними значениями по *исходному* датасету:

In [None]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging'].head(10)

for column in ['orbital_period', 'mass', 'distance']:
    df[column] = df[column].fillna(planets[column].mean())

df