In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

# Обработка пропусков в данных
Обрабатывая датасет planets вы могли заметить наличие пропусков в данных. Например, некоторые методы обнаружения могут позволить определить все параметры экзопланет, однако не массу.
Вместо того, чтобы выбрасывать эти данные целиком, пропущенные поля заполняются специльными значениями Not a Number - `NaN`. Pandas имеет набор функций для обработки таких значений.

## Выявление пропусков
Для выявления пропусков используются функции `pd.isna()` или эквивалентная ей `pd.isnull()`. Выберем из датасета planets записи заведомо содержащие пропуски:

In [2]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing'].head()
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
902,Microlensing,1,,,,2008
903,Microlensing,1,,,,2008
904,Microlensing,1,,,,2009
905,Microlensing,1,,,3600.0,2013
906,Microlensing,1,2780.0,,,2011


А теперь посмотрим на результат работы функции `pd.isna()`

In [3]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing'].head()
pd.isna(df)

Unnamed: 0,method,number,orbital_period,mass,distance,year
902,False,False,True,True,True,False
903,False,False,True,True,True,False
904,False,False,True,True,True,False
905,False,False,True,True,False,False
906,False,False,False,True,True,False


Результат работы функции - `DataFrame`-маска, который содержит значения `True` в полях, где пропущены данные. Функцию так же можно применять к объектам `Series`:

In [4]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing'].head()
pd.isna(df['distance'])

902     True
903     True
904     True
905    False
906     True
Name: distance, dtype: bool

Такие `Series` так же можно использовать как маску для исходного `DataFrame`, потому что индекс сохраняется. Выберем только те объекты, для которых удалось измерить расстояние:

In [5]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing']
havent_distance = pd.isna(df['distance'])

df[~havent_distance]

Unnamed: 0,method,number,orbital_period,mass,distance,year
905,Microlensing,1,,,3600.0,2013
909,Microlensing,1,,,2300.0,2012
910,Microlensing,1,,,2800.0,2012
911,Microlensing,1,,,7720.0,2012
912,Microlensing,1,,,7560.0,2013
924,Microlensing,1,,,2570.0,2012
925,Microlensing,2,,,4080.0,2012
926,Microlensing,2,,,4080.0,2012
927,Microlensing,1,,,1760.0,2013
928,Microlensing,1,,,4970.0,2013


Для того, чтобы выделить все записи, которые не имеют пропусков, нам пришлось применить операцию инверсии `~` к маске пропущенных значений. 

Однако, удобнее сразу воспользоваться функцией `pd.notna()` (или эквивалентной ей `pd.notnull()`):

In [6]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Microlensing']
have_period = pd.notna(df['orbital_period'])

df[have_period]

Unnamed: 0,method,number,orbital_period,mass,distance,year
906,Microlensing,1,2780.0,,,2011
908,Microlensing,1,1970.0,,,2010
918,Microlensing,1,3600.0,,,2005
919,Microlensing,1,3300.0,,,2006
920,Microlensing,1,3500.0,,,2005
921,Microlensing,2,1825.0,,,2008
922,Microlensing,2,5100.0,,,2008


## Удаление пропусков в данных
Бывает и такое, что записи с пустыми значениями не имеют смысла и их можно удалять. Делается это методом `DataFrame.dropna()`.

In [7]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Radial Velocity'].head(10)
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009
5,Radial Velocity,1,185.84,4.8,76.39,2008
6,Radial Velocity,1,1773.4,4.64,18.15,2002
7,Radial Velocity,1,798.5,,21.41,1996
8,Radial Velocity,1,993.3,10.3,73.1,2008
9,Radial Velocity,2,452.8,1.99,74.79,2010


Запись с индексом 7 имеет пропуск значения массы.

In [8]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Radial Velocity'].head(10)
df.dropna()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009
5,Radial Velocity,1,185.84,4.8,76.39,2008
6,Radial Velocity,1,1773.4,4.64,18.15,2002
8,Radial Velocity,1,993.3,10.3,73.1,2008
9,Radial Velocity,2,452.8,1.99,74.79,2010


Запись с индексом 7 была удалена.

### Важный момент работы с методами DataFrame
Важно отметить, что все методы, изменяющие `DataFrame` не изменяют исходный объект, а **создают новый**.

In [9]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Radial Velocity'].head(10)
df.dropna()
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009
5,Radial Velocity,1,185.84,4.8,76.39,2008
6,Radial Velocity,1,1773.4,4.64,18.15,2002
7,Radial Velocity,1,798.5,,21.41,1996
8,Radial Velocity,1,993.3,10.3,73.1,2008
9,Radial Velocity,2,452.8,1.99,74.79,2010


Запись с индексом 7 **осталась** в `DataFrame`, **не смотря на то, что был вполнен метод** `DataFrame.dropna()`.

Если исходный объект в дальнейшем не потребуется делайте переприсваивание:

In [10]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Radial Velocity'].head(10)
df = df.dropna()
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009
5,Radial Velocity,1,185.84,4.8,76.39,2008
6,Radial Velocity,1,1773.4,4.64,18.15,2002
8,Radial Velocity,1,993.3,10.3,73.1,2008
9,Radial Velocity,2,452.8,1.99,74.79,2010


Так же, у метода `DataFrame.dropna()` есть параметр `subset`, который позволяет удалять поля только в указанных в `list` колонках:

In [11]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging'].head(10)
df = df.dropna(subset=['distance'])
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
29,Imaging,1,,,45.52,2005
30,Imaging,1,,,165.0,2007
31,Imaging,1,,,140.0,2004
34,Imaging,1,,,145.0,2013
35,Imaging,1,,,139.0,2004
36,Imaging,1,,,18.39,2006
47,Imaging,1,6000.0,,19.28,2008
54,Imaging,1,,,52.03,2012
68,Imaging,1,318280.0,,7.69,2008


In [12]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging']
df = df.dropna(subset=['distance', 'orbital_period'])
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
47,Imaging,1,6000.0,,19.28,2008
68,Imaging,1,318280.0,,7.69,2008
72,Imaging,1,4639.15,,12.21,2009
74,Imaging,1,7336.5,,25.0,2009
75,Imaging,1,8679.7,,26.67,2009
89,Imaging,1,10037.5,,23.1,2011
643,Imaging,4,170000.0,,39.94,2008
644,Imaging,4,69000.0,,39.94,2008
645,Imaging,4,37000.0,,39.94,2008
646,Imaging,4,18000.0,,39.94,2010


## Заполнение пропусков

Иногда предпочтительнее вместо отбрасывания пустых значений заполнить их каким-то допустимым значением. 
Это значение может быть фиксированным, например нулем, или интерполированным, или восстановленным по остальным данным значением. Для этого используется метод `DataFrame.fillna()`

In [13]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging'].head(10)
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
29,Imaging,1,,,45.52,2005
30,Imaging,1,,,165.0,2007
31,Imaging,1,,,140.0,2004
33,Imaging,1,,,,2008
34,Imaging,1,,,145.0,2013
35,Imaging,1,,,139.0,2004
36,Imaging,1,,,18.39,2006
47,Imaging,1,6000.0,,19.28,2008
54,Imaging,1,,,52.03,2012
68,Imaging,1,318280.0,,7.69,2008


In [14]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging'].head(10)
df = df.fillna(0)
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
29,Imaging,1,0.0,0.0,45.52,2005
30,Imaging,1,0.0,0.0,165.0,2007
31,Imaging,1,0.0,0.0,140.0,2004
33,Imaging,1,0.0,0.0,0.0,2008
34,Imaging,1,0.0,0.0,145.0,2013
35,Imaging,1,0.0,0.0,139.0,2004
36,Imaging,1,0.0,0.0,18.39,2006
47,Imaging,1,6000.0,0.0,19.28,2008
54,Imaging,1,0.0,0.0,52.03,2012
68,Imaging,1,318280.0,0.0,7.69,2008


Метод `.fillna()` существует и у объектов типа `Series`. Для демонстрации заполним пропуски средними значениями по *исходному* датасету:

In [15]:
planets = sns.load_dataset('planets')
df = planets[planets['method'] == 'Imaging'].head(10)

for column in ['orbital_period', 'mass', 'distance']:
    df[column] = df[column].fillna(planets[column].mean())

df

Unnamed: 0,method,number,orbital_period,mass,distance,year
29,Imaging,1,2002.917596,2.638161,45.52,2005
30,Imaging,1,2002.917596,2.638161,165.0,2007
31,Imaging,1,2002.917596,2.638161,140.0,2004
33,Imaging,1,2002.917596,2.638161,264.069282,2008
34,Imaging,1,2002.917596,2.638161,145.0,2013
35,Imaging,1,2002.917596,2.638161,139.0,2004
36,Imaging,1,2002.917596,2.638161,18.39,2006
47,Imaging,1,6000.0,2.638161,19.28,2008
54,Imaging,1,2002.917596,2.638161,52.03,2012
68,Imaging,1,318280.0,2.638161,7.69,2008
