# Обработка пропусков

In [1]:
import pandas as pd
import numpy as np

Создадим и выведем небольшой набор тестовых данных.

In [2]:
test_data = pd.DataFrame([[1, 2, np.nan], [3, np.nan, 4], 
                          [0, 1, 2]], columns=['one', 'two', 'three'])

In [3]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,
1,3,,4.0
2,0,1.0,2.0


## Поиск пропусков

В данных часто бывают пропуски. В Pandas их можно находить с помощью метода `.isna()`:

In [4]:
test_data.isna()

Unnamed: 0,one,two,three
0,False,False,True
1,False,True,False
2,False,False,False


Можно находить пропуски в пределах одного признака (столбца):

In [5]:
test_data['two'].isna()

0    False
1     True
2    False
Name: two, dtype: bool

## Удаление столбцов/строк с пропусками

С помощью метода `.dropna()` можно удалять столбцы/строки с пропусками, указывая ось с помощью параметра `axis`.  
Если нужно удалить строки, в которых встречается пропуск (NaN), `axis=0`:

In [7]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,
1,3,,4.0
2,0,1.0,2.0


In [6]:
test_data.dropna(axis=0)

Unnamed: 0,one,two,three
2,0,1.0,2.0


Если нужно удалить столбцы, в которых встречается пропуск (NaN), `axis=1`:

In [8]:
test_data.dropna(axis=1)

Unnamed: 0,one
0,1
1,3
2,0


По умолчанию, параметр `axis` равен 0:

In [9]:
test_data.dropna()

Unnamed: 0,one,two,three
2,0,1.0,2.0


Если нужно удалить пропуски только для определенных столбцов (или строк, при указании другого значения параметра `axis`), нужно передать список индексов (номеров строк или названий столбцов) столбцов (или строк) в параметр `subset`:

In [10]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,
1,3,,4.0
2,0,1.0,2.0


In [11]:
test_data.dropna(subset=[0], axis=1)

Unnamed: 0,one,two
0,1,2.0
1,3,
2,0,1.0


In [12]:
test_data.dropna(subset=['two'], axis=0)

Unnamed: 0,one,two,three
0,1,2.0,
2,0,1.0,2.0


## Заполнение статистиками

Иногда удаление строк/столбцов с пропусками - слишком грубое решение. Можно заменять пропуски статистиками или каким-то константным значением с помощью метода `fillna()`:

In [13]:
# По умолчанию заменяет все пропуски
test_data.fillna(-1)

Unnamed: 0,one,two,three
0,1,2.0,-1.0
1,3,-1.0,4.0
2,0,1.0,2.0


Можно заменять разными статистиками, например:
 - среднее значение, `np.mean()`
 - максимальное значение, `np.max()`
 - минимальное значение, `np.min()`
 - медиана, `np.median()`


In [14]:
max_two = np.max(test_data['two'])
test_data['two'].fillna(max_two)

0    2.0
1    2.0
2    1.0
Name: two, dtype: float64

Методы типа `np.mean()` можно вызывать у самих столбцов с помощью `column.mean()`:

In [16]:
test_data['three'].fillna(test_data['three'].mean())

0    3.0
1    4.0
2    2.0
Name: three, dtype: float64