# Обработка отсутствующих данных

Часто в датасетах нам будут попадаться пропущенные значения. Откуда? Представьте, что вы собираете данные по доходу жителей вашего района и просите их заполнить анкету. Очевидно, что не все захотят указывать то, сколько они зарабатывают, и в итоге вы получите пропуски в ваших данных. Помимо того, что они лишают нас сведений, они также приводят к некоторым сложностям при первичном анализе. Давайте узнаем, как с ними можно бороться. 

In [2]:
import numpy as np
import pandas as pd

## 1. Разновидности

## `None`

Тип `None` при работе с массивами, будет выдавать ошибку при попытке вызова какой-либо функции

In [3]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [4]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

## `NaN`

`NaN` здорового человека. Выполнение функции над объектами, у которых хотя бы одно значение типа `NaN` будет выдавать не ошибку, а тоже `NaN`. Для устранения такой проблемы можно воспользоваться функцией, учитывающей пропущенные значения. Обычно это та же функция, но в начале ставится "nan"

In [5]:
vals2 = np.array([1, np.nan, 3, 4]) 
vals2.dtype

dtype('float64')

In [6]:
vals2.sum()

nan

In [7]:
# игнорим наши пропущенные значения
np.nansum(vals2)

8.0

## `None` и `NaN` в Pandas

В _Pandas_ с типами `None` и `NaN` немного проще. Они все преобразуются к одному типу

In [10]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [11]:
x = pd.Series(range(2), dtype=int)
x[0] = None
x

0    NaN
1    1.0
dtype: float64

## 2. Операции

Есть три основные операции по работе с пропущенными значениями. Рассмотрим каждую из них более подробно

### Выявление

Первое, что нужно сделать перед тем как приступать к первичному анализу ваших данных, это посмотреть на то, есть ли у вас пропущенные значения. Сделать это можно с помощью функций `isnull()` и `notnull()`.

In [12]:
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [13]:
data[data.notnull()]

0        1
2    hello
dtype: object

По большому датасету это можно сделать с помощью функции `info`. Видим, что в нашем датасете по кредиту к счастью таких значений нет. 

In [3]:
data = pd.read_csv('/Users/maxim/Desktop/mlcourse.ai-master/data/bank.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4521 entries, 0 to 4520
Data columns (total 17 columns):
age          4521 non-null int64
job          4521 non-null object
marital      4521 non-null object
education    4521 non-null object
default      4521 non-null object
balance      4521 non-null int64
housing      4521 non-null object
loan         4521 non-null object
contact      4521 non-null object
day          4521 non-null int64
month        4521 non-null object
duration     4521 non-null int64
campaign     4521 non-null int64
pdays        4521 non-null int64
previous     4521 non-null int64
poutcome     4521 non-null object
y            4521 non-null int64
dtypes: int64(8), object(9)
memory usage: 600.5+ KB


### Удаление

Если вы обнаружили у себя в данных пропуски, нужно начинать с ними бороться. Одним из самых легких способов является их удаление из датасета с помощью метода `dropna()` с параметрами `axis` и `how`

In [14]:
data.dropna()

0        1
2    hello
dtype: object

In [15]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [16]:
# удалили по умолчанию все строки где есть Na
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [17]:
# хотим удалить столбцы
df.dropna(axis=1)

Unnamed: 0,2
0,2
1,5
2,6


In [18]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [19]:
# отбрасываем все столбцы, где ВСЕ значения Na
df.dropna(axis = 1, how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [20]:
# отбрасываем все строки, где есть хотя бы одно значение Na
df.dropna(how = 'any')

Unnamed: 0,0,1,2,3


В последнем примере мы видим, что в результате удаления пропусков, у нас ничего не осталось. Это проблема, которая может выявиться и на больших данных, поэтому удаление - это не всегда хороший способ борьбы. 

### Заполнение

Когда мы не хотим удалять пропуски, можно их чем то заполнить. Делается это с помощью `fillna()` с параметром `method`

In [21]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [22]:
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

Также, если у вас есть какие-то данные во времени за небольшой промежуток (скажем, день или час), то иногда (внимание: всегда нужно смотреть на задачу!) не критично заполнить пропуск предыдущим или последующим значением. 

In [23]:
# заполнение по направлению вперед
data.fillna(method = 'ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [24]:
# заполнение по направлению назад
data.fillna(method = 'bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [25]:
# у одного Na не было пред значения
df.fillna(method = 'ffill', axis = 1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


Итак, мы немного поговорили про пропущенные значения. Научились **искать** их, **удалять** и **заполнять**. Теперь рассмотрим категориальный тип данных. 