In [5]:
import numpy as np
import pandas as pd

# Обработка отсутствующих данных 

Стратегии для обозначения наличия пропущенных данных:
1. использование маски, отмечающей глобально остутствующие значения. Например, булевый массив или выделение одного бита представленных данных на локальную индикацию отсутствия значения.
2. выбор специального значения-индикатора (sentinel value), обозначающего пропущенное значение. Например, указывать на отсутствующее целое число с помощью значения -9999 или какой-то редкой комбинации битов (или с помощью NaN - специального значения, включенного в спецификации IEEE для чисел с плавающей точкой)
в Pandas используется - NaN и None (Python)

In [13]:
vals1 = np.array([1, None, 2, 3])
print(vals1.dtype)
vals1.sum() # raise TypeError

object


TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [17]:
vals2 = np.array([1, np.nan, 2, 3])
print(vals2.dtype)
print('----------')
print(1 + np.nan)
print(1 + vals2)
print(vals2.sum())
print(np.nansum(vals2))

float64
----------
nan
[ 2. nan  3.  4.]
nan
6.0


In [18]:
pd.Series([1, np.nan, 2, None]) # None преобразуется в NaN

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [24]:
data = pd.Series(["hello", "world"])
data # строковые данные хрянятся с dtype = object

0    hello
1    world
dtype: object

## Операции над пустыми значениями

isnull() - генерирует булеву маску для отс. значений
notnull() - противоположность isnull()
dropna() - возвращает отфильтрованный вариант данных
fillna() - возвращает копию данных, в которой пропущенные значения заполнены или восстановлены

### Выявление пустых значений 

In [26]:
data = pd.Series([1, np.nan, 'hello', None])
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [27]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [28]:
data.notnull()

0     True
1    False
2     True
3    False
dtype: bool

### Удаление пустых значений 

In [29]:
data.dropna()

0        1
2    hello
dtype: object

In [31]:
df = pd.DataFrame([
    [1, np.nan, 2],
    [2, 3, 5],
    [np.nan, 4, 6]
])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [32]:
df.dropna() # удаляет строки с NaN

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [33]:
df.dropna(axis=1) # отбрасывает столбцы с NaN

Unnamed: 0,2
0,2
1,5
2,6


In [39]:
# по умолчанию how='any' - отбрасывает строки/столбца с NaN
df[3] = np.nan
print(df)
df.dropna(how='all', axis='columns') # how='all' - отбрасывает строки/столбцы, в которых все значения NaN

     0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN


Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [45]:
# параметр thresh задает минимальное количество непустых значений, при котором он не отбрасывается
df.dropna(thresh=3) # отбрасывается первая и последняя строки, поскольку в них содержиться только по 2 NaN-значения

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


###  Заполнение пустых значений

In [46]:
data = pd.Series([1, np.nan, 2, None, 3])
data

0    1.0
1    NaN
2    2.0
3    NaN
4    3.0
dtype: float64

In [47]:
data.fillna(0)

0    1.0
1    0.0
2    2.0
3    0.0
4    3.0
dtype: float64

In [49]:
data.fillna(method='ffill') # копируя предыдущие значения в следующую ячейку

0    1.0
1    1.0
2    2.0
3    2.0
4    3.0
dtype: float64

In [50]:
data.fillna(method='bfill') #копируя следующее значение в предыдущую ячейку

0    1.0
1    2.0
2    2.0
3    3.0
4    3.0
dtype: float64

In [51]:
df = pd.DataFrame([
    [1, np.nan, 2, np.nan],
    [2, 3, 5, np.nan],
    [np.nan, 4, 6, np.nan]
])
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [54]:
df.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


In [56]:
df.fillna(method='bfill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,2.0,2.0,
1,2.0,3.0,5.0,
2,4.0,4.0,6.0,


In [58]:
mean_val = df.stack().mean().round(1)
df.fillna(mean_val)

Unnamed: 0,0,1,2,3
0,1.0,3.3,2,3.3
1,2.0,3.0,5,3.3
2,3.3,4.0,6,3.3
