# Борьба с отсутствием данных

## Нахождение недостающих данных

In [1]:
import pandas as pd
import numpy as np


s = pd.Series([1, 2, 3, np.NaN, 5, 6, None])
print(s.isnull())
print(s[s.isnull()])

0    False
1    False
2    False
3     True
4    False
5    False
6     True
dtype: bool
3   NaN
6   NaN
dtype: float64


## Борьба с отсутствием данных

Есть 3 стратегии решения проблемы:
1. Игнорировать проблему (*может привести к проблемам при анализе!*)
2. Заполнить недостающие элементы
3. Удалить недостающие данные из набора

Стратегия №2: Попробуем заполнить недостающие данные. Один из подходов - писпользовать среднее значение по этим данным:

In [2]:
print(s.fillna(int(s.mean())))

0    1.0
1    2.0
2    3.0
3    3.0
4    5.0
5    6.0
6    3.0
dtype: float64


Ещё один подход - использование алгоритма [*imputer*](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html) для вычисления отсутствующих значений:

In [17]:
import numpy as np
from sklearn.impute import SimpleImputer

s = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]

imp_mean = SimpleImputer(missing_values=np.NaN, strategy='mean')

imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])

x = imp_mean.transform(s)

print(x)

[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]


Стратегия №3: попробуем удалить недостающие данные:

In [3]:
print(s.dropna())

0    1.0
1    2.0
2    3.0
4    5.0
5    6.0
dtype: float64
