In [None]:
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer

## Заполнение пропусков в данных

Генерация данных

In [None]:
train = [[1, 0, 0], 
         [np.nan, 3, 1], 
         [1, 3, 1], 
         [700, 6, 0]]

Создание *инпутера* и его "настройка".

В данном случае мы подаем imp данные, которые на которых он будет считать статистику для каждой переменной.  
В данном примере в качестве статистики используется среднее значение.

In [None]:
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit(train)

In [None]:
print(imp.transform(train))

Заполняем данные для X. 

Метод transform заполняет пропуски и возврашает заполненный лист.
Данные, которые содержатся в X не используются для получение новых значений, в этом смысле они игнорируются.

In [None]:
X = [[np.nan, 2, 1], 
     [100, np.nan, 1], 
     [1, 6, np.nan]]

print(imp.transform(X))

In [None]:
print(imp.fit_transform(X))

В качестве пропусков могут быть другие значения, например, 9999. 

In [None]:
train = [[1, 0, 0], 
         [9999, 3, 1], 
         [9999, 3, 1], 
         [7, 6, 0]]

imp = SimpleImputer(missing_values=9999, strategy='median')

imp.fit(train)

In [None]:
X = [[9999, 2, 1], 
     [100, 9999, 1], 
     [1, 6, 9999]]
print(imp.transform(X))

Работа с категориями

In [None]:
train = pd.DataFrame([["ds1", "1", "1"],
                     ["-1", "-1", "2"],
                     ["ds2", "-1", "3"],
                     ["ds2", "2", "-1"]], dtype="category")

In [None]:
imp = SimpleImputer(missing_values="-1", strategy='most_frequent')
imp.fit(train)
X = pd.DataFrame([["3", "-1", "4"], 
                 ["-1", "3", "4"]], dtype="category")
print(imp.transform(X))

## Обработка временных рядов

In [None]:
import matplotlib.pyplot as plt

Шум от 0 до 1

In [None]:
np.random.rand(100)

Генерация временного ряда с сезонностью

In [None]:
x = np.linspace(0, 10, 100)
y = np.sin(x) + np.random.rand(100)
plt.plot(x, y)

Создание пропусков

In [None]:
y[10:13] = np.nan
df = pd.DataFrame({"x": x, 
                  "y": y})
plt.plot(df["x"], df["y"])

Использование наивного прогноза на основе значения до пропусков

In [None]:
df = pd.DataFrame({"x": x, 
                  "y": y})
df = df.interpolate(method ='pad', limit_direction ='forward')
plt.plot(df["x"], df["y"])

Заполнение по ближайшему значению

In [None]:
y[10:20] = np.nan
df = pd.DataFrame({"x": x,
                  "y": y})
df = df.interpolate(method ='nearest', limit_direction ='forward')
plt.plot(df["x"], df["y"])

Линейная интерполяция

In [None]:
df = pd.DataFrame({"x": x, 
                  "y": y})
df = df.interpolate(method ='linear', limit_direction ='backward')
plt.plot(df["x"], df["y"])

In [None]:
df = pd.DataFrame({"x": x, 
                  "y": y})
df = df.interpolate(method ='linear', limit_direction ='forward')
plt.plot(df["x"], df["y"])

Разницы нет, так как пропуски не по краям

Квадратичная интерполяция

In [None]:
df = pd.DataFrame({"x": x, 
                  "y": y})
df = df.interpolate(method ='quadratic', limit_direction ='forward')
plt.plot(df["x"], df["y"])

In [None]:
x = np.linspace(0, 10, 100)
y = np.sin(x) + np.random.rand(100)

y[10:20] = np.nan
df = pd.DataFrame({"x": x, 
                  "y": y})
df = df.interpolate(method ='quadratic', limit_direction ='forward')
plt.plot(df["x"], df["y"])

In [None]:
x = np.linspace(0, 10, 100)
y = np.sin(x) + np.random.rand(100)

y[10:20] = np.nan
df = pd.DataFrame({"x": x, 
                  "y": y})
df = df.interpolate(method ='quadratic', limit_direction ='forward')
plt.plot(df["x"], df["y"])