# Механизмы формирования пропусков
Для того чтобы понять, как правильно обработать пропуски, необходимо определить механизмы их формирования.

Различают следующие 3 механизма формирования пропусков: MCAR, MAR, MNAR.

$\textbf{MCAR}$ (Missing Completely At Random) — механизм формирования пропусков , при котором вероятность пропуска для каждой записи набора одинакова. Например, если проводился социологический опрос, в котором каждому десятому респонденту один случайно выбранный вопрос не задавался, причем на все остальные заданные вопросы респонденты отвечали, то имеет место механизм MCAR. В таком случае игнорирование/исключение записей содержащих пропущенные данные не ведет к искажению результатов.

$\textbf{MAR}$ (Missing At Random) — на практике данные обычно пропущены не случайно, а ввиду некоторых закономерностей. Пропуски относят к MAR, если вероятность пропуска может быть определена на основе другой имеющейся в наборе данных информации (пол, возраст, занимаемая должность, образование…), не содержащей пропуски. В таком случае удаление или замена пропусков на значение «Пропуск», как и в случае MCAR, не приведет к существенному искажению результатов.

$\textbf{MNAR}$ (Missing Not At Random) — механизм формирования пропусков, при котором данные отсутствуют в зависимости от неизвестных факторов. MNAR предполагает, что вероятность пропуска могла бы быть описана на основе других атрибутов, но информация по этим атрибутам в наборе данных отсутствует. Как следствие, вероятность пропуска невозможно выразить на основе информации, содержащейся в наборе данных.

# Различные стратегии борьбы с пропусками


## Удаление
$\textbf{Complete-case Analysis}$ (он же Listwise Deletion Method) — метод обработки пропусков, применяемый во множестве прикладных пакетов как метод по умолчанию. Заключается в исключении из набора данных записей/строк или атрибутов/колонок, содержащих пропуски.

В случае первого механизма пропусков (MCAR) применение данного метода не приведет к существенному искажению параметров модели. Однако удаление строк приводит к тому, что при дальнейших вычислениях используется не вся доступная информация, стандартные отклонения возрастают, полученные результаты становятся менее репрезентативными. В случаях когда пропусков в данных много, это становится ощутимой проблемой.

Кроме того, в случае второго (MAR) и, особенно, третьего механизма пропусков (MNAR) смещение статистических свойств выборки, значений параметров построенных моделей и увеличение стандартных отклонений становятся еще сильнее.

Таким образом, несмотря на широкое распространение, применение данного метода для решения практических задач ограничено.

## Игнорирование пропусков
$\textbf{Available-case analysis}$ (он же Pairwise Deletion) – методы обработки, основанные на игнорировании пропусков в расчетах. Эти методы, как и Complete-case Analysis, тоже часто применяются по умолчанию.

Статистические характеристики, такие как средние значения, стандартные отклонения, можно рассчитать, используя все непропущенные значения для каждого из атрибутов/столбцов. Как и в случае Complete-case Analysis, при условии выполнения гипотезы MCAR, применение данного метода не приведет к существенному искажению параметров модели.

Преимущество данного подхода в том, что при построении модели используется вся доступная информация.

Главный же недостаток данных методов заключается в том, что они применимы для расчета далеко не всех показателей и, как правило, сопряжены с алгоритмическими и вычислительными сложностями, приводящие к некорректным результатам.


## Заполнение пропуска средним значением
Заполнение пропуска средним значением (Mean Substitution) (другие варианты: заполнение нулем, медианой и тому подобные.) — название метода говорит само за себя.

Всем вариантам данного метода свойственны одни и те же недостатки.

При заполнении средним арифметическим просходит искажение всех показателей, характеризующих свойства распределения (кроме среднего значения), заниженной корреляции и завышенной оценке стандартных отклонений.

Таким образом, данный метод приводит к существенному искажению распределения характеристики даже в случае MCAR.

## Повторение результата последнего наблюдения
$\textbf{LOCF}$ (Last observation carried forward) – повторение результата последнего наблюдения.

Данный метод применяется, как правило, при заполнении пропусков во временных рядах, когда последующие значения априори сильно взаимосвязаны с предыдущими.
Использование LOCF логично, когда справедлива гипотеза о малых изменениях значений от одной точки набора данных до другой 

Метод может привести к существенным искажениям статистических свойств даже в случае MCAR. Так, возможна ситуация, когда применение LOCF приведет к дублированию выброса (заполнению пропусков аномальным значением). Кроме того, если в данных много последовательно пропущенных значений, то гипотеза о небольших изменениях уже не выполняется и, как следствие, использование LOCF приводит к неправильным результатам.

## Indicator Method
$\textbf{Indicator Method}$ — метод, предполагающий замену пропущенных значений нулями и добавление специального атрибута-индикатора, принимающего нулевые значения для записей, где данные изначально не содержали пропусков и ненулевые значения там, где ранее были пропуски

На практике применяются и модификации этого метода, предполагающие заполнение пропусков ненулевыми значениями. Стоит отметить, что при таком заполнении (например, средним) допустимо использование инверсных значений поля флагов (то есть 0 – для случая, когда в исходных данных значения изначально были пропущены, и ненулевое значение для случаев, когда значение поля исходных данных было известно).

Также при заполнении пропусков ненулевыми значениями часто добавляется взаимодействие поля-флага и исходного поля.

К преимуществам данного метода относятся:

1) использование всего набора данных (репрезентативность выборки не страдает),

2) явное использование информации о пропущенных значениях.

Несмотря на эти преимущества, даже при выполнении гипотезы MCAR и небольшом числе пропущенных значений, данный метод может привести к существенному искажению результатов [Vach, 1991, Knol, 2010].

## Восстановление пропусков на основе регрессионных моделей
Данный метод заключается в том, что пропущенные значения заполняются с помощью модели линейной регрессии, построенной на известных значениях набора данных.
ример результатов заполнения пропущенных значений характеристики 1 на основе известных значений характеристики 2.

Метод линейной регрессии позволяет получить правдоподобно заполненные данные. Однако реальным данным свойственен некоторый разброс значений, который при заполнении пропусков на основе линейной регрессии отсутствует. Как следствие, вариация значений характеристики становится меньше, а корреляция между характеристикой регрессором и предсказанно характеристикой искусственно усиливается. В результате данный метод заполнения пропусков становится тем хуже, чем выше вариация значений характеристики, пропуски в которой мы заполняем, и чем выше процент пропущенных строк.

## Метод стохастической линейной регрессии
Стоит отметить, что есть метод, решающий эту проблему: метод стохастической линейной регрессии

Модель стохастической линейной регрессии отражает не только линейную зависимость между характеристиками, но и отклонения от этой линейной зависимости. Этот метод обладает положительными свойствами заполнения пропусков на основе линейной регрессии и, кроме того, не так сильно искажает значения коэффициентов корреляции.

Из всех методов, которые мы рассмотрели, заполнение пропусков с помощью стохастической линейной регрессии в общем случае приводит к наименьшим искажениям статистических свойств выборки. А в случае когда между характеристиками прослеживаются явно выраженные линейные зависимости, метод стохастической линейной регрессии нередко превосходит даже более сложные методы.

# ДЕМОНСТРАЦИЯ

In [2]:
import pandas as pd
from io import StringIO

In [28]:
data = 'price,count,percent\n1,10,\n2,20,51\n3,30,'
df = pd.read_csv(StringIO(data))
df.loc[3] = {'price':4, 'count':None, 'percent':26.3}

In [29]:
df

Unnamed: 0,price,count,percent
0,1.0,10.0,
1,2.0,20.0,51.0
2,3.0,30.0,
3,4.0,,26.3


In [12]:
df.isnull()  #выведет таблицу где NAN и где нет NAN

Unnamed: 0,price,count,percent
0,False,False,True
1,False,False,False
2,False,False,True
3,False,True,False


In [13]:
df.info()  # подробная информация, покажет сколька ненулевых объектов в каждой строке

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 3 columns):
price      4 non-null float64
count      3 non-null float64
percent    2 non-null float64
dtypes: float64(3)
memory usage: 128.0 bytes


In [14]:
df.isnull().sum() # выведет сколько НаН объектов в каждом столбце

price      0
count      1
percent    2
dtype: int64

In [22]:
df.dropna()  #удалит все строки где есть НаН

Unnamed: 0,price,count,percent
1,2.0,20.0,51.0


In [23]:
df.dropna(axis=1) #удалит столбцы, где есть Нан

Unnamed: 0,price
0,1.0
1,2.0
2,3.0
3,4.0


In [25]:
df.dropna(axis = 1, thresh=3) #удалит столбцы, в которых меньше 3 не Нан

Unnamed: 0,price,count
0,1.0,10.0
1,2.0,20.0
2,3.0,30.0
3,4.0,


In [15]:
a = 0
df.fillna(a)  #заменит все наны на значение а

Unnamed: 0,price,count,percent
0,1.0,10.0,0.0
1,2.0,20.0,51.0
2,3.0,30.0,0.0
3,4.0,0.0,26.3


In [21]:
df.fillna(df.mean())  #заполнит средним

Unnamed: 0,price,count,percent
0,1.0,10.0,38.65
1,2.0,20.0,51.0
2,3.0,30.0,38.65
3,4.0,20.0,26.3


In [26]:
df.interpolate(method ='linear', limit_direction ='forward')  #линейная интерполяция столбцов по предыдущим записям

Unnamed: 0,price,count,percent
0,1.0,10.0,
1,2.0,20.0,51.0
2,3.0,30.0,38.65
3,4.0,30.0,26.3
