# Отсутствующие значения (пропущенные значения, Missing Data)

Варианты обработки отсутствующих значений:

- Оставить их (не вносить изменений, однако многие методы не поддерживают NaN)

- Удалить их (легко удалить, однако полезная информация может потеряться)

- Заменить их (сохраняем данные для обучения модели, однако сложно реализовать т.к. имеется много вариантов)

--------


## Как выглядят значения Null/NA/nan:

Источник: https://github.com/pandas-dev/pandas/issues/28095

Значение pd.NA означает отсутствующее скалярное значение. Сейчас это основной вариант. До этого в pandas использовались различные значения для обозначения таких данных: np.nan для данных float, np.nan или None для данных dtype, и pd.NaT для даты-времени. Цель pd.NA в том, чтобы указывать “отсутствующие” данные для различных типов данных. Сейчас pd.NA используется для типов данных nullable integer и boolean, а также для нового типа данных string.

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.nan

nan

In [3]:
pd.NA

<NA>

In [4]:
pd.NaT

NaT

----
------
## Обратите внимание! При наличии отсутствующих значений, следует избегать обычных операций сравнения.

* https://towardsdatascience.com/navigating-the-hell-of-nans-in-python-71b12558895b
* https://stackoverflow.com/questions/20320022/why-in-numpy-nan-nan-is-false-while-nan-in-nan-is-true

Причина в том, что если какое-то значение неизвестно, то при сравнении двух значений мы не можем сказать, равны ли два значения друг другу или нет.

In [5]:
np.nan == np.nan # (т.к. неизвестны их значения)

False

In [6]:
np.nan in [np.nan]

True

In [7]:
np.nan is np.nan

True

In [8]:
pd.NA == pd.NA

<NA>

-------

## Данные

Людей попросили дать оценку актёрам фильма по шкале от 1 до 10 - сначала до, а затем после просмотра одного из фильмов. Однако, некоторые значения в этих данных отсутствуют.

In [9]:
df = pd.read_csv('movie_scores.csv')

In [10]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


## Проверка значений Null и получение этих значений

In [11]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [12]:
df.isnull()

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,False,False,False,False,False,False
1,True,True,True,True,True,True
2,False,False,False,False,True,True
3,False,False,False,False,False,False
4,False,False,False,False,False,False


In [13]:
df.notnull()

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,True,True,True,True,True,True
1,False,False,False,False,False,False
2,True,True,True,True,False,False
3,True,True,True,True,True,True
4,True,True,True,True,True,True


In [14]:
df['first_name']

0      Tom
1      NaN
2     Hugh
3    Oprah
4     Emma
Name: first_name, dtype: object

In [15]:
df[df['first_name'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [16]:
df[(df['pre_movie_score'].isnull()) & df['sex'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
2,Hugh,Jackman,51.0,m,,


## Удаление отсутствующих данных

In [143]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [144]:
help(df.dropna)

Help on method dropna in module pandas.core.frame:

dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) method of pandas.core.frame.DataFrame instance
    Remove missing values.
    
    See the :ref:`User Guide <missing_data>` for more on which values are
    considered missing, and how to work with missing data.
    
    Parameters
    ----------
    axis : {0 or 'index', 1 or 'columns'}, default 0
        Determine if rows or columns which contain missing values are
        removed.
    
        * 0, or 'index' : Drop rows which contain missing values.
        * 1, or 'columns' : Drop columns which contain missing value.
    
        .. versionchanged:: 1.0.0
    
           Pass tuple or list to drop on multiple axes.
           Only a single axis is allowed.
    
    how : {'any', 'all'}, default 'any'
        Determine if row or column is removed from DataFrame, when we have
        at least one NA or all NA.
    
        * 'any' : If any NA values are present, dro

In [17]:
df.dropna() # удалит все строки, в которых есть хотя бы одно неопределенное значение

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [18]:
df.dropna(thresh=1) # удалит все строки со значением NaN, кроме тех строк, где есть хотя бы одно ОПРЕДЕЛЕННОЕ значение

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [19]:
df.dropna(axis=1) # просиходит удаление колонок, в которых есть хотя бы одно значение NaN

0
1
2
3
4


In [148]:
df.dropna(thresh=4,axis=1) # dropna - удаляет строки, в которых есть NaN в любой из колонок

Unnamed: 0,first_name,last_name,age,sex
0,Tom,Hanks,63.0,m
1,,,,
2,Hugh,Jackman,51.0,m
3,Oprah,Winfrey,66.0,f
4,Emma,Stone,31.0,f


In [20]:
df.dropna(subset='last_name') # subset (как параметр) удаляет для указанных колоно

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


## Замена отсутствующих данных другим значением

In [149]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [150]:
df.fillna("NEW VALUE!") # замена всех NaN

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63,m,8,10
1,NEW VALUE!,NEW VALUE!,NEW VALUE!,NEW VALUE!,NEW VALUE!,NEW VALUE!
2,Hugh,Jackman,51,m,NEW VALUE!,NEW VALUE!
3,Oprah,Winfrey,66,f,6,8
4,Emma,Stone,31,f,7,9


In [26]:
df['first_name'].fillna("Empty") # замена пустого значения в колонке

0      Tom
1    Empty
2     Hugh
3    Oprah
4     Emma
Name: first_name, dtype: object

In [27]:
df['first_name'] = df['first_name'].fillna("Empty")

In [28]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,Empty,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [29]:
df['pre_movie_score'].mean() # нахождение среднего значения

7.0

In [30]:
df['pre_movie_score'].fillna(df['pre_movie_score'].mean()) # использование среднего значения вместо пустых значений

0    8.0
1    7.0
2    7.0
3    6.0
4    7.0
Name: pre_movie_score, dtype: float64

In [31]:
df.fillna(df.mean()) # замена на среднее значение для всех колонок (только числовые колонки)

  df.fillna(df.mean()) # замена на среднее значение для всех колонок (только числовые колонки)


Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,Empty,,52.75,,7.0,9.0
2,Hugh,Jackman,51.0,m,7.0,9.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


## Замена отсутствующих данных методом интерполяции

Будьте осторожны - применяя этот способ, Вы должны быть действительно уверены, что это можно делать для Ваших данных. Также имейте ввиду, что интерполяцию можно сделать разными методами. По умолчанию используется линейный метод.

Описание методов интерполяции:
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html

In [4]:
airline_tix = {'first':100,'business':np.nan,'economy-plus':50,'economy':30}

In [5]:
ser = pd.Series(airline_tix)

In [166]:
ser

first           100.0
business          NaN
economy-plus     50.0
economy          30.0
dtype: float64

In [167]:
ser.interpolate()

first           100.0
business         75.0
economy-plus     50.0
economy          30.0
dtype: float64

In [6]:
ser.interpolate(method='spline') # будет ошибка - чтобы исправить её, мы дальше создадим датафрейм

ValueError: Index column must be numeric or datetime type when using spline method other than linear. Try setting a numeric or datetime index column before interpolating.

In [169]:
df = pd.DataFrame(ser,columns=['Price'])

In [170]:
df

Unnamed: 0,Price
first,100.0
business,
economy-plus,50.0
economy,30.0


In [171]:
df.interpolate()

Unnamed: 0,Price
first,100.0
business,75.0
economy-plus,50.0
economy,30.0


In [174]:
df = df.reset_index()

In [175]:
df

Unnamed: 0,index,Price
0,first,100.0
1,business,
2,economy-plus,50.0
3,economy,30.0


In [178]:
df.interpolate(method='spline',order=2)

Unnamed: 0,index,Price
0,first,100.0
1,business,73.333333
2,economy-plus,50.0
3,economy,30.0
