Not a Number — все о NaN / pd 5
В предыдущих разделах вы видели, как легко могут образовываться недостающие данные. В структурах они определяются как значения NaN (Not a Value). Такой тип довольно распространен в анализе данных.

Присваивание значения NaN

In [23]:
import pandas as pd
import numpy as np
ser = pd.Series([0,1,2,np.NaN,9], index=['red','blue','yellow','white','green'])
ser

red       0.0
blue      1.0
yellow    2.0
white     NaN
green     9.0
dtype: float64

In [24]:
ser['white'] = None # как был NaN, так и остался
ser

red       0.0
blue      1.0
yellow    2.0
white     NaN
green     9.0
dtype: float64

Фильтрование значений NaN

Есть несколько способов, как можно избавиться от значений NaN во время анализа данных. Это можно делать вручную, удаляя каждый элемент, но такая операция сложная и опасная, к тому же не гарантирует, что вы действительно избавились от всех таких значений. Здесь на помощь приходит функция dropna().

In [25]:
ser.dropna()

red       0.0
blue      1.0
yellow    2.0
green     9.0
dtype: float64

In [26]:
# Функцию фильтрации можно выполнить и прямо с помощью notnull() при выборе элементов.
ser[ser.notnull()]

red       0.0
blue      1.0
yellow    2.0
green     9.0
dtype: float64

В случае с Dataframe это чуть сложнее. Если использовать функцию pandas dropna() на таком типе объекта, который содержит всего одно значение NaN в колонке или строке, то оно будет удалено.

In [27]:
frame3 = pd.DataFrame([[6,np.nan,6],[np.nan,np.nan,np.nan],[2,np.nan,5]], index = ['blue','green','red'], columns = ['ball','mug','pen'])
frame3

Unnamed: 0,ball,mug,pen
blue,6.0,,6.0
green,,,
red,2.0,,5.0


In [28]:
frame3.dropna()
#Empty DataFrame

Unnamed: 0,ball,mug,pen


Таким образом чтобы избежать удаления целых строк или колонок нужно использовать параметр how, присвоив ему значение all. Это сообщит функции, чтобы она удаляла только строки или колонки, где все элементы равны NaN.

In [29]:

frame3.dropna(how='all')

Unnamed: 0,ball,mug,pen
blue,6.0,,6.0
red,2.0,,5.0


In [30]:

frame3.dropna(how='all', axis = 1)

Unnamed: 0,ball,pen
blue,6.0,6.0
green,,
red,2.0,5.0


Заполнение NaN
Вместо того чтобы отфильтровывать значения NaN в структурах данных, рискуя удалить вместе с ними важные элементы, можно заменять их на другие числа. Для этих целей подойдет fillna(). Она принимает один аргумент — значение, которым нужно заменить NaN.

In [31]:
frame3.fillna(0)
# сам дата фрейм функция не меняет, это просто фильтр

Unnamed: 0,ball,mug,pen
blue,6.0,0.0,6.0
green,0.0,0.0,0.0
red,2.0,0.0,5.0


In [32]:
#Или же NaN можно заменить на разные значения в зависимости от колонки, указывая их и соответствующие значения.

frame3.fillna({'ball':1,'mug':0,'pen':99})

Unnamed: 0,ball,mug,pen
blue,6.0,0.0,6.0
green,1.0,0.0,99.0
red,2.0,0.0,5.0


In [33]:
frame3

Unnamed: 0,ball,mug,pen
blue,6.0,,6.0
green,,,
red,2.0,,5.0


In [34]:
sum(frame3.count())  # число НЕпустых значений в Таблице

4

In [35]:
frame3.isnull().sum().sum () # число пустых значений в Таблице

5

In [36]:
# общее количество пропущенных значений в стоЛбце

frame3['mug'].isnull().sum()

3

In [37]:
# общее количество пропущенных значений в столбцах таблицы

frame3.isnull().sum()  # или (axis= 0 ), но оно и так 0 по умолчанию

ball    1
mug     3
pen     1
dtype: int64