In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

__РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ__

__Причины по которым могут возникнуть пропущенные данные (Nan)__
- объединение двух наборов данных с несовпадающими названиями переменных;
- данные, извлеченные из внешнего источника, являются не полными;
- значение переменной неизвестно в данный момент времени и будет заполнено позднее;
- при сборе информации был допущен пропуск, однако наблюдение все равно должно быть записано;
- переиндексация данных привела к индексу, у которого отсутствует значение;
- форма данных изменилась со временем, и теперь появились дополнительные строки или столбцы, которые до момента появления этих изменений нельзя было зафиксировать

In [2]:
# создаем датафрейм с 5 строками и 3 столбцами
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3),
                  index = ['a', 'b', 'c', 'd', 'e'],
                  columns = ['c1', 'c2', 'c3'])
df

   c1  c2  c3
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14

In [3]:
# добавляем несколько столбцов и строк в датафрейм
df['c4'] = np.nan
# строка f со значениями от 15 до 18
df.loc['f'] = np.arange(15, 19)
# строка g состоящая из значений Nan 
df.loc['g'] = np.nan
# столбец с5 состоящий из значений Nan
df['c5'] = np.nan
# меняем значение в столбце с4 строки а
df['c4']['a'] = 20
df

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN
g   NaN   NaN   NaN   NaN NaN

__Поиск значений Nan в объектах библиотеки Pandas__

In [4]:
# Значения Nan в DataFrame можно найти с помощью метода .isnull Любое значение True означает что этот элемент Nan 
df.isnull()

      c1     c2     c3     c4    c5
a  False  False  False  False  True
b  False  False  False   True  True
c  False  False  False   True  True
d  False  False  False   True  True
e  False  False  False   True  True
f  False  False  False  False  True
g   True   True   True   True  True

In [5]:
# метод .sum() рассматривает True как 1 и Falsу как 0, чтобы вычислить количество Nan в объекте DataFrame
df.isnull().sum()

c1    1
c2    1
c3    1
c4    5
c5    7
dtype: int64

In [6]:
# вычисляем общее количество Nan в объекте
df.isnull().sum().sum()

15

In [7]:
# еще один способ определить пропуски - использовать метод .count() Для объекта Series он возвращает число не пропущенных 
# значений, для объекта DataFrame он будет подсчитывать количество непропущенных значений в каждом столбце
# вычисляем количество значений отличных от Nan, по каждому столбцу
df.count()

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

In [8]:
# еще один вариант подсчета общего количества Nan 
(len(df) - df.count()).sum()

15

In [9]:
# можно определить, является ли элемент непропущенным значением, воспользовавшись методом .notnull()
df.notnull()

      c1     c2     c3     c4     c5
a   True   True   True   True  False
b   True   True   True  False  False
c   True   True   True  False  False
d   True   True   True  False  False
e   True   True   True  False  False
f   True   True   True   True  False
g  False  False  False  False  False

__Удаление пропущенных данных__

In [10]:
# отбираем непропущенные значения в столбце с4
df.c4[df.c4.notnull()]

a    20.0
f    18.0
Name: c4, dtype: float64

In [11]:
# .dropna() также возвращает не пропущенные значения
df.c4.dropna()

a    20.0
f    18.0
Name: c4, dtype: float64

In [12]:
# .dropna() возвращает копию с удаленными значениями, исходник не изменился
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

In [13]:
# когда .dropna() применяется к объекту DataFrame, он удаляет из объекта DataFrame все строки в которых есть хотя бы одно Nan 
df.dropna()

Empty DataFrame
Columns: [c1, c2, c3, c4, c5]
Index: []

In [14]:
# используя параметр how = 'all', удаляем только те строки в которых все значения Nan 
df.dropna(how ='all')

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN

In [15]:
# меняем ось что бы удалить столбцы со значениями Nan 
df.dropna(how = 'all', axis = 1)

     c1    c2    c3    c4
a   0.0   1.0   2.0  20.0
b   3.0   4.0   5.0   NaN
c   6.0   7.0   8.0   NaN
d   9.0  10.0  11.0   NaN
e  12.0  13.0  14.0   NaN
f  15.0  16.0  17.0  18.0
g   NaN   NaN   NaN   NaN

In [16]:
# создаем копию DataFrame
df2 = df.copy()
df2.loc['g'].c1 = 0
df2.loc['g'].c3 = 0
df2

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN
g   0.0   NaN   0.0   NaN NaN

In [17]:
# с помощью параметра how = 'any' удалим столбцы в которых есть хотя бы 1 значение Nan 
df2.dropna(how = 'any', axis = 1)

     c1    c3
a   0.0   2.0
b   3.0   5.0
c   6.0   8.0
d   9.0  11.0
e  12.0  14.0
f  15.0  17.0
g   0.0   0.0

In [19]:
# с помощью параметра thresh можно задать минимальное количество Nan которое требуется для удаления столбца или строк 
df.dropna(thresh = 5, axis = 1)

     c1    c2    c3
a   0.0   1.0   2.0
b   3.0   4.0   5.0
c   6.0   7.0   8.0
d   9.0  10.0  11.0
e  12.0  13.0  14.0
f  15.0  16.0  17.0
g   NaN   NaN   NaN

In [20]:
# метод .dropna возвращает копию датафрейма!!! если нужно удалить в исходнике, используем параметр inplace = True

__Обработка значений Nan в ходе арифметических операций__