In [2]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd
# импоритруем библиотеку datatime для работы с датами
from datetime import datetime, date

# Задаем некоторые опции библиотеки pandas, которые настраивают вывод
# pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)  
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
    #%matplotlib inline

# Как работать с пропущенными данными (NaN)

In [3]:
# создаем датафрейм с 5 строками и 3 столбцами
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3),
            index=['a', 'b', 'c', 'd', 'e'],
            columns=['c1', 'c2', 'c3'])
df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14


In [4]:
# добавляем несколько столбцов и строк в датафрейм
# столбец c4 со значение NaN
df['c4'] = np.nan
# строка 'f' со значениями от 15 до 18
df.loc['f'] = np.arange(15, 19)
# строка 'g', состоящая из NaN
df.loc['g'] = np.nan
# столбец с5, состоящий из значений NaN
df['c5'] = np.nan
# меняем значение в столбце c4 строки 'a'
df['c4']['a'] = 20
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


# 1) Поиск значений Nan в объектах библиотеки pandas

In [5]:
# какие элементы являются значениями NaN
df.isnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,False,False,False,False,True
b,False,False,False,True,True
c,False,False,False,True,True
d,False,False,False,True,True
e,False,False,False,True,True
f,False,False,False,False,True
g,True,True,True,True,True


In [6]:
# подсчитываем кол-во значений NaN в каждом столбце
df.isnull().sum()

c1    1
c2    1
c3    1
c4    5
c5    7
dtype: int64

In [7]:
# вычисляем общее кол-во значений NaN
df.isnull().sum().sum()

15

In [8]:
# вычисляем кол-во значений, отличных от NaN
df.count()

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

In [9]:
# этот программный код тоже подсчитывает кол-во значнений NaN
(len(df) - df.count()).sum()

15

In [10]:
# какие элементы являются непропущенными значениями?
df.notnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,True,True,True,True,False
b,True,True,True,False,False
c,True,True,True,False,False
d,True,True,True,False,False
e,True,True,True,False,False
f,True,True,True,True,False
g,False,False,False,False,False


# 2) Удаление пропущенных данных

In [11]:
# отбираем непропущенные значения в столбце c4
df.c4[df.c4.notnull()]

a    20.0
f    18.0
Name: c4, dtype: float64

In [12]:
# .dropna() также возвращает непропущенные значения
# этот програмный код извлекает в столбце c4 все значения, кроме NaN
df.c4.dropna() 

a    20.0
f    18.0
Name: c4, dtype: float64

In [13]:
# .dropna() возвращает копию с удаленными значениями
# исходный датафрейм/ не изменился
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

In [14]:
# метод .dropna() при применении к датафрейму удаляет целиком строки, в которых есть NaN
# в данном случае будут удалены все строки
df.dropna()

Unnamed: 0,c1,c2,c3,c4,c5


In [15]:
# используя параметр how='all', удаляем лишь те сроки, в которых все значения являются NaN
df.dropna(how='all')

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,


In [16]:
# меняем ось, чтобы удалить столбцы со значениями NaN вместо строк
df.dropna(how='all', axis=1)

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,
c,6.0,7.0,8.0,
d,9.0,10.0,11.0,
e,12.0,13.0,14.0,
f,15.0,16.0,17.0,18.0
g,,,,


In [17]:
# создаем копию датафрейма
df2 = df.copy()
# заменяем две ячейки с пропусками значениями 0
df2.loc['g'].c1 = 0
df2.loc['g'].c3 = 0
df2

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,0.0,,0.0,,


In [18]:
# а сейчас удаляем столбцы, в которых есть хотя бы одно значение NaN
df2.dropna(how='any', axis=1)

Unnamed: 0,c1,c3
a,0.0,2.0
b,3.0,5.0
c,6.0,8.0
d,9.0,11.0
e,12.0,14.0
f,15.0,17.0
g,0.0,0.0


In [19]:
# удаляем лишь те столбцы, в которых, по меньшей мере, 5 значений NaN
df.dropna(thresh=5, axis=1)

Unnamed: 0,c1,c2,c3
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,9.0,10.0,11.0
e,12.0,13.0,14.0
f,15.0,16.0,17.0
g,,,


# 3) Обработка значений NaN в ходе арифметических операций

In [20]:
# создаем массив NumPy с одним значением NaN
a = np.array([1, 2, np.nan, 3])
# создаем объект Series из массива
s = pd.Series(a)
# среднее значение массива и серии отличается
a.mean(), s.mean()

(nan, 2.0)

In [21]:
# показывает, как методы .sum(), .mean(), .cumsum()
# обрабатывает значения NaN на примере столбца c4 датафрейма df
s = df.c4
s.sum() # значения NaN обработаны как 0

38.0

In [22]:
s.mean() # NaN обрабатывается как 0

19.0

In [23]:
# в методе .cumsum() значения NaN тоже обрабатываются как 0, но в итоговом объекте Series NaN сохраняются
s.cumsum()

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    38.0
g     NaN
Name: c4, dtype: float64

In [24]:
# при выполнении арифметических операций значение NaN будет перенесено в результат
df.c4 + 1

a    21.0
b     NaN
c     NaN
d     NaN
e     NaN
f    19.0
g     NaN
Name: c4, dtype: float64

# 4) Заполнение пропущенных данных

In [25]:
# возвращаем новый датафрейм, в котором значения NaN заполнены нулями
filled = df.fillna(0)
filled

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,0.0
b,3.0,4.0,5.0,0.0,0.0
c,6.0,7.0,8.0,0.0,0.0
d,9.0,10.0,11.0,0.0,0.0
e,12.0,13.0,14.0,0.0,0.0
f,15.0,16.0,17.0,18.0,0.0
g,0.0,0.0,0.0,0.0,0.0


In [26]:
# значения NaN не учитываются при вычислении средних значений
df.mean()

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

In [27]:
# после замены значений NaN на 0 получим другие средние значения
filled.mean()

c1    6.428571
c2    7.285714
c3    8.142857
c4    5.428571
c5    0.000000
dtype: float64

# 5) Прямой и обратный порядок заполнения пропущенных значений

In [28]:
# заполняем пропуски в столбце c4 датафрейма df в прямом порядке
df.c4.fillna(method='ffill')

a    20.0
b    20.0
c    20.0
d    20.0
e    20.0
f    18.0
g    18.0
Name: c4, dtype: float64

In [29]:
# выполняем обратное заполнение 
df.c4.fillna(method='bfill')

a    20.0
b    18.0
c    18.0
d    18.0
e    18.0
f    18.0
g     NaN
Name: c4, dtype: float64

# 6) Заполнение с помощью меток индекса

In [30]:
# создаем новую серию значений, которую используем для заполнения значений NaN там, где совпадают метки
fill_values = pd.Series([100, 101, 102], index=['a', 'e', 'g'])
fill_values

a    100
e    101
g    102
dtype: int64

In [31]:
# заполняем пропуски в столбце c4 c помощью fill_values
# a, e и g будут заполнены, посколькуметки совпали, однако значение a не изменится,
# потому что оно не я вляется пропуском
df.c4.fillna(fill_values)

a     20.0
b      NaN
c      NaN
d      NaN
e    101.0
f     18.0
g    102.0
Name: c4, dtype: float64

In [32]:
# заполняем значение NaN в каждом столбце средним значением этого столбца
df.fillna(df.mean())

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,19.0,
c,6.0,7.0,8.0,19.0,
d,9.0,10.0,11.0,19.0,
e,12.0,13.0,14.0,19.0,
f,15.0,16.0,17.0,18.0,
g,7.5,8.5,9.5,19.0,


# 7) Выполнение интерполяции пропущенных значений

In [34]:
# выполняем линейную интерполяцию значений NaN  с 1 до 2
s = pd.Series([1, np.nan, np.nan, np.nan, 2])
s.interpolate()

0    1.00
1    1.25
2    1.50
3    1.75
4    2.00
dtype: float64

In [40]:
# создаем временной ряд, но при этом значение по одной дате будет пропущенно
ts = pd.Series([1, np.nan, 2], 
            index=[datetime(2014, 1, 1),
                   datetime(2014, 2, 1),
                   datetime(2014, 4, 1)])
ts

2014-01-01    1.0
2014-02-01    NaN
2014-04-01    2.0
dtype: float64

In [42]:
# выполняем линейную интерполяцию на основе кол-ва элементов в данной серии
ts.interpolate()

2014-01-01    1.0
2014-02-01    1.5
2014-04-01    2.0
dtype: float64

In [43]:
# этот программный код учитывает тот факт, что у нас отсутствует запись для 2014-03-01
ts.interpolate(method='time')

2014-01-01    1.000000
2014-02-01    1.344444
2014-04-01    2.000000
dtype: float64

In [45]:
# создаем объект Series, чтобы продемонстрировать интерполяцию,
# основанную на индексных метках
s = pd.Series([0, np.nan, 100], index=[0, 1, 10])
s

0       0.0
1       NaN
10    100.0
dtype: float64

In [47]:
# выполним линейную интерпляцию 
s.interpolate()

0       0.0
1      50.0
10    100.0
dtype: float64

In [48]:
# выполним интерполяцию на основе значений индекса
s.interpolate(method='values')

0       0.0
1      10.0
10    100.0
dtype: float64

# 8) Обработка дублирующихся данных

In [50]:
# создаем датафрейм с дублирующимися строками
data = pd.DataFrame({'a': ['x'] * 3 + ['y'] * 4, 'b': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,a,b
0,x,1
1,x,1
2,x,2
3,y,3
4,y,3
5,y,4
6,y,4


In [52]:
# определяем, какие строки являются дублирующимися,
# то есть такие строки уже ранее встречались в датафрейме
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

In [54]:
# удаляем дублирующиеся строки, каждый раз оставляя первое из дублирубщихся наблюдений
data.drop_duplicates()

Unnamed: 0,a,b
0,x,1
2,x,2
3,y,3
5,y,4


In [56]:
# удаляем дублирующиеся строки, каждый раз оставляя последнее из дублирующихся наблюдений
data.drop_duplicates(keep='last')

Unnamed: 0,a,b
1,x,1
2,x,2
4,y,3
6,y,4


In [59]:
# добавляем столбец 'c' со значениями от 0 до 6
# метод .dublicated() сообщает об отсутствии дублирующихся строк
data['c'] = range(7)
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool

In [61]:
# но если мы укажем, что нужно удалить дублирующиеся строки
# с учетом значений в столбцах a и b, результаты будут выглядеть так
data.drop_duplicates(['a', 'b'])

Unnamed: 0,a,b,c
0,x,1,0
2,x,2,2
3,y,3,3
5,y,4,5


# Преобразование данных

# 1) Сопоставление значений другим значениям

In [63]:
# создаем два объекта Series для иллюстрации процесса сопоставления значений
x = pd.Series({'one': 1, 'two': 2, 'three': 3})
y = pd.Series({1: 'a', 2: 'b', 3: 'c'})
x

one      1
two      2
three    3
dtype: int64

In [65]:
y

1    a
2    b
3    c
dtype: object

In [68]:
# сопоставляем значения серии x значениям серии y
x.map(y)

one      a
two      b
three    c
dtype: object

In [69]:
# Если между значением серии y и индексной меткой серии x
# не будет найдено соответствие, будет выдано значение NaN
x = pd.Series({'one': 1, 'two': 2, 'three': 3})
y = pd.Series({1: 'a', 2: 'b'})
x.map(y)

one        a
two        b
three    NaN
dtype: object

# 2) Замена значений 

In [72]:
# создаем объект Series, чтоб проиллюстрировать метод .replace()
s = pd.Series([0., 1., 2., 3., 2., 4.])
s

0    0.0
1    1.0
2    2.0
3    3.0
4    2.0
5    4.0
dtype: float64

In [74]:
# заменяем значение, соответствующее индексной метке 2, на значение 5
s.replace(2, 5)

0    0.0
1    1.0
2    5.0
3    3.0
4    5.0
5    4.0
dtype: float64

In [76]:
# заменяем все элементы новыми значениями 
s.replace([0, 1, 2, 3, 4], [4, 3, 2, 1, 0])

0    4.0
1    3.0
2    2.0
3    1.0
4    2.0
5    0.0
dtype: float64

In [78]:
# заменяем элементы, используя словарь
s.replace({0: 10, 1: 100})

0     10.0
1    100.0
2      2.0
3      3.0
4      2.0
5      4.0
dtype: float64

In [80]:
# создаем датафрейм с двумя столбцами
df = pd.DataFrame({'a': [0, 1, 2, 3, 4], 'b': [5, 6, 7, 8, 9]})
df

Unnamed: 0,a,b
0,0,5
1,1,6
2,2,7
3,3,8
4,4,9


In [82]:
# задаем разные заменяемые значения для каждого столбца
df.replace({'a': 1, 'b': 8}, 100)

Unnamed: 0,a,b
0,0,5
1,100,6
2,2,7
3,3,100
4,4,9


In [85]:
# иллюстрируем замену значений с помощью метода pad
# заменяем первое значение на 10
s[0] = 10
s

0    10.0
1     1.0
2     2.0
3     3.0
4     2.0
5     4.0
dtype: float64

In [86]:
# заменяем элементы с индексными метками 1, 2, 3, используя для заполнения самое последнее значение,
# предшествующее задааным меткам (10)
s.replace([1, 2, 3], method='pad')

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
5     4.0
dtype: float64

# 3) Применение функций для преобразования данных

In [89]:
# иллюстрируем применение функции к каждому элементу объекта Series
s = pd.Series(np.arange(0, 5))
s.apply(lambda v: v * 2)

0    0
1    2
2    4
3    6
4    8
dtype: int64

In [91]:
# создаем датафрейм, чтобы проиллюстрировать применение
# операции суммирования к каждому столбцуэ
df = pd.DataFrame(np.arange(12).reshape(4,3), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [93]:
# вычисляем сумму элементов в каждом столбце
df.apply(lambda col: col.sum())

a    18
b    22
c    26
dtype: int64

In [96]:
# вычисляем сумму элементов в каждой строке
df.apply(lambda row: row.sum(), axis=1)

0     3
1    12
2    21
3    30
dtype: int64

In [98]:
# создаем столбец 'interim' путем  умножения столбцов a и b
df['interim'] = df.apply(lambda r: r.a * r.b, axis=1)
df

Unnamed: 0,a,b,c,interim
0,0,1,2,0
1,3,4,5,12
2,6,7,8,42
3,9,10,11,90


In [101]:
# а теперь получаем столбец 'result' путем сложенря столбцов 'interim' и 'c'
df['result'] = df.apply(lambda r: r.interim + r.c, axis=1)
df

Unnamed: 0,a,b,c,interim,result
0,0,1,2,0,2
1,3,4,5,12,17
2,6,7,8,42,50
3,9,10,11,90,101


In [103]:
# изменяем значения столбца a на сумму значений по строке
df.a = df.a + df.b + df.c
df

Unnamed: 0,a,b,c,interim,result
0,6,1,2,0,2
1,21,4,5,12,17
2,36,7,8,42,50
3,51,10,11,90,101


In [105]:
# создаем объект DataFrame из 3 строк и 5 столбцов
# только вторая строка содержит NaN
df = pd.DataFrame(np.arange(0, 15).reshape(3, 5))
df.loc[1, 2] = np.nan
df

Unnamed: 0,0,1,2,3,4
0,0,1,2.0,3,4
1,5,6,,8,9
2,10,11,12.0,13,14


In [107]:
# демострируем применение функции только к тем строкам, в которых нет значений NaN
df.dropna().apply(lambda x: x.sum(), axis=1)

0    10.0
2    60.0
dtype: float64

In [108]:
# используем метод .applymap(), чтобы изменить формат всех элементов объекта DataFrame
df.applymap(lambda x: '%.2f' % x)

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
