# Настройка pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# задаем некоторые настройки pandas, регулирующие
# формат вывода
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

# Создание объекта Series с помощью питоновских списков и словарей

In [2]:
# создаем серию значений из списка
s = pd.Series([10, 11, 12, 13, 14])
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [3]:
# получаем значение, записанное в метке индекса 3
s[3]

13

In [4]:
# создаем серию строковых значений
pd.Series(['Mike', 'Marcia', 'Mikael', 'Bleu'])

0      Mike
1    Marcia
2    Mikael
3      Bleu
dtype: object

In [5]:
# создаем последовательность из пяти двоек
pd.Series([2]*5)

0    2
1    2
2    2
3    2
4    2
dtype: int64

In [6]:
# используем каждый символ в качестве значения
pd.Series(list('abcde'))

0    a
1    b
2    c
3    d
4    e
dtype: object

In [7]:
# создаем объект Series из словаря
pd.Series({'Mike': 'Dad', 
           'Marcia': 'Mom', 
           'Mikael': 'Son', 
           'Bleu': 'Best doggie ever' })

Mike                   Dad
Marcia                 Mom
Mikael                 Son
Bleu      Best doggie ever
dtype: object

# Создание объекта Series с помощью функций NumPy

In [8]:
# создаем последовательность целочисленных 
# значений от 4 до 8
pd.Series(np.arange(4, 9))

0    4
1    5
2    6
3    7
4    8
dtype: int32

In [9]:
# создаем последовательность из 5 значений, 
# лежащих в интервале от 0 до 9
pd.Series(np.linspace(0, 9, 5))

0    0.00
1    2.25
2    4.50
3    6.75
4    9.00
dtype: float64

In [10]:
# генерируем случайные числа
np.random.seed(12345) # всегда генерирует одни и те же числа
# создаем серию из 5 нормально распределенных случайных чисел
pd.Series(np.random.normal(size=5))

0   -0.204708
1    0.478943
2   -0.519439
3   -0.555730
4    1.965781
dtype: float64

# Создание объекта Series с помощью скалярного значения

In [11]:
# создаем объект Series, состоящий
# из одного элемента
s = pd.Series(2)
s

0    2
dtype: int64

In [12]:
# создаем объект Series
s = pd.Series(np.arange(0, 5))
# умножаем все значения на 2
s * 2

0    0
1    2
2    4
3    6
4    8
dtype: int32

# Свойства .index и .values

In [13]:
# получаем значения в объекте Series
s = pd.Series([1, 2, 3])
s.values

array([1, 2, 3], dtype=int64)

In [14]:
# показываем, что результат - это массив NumPy
type(s.values)

numpy.ndarray

In [15]:
# получаем индекс объекта Series
s.index

RangeIndex(start=0, stop=3, step=1)

# Размер и форма объекта Series

In [16]:
# создаем серию
s = pd.Series([0, 1, 2, 3])
len(s)

4

In [17]:
# .size также позволяет узнать о количестве 
# элементов в объекте Series
s.size

4

In [18]:
# .shape - это кортеж с одним значением
s.shape

(4,)

# Установка индекса во время создания объекта Series

In [19]:
# явно создаем индекс
labels = ['Mike', 'Marcia', 'Mikael', 'Bleu']
role = ['Dad', 'Mom', 'Son', 'Dog']
s = pd.Series(labels, index=role)
s

Dad      Mike
Mom    Marcia
Son    Mikael
Dog      Bleu
dtype: object

In [20]:
# исследуем индекс
s.index

Index(['Dad', 'Mom', 'Son', 'Dog'], dtype='object')

In [21]:
# какой метке индекса соответствует 
# значение Dad?
s['Dad']

'Mike'

# Использование  методов .head(), .tail() и .take() для вывода значений

In [22]:
# cоздаем объект Series из 9 элементов
s = pd.Series(np.arange(1, 10), 
              index=list('abcdefghi'))

In [23]:
# выводим первые 5 строк
s.head()

a    1
b    2
c    3
d    4
e    5
dtype: int32

In [24]:
# выводим первые 3 строки
s.head(n = 3) # еще можно применить s.head(3)

a    1
b    2
c    3
dtype: int32

In [25]:
# выводим последние 5 строк
s.tail()

e    5
f    6
g    7
h    8
i    9
dtype: int32

In [26]:
# выводим последние 3 строки
s.tail(n = 3) # еще можно применить s.tail(3)

g    7
h    8
i    9
dtype: int32

In [27]:
# отобрать строки, соответствующие
# позициям 1, 5 и 8
s.take([1, 5, 8])

b    2
f    6
i    9
dtype: int32

# Поиск по метке с помощью операторов [] и .ix[]

In [28]:
# мы создадим эту серию для проверки 
# различных способов поиска
s1 = pd.Series(np.arange(10, 15), index=list('abcde'))
s1

a    10
b    11
c    12
d    13
e    14
dtype: int32

In [29]:
# получаем значение с меткой 'a'
s1['a']

10

In [30]:
# получаем несколько элементов
s1[['d', 'b']]

d    13
b    11
dtype: int32

In [31]:
# получаем значения, указав их позиции
s1[[3, 1]]

d    13
b    11
dtype: int32

In [32]:
# осуществляем поиск совпадений 
# с целочисленными метками
s2 = pd.Series([1, 2, 3, 4], index=[10, 11, 12, 13])
s2

10    1
11    2
12    3
13    4
dtype: int64

In [33]:
# поиск по метке, а не по позиции
s2[[13, 10]]

13    4
10    1
dtype: int64

# Явный поиск по позиции с помощью свойства .iloc[]

In [34]:
# ищем явно по позиции
s1.iloc[[0, 2]]

a    10
c    12
dtype: int32

In [35]:
# ищем явно по позиции
s2.iloc[[3, 2]]

13    4
12    3
dtype: int64

# Явный поиск по меткам с помощью свойства .loc[]

In [36]:
# ищем явно по меткам
s1.loc[['a', 'd']]

a    10
d    13
dtype: int32

In [37]:
# получаем элементы в позициях 11 и 12
s2.loc[[11, 12]]

11    2
12    3
dtype: int64

In [38]:
# значение для несуществующей метки 
# будет значением NaN

# s1.loc[['a', 'f']]
s1.reindex(['a', 'f'])

a    10.0
f     NaN
dtype: float64

# Создание срезов объекта Series

In [39]:
# создаем объект Series, который будем использовать
# для формирования срезов
# используем метки индекса, начинающиеся не с 0, чтобы 
# продемонстрировать, как можно создать срез, 
# используя позиции
s = pd.Series(np.arange(100, 110), index=np.arange(10, 20))
s

10    100
11    101
12    102
13    103
14    104
15    105
16    106
17    107
18    108
19    109
dtype: int32

In [40]:
# срез, содержащий элементы с позиции 1 по 5
s[1:6]

11    101
12    102
13    103
14    104
15    105
dtype: int32

In [41]:
# поиск с помощью списка позиций
s.iloc[[1, 2, 3, 4, 5]]

11    101
12    102
13    103
14    104
15    105
dtype: int32

In [42]:
# отбираем элементы в позициях 1, 3, 5
s[1:6:2]

11    101
13    103
15    105
dtype: int32

In [43]:
# создаем срез, содержащий первые пять 
# элементов, эквивалентно .head(5)
s[:5]

10    100
11    101
12    102
13    103
14    104
dtype: int32

In [44]:
# создаем срез путем отбора всех 
# элементов, начиная с 4-го
s[4:]

14    104
15    105
16    106
17    107
18    108
19    109
dtype: int32

In [45]:
# отбираем каждый второй элемент
# в первых пяти позициях
s[:5:2]

10    100
12    102
14    104
dtype: int32

In [46]:
# отбираем каждый второй элемент,
# начиная с четвертой позиции
s[4::2]

14    104
16    106
18    108
dtype: int32

In [47]:
# отбираем элементы Series
# в обратном порядке
s[::-1]

19    109
18    108
17    107
16    106
15    105
14    104
13    103
12    102
11    101
10    100
dtype: int32

In [48]:
# отбираем в обратном порядке каждый 
# второй элемент, начиная с 4-й позиции
s[4::-2]

14    104
12    102
10    100
dtype: int32

In [49]:
# -4: означает отбор 
# последних 4 строк
s[-4:]

16    106
17    107
18    108
19    109
dtype: int32

In [50]:
# :-4 означает отбор всех строк,
# кроме последних четырех
s[:-4]

10    100
11    101
12    102
13    103
14    104
15    105
dtype: int32

In [51]:
# эквивалентно s.tail(4).head(3)
s[-4:-1]

16    106
17    107
18    108
dtype: int32

In [52]:
# создаем объект Series, чтобы получить 
# следующие два среза из этой серии
s = pd.Series(np.arange(0, 5), 
              index=['a', 'b', 'c', 'd', 'e'])
s

a    0
b    1
c    2
d    3
e    4
dtype: int32

In [53]:
# создаем срез на основе позиций, поскольку
# индекс использует символы
s[1:3]

b    1
c    2
dtype: int32

In [54]:
# создаем срез по строковым меткам индекса
s['b':'d']

b    1
c    2
d    3
dtype: int32

# Выравнивание данных по меткам индекса

In [55]:
# первая серия для выравнивания
s1 = pd.Series([1, 2], index=['a', 'b'])
s1

a    1
b    2
dtype: int64

In [56]:
# вторая серия для выравнивания
s2 = pd.Series([4, 3], index=['b', 'a'])
s2

b    4
a    3
dtype: int64

In [57]:
# складываем их
s1 + s2

a    4
b    6
dtype: int64

In [58]:
# умножаем все значения в s3 на 2
s1 * 2

a    2
b    4
dtype: int64

In [59]:
# создаем серию на основе скалярного
# значения 2, но с индексом серии s1
t = pd.Series(2, s1.index)
t

a    2
b    2
dtype: int64

In [60]:
# умножаем s1 на t
s1 * t

a    2
b    4
dtype: int64

In [61]:
# мы создаем серию s3, чтобы сложить
# ее значения со значениями серии s1
s3 = pd.Series([5, 6], index=['b', 'c'])
s3

b    5
c    6
dtype: int64

In [62]:
# серии s1 и s3 имеют разные метки индексов
# для a и c будут получены значения NaN
s1 + s3

a    NaN
b    7.0
c    NaN
dtype: float64

In [63]:
# 2 метки 'a'
s1 = pd.Series([1.0, 2.0, 3.0], index=['a', 'a', 'b'])
s1

a    1.0
a    2.0
b    3.0
dtype: float64

In [64]:
# 3 метки 'a'
s2 = pd.Series([4.0, 5.0, 6.0, 7.0], index=['a', 'a', 'c', 'a'])
s2

a    4.0
a    5.0
c    6.0
a    7.0
dtype: float64

In [65]:
# получим 6 меток 'a' и значения NaN
# для меток 'b' и 'c'
s1 + s2

a    5.0
a    6.0
a    8.0
a    6.0
a    7.0
a    9.0
b    NaN
c    NaN
dtype: float64

# Логический отбор

In [66]:
# какие строки имеют значения больше или равно 3?
s = pd.Series(np.arange(0, 5), index=list('abcde'))
logical_results = s >= 3
logical_results

a    False
b    False
c    False
d     True
e     True
dtype: bool

In [67]:
# отобрать строки со значением True
s[logical_results]

d    3
e    4
dtype: int32

In [68]:
# более краткий вариант
s[s > 5]

Series([], dtype: int32)

In [69]:
# программный код дан в комментарии, потому что
# его выполнение приведет к выдаче исключения
# s[s >= 2 and s < 5]

In [70]:
# правильный синтаксис
s[(s >=2) & (s < 5)]

c    2
d    3
e    4
dtype: int32

In [71]:
# все ли элементы >= 0?
(s >= 0).all()

True

In [72]:
# есть ли элемент < 2?
s[s < 2].any()

True

In [73]:
# сколько значений < 2?
(s < 2).sum()

2

# Переиндексация объекта Series

In [74]:
# создаем случайную серию из 5 элементов
np.random.seed(123456)
s = pd.Series(np.random.randn(5))
s

0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4    1.212112
dtype: float64

In [75]:
# изменяем индекс
s.index = ['a', 'b', 'c', 'd', 'e']
s

a    0.469112
b   -0.282863
c   -1.509059
d   -1.135632
e    1.212112
dtype: float64

In [76]:
# создаем серию, которую
# заново индексируем
np.random.seed(123456)
s1 = pd.Series(np.random.randn(4), ['a', 'b', 'c', 'd'])
s1

a    0.469112
b   -0.282863
c   -1.509059
d   -1.135632
dtype: float64

In [77]:
# индексируем заново, используя другое количество меток
# в итоге некоторые строки удалены и/или получены значения NaN
s2 = s1.reindex(['a', 'c', 'g'])
s2

a    0.469112
c   -1.509059
g         NaN
dtype: float64

In [78]:
# использование разных типов для одних и тех же 
# меток порождает большие проблемы
s1 = pd.Series([0, 1, 2], index=[0, 1, 2])
s2 = pd.Series([3, 4, 5], index=['0', '1', '2'])
s1 + s2

0   NaN
1   NaN
2   NaN
0   NaN
1   NaN
2   NaN
dtype: float64

In [79]:
# заново индексируем, согласовав типы меток,
# и получаем нужный результат
s2.index = s2.index.values.astype(int)
s1 + s2

0    3
1    5
2    7
dtype: int64

In [80]:
# заполняем отсутствующее значение нулем
# вместо NaN
s2 = s.copy()
s2.reindex(['a', 'f'], fill_value=0)

a    0.469112
f    0.000000
dtype: float64

In [81]:
# создаем пример, чтобы продемонстрировать
# варианты заполнения
s3 = pd.Series(['red', 'green', 'blue'], index=[0, 3, 5])
s3

0      red
3    green
5     blue
dtype: object

In [82]:
# пример прямого заполнения
s3.reindex(np.arange(0,7), method='ffill')

0      red
1      red
2      red
3    green
4    green
5     blue
6     blue
dtype: object

In [83]:
# пример обратного заполнения
s3.reindex(np.arange(0,7), method='bfill')

0      red
1    green
2    green
3    green
4     blue
5     blue
6      NaN
dtype: object

# Модификация объекта Series на месте

In [84]:
# генерируем серию для примера
np.random.seed(123456)
s = pd.Series(np.random.randn(3), index=['a', 'b', 'c'])
s

a    0.469112
b   -0.282863
c   -1.509059
dtype: float64

In [85]:
# добавляем значение в серию
# это делается сразу на месте
# новый объект Series не возвращается
s['d'] = 100
s

a      0.469112
b     -0.282863
c     -1.509059
d    100.000000
dtype: float64

In [86]:
# модифицируем на месте
# значение в метке 'd'
s['d'] = -100
s

a      0.469112
b     -0.282863
c     -1.509059
d   -100.000000
dtype: float64

In [87]:
# удаляем строку/элемент
del(s['a'])
s

b     -0.282863
c     -1.509059
d   -100.000000
dtype: float64

In [88]:
copy = s.copy() # сохраняем s
slice = copy[:2] # создаем срез с первыми двумя строками
slice

b   -0.282863
c   -1.509059
dtype: float64

In [89]:
# меняем значение в метке 'b'
# нашего среза
slice['b'] = 0
# и смотрим исходную серию
copy

b      0.000000
c     -1.509059
d   -100.000000
dtype: float64