In [1]:
# Глава 3
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# импортируем модули для работы с датами
from datetime import datetime, date

%matplotlib inline

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)


In [2]:
# Создание series из списка
s = pd.Series([10, 11, 12, 13, 14])
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [3]:
# Последовательность из 5 двоек
s = pd.Series([2] * 5)
s

0    2
1    2
2    2
3    2
4    2
dtype: int64

In [4]:
# Используем каждый символ строки как значение серии
s = pd.Series(list('abcd'))
s

0    a
1    b
2    c
3    d
dtype: object

In [5]:
# Создаем серию из словаря
s = pd.Series({'Mike': 'Dad',
'Marcia': 'Mom',
'Mikael': 'Son',
'Bleu': 'Best doggie ever' })
s, '-----', s.index, '-----', s['Mike']

(Mike                   Dad
 Marcia                 Mom
 Mikael                 Son
 Bleu      Best doggie ever
 dtype: object,
 '-----',
 Index(['Mike', 'Marcia', 'Mikael', 'Bleu'], dtype='object'),
 '-----',
 'Dad')

In [6]:
# Создание серии при помощи функций numpy
pd.Series(np.arange(4, 9))

0    4
1    5
2    6
3    7
4    8
dtype: int64

In [7]:
# Создадим 5 значений, лежащих в интервале от 0 до 9
pd.Series(np.linspace(0, 9, 5))

0    0.00
1    2.25
2    4.50
3    6.75
4    9.00
dtype: float64

In [8]:
# Генератор случайных чисел
np.random.seed(12345)
pd.Series(np.random.normal(size=5))

0   -0.204708
1    0.478943
2   -0.519439
3   -0.555730
4    1.965781
dtype: float64

In [9]:
# Умножаем все значения серии на 2
s = pd.Series(np.arange(0, 5))
s * 2

0    0
1    2
2    4
3    6
4    8
dtype: int64

### Свойства .index и .values

In [10]:
# Получим значения в объекте серии
s = pd.Series([1,2,3])
s.values

array([1, 2, 3])

In [11]:
type(s.values), s.index

(numpy.ndarray, RangeIndex(start=0, stop=3, step=1))

### Размер и форма объекта Series

In [12]:
# Получим количество элементов в серии
s = pd.Series([0, 1, 2, 3])
print(len(s), 
s.size, 
s.shape)

4 4 (4,)


In [13]:
# Явное создание индекса в серии
labels = ['Mike', 'Marcia', 'Mikael', 'Bleu']
role = ['Dad', 'Mom', 'Son', 'Dog']
pd.Series(labels, index=role)

Dad      Mike
Mom    Marcia
Son    Mikael
Dog      Bleu
dtype: object

### Методы head, tail, take

In [14]:
s = pd.Series(np.arange(1, 10), index=list('abcdefght'))
s.head(), s.tail(3)

(a    1
 b    2
 c    3
 d    4
 e    5
 dtype: int64,
 g    7
 h    8
 t    9
 dtype: int64)

In [15]:
# Метод take возвращает значения в указанных позициях.
s.take([1, 5, 8])

b    2
f    6
t    9
dtype: int64

In [16]:
# Получение значения в объекте серии по метке или позиции.
s1 = pd.Series(np.arange(10, 15), index=list('abcde'))
s1

a    10
b    11
c    12
d    13
e    14
dtype: int64

### Получение значения по конкретному значению метки

In [17]:
# Не рекомендуетмя осуществлять поиск через []
s1['a']

10

In [18]:
# Или поучить сразу несколько заначений серии по их именам меток
s1[['a', 'b']]

a    10
b    11
dtype: int64

In [19]:
# Или получить значения исходя из их позиции.
# Этот код работает только потому что инедекс не использует целочисленные метки.
s1[[3, 1]]

d    13
b    11
dtype: int64

In [20]:
# Правильный спослоб поиска значение - это использование .loc .iloc свойств
s1, s1.iloc[[0, 2]], s1.iloc[1]

(a    10
 b    11
 c    12
 d    13
 e    14
 dtype: int64,
 a    10
 c    12
 dtype: int64,
 11)

In [21]:
s2 = pd.Series([1, 2, 3, 4], index=[10, 11, 12, 13])
s2.iloc[[3, 2]]

13    4
12    3
dtype: int64

In [23]:
# Явный поиск по МЕТКАМ с помощью свойства loc
s1, s1.loc[['a', 'b']], s2.loc[[11, 12]]

(a    10
 b    11
 c    12
 d    13
 e    14
 dtype: int64,
 a    10
 b    11
 dtype: int64,
 11    2
 12    3
 dtype: int64)

In [None]:
# Эксперименты со срезами в серии.
s = pd.Series(np.arange(100, 110), index=np.arange(10, 20))
s

In [None]:
s[1: 6: 3]

In [None]:
s[4:: 2]

In [None]:
# Отбор последных 4 строк
s[-4:]

In [None]:
# Создаем срез по НЕЦЕЛОЧИСЛЕННОМУ индексу
s = pd.Series(np.arange(0, 5), index=['a', 'b', 'c', 'd', 'e'])
s['b':'d']

## Выравнивание данных по меткам индекса

**Выравнивание осуществляет автоматическое согласование
связанных друг с другом значений в нескольких объектах Series на основе меток
индекса.** 

Это позволяет избежать множества ошибок, возникающих при сопоставлении данных нескольких наборов, когда используются стандартные про-
цедуры.


In [33]:
# Первая серия для выравнивания
s1 = pd.Series([1, 2, 7], index=['a', 'b', 'd'])

# Вторая серия для выравнивания
s2 = pd.Series([4, 3, 5], index=['b', 'a', 'c'])

# Складываем серии
s2, '-----', s2, '-----', s1 + s2

(b    4
 a    3
 c    5
 dtype: int64,
 '-----',
 b    4
 a    3
 c    5
 dtype: int64,
 '-----',
 a    4.0
 b    6.0
 c    NaN
 d    NaN
 dtype: float64)

In [None]:
# Умножим все зн. серии на 2
s2 * 2

In [None]:
# При создании серии на основе скалярного зн. 2, но с индексом серии 1
t = pd.Series(2, s1.index)
t

In [30]:
# 2 метки 'a'
s1 = pd.Series([1.0, 2.0, 3.0], index=['a', 'a', 'b'])

# 3 метки 'a'
s2 = pd.Series([4.0, 5.0, 6.0, 7.0], index=['a', 'a', 'c', 'a'])
s1 + s2

a    5.0
a    6.0
a    8.0
a    6.0
a    7.0
a    9.0
b    NaN
c    NaN
dtype: float64

### Логический отбор

In [None]:
s = pd.Series(np.arange(0, 5), index=list('abcde'))
logical_results = s >= 3
logical_results

In [None]:
s[logical_results]

In [None]:
# Более короткий способ отбора
s[s >= 3]

In [None]:
s[(s >=2) & (s < 5)]


### Проверить ВСЕ ЛИ зн. в серии удовл. условию - s[s>25].all()

In [None]:
# Проверка есе ли элементы >= 0
(s >= 0).all()

### Проверить есть ли какое-либо зн. в серии удовл. условию - s[s<20].any()

In [None]:
# есть ли элемент < 2?
s[s < 2].any(), (s < 2).any()


### Получить количество зн. в серии удовл. условию - s[s>2].sum()

In [24]:
# Получим количество элеменов меньше 4. Получаем количество потому, что логическое выражение
# возвращеает для true (1) только для тех элементов которые удовл. условию а потом мы просто
# суммируем их.
(s < 4).sum()

3

### Переиндексация серии

Переиндексация в pandas – это процесс, который согласовывает данные в серии
с набором меток. Переиндексация используется для выполнения выравнивания
и поэтому является фундаментальной операцией.

**Переиндексация выполняет несколько вещей:**
- переупорядочивание существующих данных в соответствии с набором ме-
ток;
- вставка маркеров NaN, когда отсутствуют данные для метки;
- заполнение отсутствующих данных для метки с помощью тех или иных ло-
гических операций (по умолчанию используются значения NaN).

**Переиндексацию легко выполнить, просто присвоив новый индекс свойству
.index объекта Series.**


In [26]:
np.random.seed(123456)
s = pd.Series(np.random.randn(5))
s

0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4    1.212112
dtype: float64

In [27]:
# Переиндексации осуществляется путем переприсваивания свойства index в серии
# Происходит переиндексация текущего объекта НА МЕСТЕ
s.index = ['a', 'b', 'c', 'd', 'e']
s

a    0.469112
b   -0.282863
c   -1.509059
d   -1.135632
e    1.212112
dtype: float64

In [29]:
# Переиндексация при помощи метода reindex
np.random.seed(123456)
s1 = pd.Series(np.random.randn(4), ['a', 'b', 'c', 'd'])
s2 = s1.reindex(['a', 'c', 'g'])
'''
Результат работы reindex это НОВЫЙ ОБЪЕКТ, а не модифицированный на месте.
У нового объекта будет индекс с метками, переданными в функцию reindex. Если в исходной сериии
метка отсутствует, а в массиве reindex она присутствует, то значение при этой метки будет NaN.
'''
s2

a    0.469112
c   -1.509059
g         NaN
dtype: float64

In [36]:
# Использование разных типов для одних и тех же меток порождает большие проблемы.
s1 = pd.Series([0, 1, 2], index=[0, 1, 2])
s2 = pd.Series([3, 4, 5], index=['0', '1', '2'])
s1 + s2

0   NaN
1   NaN
2   NaN
0   NaN
1   NaN
2   NaN
dtype: float64

#### Изменим тип значений индекса серии s2 чтобы привести ее к типу серии s1

In [37]:
s2.index = s2.index.values.astype('int')
s1 + s2

0    3
1    5
2    7
dtype: int64

####  Заполнение отсутствующие значение 0 ВМЕСТО NaN - fill_value=0

In [38]:
# Заполнение отсутствующие значение 0 ВМЕСТО NaN
s2 = s.copy()
s2.reindex(['a', 'f'], fill_value=0)

a    0.469112
f    0.000000
dtype: float64

In [39]:
# Создание непрерывного индекса из неупорядоченного
# Прямое заполнение
s3 = pd.Series(['red', 'green', 'blue'], index=[0, 3, 5])
s3

0      red
3    green
5     blue
dtype: object

In [40]:
# Прямое заполнение метод - ffill (forward fill)
s3.reindex(np.arange(0, 7)), s3.reindex(np.arange(0, 7), method='ffill')

(0      red
 1      NaN
 2      NaN
 3    green
 4      NaN
 5     blue
 6      NaN
 dtype: object,
 0      red
 1      red
 2      red
 3    green
 4    green
 5     blue
 6     blue
 dtype: object)

In [None]:
# Обратное заполнение метод - bfill
s3.reindex(np.arange(0, 7), method='bfill')

In [None]:
# Удаление сутроку/элемент из серии
del(s3[3])

**Важно помнить, что когда вы создаете срезы, срез связан с исходным объек-
том Series. Модификация значений в сформированном срезе изменит исходную
серию.**

In [None]:
s_copy = s.copy() # Создаем копию s
slice = s_copy[:2]
slice

In [None]:
# Меняем значение в метке 0 нашего среза
slice.loc[0] = 0
# Видим, что серия из которой делался срез измелилась в метке 0
s_copy