### __Создание объекта Series с помощью питоновских списков и словарей__

In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

In [2]:
# создаем серию значений из списка

s = pd.Series([10, 11, 12, 13, 14])
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [3]:
# получаем значение записанное в метке индекса

s[3]

13

In [4]:
# кроме целых чисел можно использовать и другие типы данных
# создаем серию из строковых значений 
pd.Series(['Mike', 'Marcia', 'Mikael', 'Bleu'])

0      Mike
1    Marcia
2    Mikael
3      Bleu
dtype: object

In [5]:
# чтобы создать серию из одинаковых значений, используем сокращенную запись Python для создания списка [x]*n
pd.Series([2]*5)

0    2
1    2
2    2
3    2
4    2
dtype: int64

In [6]:
# используем каждый символ в качестве значения
pd.Series(list('abcde'))

0    a
1    b
2    c
3    d
4    e
dtype: object

In [7]:
# серию можно инициализировать из питоновского словаря
pd.Series({'Mike': 'Dad',
           'Marcia': 'Mom',
           'Mikael': 'Son',
           'Bleu': 'dog'})

Mike      Dad
Marcia    Mom
Mikael    Son
Bleu      dog
dtype: object

### __Создание объекта Series с помощью функции NumPy__

In [8]:
# создаем последовательность из 5 значений лежащих в интервале от 0 до 9
pd.Series(np.linspace(0, 9, 5))

0    0.00
1    2.25
2    4.50
3    6.75
4    9.00
dtype: float64

In [9]:
# так же можно сгенерировать набор случайных чисел с помощью np.random.normal()
# генерируем случайные числа
np.random.seed(12345) # всегда генерирует одни и теже числа
# создаем серию из 5 нормально распределенных случайных чисел
pd.Series(np.random.normal(size = 5))

0   -0.204708
1    0.478943
2   -0.519439
3   -0.555730
4    1.965781
dtype: float64

### __Создание объекта Series с помощью скалярного значения__

In [10]:
# создаем объект Series, состоящий из одного элемента 
s = pd.Series(2)
s

0    2
dtype: int64

In [11]:
# создаем объект Series
s = pd.Series(np.arange(0,5))
# умножаем все значения серии на 2
s * 2

0    0
1    2
2    4
3    6
4    8
dtype: int32

### __Размер и форма объекта Series__

In [12]:
# создаем серию
s = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
# проверяем количество элементов используя питоновскую функциию len
len(s)

10

In [13]:
# .size так же позволяет узнать о количестве элементов в объекте Series
s.size

10

In [14]:
# альтернативным способом получения информации о размере объекта Series является использование свойства .shape
# .shape - это кортеж с одним значением
s.shape

(10,)

### __Установка индекса во время создания объекта Series__

In [15]:
# явно создаем индекс
labels = ['Mike', 'Marcia', 'Mikael', 'Bleu']
role = ['Dad', 'Mom', 'Son', 'Dog']
s = pd.Series(labels, index = role)
s

Dad      Mike
Mom    Marcia
Son    Mikael
Dog      Bleu
dtype: object

In [16]:
# исследуем индекс
s.index

Index(['Dad', 'Mom', 'Son', 'Dog'], dtype='object')

In [17]:
# какому значению соответствует index Dad
s['Dad']

'Mike'

In [18]:
# исследуем значения
s.values

array(['Mike', 'Marcia', 'Mikael', 'Bleu'], dtype=object)

### __Исследование методов .head( ), .tail( ) и .take ( ) для вывода значений__

In [19]:
s = pd.Series(np.arange(1, 10),
             index = list('abcdefghi'))

In [20]:
# выводим первые 5 строк
s.head()

a    1
b    2
c    3
d    4
e    5
dtype: int32

In [21]:
# выводим первые 3 строки
s.head(3) # в скобках указывается желаемое количество строк для вывода

a    1
b    2
c    3
dtype: int32

In [22]:
# выводим последние 5 строк
s.tail()

e    5
f    6
g    7
h    8
i    9
dtype: int32

In [23]:
# выводим последние 3 строки
s.tail(3)

g    7
h    8
i    9
dtype: int32

In [24]:
# Метод take() позволяет выводить конкретные, прямо указанные строки, соответствующие указанным целочисленным позициям
s.take([1, 5, 8])

b    2
f    6
i    9
dtype: int32

### __Получение значениий в объекте Series по метке или позиции__

__Поиск по метке с помощью оператора [ ] и свойства .ix[ ]__

In [25]:
s1 = pd.Series(np.arange(10, 15), index = list('abcde'))
s1

a    10
b    11
c    12
d    13
e    14
dtype: int32

In [26]:
# получаем значение с меткой 'a'
s1['a']

10

In [27]:
# получаем несколько меток
s1[['a', 'e']]

a    10
e    14
dtype: int32

In [28]:
# находим значения по целочисленному индексу
s1[[0, 3]]

a    10
d    13
dtype: int32

In [29]:
# если целочисленные значения передать в [ ], и индекс будет использовать целочисленные значения, то поиск 
# будет осуществляться по меткам индекса
s2 = pd.Series([1, 2, 3, 4, 5],
              index = [10, 11, 12, 13, 14])
s2

10    1
11    2
12    3
13    4
14    5
dtype: int64

In [30]:
# поиск по меткеб а не по позиции
s2[[14, 10]]

14    5
10    1
dtype: int64

### Внимание
__так как возможна путаница при использовании оператора [ ] и свойства .ix[ ], данные свойства не используются. Вместо них используются свойства .loc[ ] .iloc[ ]__

__Явный поиск по позиции с помощью свойства .iloc[ ]__

In [31]:
# ищем явно по позиции
s1.iloc[[0, 2]]

a    10
c    12
dtype: int32

In [32]:
# ищем явно по позии, при этом индекс имеет целочисленные метки
s2.iloc[[3, 2]]

13    4
12    3
dtype: int64

__Явный поиск по позиции с помощью свойства .loc[ ]__

In [33]:
# ищем явно по меткам
s1.loc[['a', 'b']]

a    10
b    11
dtype: int32

In [34]:
# можно использовать целочисленные метки
s2.loc[[11, 12]]

11    2
12    3
dtype: int64

### __Создание срезов объекта Series__


In [35]:
s = pd.Series(np.arange(100, 110), index = np.arange(10, 20))
s

10    100
11    101
12    102
13    103
14    104
15    105
16    106
17    107
18    108
19    109
dtype: int32

In [36]:
# создаем срез с 1 по 5 позицию
s[1:6]

11    101
12    102
13    103
14    104
15    105
dtype: int32

In [37]:
# поиск с помощью списка позиций
s.iloc[[1, 2, 3, 4, 5]]

11    101
12    102
13    103
14    104
15    105
dtype: int32

In [38]:
# отбираем элементы в позициях 1,3,5
s[1:6:2]

11    101
13    103
15    105
dtype: int32

In [39]:
# создаем срез, содержащий первые 5 элементов, эквивалентно .head(5)
s[:5]

10    100
11    101
12    102
13    103
14    104
dtype: int32

In [41]:
# создаем срез путем отбора всех элементов, начиная с 4
s[4:]

14    104
15    105
16    106
17    107
18    108
19    109
dtype: int32

In [42]:
# отбираем каждый второй элемент в первых пяти позициях
s[:5:2]

10    100
12    102
14    104
dtype: int32

In [43]:
# отбираем каждый второй элемент, начиная с четвертой позиции
s[4::2]

14    104
16    106
18    108
dtype: int32

In [44]:
# отбираем элементы series в обратном порядке
s[::-1]

19    109
18    108
17    107
16    106
15    105
14    104
13    103
12    102
11    101
10    100
dtype: int32

In [45]:
# отбираем в обратном порядке каждый второй элемент, начиная с 4 позиции
s[4::-2]

14    104
12    102
10    100
dtype: int32

In [46]:
# отрицательное стартовое значение -n означает отбор последних n строк 
# -4: означает отбор последних 4 строк
s[-4:]

16    106
17    107
18    108
19    109
dtype: int32

In [47]:
# :-4 означает отбор всех строк, кроме последних четырех
s[:-4]

10    100
11    101
12    102
13    103
14    104
15    105
dtype: int32

In [48]:
# отрицательные значениия компонентов start и end можно объеденить. Следующий программный код сначала извлекает последние 
# 4 строки, а затем из них отбирает все строки кроме последней
# эквивалентно s.tail(4).head(3)
s[-4:-1]

16    106
17    107
18    108
dtype: int32

In [49]:
s = pd.Series(np.arange(0, 5), index = ['a', 'b', 'c', 'd', 'e'])
s

a    0
b    1
c    2
d    3
e    4
dtype: int32

In [50]:
# создаем срез на основе позиций, поскольку индекс использует символы
s[1:3]

b    1
c    2
dtype: int32

In [51]:
# создаем срез по строковым меткам индекса
s['b':'d']

b    1
c    2
d    3
dtype: int32

### __Выравнивание данных по меткам индекса__

__Выравнивание__ осуществляет автоматическое согласование  связанных друг с другом значений в нескольких объектах Series на основе меток индекса.

С помощью данной операции pandas сопоставляет значениие каждой переменной в каждой серии, складывает эти значения и возвращает нам суммарные значения

In [55]:
# первая серия для выравнивания
s1 = pd.Series([1, 2], index = ['a', 'b'])
s1

a    1
b    2
dtype: int64

In [56]:
# вторая серия для выравнивания
s2 = pd.Series([4, 3], index = ['b', 'a'])
s2

b    4
a    3
dtype: int64

In [57]:
# складываем обе серии
s1 + s2

a    4
b    6
dtype: int64

In [58]:
# кроме того к объекту Series можно применить скалярное значение. В результате, скалярное произведение будет применено
# к каждому значению в объекте Series
s1*2

a    2
b    4
dtype: int64

In [59]:
# создаем серию на основе скалярного значения 2, но с индексом серии s1
t = pd.Series(2, s1.index)
t

a    2
b    2
dtype: int64

In [60]:
# умножаем s1 * t
s1 * t

a    2
b    4
dtype: int64

In [62]:
# создаем серию 3 чтобы сложить с серией 1
s3 = pd.Series([5, 6], index = ['b', 'c'])
s3

b    5
c    6
dtype: int64

In [63]:
# серии s1 и s3 имеют разные метки индексов, поэтому для а и с будут получены значения NaN 
s1 + s3

a    NaN
b    7.0
c    NaN
dtype: float64

In [64]:
# 2 метки а
s1 = pd.Series([1.0, 2.0, 3.0], index = ['a', 'a', 'b'])
s1

a    1.0
a    2.0
b    3.0
dtype: float64

In [None]:
№