In [1]:
import pandas as pd
import numpy as np

План:

1. Создание Series

2. Просмотр данных

3. Изменение элементов

4. Добавление и удаление данных

5. Запись и чтение данных из файла

#### Создание Series

**Series** - одна из структур данных библиотеки **Pandas**. Похожа на словарь, но является упорядоченной.

Создадим список с данными (также можно создать массив numpy)

In [2]:
a = [2, 5, 7, 8, 3]

Создадим на основе этих данных объект Series

In [3]:
b = pd.Series(a)

Справа располагаются данные, слева - индексы

In [4]:
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

Можно задать индексы явно. Это могут быть числа:

In [5]:
b = pd.Series(a, index = [0, 1, 2, 3, 4])
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

Либо символы:

In [6]:
b = pd.Series(a, index = ['a', 'b', 'c', 'd', 'e'])
b

a    2
b    5
c    7
d    8
e    3
dtype: int64

Можно также использовать в качестве индексов даты:

In [7]:
from datetime import date

In [8]:
ind = [date(y, m, d) for y, m, d in [(2018, 1, 15), (2018, 1, 17), (2018, 1, 18), (2018, 1, 21), (2018, 1, 31)]]

In [9]:
b = pd.Series(a, index = ind)

In [10]:
b

2018-01-15    2
2018-01-17    5
2018-01-18    7
2018-01-21    8
2018-01-31    3
dtype: int64

In [11]:
b.index

Index([2018-01-15, 2018-01-17, 2018-01-18, 2018-01-21, 2018-01-31], dtype='object')

In [12]:
b.index[0].year

2018

In [13]:
b.index[0].month

1

In [14]:
b.index[0].day

15

In [15]:
b.index = pd.to_datetime(b.index, format = '%Y-%m-%d')

In [16]:
b.index

DatetimeIndex(['2018-01-15', '2018-01-17', '2018-01-18', '2018-01-21',
               '2018-01-31'],
              dtype='datetime64[ns]', freq=None)

In [17]:
b.index.year

Int64Index([2018, 2018, 2018, 2018, 2018], dtype='int64')

In [18]:
b.index.month

Int64Index([1, 1, 1, 1, 1], dtype='int64')

In [19]:
b.index.day

Int64Index([15, 17, 18, 21, 31], dtype='int64')

Индексы могут быть неуникальными:

In [20]:
b = pd.Series(a, index = [0, 1, 0, 2, 1])
b

0    2
1    5
0    7
2    8
1    3
dtype: int64

Можно поменять индексы: 

In [21]:
b.index = [10, 11, 12, 13, 14]
b

10    2
11    5
12    7
13    8
14    3
dtype: int64

Задать тип данных:

In [22]:
b = pd.Series(a, dtype = np.float64)
b

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64

Или поменять тип данных позже с помощью astype:

In [23]:
b = pd.Series(a)
b = b.astype(np.float64)
b

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64

Создать Series из словаря:

In [24]:
d = {'1st':'a', '2nd':'b', '3rd':'c', '4th':'d', '5th':'e'}

In [25]:
b = pd.Series(d)
b

1st    a
2nd    b
3rd    c
4th    d
5th    e
dtype: object

#### Просмотр данных

In [26]:
b = pd.Series([5, 2, 6, 1, 6, 8, 7])

Просмотреть индексы:

In [27]:
b.index

RangeIndex(start=0, stop=7, step=1)

Просмотреть данные в виде массива Numpy (ndarray):

In [28]:
b.values

array([5, 2, 6, 1, 6, 8, 7], dtype=int64)

Доступ к данным по индексу (аналогично словарю):

In [29]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [30]:
b[0]

5

In [31]:
b[2]

6

In [32]:
# Доступ по списку индексов
b[[0, 6]]

0    5
6    7
dtype: int64

Доступ с помощью head и tail:

In [33]:
b.head()

0    5
1    2
2    6
3    1
4    6
dtype: int64

In [34]:
b.head(3)

0    5
1    2
2    6
dtype: int64

In [35]:
b.tail()

2    6
3    1
4    6
5    8
6    7
dtype: int64

In [36]:
b.tail(1)

6    7
dtype: int64

Выборка по условию

In [37]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [38]:
b[b > 5]

2    6
4    6
5    8
6    7
dtype: int64

In [39]:
b[(b == 7) | (b % 3 == 0)]

2    6
4    6
6    7
dtype: int64

#### Изменение элементов

In [40]:
b = pd.Series([5, 2, 6, 1, 6, 8, 7])

In [41]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [42]:
b[0] = 4

In [43]:
b

0    4
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [44]:
b[b < 5] = 0

In [45]:
b

0    0
1    0
2    6
3    0
4    6
5    8
6    7
dtype: int64

In [46]:
b[[0, 1, 2]] = 1
b

0    1
1    1
2    1
3    0
4    6
5    8
6    7
dtype: int64

#### Добавление данных

In [47]:
b = b.append(pd.Series({6:10, 7:15, 8:11, 9:14}))
b

0     1
1     1
2     1
3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

#### Удаление данных по индексу

In [48]:
b = b.drop(index = [0, 1, 2])

In [49]:
b

3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

#### Запись и чтение данных из файла

In [50]:
b.to_pickle('b.pkl')

In [51]:
b2 = pd.read_pickle('b.pkl')

In [52]:
b2

3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64