In [1]:
import numpy as np

In [2]:
import pandas as pd

Создание Series

Series - одна из структур данных библиотеки Pandas. Похожа на словарь, но является упорядоченной.

Создадим список с данными (так же можно создать массив numpy)

In [3]:
a = [2, 5, 7, 8, 3]

Создадим на основе этих данных объект Series

In [4]:
b = pd.Series(a)

Справа располагаются данные, слева - индексы

In [5]:
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

Индексы можно задать явно. Это могут быть и числа и символы

In [6]:
b = pd.Series(a, index = [0, 1, 2, 3, 4])
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

In [7]:
# Символы
b = pd.Series(a, index = ['a', 'b', 'c', 'd', 'e'])
b

a    2
b    5
c    7
d    8
e    3
dtype: int64

Можно так же использовать в качестве индексов даты:

In [8]:
from datetime import date

In [9]:
ind = [date(y, m, d) for y, m, d in [(2018, 1, 15), (2018, 1, 17), (2018, 1, 18), (2018, 1, 21), (2018, 1, 31)]]

In [10]:
b = pd.Series(a, index = ind)

In [11]:
b

2018-01-15    2
2018-01-17    5
2018-01-18    7
2018-01-21    8
2018-01-31    3
dtype: int64

In [12]:
b.index

Index([2018-01-15, 2018-01-17, 2018-01-18, 2018-01-21, 2018-01-31], dtype='object')

In [13]:
b.index[0].year


2018

In [14]:
b.index[0].month

1

In [15]:
b.index[0].day

15

In [16]:
b.index = pd.to_datetime(b.index, format = '%Y-%m-%d')

In [17]:
b.index

DatetimeIndex(['2018-01-15', '2018-01-17', '2018-01-18', '2018-01-21',
               '2018-01-31'],
              dtype='datetime64[ns]', freq=None)

In [18]:
b.index.year

Int64Index([2018, 2018, 2018, 2018, 2018], dtype='int64')

In [19]:
b.index.month

Int64Index([1, 1, 1, 1, 1], dtype='int64')

In [20]:
b.index.day

Int64Index([15, 17, 18, 21, 31], dtype='int64')

Индексы могут быть не уникальными

In [21]:
b = pd.Series(a, index = [0, 1, 0, 2, 1])
b

0    2
1    5
0    7
2    8
1    3
dtype: int64

Задать тип данных

In [23]:
b = pd.Series(a, dtype = np.float64)
b

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64

Или поменять тип данных позже с помощью astype:

In [24]:
b = pd.Series(a)
b = b.astype(np.int64)
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

Создать Series из словаря:

In [25]:
d = {'1st':'a', '2nd':'b', '3rd':'c', '4th':'d', '5th':'e'}

In [26]:
b = pd.Series(d)
b

1st    a
2nd    b
3rd    c
4th    d
5th    e
dtype: object

Просмотр данных

In [27]:
b = pd.Series([5, 2, 6, 1, 6, 8, 7])

Просмотр индексов

In [28]:
b.index

RangeIndex(start=0, stop=7, step=1)

Просмотр данных в виде массива

In [30]:
b.values

array([5, 2, 6, 1, 6, 8, 7], dtype=int64)

Доступ к данным по индексу

In [31]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [32]:
b[0]

5

In [33]:
b[2]

6

In [34]:
# Доступ по списку индексов
b[[0, 6]]

0    5
6    7
dtype: int64

Доступ с помощью head и tail:

In [35]:
b.head()

0    5
1    2
2    6
3    1
4    6
dtype: int64

In [36]:
b.head(3)

0    5
1    2
2    6
dtype: int64

In [37]:
b.tail()

2    6
3    1
4    6
5    8
6    7
dtype: int64

In [38]:
b.tail(1)

6    7
dtype: int64

Выборка по условию

In [39]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [40]:
b[b > 5]

2    6
4    6
5    8
6    7
dtype: int64

In [41]:
b[(b == 7) | (b % 3 == 0)]

2    6
4    6
6    7
dtype: int64

Изменение элементов

In [43]:
b = pd.Series([5, 2, 6, 1, 6, 8, 7])

In [44]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [45]:
b[0] = 4

In [46]:
b

0    4
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [47]:
b[b < 5] = 0

In [48]:
b

0    0
1    0
2    6
3    0
4    6
5    8
6    7
dtype: int64

In [49]:
b[[0, 1, 2]] = 1

In [50]:
b

0    1
1    1
2    1
3    0
4    6
5    8
6    7
dtype: int64

Добавление данных

In [51]:
b = b.append(pd.Series({6: 10, 7:15, 8:11, 9:14}))
b

0     1
1     1
2     1
3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

Удаление данных по индексу

In [52]:
b = b.drop([0, 1, 2])
b

3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

Запись и чтение данных из файла

In [53]:
b.to_pickle('b.pkl')

In [54]:
b2 = pd.read_pickle('b.pkl')

In [55]:
b2

3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64