## series
Series - это одна из структур данных библиотеки pandas. Она представляет собой что-то вроде словаря, однако, является упорядоченной.

In [1]:
import pandas as pd

In [2]:
a = [1, 3, 5, 7, 2]
b = pd.Series(a)
b

0    1
1    3
2    5
3    7
4    2
dtype: int64

In [3]:
from datetime import date
index = [date(2019, 4, i) for i in a]
c = pd.Series(a, index=index)
print(c)

2019-04-01    1
2019-04-03    3
2019-04-05    5
2019-04-07    7
2019-04-02    2
dtype: int64


In [4]:
b.index = ["a", "b", "c", "d", "e"]
print(b)

a    1
b    3
c    5
d    7
e    2
dtype: int64


In [5]:
c.index

Index([2019-04-01, 2019-04-03, 2019-04-05, 2019-04-07, 2019-04-02], dtype='object')

In [7]:
import numpy as np
e = pd.Series(a, dtype=np.float32)
print(e)

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float32


In [8]:
e = pd.Series(a)
e = e.astype(np.float32)
print(e)

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float32


In [6]:
dict_ = {
    "1st": "a",
    "2nd": "b",
    "3rd": "c",
}
f = pd.Series(dict_)
print(f)

1st    a
2nd    b
3rd    c
dtype: object


## Выбор данных из массива Series
Для получения значений массива Series по индексу используется тот же синтаксис, что и с массивами в numpy:

    Чтобы получить значение или значения по одному индексу, достаточно поставить этот индекс в квадратные скобки после массива: f["1st"].
    Если необходимо получить значения по нескольким индексам, в квадратные скобки массива подаётся список индексов: f[["1st", "3rd"]].

У массивов Series также имеются методы .head и .tail, позволяющие посмотреть, соответственно, первые несколько или последние несколько значений массива. В каждом из этих методов можно указать, сколько именно значений нужно вернуть. По умолчанию возвращается 5 значений.

In [9]:
e.tail(3)

2    5.0
3    7.0
4    2.0
dtype: float32

In [10]:
e[e > 2]

1    3.0
2    5.0
3    7.0
dtype: float32

Как и ранее, условия можно комбинировать, используя логические операторы "и" (обозначается символом &), "или" (символ ∣) и оператор отрицания "не" (символ ∼). При этом каждое условие необходимо поставить в круглые скобки:

In [11]:
e[(e > 2) | (e == 1)]

0    1.0
1    3.0
2    5.0
3    7.0
dtype: float32

Изменять массив Series можно теми же способами, что и при работе с обычными словарями. Например, команда e[2] = 4 заменит значение массива e с индексом 2 на 4.

Однако, в массивах Series мы можем менять несколько значений одновременно. Например, с помощью тех же самых условий:

In [12]:
e[e > 2] = -1
print(e)

0    1.0
1   -1.0
2   -1.0
3   -1.0
4    2.0
dtype: float32


либо передав в массив какие-то конкретные индексы:

In [13]:
e[[1, 3]] = 10
print(e)

0     1.0
1    10.0
2    -1.0
3    10.0
4     2.0
dtype: float32


## Добавление и удаление данных в Series
Обратите внимание, что эти методы, в отличие от аналогичных методов из стандартных библиотек питона, не изменяют исходный массив, но возвращают новый.

In [14]:
g = e.append(f)
print(g)

0       1.0
1      10.0
2      -1.0
3      10.0
4       2.0
1st       a
2nd       b
3rd       c
dtype: object


In [16]:
h = g.drop([0, 4, "2nd"])
print(h)

1      10.0
2      -1.0
3      10.0
1st       a
3rd       c
dtype: object


## Запись и чтение массивов Series из файла

Для записи массивов Series в файлы используется формат файлов под названием pickle. Этот формат позволяет полностью сохранять питоновские объекты, а затем загружать их в неизменном виде.
Для записи массива Series в файл используется метод .to_pickle, а для чтения - функция np.read_pickle:

In [17]:
h.to_pickle("h.pkl")
h = pd.read_pickle("h.pkl")

## DataFrame
DataFrame - двумерная структура данных из библиотеки pandas, позволяющая удобно работать с таблицами.

In [18]:
a = {
    "col1": [1, 2, 4, 5, 6, 7, 8],
    "col2": ["a", "c", "e", "g", "z", "x", "y"]
}
b = pd.DataFrame(a)
b

Unnamed: 0,col1,col2
0,1,a
1,2,c
2,4,e
3,5,g
4,6,z
5,7,x
6,8,y


In [19]:
print("Форма b: {}".format(b.shape))
print("Столбцы b: {}".format(b.columns))
print("Индексы b: {}".format(b.index))

Форма b: (7, 2)
Столбцы b: Index(['col1', 'col2'], dtype='object')
Индексы b: RangeIndex(start=0, stop=7, step=1)


In [20]:
b.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col1    7 non-null      int64 
 1   col2    7 non-null      object
dtypes: int64(1), object(1)
memory usage: 240.0+ bytes


С помощью метода .describe можно получить некоторые статистические характеристики по столбцам с числовыми значениями: среднее значение, среднее квадратическое отклонение, максимум, минимум, квантили и пр.

In [22]:
b.describe()

Unnamed: 0,col1
count,7.0
mean,4.714286
std,2.56348
min,1.0
25%,3.0
50%,5.0
75%,6.5
max,8.0


## Выбор данных из массива DataFrame
Каждый отдельный столбец массива DataFrame возвращается как массив типа Series.

Если мы хотим указать несколько столбцов, в квадратные скобки нужно подать список из столбцов. Тогда нам вернётся подтаблица исходной таблицы опять в формате DataFrame.

In [24]:
b["col1"]

0    1
1    2
2    4
3    5
4    6
5    7
6    8
Name: col1, dtype: int64

Получить данные из строк таблицы DataFrame можно получить с помощью атрибута .loc. Этот атрибут представляет собой что-то вроде двумерного массива. Конкретное значение (или несколько значений) этого массива можно получить, указав нужный индекс строки и название колонки:

In [25]:
b.loc[2, "col1"]

4

In [26]:
b.loc[[0, 2, 4]]

Unnamed: 0,col1,col2
0,1,a
2,4,e
4,6,z


При использовании атрибута .loc мы должны указывать именно индекс нужной строки и название нужного столбца. Бывают ситуации, когда удобнее было бы получить значение по позиции (т.е., например, элемент из третьей строки и второго столбца). Для этого можно использовать атрибут .iloc:

In [27]:
b.iloc[2, 1]

'e'

In [28]:
b.loc[(b["col1"] > 3) | (b["col1"] == 1), "col2"]

0    a
2    e
3    g
4    z
5    x
6    y
Name: col2, dtype: object

В pandas есть также несколько методов, упрощающих булеву индексацию:

    b["col1"].between(1, 3) - все строки, для которых значение в первом столбце лежит между 11 и 13 (включая оба конца)
    b["col2"].isin(["a", "z"]) - все строки, для которых значение второго столбца содержится в списке ["a", "z"]

Их также можно использовать вместе с логическими операторами. Например, получим все строки из таблицы b, для которых значение первого столбца лежит между 3 и 6, а значение второго столбца не равно "a" или "z":

In [29]:
b[(b["col1"].between(3, 6)) & (~b["col2"].isin(["a", "z"]))]

Unnamed: 0,col1,col2
2,4,e
3,5,g


Более короткий и удобный функционал для таких запросов реализован методом .query. В него подаётся строка, содержащая булевы условия на значения столбцов. При этом, переменную массива мы уже не пишем, а к столбцам обращаемся без кавычек. В остальном, допускается тот же синтаксис с использованием булевых операторов. 

In [30]:
b.query('(col1 < 6) & (col2 > "c")')

Unnamed: 0,col1,col2
2,4,e
3,5,g


## Случайный выбор значений из DataFrame

Случайный выбор строк из массива DataFrame производится с помощью метода .sample. Вот несколько его важных параметров:

    frac - какую долю от общего числа строк нужно вернуть (число от 0 до 1)
    n - сколько строк нужно вернуть (число от 0 до числа строк в массиве)
    replace - индикатор того, производится ли выбор с возвращением, т.е. с возможным повторением строк в выборке, или без возвращения (True или False)

Нельзя использовать параметры frac и n одновременно, нужно выбрать какой-то один.

In [31]:
b.sample(frac=0.5, replace=True)

Unnamed: 0,col1,col2
5,7,x
1,2,c
3,5,g
4,6,z


## Слияние данных

In [32]:
authors = pd.DataFrame({
    'author_id': [1, 2, 3],
    'author_name': ['Pushkin', 'Tolstoy', 'Dostoevsky'],
})

authors

Unnamed: 0,author_id,author_name
0,1,Pushkin
1,2,Tolstoy
2,3,Dostoevsky


In [33]:
books = pd.DataFrame({
    'author_id': [2, 3, 3, 4],
    'book_title': ['War and Peace', 'The Idiot', 'Crime and Punishment',
                   'Fathers and Sons'],
})

books

Unnamed: 0,author_id,book_title
0,2,War and Peace
1,3,The Idiot
2,3,Crime and Punishment
3,4,Fathers and Sons


Что делать, если мы, например, захотим сопоставить названия книг именам их авторов? Для этого используется функция pd.merge: в эту функцию помещаются те таблицы, которые мы хотим соединить, а также несколько других важных аргументов:

    on - параметр, отвечающий за то, какой столбец мы будем использовать для слияния,
    how - каким образом производить слияние.

Опишем подробнее, какие значения может принимать параметр how:

    "inner" - внутреннее слияние. В этом случае в слиянии участвуют только те строки, которые присутствуют в обоих таблицах,
    "left" - в слиянии участвуют все строки из левой таблицы,
    "right" - то же самое, но для правой таблицы,
    "outer" - внешнее слияние, соединяются все строки как из левой, так и из правой таблицы.

In [34]:
pd.merge(authors, books, on='author_id', how='inner')

Unnamed: 0,author_id,author_name,book_title
0,2,Tolstoy,War and Peace
1,3,Dostoevsky,The Idiot
2,3,Dostoevsky,Crime and Punishment


In [35]:
merged_df = pd.merge(authors, books, on='author_id', how='outer')

merged_df

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,,Fathers and Sons


## Работа с пропущенными данными

In [36]:
merged_df[merged_df["author_name"].isnull()]

Unnamed: 0,author_id,author_name,book_title
4,4,,Fathers and Sons


In [37]:
merged_df[merged_df["author_name"].notnull()]

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment


In [38]:
merged_df["author_name"] = merged_df["author_name"].fillna("unknown")

merged_df

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,unknown,Fathers and Sons


## Добавление столбцов в DataFrame.

In [39]:
merged_df.loc[merged_df["book_title"].notnull(), "quantity"] = 1

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,1.0


In [40]:
merged_df["quantity"].fillna(0, inplace=True)

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0.0
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,1.0


In [41]:
merged_df["quantity"] = merged_df["quantity"].astype(int)

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


In [42]:
merged_df.set_index("author_id", inplace=True)

merged_df

Unnamed: 0_level_0,author_name,book_title,quantity
author_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Pushkin,,0
2,Tolstoy,War and Peace,1
3,Dostoevsky,The Idiot,1
3,Dostoevsky,Crime and Punishment,1
4,unknown,Fathers and Sons,1


In [43]:
merged_df.reset_index(inplace=True)

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


## Удаление данных

Для удаления данных из DataFrame используется метод .drop. В этот метод подаётся метка элемента, который необходимо удалить (индекс строки или название столбца), а также ось axis. При axis=0 удаляется строка, при значении axis=1 - столбец:

In [44]:
merged_df["price"] = 500

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,,0,500
1,2,Tolstoy,War and Peace,1,500
2,3,Dostoevsky,The Idiot,1,500
3,3,Dostoevsky,Crime and Punishment,1,500
4,4,unknown,Fathers and Sons,1,500


In [45]:
merged_df.drop("price", axis=1, inplace=True)

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


In [46]:
merged_df.drop(1, axis=0, inplace=True)

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


## Сортировка данных
Вернем удаленную строку.
Параметр ignore_index=True подаётся сюда, чтобы индексы соединяемых таблиц не учитывались. В результирующей таблице будут использованы стандартные последовательные индексы, начинающиеся с 0.

In [48]:
merged_df = merged_df.append(
    {
        "author_id": 2,
        "author_name": "Tolstoy",
        "book_title": "War and Peace",
        "quantity": 1,
    },
    ignore_index=True,
)

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,3,Dostoevsky,The Idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,1
4,2,Tolstoy,War and Peace,1
5,2,Tolstoy,War and Peace,1


In [49]:
merged_df.sort_values(by="author_id", inplace=True)

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
4,2,Tolstoy,War and Peace,1
5,2,Tolstoy,War and Peace,1
1,3,Dostoevsky,The Idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,1


Чтобы сбросить индексы, воспользуемся уже известным методом .reset_index. В нашем случае, стоит подать в него аргумент drop=True, который означает, что текущий столбец из индексов не нужно сохранять в таблице, а можно удалить.

In [50]:
merged_df.reset_index(drop=True, inplace=True)

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,2,Tolstoy,War and Peace,1
3,3,Dostoevsky,The Idiot,1
4,3,Dostoevsky,Crime and Punishment,1
5,4,unknown,Fathers and Sons,1


## Соединение таблиц

Для соединения таблиц можно пользоваться функцией pd.concat. С этой функцией мы уже знакомились, когда изучали библиотеку numpy. Здесь эта функция работает аналогичным образом: соединяет таблицы либо вертикально (если указан параметр axis=0), либо горизонтально (если axis=1).

Соединение происходит с сохранением индексов, если не указан параметр ignore_index=True.

In [51]:
df1 = pd.DataFrame({
    'author_id': [3, 5],
    'author_name': ['Dostoevsky', 'Chekhov'],
    'book_title': ['The Gambler', 'Three Sisters'],
    'quantity': [2, 3],
})

df2 = pd.concat([merged_df, df1], axis=0, ignore_index=True)

df2

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,2,Tolstoy,War and Peace,1
3,3,Dostoevsky,The Idiot,1
4,3,Dostoevsky,Crime and Punishment,1
5,4,unknown,Fathers and Sons,1
6,3,Dostoevsky,The Gambler,2
7,5,Chekhov,Three Sisters,3


In [52]:
df3 = pd.DataFrame(
    {'price': [700, 450, 500, 400, 350]},
    index=[1, 2, 3, 5, 6],
)

df4 = pd.concat([df2, df3], axis=1)

df4

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,,0,
1,2,Tolstoy,War and Peace,1,700.0
2,2,Tolstoy,War and Peace,1,450.0
3,3,Dostoevsky,The Idiot,1,500.0
4,3,Dostoevsky,Crime and Punishment,1,
5,4,unknown,Fathers and Sons,1,400.0
6,3,Dostoevsky,The Gambler,2,350.0
7,5,Chekhov,Three Sisters,3,


## Операции над таблицами

In [53]:
df4["total"] = df4["quantity"] * df4["price"]

df4

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
0,1,Pushkin,,0,,
1,2,Tolstoy,War and Peace,1,700.0,700.0
2,2,Tolstoy,War and Peace,1,450.0,450.0
3,3,Dostoevsky,The Idiot,1,500.0,500.0
4,3,Dostoevsky,Crime and Punishment,1,,
5,4,unknown,Fathers and Sons,1,400.0,400.0
6,3,Dostoevsky,The Gambler,2,350.0,700.0
7,5,Chekhov,Three Sisters,3,,


С помощью следующих методов можно посчитать основные статистики по желаемым столбцам:

    df4["price"].max() - максимум
    df4["price"].min() - минимум
    df4["price"].mean() - среднее
    df4["price"].median() - медиана
    df4["price"].std() - среднее квадратическое значение
    df4["price"].var() - дисперсия

С помощью метода .nlargest можно вывести несколько наибольших значений. Указывается то, сколько значений нужно вернуть, а также то, по какому именно значению нужно сортировать:

In [55]:
df4.nlargest(3, "price")

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
1,2,Tolstoy,War and Peace,1,700.0,700.0
3,3,Dostoevsky,The Idiot,1,500.0,500.0
2,2,Tolstoy,War and Peace,1,450.0,450.0


Имеется также аналогичный метод .nsmallest.

С помощью метода .unique можно получить уникальные значения заданного столбца:

In [56]:
df4["author_name"].unique()

array(['Pushkin', 'Tolstoy', 'Dostoevsky', 'unknown', 'Chekhov'],
      dtype=object)

Если нужно получить не уникальные значения, а лишь их количество, можно воспользоваться методом .nunique.

С помощью метода .value_counts можно получить информацию о том, сколько раз каждое уникальное значение появляется в данном столбце:


In [57]:
df4["author_name"].value_counts()

Dostoevsky    3
Tolstoy       2
Pushkin       1
unknown       1
Chekhov       1
Name: author_name, dtype: int64

К значениям таблицы можно применять и функции, которые не имеются в библиотеках pandas и numpy. Делается это с помощью метода .apply:

In [58]:
df4["author_name"].apply(lambda x: x.upper())

0       PUSHKIN
1       TOLSTOY
2       TOLSTOY
3    DOSTOEVSKY
4    DOSTOEVSKY
5       UNKNOWN
6    DOSTOEVSKY
7       CHEKHOV
Name: author_name, dtype: object

## Группировка данных

Данные в таблице DataFrame можно группировать по повторяющимся значениям выбранного столбца. Группировка позволяет вычислять какие-то агренированные значения, т.е. значения, полученные каким-то образом из групп других значений. Например, если мы захотим сгруппировать нашу таблицу по значениям author_name, то каждая группа будет содержать все строки с одинаковым значением author_name. По таким группам можно затем посчитать какую-нибудь агрегирующую функцию, например, сумму, среднее, минимум и др.

Вот несколько способов это сделать. В первом случае мы просто выбираем конкретный столбец из группировки и применяем к нему какую-то агрегирующую функцию:

In [59]:
groupby = df4.groupby("author_name")

In [60]:
groupby["price"].mean()

author_name
Chekhov         NaN
Dostoevsky    425.0
Pushkin         NaN
Tolstoy       575.0
unknown       400.0
Name: price, dtype: float64

Второй способ - с помощью метода .agg. Данный метод является более гибким. Например, он позволяет вычислять одновременно несколько различных агрегирующих функций от разных столбцов:

In [61]:
groupby.agg({"price": "max", "total": "count"})

Unnamed: 0_level_0,price,total
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Chekhov,,0
Dostoevsky,500.0,2
Pushkin,,0
Tolstoy,700.0,2
unknown,400.0,1
