## NumPy

### Многомерные массивы

Библиотека numpy поддерживает работу с многомерными массивами, в том числе, с матрицами, и очень хороша для научных расчётов. Библиотека написана не только на Python, но и на языке C, который является более низкоуровневым и работает значительно быстрее, поэтому расчёты в numpy производятся во много раз быстрее, чем если бы мы использовали для этого стандартные структуры данных из Python.

Установить библиотеку numpy можно следующим образом:

* Если вы используете Python в составе дистрибутива Anaconda, то достаточно в командной строке ввести:
conda install numpy

* Если вы используете Python отдельно, то же самое можно сделать с помощью пакетного менеджера pip:
pip install numpy

In [1]:
import numpy as np

Чтобы задать numpy-массив, достаточно задать обычный питоновский список list, а затем поместить его внутрь функции np.array:

In [None]:
a = np.array([1, 2, 3])
print(a)

[1 2 3]


Внутрь этой функции можно подавать также питоновский кортеж tuple.

Проверим, к какому типу относится массив a:

In [None]:
type(a)

numpy.ndarray

ndarray - сокращение от  n -dimensional array ( n -мерный массив).

В отличие от стандартных питоновских структур данных, в numpy массивы предпочитают данные одного типа. Например, если функция np.array вызывается от списка, содержащего как целые (int), так и дробные (float) значения, то в результирующем массиве все значения будут приведены к типу float. Аналогично, если в подаваемом списке есть хотя бы одна строка str, то в соответствующем массиве все значения будут приведены к типу str. Если мы хотим задать свой тип, к которому нужно привести данные, это можно сделать с помощью аргумента dtype:

In [None]:
a = np.array([1, 2, 3.6], dtype=str)
print(a)

['1' '2' '3.6']


Получить конкретный элемент массива можно теми же способами, что и в стандартных питоновских структурах данных - с помощью квадратных скобок. В numpy, как и во всём питоне, индексация начинается с нуля. Например, получить второй элемент из массива a (т.е. элемент с индексом  1 ) можно так:

In [None]:
a[1]

'2'

Также в numpy массивах можно использовать отрицательную индексацию и делать срезы, как и в стандартных списках из питона:

In [None]:
a[-1]

'3.6'

In [None]:
a[1:3]

array(['2', '3.6'], dtype='<U3')

#### Двумерные массивы

Пока что мы работали лишь с одномерными массивами. Также в numpy можно задать и многомерные массивы. Например, двумерный массив - это массив, каждый элемент из которого - это снова массив.

Для numpy-массива a можно проверить его размерность с помощью атрибута ndim и форму с помощью атрибута shape:

In [None]:
print("Размерность a: {}".format(a.ndim))
print("Форма a: {}".format(a.shape))

Размерность a: 1
Форма a: (3,)


В этом случае размерность равна  1 , а shape возвращает кортеж из одного элемента. Зададим теперь двумерный массив:

In [None]:
A = np.array([[1, 2, 3, 1], 
              [4, 5, 6, 4], 
              [7, 8, 9, 7]])

print(A)
print("Размерность A: {}".format(A.ndim))
print("Форма A: {}".format(A.shape))

[[1 2 3 1]
 [4 5 6 4]
 [7 8 9 7]]
Размерность A: 2
Форма A: (3, 4)


Атрибут shape - это всегда кортеж, размер которого равен размерности массива. Каждый элемент этого кортежа - это размер в каждом измерении. Например, у нашей матрицы  A , судя по этому атрибуту,  3  строки и  4  столбца.

С помощью атрибута size можно увидеть общее количество элементов массива:

In [1]:
A.size

NameError: name 'A' is not defined

В случае вложенных друг в друга стандартных питоновских списков list, чтобы получить конкретный элемент массива, нужно использовать несколько пар квадратных скобок: A[0][0]. В numpy массивы также поддерживают такую запись, однако, здесь есть и более удобный вариант - просто писать индексы через запятую:

In [None]:
A[0, 0]

1

In [None]:
A[0][0]

1

Это же работает и в случае отрицательной индексации и в случае срезов:

In [None]:
A[-1, -2]

9

In [None]:
A[1:, :3]

array([[4, 5, 6],
       [7, 8, 9]])

В случае срезов для numpy-массивов важно отметить, что, записывая срез numpy-массива, мы ничего нового не создаём, мы лишь получаем представление (view) - ссылку на какие-то отдельные элементы оригинального массива. Это означает, что если мы "создали" срез из numpy-массива, а затем поменяли в нём что-то - эти изменения коснутся и оригинального массива:

In [None]:
print(A)

[[1 2 3 1]
 [4 5 6 4]
 [7 8 9 7]]


In [None]:
B = A[1:, :3]
print(B)

[[4 5 6]
 [7 8 9]]


In [None]:
B[0, 0] = -4
print(A)

[[ 1  2  3  1]
 [-4  5  6  4]
 [ 7  8  9  7]]


Наоборот, если мы меняем значения в оригинальном массиве, они коснутся и всех его представлений, в которых используются эти значения:

In [None]:
A[2, 0] = -7
print(B)

[[-4  5  6]
 [-7  8  9]]


Если мы хотим всего этого избежать и создать действительно новый массив, нужно использовать метод copy:

In [None]:
C = A[1:3, 2:4].copy()
print(C)

[[6 4]
 [9 7]]


In [None]:
C[0, 0] = -6
print(A)

[[ 1  2  3  1]
 [-4  5  6  4]
 [-7  8  9  7]]


#### Типы данных в NumPy

Самыми распространёнными типами в numpy являются два целочисленных типа: np.int32 и np.int64 и два дробных типа: np.float32 и np.float64. Они применяются для, соответственно,  32 -битных и  64 -битных чисел. Последние требуют вдвое больше памяти, чем первые, однако, если вы знаете, что в вашем массиве, например, используются целые числа, которые по модулю больше, чем  2⋅109 , то стоит использовать np.int64.

### NumPy в Линейной алгебре

#### Векторы

Для начала разберёмся с тем, как с помощью numpy работать с векторами. Зададим несколько векторов:

In [None]:
a = np.array([0, 1, 2, 3, 4])
b = np.array([5, 6, 7, 8, 9])

Сейчас мы ограничимся случаем, когда все векторы имеют одинаковый размер.

Сложение векторов можно выполнять, просто складывая массивы. Отметим, что это поведение отличается от сложения обычных питоновских списков list: списки в таком случае просто склеиваются в один.

In [None]:
a_ = [0, 1, 2, 3, 4]
b_ = [5, 6, 7, 8, 9]
c_ = a_ + b_
print(c_)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


В numpy же массивы в результате такой операции складываются поэлементно:

In [None]:
c = a + b
print(c)

[ 5  7  9 11 13]


Также массивы numpy можно складывать с помощью функции np.add:

In [None]:
c = np.add(a, b)
print(c)

[ 5  7  9 11 13]


Аналогично, есть два способа вычитать векторы друг из друга:

In [None]:
d = a - b
print(d)
d = np.subtract(a, b)
print(d)

[-5 -5 -5 -5 -5]
[-5 -5 -5 -5 -5]


Для умножения вектора на скаляр также можно пользоваться достаточно естественной записью:

In [None]:
e = a * 3
print(e)

[ 0  3  6  9 12]


При этом скаляр может быть каким угодно. При умножении на скаляр, каждая координата вектора умножается на этот скаляр.

Это поведение тоже отличается от поведения питоновских списков list при умножении на число. Последние при этом дублируются заданное количество раз. Скаляр здесь, кроме того, может быть только положительным целым.

In [None]:
[1, 2, 3] * 3

[1, 2, 3, 1, 2, 3, 1, 2, 3]

In [None]:
np.multiply(a, 3)

array([ 0,  3,  6,  9, 12])

In [None]:
np.dot(a, 3)

array([ 0,  3,  6,  9, 12])

In [None]:
a.dot(3)

array([ 0,  3,  6,  9, 12])

Вот ещё несколько способов умножить вектор на скаляр в numpy:

* с помощью функции np.multiply: e = np.multiply(a, 3)
* с помощью функции np.dot: e = np.dot(a, 3)
* с помощью метода a.dot, который есть у любого numpy-массива: e = a.dot(3)

Функция np.dot (так же, как и метод a.dot), кроме того, может вычислять скалярное произведение векторов, а также произведение матриц (об этом чуть позже).

Посчитаем скалярное произведение векторов a и b. Напомним, что чтобы вычислить скалярное произведение двух векторов, нужно попарно перемножить их координаты (первую с первой, вторую со второй и т.д.), а затем сложить результаты.

In [None]:
a

array([0, 1, 2, 3, 4])

In [None]:
b

array([5, 6, 7, 8, 9])

In [None]:
sp = a.dot(b)
print(sp)

80


In [None]:
print(np.dot(a, b))

80


Также скалярное произведение векторов можно вычислять с помощью оператора @:

In [None]:
sp = a @ b
print(sp)

80


#### Матрицы

Разберёмся теперь, как в numpy работать с матрицами. Зададим пару матриц:

In [None]:
A = np.array([[0, 1],
              [2, 3],
              [4, 5]])
B = np.array([[6, 7],
              [8, 9],
              [10, 11]])

Матрицы одинакового размера можно складывать и вычитать. Как и с векторами, это можно делать с помощью операторов + и -, а также с помощью функций np.add и np.subtract.

In [None]:
C = A + B
print(C)

[[ 6  8]
 [10 12]
 [14 16]]


In [None]:
D = A - B
print(D)

[[-6 -6]
 [-6 -6]
 [-6 -6]]


In [None]:
np.add(A, B)

array([[ 6,  8],
       [10, 12],
       [14, 16]])

In [None]:
np.subtract(A, B)

array([[-6, -6],
       [-6, -6],
       [-6, -6]])

#### Умножение матриц

Матрицы $A$ и $B$ можно умножить друг на друга, если _число столбцов_ первой матрицы равняется _числу строк_ второй матрицы. То есть если $A$ - матрица размера $n \times k$, то матрица $B$ должна иметь размер $k \times m$ для некоторого $m$.

В таком случае результатом умножения будет матрица $C$ размера $n \times m$ (т.е. у неё будет строк как у первой матрицы, а столбцов - как у второй).

Рассмотрим простейший случай: умножение строки (матрицы размера $1 \times k$) на столбец (матрицу размера $k \times 1$). Как мы уже выяснили, в результате получится матрица размера $1 \times 1$, т.е. число. Что это за число?

Чтобы посчитать это число, нужно элементы из строки и столбца попарно перемножить (первый с первым, второй со вторым и т.д.), а затем сложить результаты. Это очень похоже на скалярное произведение векторов.

Например, 

$$
\left(
\begin{matrix}
    1 & 2 & 3
\end{matrix}
\right)
\cdot
\left(
\begin{matrix}
    1 \\
    0 \\
    -1
\end{matrix}
\right)
= 1 \cdot 1 + 2 \cdot 0 + 3 \cdot (-1)
= -2.
$$

Вернёмся к общему случаю - умножению матрицы размера $n \times k$ на матрицу размера $k \times m$. Мы уже поняли, что это будет матрица размера $n \times m$. Как "заполнить" эту матрицу?

Чтобы получить число, стоящее в этой матрице на позиции $(i, j)$, нужно умножить $i$-ю строку первой матрицы на $j$-й столбец второй матрицы (так, как мы это делали выше).

Например,

$$
\left(
\begin{matrix}
    1 & 0 & -1 \\
    3 & 5 & -4 
\end{matrix}
\right)
\cdot
\left(
\begin{matrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    7 & 8 & 9
\end{matrix}
\right)
=
\left(
\begin{matrix}
    1 \cdot 1 + 0 \cdot 4 + (-1) \cdot 7 & 1 \cdot 2 + 0 \cdot 5 + (-1) \cdot 8 & 1 \cdot 3 + 0 \cdot 6 + (-1) \cdot 9 \\
    3 \cdot 1 + 5 \cdot 4 + (-4) \cdot 7 & 3 \cdot 2 + 5 \cdot 5 + (-4) \cdot 8 & 3 \cdot 3 + 5 \cdot 6 + (-4) \cdot 9
\end{matrix}
\right)
=
$$

$$
=
\left(
\begin{matrix}
    -6 & -6 & -6 \\
    -5 & -1 & 3
\end{matrix}
\right).
$$

Чтобы выполнять умножение матриц в библиотеке numpy, будем пользоваться уже знакомой функцией np.dot, либо методом A.dot:

In [None]:
A = np.array([[1, 0, -1],
              [3, 5, -4]])
B = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
C = A.dot(B)
print(C)

[[-6 -6 -6]
 [-5 -1  3]]


Если перемножаемые матрицы являются квадратными, то результат их умножения будет снова квадратной матрицей, причём, того же размера. Это означает, что квадратную матрицу можно возводить в степень. В numpy это можно делать с помощью функции matrix_power из модуля numpy.linalg:

In [None]:
D = np.linalg.matrix_power(B, 3)
print(D)

[[ 468  576  684]
 [1062 1305 1548]
 [1656 2034 2412]]


#### Единичная и транспонированная матрица

Единичной матрицей называется квадратная матрица, у которого на главной диагонали стоят  1 , а в остальных местах -  0 . (Под главной диагональю мы понимаем диагональ матрицы, которая начинается в левом верхнем углу и заканчивается в правом нижнем.) Единичную матрицу можно задать с помощью функции np.eye:

In [None]:
I = np.eye(3)
print(I)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


При умножении любой матрицы на единичную матрицу подходящего размера, результатом будет та же самая матрица:

In [None]:
print(A)

[[ 1  0 -1]
 [ 3  5 -4]]


In [None]:
E = A.dot(I)
print(E)

[[ 1.  0. -1.]
 [ 3.  5. -4.]]


Пусть дана матрица $A$. _Транспонированной матрицей_ называется матрица $A^\top$, полученная "отражением" матрицы $A$ относительно её главной диагонали. Другими словами, столбцы матрицы $A$ становятся строками матрицы $A^\top$, а строки матрицы $A$ - столбцами матрицы $A^\top$.

Вот несколько способов посчитать транспонированную матрицу в `numpy`:

* с помощью функции `np.transpose`: `A_t = np.transpose(A)`
* с помощью метода `A.transpose`: `A_t = A.transpose()`
* с помощью атрибута `A.T`: `A_t = A.T`

In [None]:
A_t = A.T
print(A_t)

[[ 1  3]
 [ 0  5]
 [-1 -4]]


#### Определитель и ранг матрицы

Если матрица квадратная, то мы можем посчитать её _определитель_. Определитель матрицы - это число, которое в каком-то смысле "определяет" её свойства. Например, обратную матрицу можно посчитать только для матрицы, определитель которой не равен $0$ (по аналогии с тем, что делить можно только на числа, не равные $0$).

Посчитать определитель можно с помощью функции `det` из модуля `numpy.linalg`:

In [None]:
d = np.linalg.det(B)
print(d)

0.0


Также с помощью функции `matrix_rank` из модуля `numpy.linalg` можно посчитать _ранг_ матрицы. Ранг матрицы - это число линейно независимых строк данной матрицы.

In [None]:
r = np.linalg.matrix_rank(B)
print(r)

2


Если матрица квадратная, то её ранг и определитель связаны следующим образом: определитель матрицы отличен от $0$ тогда и только тогда, когда все её строки являются линейно независимыми. Это, в свою очередь, означает, что её ранг равен её размеру.

Например, ранг матрицы $B$ из примера выше равен $2$, при этом её размер равен $3$. Это значит, что не все её строки являются линейно независимыми, поэтому её определитель равен $0$.

В отличие от определителя, ранг можно считать и для матрицы, которая не является квадратной. Посчитаем ранг матрицы $A$ размера $2 \times 3$, определённой выше:

In [None]:
r1 = np.linalg.matrix_rank(A)
print(r1)

2


Итак, если определитель квадратной матрицы не равен $0$, то мы можем посчитать для неё _обратную матрицу_. Это матрица, которая при умножении на исходную матрицу даёт единичную матрицу:

$$A \cdot A^{-1} = I$$

Обратную матрицу можно посчитать с помощью функции `inv` из модуля `numpy.linalg`:

In [None]:
F = np.array([[7, 4, 5],
              [8, 3, 2],
              [6, 10, 12]])
print(np.linalg.det(F))

85.99999999999997


In [None]:
F_inv = np.linalg.inv(F)
print(F_inv)

[[ 0.18604651  0.02325581 -0.08139535]
 [-0.97674419  0.62790698  0.30232558]
 [ 0.72093023 -0.53488372 -0.12790698]]


In [None]:
print(F.dot(F_inv))

[[ 1.00000000e+00  1.11022302e-16  1.11022302e-16]
 [ 0.00000000e+00  1.00000000e+00  5.55111512e-17]
 [ 0.00000000e+00 -4.44089210e-16  1.00000000e+00]]


Если определитель матрицы $A$ равен $d$, то определитель обратной матрицы всегда будет равен $1/d$. Именно поэтому матрицы с определителем, равным $0$, обращать нельзя.

In [None]:
F_d = np.linalg.det(F)
F_inv_d = np.linalg.det(F_inv)
print(F_d * F_inv_d)

0.9999999999999992


### Генерирование массивов с заданными свойствами

Здесь мы рассмотрим способы задавать массивы различных размеров.

Функция `np.zeros` позволяет создать массив любой формы, состоящий из нулей:

In [None]:
a = np.zeros((3, 4))
print(a)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


Аналогично, функция `np.ones` вернёт массив заданной формы, состоящий из единиц:

In [None]:
b = np.ones((3, 4))
print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


Последовательности чисел можно создавать с помощью функции `np.arange`. Вот три способа использовать эту функцию:

* Если задать только один аргумент, то вернётся последовательность чисел от $0$ до этого аргумента невключительно:

In [None]:
ar1 = np.arange(10)
print(ar1)

[0 1 2 3 4 5 6 7 8 9]


* Если подать два аргумента, то вернётся последовательность чисел от первого аргумента до второго (включая первый, не включая второй):

In [None]:
ar2 = np.arange(2, 13)
print(ar2)

[ 2  3  4  5  6  7  8  9 10 11 12]


* Если подать три аргумента, то третий аргумент будет обозначать шаг, с которым берутся числа в последовательности:

In [None]:
ar3 = np.arange(2, 13, 2)
print(ar3)

[ 2  4  6  8 10 12]


Отметим, что шаг в функции `np.arange` может быть дробным:

In [None]:
ar4 = np.arange(2, 3, 0.1)
print(ar4)

[2.  2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9]


Если шаг отрицательный, то последовательность будет возвращена в обратном порядке:

In [None]:
ar5 = np.arange(3, 2, -0.1)
print(ar5)

[3.  2.9 2.8 2.7 2.6 2.5 2.4 2.3 2.2 2.1]


Применение - циклы for

In [None]:
for i in range(0, 3):
    print(i)

0
1
2


Ещё одна полезная функция здесь - это функция `np.linspace`. Она позволяет вернуть заданное количество значений, равномерно расставленных между заданными началом и концом отрезка. Отметим, что здесь и левый, и првый концы отрезка включаются в массив:

In [None]:
c = np.linspace(2, 3, 10)
print(c)

[2.         2.11111111 2.22222222 2.33333333 2.44444444 2.55555556
 2.66666667 2.77777778 2.88888889 3.        ]


Функция `np.logspace` имеет похожий эффект, отличие лишь в том, что в качестве начала и конца отрезка мы подаём не сами числа, а степени числа $10$. Например, в ячейке ниже мы задаём массив, содержащий $4$ значения, расставленных равномерно в пределах от $10^0 = 1$ до $10^3 = 1000$.

In [None]:
d = np.logspace(0, 3, 4)
print(d)

[   1.   10.  100. 1000.]


#### Массивы случайных значений

Функция `sample` из модуля `numpy.random` возвращает массив заданной формы, состоящий из чисел, взятых из равномерного распределения на отрезке $[0, 1)$.

In [None]:
a = np.random.sample((3, 4))
print(a)

[[0.21489361 0.92444816 0.20329999 0.91795644]
 [0.97970969 0.31418983 0.66775934 0.29280869]
 [0.33643745 0.279482   0.35775905 0.66996733]]


Отметим, что в эту и другие представленные ниже функции можно подавать также не кортеж, а какое-то одно целое число. В этом случае вернётся одномерный массив заданного размера. Также в эти функции можно не подавать аргументы вовсе - в этом случае вернётся лишь одно число.

In [None]:
print("Одно значение: {}".format(np.random.sample()))
print("Три значения: {}".format(np.random.sample(3)))

Одно значение: 0.6901319140109198
Три значения: [0.75295386 0.61686847 0.84979024]


Функция `randn` из модуля `numpy.random` возвращает аналогичный массив, но уже взятый из нормального распределения (со средним $0$ и среднеквадратическим отклонением $1$):

In [None]:
b = np.random.randn(3, 4)
print(b)

[[-0.66915845 -0.23629903 -1.20278405  0.19628856]
 [ 0.69905468 -0.17682092 -0.17165547  0.11701194]
 [ 0.05765262 -1.07851321  0.69744974 -0.56519778]]


Также можно вызвать функцию normal и указать параметры распределения

In [None]:
pilot = np.random.normal(3,2, (1000))
control = np.random.normal(0,0.5, (1000))
print(np.mean(pilot)-np.mean(control))

3.0492163738505815


Функция `choice` возвращает случайно выбранные элементы из заранее заданного массива:

In [None]:
A = np.arange(-10, 0)
print('A = ', A)
d = np.random.choice(A, (3, 4))
dd = np.random.choice(A, (2, ), replace=False)
print('d = ', d)
print('dd = ', dd)

A =  [-10  -9  -8  -7  -6  -5  -4  -3  -2  -1]
d =  [[-10  -8  -5  -7]
 [ -1  -4  -7  -1]
 [ -5  -6 -10  -4]]
dd =  [-4 -5]


In [None]:
dd = np.random.choice(A, (5, ), replace=True)
print(dd)

[-1 -5 -6 -6 -9]


#### Изменение размеров массива

Библиотека numpy предоставляет функционал для удобного изменения размера массивов.

Например, рассмотрим одномерный массив с  12  элементами:

In [None]:
ar = np.arange(12)
print(ar)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


Если нам нужно расположить эти значения в двумерном массиве, мы можем сделать это с помощью функции `np.reshape` или метода `ar.reshape`:

In [None]:
a = ar.reshape(3, 4)
print(a)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


Ясно, что при этом число элементов получаемого массива должно совпадать с числом элементов в оригинальном массиве. Например, следующая попытка посчитать функцию закончится ошибкой:

In [None]:
b = ar.reshape(3, 5)

Если мы знаем количество строк, которое хотим получить, но не знаем количество столбцов, в качестве второго аргумента можно передать число $-1$. Если наоборот мы знаем лишь количество столбцов, можно передать $-1$ в качестве первого аргумента.

In [None]:
b = ar.reshape(3, -1)
print(b)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


Метод `ar.reshape` не меняет сам массив `ar`, он лишь возвращает новый. Есть также метод `ar.resize`, который делает то же самое, что и `ar.reshape`, но не возвращает ничего и меняет исходный массив:

In [None]:
ar.resize(3,4)
print(ar)
c = ar.flatten()
print(c)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  1  2  3  4  5  6  7  8  9 10 11]


#### Соединение массивов

Рассмотрим два массива и разберёмся с тем, как их можно соединить в один.

In [None]:
a = np.zeros((2, 3))
b = np.ones((2, 3))

Мы можем соединить эти массивы вертикально (т.е. дописать один под другим). Вот несколько способов это сделать:

* с помощью функции `np.vstack`: `c = np.vstack((a, b))` (получает на вход кортеж из массивов)
* с помощью функции `np.concatenate`: `c = np.concatenate((a, b), axis=0)` (тоже получает на вход кортеж, также нужно указать, вдоль какой оси производится конкатенация)

In [None]:
c = np.vstack((a, b))
print(c)

[[0. 0. 0.]
 [0. 0. 0.]
 [1. 1. 1.]
 [1. 1. 1.]]


Также несколько способов это соединить массивы горизонтально (т.е. дописать один правее другого):

* с помощью функции `np.hstack`: `c = np.hstack((a, b))`
* с помощью функции `np.concatenate`: `c = np.concatenate((a, b), axis=1)` (производится теперь вдоль оси $1$)

In [None]:
d = np.concatenate((a, b), axis=1)
print(d)

[[0. 0. 0. 1. 1. 1.]
 [0. 0. 0. 1. 1. 1.]]


In [None]:
dd = np.hstack((a,b))
print(dd)

[[0. 0. 0. 1. 1. 1.]
 [0. 0. 0. 1. 1. 1.]]


Наконец, два двумерных массива можно соединить _в глубину_ (т.е. вдоль новой третьей оси) с помощью функции `np.dstack`:

In [None]:
e = np.dstack((a, b))
print(e)

[[[0. 1.]
  [0. 1.]
  [0. 1.]]

 [[0. 1.]
  [0. 1.]
  [0. 1.]]]


### Функции для работы с данными

Библиотека `numpy` предлагает удобный функционал для выбора данных из массива. Рассмотрим массив из $10$ случайных целых значений от $0$ до $19$:

In [None]:
a = np.random.randint(0, 20, 10)
print(a)

[ 8 15 12  2  7 14 16 15 10  6]


Допустим, мы хотим выбрать все значения этого массива, которые больше $10$. Вот как это можно сделать:

In [None]:
b = a[a > 10]
print(b)

[15 12 14 16 15]


Свойства можно комбинировать, используя логические операторы "и" (обозначается символом $\&$), "или" (символ $\mid$) и оператор отрицания "не" (символ $\sim$). При этом каждое условие необходимо поставить в круглые скобки:

In [None]:
c = a[(a > 0) & (a % 2 == 0)]
print(c)

[ 8 12  2 14 16 10  6]


Такая конструкция в `numpy` называется _булевой индексацией_. Разберёмся с ней поподробнее. Что из себя представляет объект `a > 0`?

In [None]:
print(a > 10)

[False  True  True False False  True  True  True False False]


Как мы видим, это просто `numpy`-массив из булевых значений `True` и `False`. Когда мы подставляем такой массив в качестве _индекса_ массива `a`, нам возвращаются все элементы, на позиции которых в этом массиве стоит значение `True`.

Можно просто создать такой массив вручную и передать его в качестве индекса:

In [None]:
ind = np.array( a > 10 )
print(a[ind])

[15 12 14 16 15]


Другой способ выбрать значения из массива - с помощью функции `np.where`. Она берёт массив из булевых значений и возвращает _индексы_ истинных значений:

In [None]:
ind1 = np.where(a > 10)
print(ind1)

(array([1, 2, 5, 6, 7]),)


Такой список индексов можно также передать в массив `a` чтобы получить конкретные значения:

In [None]:
d = a[ind1]
print(d)

[15 12 14 16 15]


То же самое можно сделать и вручную: передать в квадратные скобки массива `a` какой-нибудь список из индексов:

In [None]:
e = a[[0, 4, 7]]
print(e)

[ 8  7 15]


Отметим также, что если массив `a` является многомерным, то чтобы выбрать таким образом из него значения, нужно указать внутри квадратных скобок через запятую столько списков, сколько имеется у массива измерений:

In [None]:
a.resize((5, 2))
print(a)

[[ 8 15]
 [12  2]
 [ 7 14]
 [16 15]
 [10  6]]


In [None]:
f = a[[1, 4], :]
print(f)

[[12  2]
 [10  6]]


In [None]:
f = a[[1, 4], :1]
print(f)

[[12]
 [10]]


In [None]:
f = a[[1, 4], -1:]
print(f)

[[2]
 [6]]


#### Сортировка

Рассмотрим двумерный массив:

In [None]:
a = np.random.randint(0, 6, (3, 4))
print(a)

[[0 2 4 1]
 [2 2 3 3]
 [3 5 3 2]]


Допустим, мы хотим отсортировать строки этого массива по второму столбцу. Мы можем сделать это вручную, задав индексы строк в нужном нам порядке:

In [None]:
b = a[[1, 2, 0], :]
print(b)

[[2 2 3 3]
 [3 5 3 2]
 [0 2 4 1]]


Этот процесс можно автоматизировать с помощью метода `a.argsort`. Данный метод возвращает массив из индексов массива `a` в порядке их возрастания по заданной оси:

In [None]:
ind = a.argsort(axis=0)
print(ind)

[[0 0 1 0]
 [1 1 2 2]
 [2 2 0 1]]


В каждом столбце этого массива стоят индексы строк массива `a`, расположенные в том порядке, в котором они бы отсортировали данный столбец по возрастанию. Автоматизируем процесс сортировки массива `a` по второму столбцу. Для этого нужно получить второй столбец из массива, полученного с помощью метода `a.argsort`:

In [None]:
ind1 = a[:, 1].argsort()
print(ind1)

[0 1 2]


Итоговая конструкция будет выглядеть так:

In [None]:
c = a[a[:, 1].argsort(), :]
print(c)

[[0 2 4 1]
 [2 2 3 3]
 [3 5 3 2]]


#### Перемешивание

Иногда оказывается нужно перемешать значения массива. Это можно сделать с помощью функции `shuffle` из модуля `numpy.random`. Эта функция ничего не возвращает, лишь перемешивает случайным образом элементы данного массива. Отметим, что она перемешивает массив только в первом измерении. Другими словами, если массив двумерный, она лишь переставит его строки местами. Содержимое самих строк при этом не изменится:

In [None]:
np.random.shuffle(c)
print(c)

[[0 2 4 1]
 [2 2 3 3]
 [3 5 3 2]]


#### Математические операции над массивами

Некоторые математические операции можно выполнять с массивами целиком. Например, мы уже знаем, что массивы можно умножать на число и что массивы одинаковой формы можно складывать.

In [None]:
a = np.arange(0, 6).reshape(2, 3)
b = np.arange(6, 12).reshape(2, 3)
print(a)
print(b)

[[0 1 2]
 [3 4 5]]
[[ 6  7  8]
 [ 9 10 11]]


In [None]:
print(a + b)

[[ 6  8 10]
 [12 14 16]]


In [None]:
print(a * 2)

[[ 0  2  4]
 [ 6  8 10]]


In [None]:
print(a ** 2)

[[ 0  1  4]
 [ 9 16 25]]


К массивам можно также прибавлять числа - в этом случае к каждому элементу массива прибавляется число:

In [None]:
print(a + 1)

[[1 2 3]
 [4 5 6]]


Массивы одинакового размера можно поэлементно умножать. (Важно не путать с матричным умножением.)

In [None]:
print(a * b)

[[ 0  7 16]
 [27 40 55]]


In [None]:
#print(a.dot(b))

С помощью метода `a.sum` можно посчитать сумму всех значений массива. Если указать в этом методе ось `axis`, сумма будет посчитана только вдоль этой оси:

In [None]:
print("Сумма всех элементов: {}".format(a.sum()))
print('Сумма по столбцам ("вдоль" строк): {}'.format(a.sum(axis=0)))
print('Сумма по строкам ("вдоль" столбцов): {}'.format(a.sum(axis=1)))

Сумма всех элементов: 15
Сумма по столбцам ("вдоль" строк): [3 5 7]
Сумма по строкам ("вдоль" столбцов): [ 3 12]


##### Broadcasting

В определённых случаях мы можем выполнять операции сложения и умножения над матрицами разных размеров. Концепция _broadcasting_ заключается в том, что в некоторых случаях интерпретатор "догадывается", что одну массив надо в каком-то измерении "растянуть" до соответствия со вторым массивом. Рассмотрим массив размера $3 \times 2$:

In [None]:
a = np.array([[2, 5],
              [3, 4],
              [6, 1]])

а также одномерный массив размера $2$:

In [None]:
b = np.array([1, 2])

Если мы попытаемся их сложить, интерпретатор заметит, что у них совпадает одно из измерений: у них обоих $2$ столбца. Поэтому интерпретатор как бы "растянет" массив `b` до размера $2 \times 3$ и прибавит его к массиву `a`:

In [None]:
c = a + b
print(c)

[[3 7]
 [4 6]
 [7 3]]


На самом деле здесь строка `b` просто прибавится к каждой строке массива `a`.

Аналогично можно поступить и со столбцами:

In [None]:
d = np.array([[0],
              [1],
              [-1]])
e = a + d
print(e)

[[2 5]
 [4 5]
 [5 0]]


Интерпретатор заметит, что у этих массивов совпадает число строк, поэтому "растянет" массив `d` до размера массива `a`. Попросту говоря, столбец `b` прибавится к каждому из столбцов массива `a`.

Имеются и более сложные конструкции broadcasting, о них можно почитать [здесь](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html).

В случае, когда размеры массивов согласовать не удаётся, выпадает ошибка:

In [None]:
f = np.array([0, 1, -1])
print(f)
#a + f

[ 0  1 -1]


### Статистические функции

Вот несколько методов, позволяющих вычислить различные статистики массива `a`:

* `a.min` - минимальное значение
* `a.max` - максимальное значение
* `a.mean` - среднее значение
* `a.std` - среднее квадратическое отклонение
* `a.var` - дисперсия

Все эти значения считаются по всему массиву, либо вдоль определённой оси, если задан параметр `axis`.

In [None]:
print(a)

[[2 5]
 [3 4]
 [6 1]]


In [None]:
print("Минимальное значение: {}".format(a.min()))
print("Средние значения строк: {}".format(a.mean(axis=1)))
print("Средние квадратические отклонения столбцов: {}".format(a.std(axis=0)))

Минимальное значение: 1
Средние значения строк: [3.5 3.5 3.5]
Средние квадратические отклонения столбцов: [1.69967317 1.69967317]


In [None]:
pilot = np.random.normal(3,2, (1000))
control = np.random.normal(0,0.5, (1000))
print(np.mean(pilot)-np.mean(control))

3.0242754799167466


In [None]:
print(pilot.shape)

(1000,)


In [None]:
print("Средние значение: {}".format(pilot.mean()))
print("Средние квадратические отклонение: {}".format(pilot.std()))
print("Дисперсия: {}".format(pilot.var()))
print("Дисперсия: {}".format(pilot.std()**2))

Средние значение: 3.0020790180668593
Средние квадратические отклонение: 1.9452641138921782
Дисперсия: 3.7840524727967213
Дисперсия: 3.7840524727967213


### Запись и чтение массивов из файла

Массивы `numpy` можно сохранять в файлы с расширением `.npy` и читать из таких файлов.

Для записи массива в файл используется функция `np.save`:

In [None]:
np.save("a.npy", a)

Для чтения из файла используется функция `np.load`:

In [None]:
aa = np.load("a.npy")

In [None]:
aa

array([[2, 5],
       [3, 4],
       [6, 1]])

## PyTorch Tensors

https://pytorch.org/

In [None]:
import torch

### Initializing a Tensor

Direcly from data

In [None]:
data = [[1, 2],[3, 4]]
x_data = torch.tensor(data)

In [None]:
print(x_data)

tensor([[1, 2],
        [3, 4]])


From NumPy array

In [None]:
np_array = np.array(data)
x_np = torch.from_numpy(np_array)

From another tensor

In [None]:
x_ones = torch.ones_like(x_data) # retains the properties of x_data
print(f"Ones Tensor: \n {x_ones} \n")

x_rand = torch.rand_like(x_data, dtype=torch.float) # overrides the datatype of x_data
print(f"Random Tensor: \n {x_rand} \n")

Ones Tensor: 
 tensor([[1, 1],
        [1, 1]]) 

Random Tensor: 
 tensor([[0.2016, 0.2234],
        [0.1428, 0.5400]]) 



With random or constant values:

shape is a tuple of tensor dimensions. In the functions below, it determines the dimensionality of the output tensor.

In [None]:
shape = (2,3,)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor}")

Random Tensor: 
 tensor([[0.4962, 0.2519, 0.1183],
        [0.7964, 0.6809, 0.1616]]) 

Ones Tensor: 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 

Zeros Tensor: 
 tensor([[0., 0., 0.],
        [0., 0., 0.]])


###  Attributes of a Tensor

In [None]:
tensor = torch.rand(3,4)
print(f"Shape of tensor: {tensor.shape}")
print(f"Datatype of tensor: {tensor.dtype}")
print(f"\nDevice tensor is stored on: {tensor.device}")

Shape of tensor: torch.Size([3, 4])
Datatype of tensor: torch.float32

Device tensor is stored on: cpu


### Operations on Tensors 

Over 100 tensor operations, including arithmetic, linear algebra, matrix manipulation (transposing, indexing, slicing), sampling and more are comprehensively described here.

Each of these operations can be run on the GPU (at typically higher speeds than on a CPU). If you’re using Colab, allocate a GPU by going to Runtime > Change runtime type > GPU.

By default, tensors are created on the CPU. We need to explicitly move tensors to the GPU using .to method (after checking for GPU availability). Keep in mind that copying large tensors across devices can be expensive in terms of time and memory!

In [None]:
# We move our tensor to the GPU if available
if torch.cuda.is_available():
    tensor = tensor.to('cuda')

Standard numpy-like indexing and slicing

In [None]:
tensor = torch.ones(4, 4)
tensor[:,1] = 0
print(tensor)
print('First row: ',tensor[0])
print('First column: ', tensor[:, 0])
print('Last column:', tensor[..., -1])

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])
First row:  tensor([1., 0., 1., 1.])
First column:  tensor([1., 1., 1., 1.])
Last column: tensor([1., 1., 1., 1.])


Joining tensors You can use torch.cat to concatenate a sequence of tensors along a given dimension. See also torch.stack, another tensor joining op that is subtly different from torch.cat.

In [None]:
t1 = torch.cat([tensor, tensor, tensor], dim=1)
print(t1)

tensor([[1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.]])


In [None]:
t1 = torch.cat([tensor, tensor, tensor], dim=0)
print(t1)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


Arithmetic operations

In [None]:
# This computes the matrix multiplication between two tensors. y1, y2, y3 will have the same value
y1 = tensor @ tensor.T
print('y1 = ', y1)
y2 = tensor.matmul(tensor.T)
print('\ny2 = ', y2)
y3 = torch.rand_like(tensor)
print('')
torch.matmul(tensor, tensor.T, out=y3)

y1 =  tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])

y2 =  tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])



tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])

In [None]:
y4 = torch.rand_like(tensor)
torch.matmul(tensor, tensor, out=y4)

tensor([[3., 0., 3., 3.],
        [3., 0., 3., 3.],
        [3., 0., 3., 3.],
        [3., 0., 3., 3.]])

In [None]:
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


In [None]:
print(tensor.T)

tensor([[1., 1., 1., 1.],
        [0., 0., 0., 0.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])


In [None]:
# This computes the element-wise product. z1, z2, z3 will have the same value
z1 = tensor * tensor
print('z1 = ', z1)
z2 = tensor.mul(tensor)
print('\nz2 = ', z2)
z3 = torch.rand_like(tensor)
print('')
torch.mul(tensor, tensor, out=z3)

z1 =  tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])

z2 =  tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])



tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])

Single-element tensors If you have a one-element tensor, for example by aggregating all values of a tensor into one value, you can convert it to a Python numerical value using item():

In [None]:
agg = tensor.sum()
agg_item = agg.item()
print(agg_item, type(agg_item))

12.0 <class 'float'>


In-place operations Operations that store the result into the operand are called in-place. They are denoted by a _ suffix. For example: x.copy_(y), x.t_(), will change x.

In [None]:
print(tensor, "\n")
tensor.add(5)
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) 

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


In [None]:
print(tensor, "\n")
tensor.add_(5)
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) 

tensor([[6., 5., 6., 6.],
        [6., 5., 6., 6.],
        [6., 5., 6., 6.],
        [6., 5., 6., 6.]])


### Tensor to NumPy array 

In [None]:
t = torch.ones(5)
print(f"t: {t}")
n = t.numpy()
print(f"n: {n}")

t: tensor([1., 1., 1., 1., 1.])
n: [1. 1. 1. 1. 1.]


A change in the tensor reflects in the NumPy array.

In [None]:
t.add_(1)
print(f"t: {t}")
print(f"n: {n}")

t: tensor([2., 2., 2., 2., 2.])
n: [2. 2. 2. 2. 2.]


### NumPy array to Tensor 

In [None]:
n = np.ones(5)
t = torch.from_numpy(n)
print(f"t: {t}")
print(f"n: {n}")

t: tensor([1., 1., 1., 1., 1.], dtype=torch.float64)
n: [1. 1. 1. 1. 1.]


Changes in the NumPy array reflects in the tensor.

In [None]:
np.add(n, 1, out=n)
print(f"t: {t}")
print(f"n: {n}")

t: tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
n: [2. 2. 2. 2. 2.]


## Pandas

In [None]:
import pandas as pd

### Series

`Pandas` - это библиотека, которая позволяет удобно работать с таблицами. Как и в `numpy`, некоторые компоненты библиотеки `pandas` написаны на языке `C`, что ощутимо ускоряет работу с таблицами, содержащими большие объёмы данных.

`Series` - это одна из структур данных библиотеки `pandas`. Она представляет собой что-то вроде словаря, однако, является упорядоченной.

Создадим какой-нибудь список, а затем получим на его основе объект `Series`:

In [None]:
a = [1, 3, 5, 7, 2]
b = pd.Series(a)
print(b)

0    1
1    3
2    5
3    7
4    2
dtype: int64


В результате такой операции получается объект `Series`, содержащий элементы из списка `a`. Здесь справа располагаются элементы из `a`, а слева - их индексы. Поскольку индексы для этих элементов мы явно не указали, используются стандартные.

Индексы можно также указать явно, для этого нужно подать в качестве аргумента `index` список из индексов. Данный список должен быть той же длины, что и список `a`.

В качестве индексов можно использовать что угодно: числа, строки и пр. Например, проиндексируем наш список `a` объектами типа `datetime.date`:

In [None]:
from datetime import date

In [None]:
index = [date(2019, 4, i) for i in a]
c = pd.Series(a, index=index)
print(c)

2019-04-01    1
2019-04-03    3
2019-04-05    5
2019-04-07    7
2019-04-02    2
dtype: int64


Индексы можно задать сразу, а можно и изменить позже:

In [None]:
b.index = ["a", "b", "c", "d", "e"]
print(b)

a    1
b    3
c    5
d    7
e    2
dtype: int64


Рассмотрим индексы объекта `Series` поподробнее. Их можно получить с помощью атрибута `c.index`:

In [None]:
c.index

Index([2019-04-01, 2019-04-03, 2019-04-05, 2019-04-07, 2019-04-02], dtype='object')

Мы видим, что в качестве индексов здесь используются объекты типа `object`. Этот тип объектов используется также в `numpy`. Он используется для объектов, для которых заранее не известно, сколько памяти они требуют (в отличие от, например, `numpy.int64`, для которого заранее известно, сколько памяти под него нужно).

Тип `object` в `numpy` и `pandas` приписывается, например, строкам, а также объектам из других библиотек. В массивы данных, состоящие из объектов типа `object` (например, в наш массив `c.index`), помещаются не сами объекты, а лишь указатели на них, а сами объекты хранятся в специально выделенном месте. Мы всё ещё можем использовать для этих объектов методы, присущие им (например, для каждого индекса из массива `c.index` мы можем посмотреть его год, месяц или день):

In [None]:
print(c.index[0].month)

4


Однако, это возможно делать лишь с отдельными элементами из индекса.

В `pandas`, как и в `numpy`, возможно выполнять различные операции с массивами целиком, но лишь когда эти массивы содержат объекты типов, поддерживаемых `numpy` и `pandas` (вроде `numpy.int32` или `numpy.float64`). 

Для работы с датой и временем в `numpy` также есть специальный тип: `numpy.datetime64`. Приведём элементы нашего индекса к этому типу и посмотрим, что это нам позволит делать. Это можно сделать с помощью функции `pd.to_datetime`, которая получает на вход массив и возвращает новый массив, элементы которого приведены к типу `numpy.datetime64`:

In [None]:
c.index = pd.to_datetime(c.index)

Теперь мы можем, например, посмотреть атрибут `day` у всех элементов индекса одновременно:

In [None]:
print(c.index.day)

Int64Index([1, 3, 5, 7, 2], dtype='int64')


Индексы в `Series` не обязаны быть уникальными:

In [None]:
d = pd.Series(a, index=[0, 1, 0, 1, 0])
print(d)

0    1
1    3
0    5
1    7
0    2
dtype: int64


Тип данных в `Series` можно также задать явно. Можно это сделать либо сразу же:

In [None]:
import numpy as np
e = pd.Series(a, dtype=np.float32)
print(e)

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float32


либо позже с помощью метода `.astype`:

In [None]:
e = pd.Series(a)
e = e.astype(np.float32)
print(e)

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float32


Создать массив `Series` можно не только из списка, но и из словаря. В таком случае, ключи этого словаря становятся индексами, а соответствующие значения словаря - значениями массива:

In [None]:
dict_ = {
    "1st": "a",
    "2nd": "b",
    "3rd": "c",
}
f = pd.Series(dict_)
print(f)

1st    a
2nd    b
3rd    c
dtype: object


Значения массива `Series` можно получить с помощью атрибута `.values`. Значения массива представлены как `numpy.ndarray`.

In [None]:
f.values

array(['a', 'b', 'c'], dtype=object)

#### Выбор данных из массива Series

Для получения значений массива `Series` по индексу используется тот же синтаксис, что и с массивами в `numpy`:

* Чтобы получить значение или значения по одному индексу, достаточно поставить этот индекс в квадратные скобки после массива: `f["1st"]`.
* Если необходимо получить значения по нескольким индексам, в квадратные скобки массива подаётся список индексов: `f[["1st", "3rd"]]`.

У массивов `Series` также имеются методы `.head` и `.tail`, позволяющие посмотреть, соответственно, первые несколько или последние несколько значений массива. В каждом из этих методов можно указать, сколько именно значений нужно вернуть. По умолчанию возвращается 5 значений.

In [None]:
e

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float32

In [None]:
e.tail(3)

2    5.0
3    7.0
4    2.0
dtype: float32

Для массивов `Series`, также как и для `numpy`-массивов, доступна булева индексация. С помощью неё можно получать значения массива, которые удовлетворяют некоторому условию:

In [None]:
e[e > 2]

1    3.0
2    5.0
3    7.0
dtype: float32

Как и ранее, условия можно комбинировать, используя логические операторы "и" (обозначается символом $\&$), "или" (символ $\mid$) и оператор отрицания "не" (символ $\sim$). При этом каждое условие необходимо поставить в круглые скобки:

In [None]:
e[(e > 2) | (e == 1)]

0    1.0
1    3.0
2    5.0
3    7.0
dtype: float32

Изменять массив `Series` можно теми же способами, что и при работе с обычными словарями. Например, команда `e[2] = 4` заменит значение массива `e` с индексом 2 на 4.

Однако, в массивах `Series` мы можем менять несколько значений одновременно. Например, с помощью тех же самых условий:

In [None]:
e[e > 2] = -1
print(e)

0    1.0
1   -1.0
2   -1.0
3   -1.0
4    2.0
dtype: float32


либо передав в массив какие-то конкретные индексы:

In [None]:
e[[1, 3]] = 10
print(e)

0     1.0
1    10.0
2    -1.0
3    10.0
4     2.0
dtype: float32


#### Добавление и удаление данных в Series

С помощью метода `.append` мы можем добавлять к одному массиву `Series` другой:

In [None]:
g = e.append(f)
print(g)

0       1
1      10
2      -1
3      10
4       2
1st     a
2nd     b
3rd     c
dtype: object


С помощью метода `.drop` мы можем удалять из массива элементы с определёнными индексами. Эти индексы мы и подаём в метод в виде списка:

In [None]:
h = g.drop([0, 4, "2nd"])
print(h)

1      10
2      -1
3      10
1st     a
3rd     c
dtype: object


Обратите внимание, что эти методы, в отличие от аналогичных методов из стандартных библиотек питона, не изменяют исходный массив, но возвращают новый.

#### Запись и чтение массивов Series из файла

Для записи массивов `Series` в файлы используется формат файлов под названием `pickle`. Этот формат позволяет полностью сохранять питоновские объекты, а затем загружать их в неизменном виде.

Для записи массива `Series` в файл используется метод `.to_pickle`, а для чтения - функция `np.read_pickle`:

In [None]:
h.to_pickle("h.pkl")

In [None]:
h = pd.read_pickle("h.pkl")
print(h)

1      10
2      -1
3      10
1st     a
3rd     c
dtype: object


### DataFrame

`DataFrame` - двумерная структура данных из библиотеки `pandas`, позволяющая удобно работать с таблицами.

Самый простой способ задать `DataFrame` - с помощью словаря, в котором каждый ключ отвечает за столбец, а соответствующее значение - это список из элементов данного столбца. Эти списки должны иметь одинаковую длину.

In [None]:
a = {
    "col1": [1, 2, 4, 5, 6, 7, 8],
    "col2": ["a", "c", "e", "g", "z", "x", "y"]
}
b = pd.DataFrame(a)
b

Unnamed: 0,col1,col2
0,1,a
1,2,c
2,4,e
3,5,g
4,6,z
5,7,x
6,8,y


С помощью атрибута `.shape` можно посмотреть форму массива `DataFrame`. Атрибут `.columns` содержит массив из столбцов, а `.index`, как и ранее, содержит массив индексов.

In [None]:
print("Форма b: {}".format(b.shape))
print("Столбцы b: {}".format(b.columns))
print("Индексы b: {}".format(b.index))

Форма b: (7, 2)
Столбцы b: Index(['col1', 'col2'], dtype='object')
Индексы b: RangeIndex(start=0, stop=7, step=1)


Общую информацию о массиве можно запросить с помощью метода `.info`. Нам вернётся информация об индексах и столбцах данного массива, о том, какие типы данных хранятся в каждом из столбцов, а также информация о том, сколько памяти выделено под данный массив.

In [None]:
b.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col1    7 non-null      int64 
 1   col2    7 non-null      object
dtypes: int64(1), object(1)
memory usage: 240.0+ bytes


С помощью метода `.describe` можно получить некоторые статистические характеристики по столбцам с _числовыми значениями_: среднее значение, среднее квадратическое отклонение, максимум, минимум, квантили и пр.

In [None]:
b.describe()

Unnamed: 0,col1
count,7.0
mean,4.714286
std,2.56348
min,1.0
25%,3.0
50%,5.0
75%,6.5
max,8.0


Получить список колонок можно через .columns

In [None]:
b.columns

Index(['col1', 'col2'], dtype='object')

#### Выбор данных из массива DataFrame

Для получения данных из массива `DataFrame` используется тот же синтаксис, что и для `Series`. Например, с помощью методов `.head` и `.tail` можно получить несколько первых или несколько последних строк таблицы.

Отдельный столбец можно получить, передав его название в квадратные скобки массива:

In [None]:
b["col1"]

0    1
1    2
2    4
3    5
4    6
5    7
6    8
Name: col1, dtype: int64

In [None]:
b.col1

0    1
1    2
2    4
3    5
4    6
5    7
6    8
Name: col1, dtype: int64

Каждый отдельный столбец массива `DataFrame` возвращается как массив типа `Series`.

Если мы хотим указать несколько столбцов, в квадратные скобки нужно подать список из столбцов. Тогда нам вернётся подтаблица исходной таблицы опять в формате `DataFrame`.

Получить данные из строк таблицы `DataFrame` можно получить с помощью атрибута `.loc`. Этот атрибут представляет собой что-то вроде двумерного массива. Конкретное значение (или несколько значений) этого массива можно получить, указав нужный индекс строки и название колонки:

In [None]:
b.loc[2, "col1"]

4

Как и ранее, вместо каждого из ключей можно подать список ключей, чтобы вернуть несколько значений. Кроме того, второй аргумент можно не указывать, тогда будут возвращены значения из всех столбцов:

In [None]:
b.loc[[0, 2, 4]]

Unnamed: 0,col1,col2
0,1,a
2,4,e
4,6,z


При использовании атрибута `.loc` мы должны указывать именно индекс нужной строки и название нужного столбца. Бывают ситуации, когда удобнее было бы получить значение по позиции (т.е., например, элемент из третьей строки и второго столбца). Для этого можно использовать атрибут `.iloc`:

In [None]:
b.iloc[2, 1]

'e'

Как и в `Series`, в массивах `DataFrame` есть возможность использовать булеву индексацию для указания строк. Причём, условия могут касаться любого столбца или набора столбцов. Как и ранее, условия можно комбинировать с помощью логических операторов.

Например, получим значения из второго столбца у всех строк, значение первого столбца для которых больше 3 или равно 1:

In [None]:
b.loc[(b["col1"] > 3) | (b["col1"] == 1), "col2"]

0    a
2    e
3    g
4    z
5    x
6    y
Name: col2, dtype: object

В `pandas` есть также несколько методов, упрощающих булеву индексацию:

* `b["col1"].between(1, 3)` - все строки, для которых значение в первом столбце лежит между 11 и 13 (включая оба конца)
* `b["col2"].isin(["a", "z"])` - все строки, для которых значение второго столбца содержится в списке `["a", "z"]`

Их также можно использовать вместе с логическими операторами. Например, получим все строки из таблицы `b`, для которых значение первого столбца лежит между 3 и 6, а значение второго столбца не равно `"a"` или `"z"`:

In [None]:
b[(b["col1"].between(3, 6)) & (~b["col2"].isin(["a", "z"]))]

Unnamed: 0,col1,col2
2,4,e
3,5,g


Более короткий и удобный функционал для таких запросов реализован методом `.query`. В него подаётся строка, содержащая булевы условия на значения столбцов. При этом, переменную массива мы уже не пишем, а к столбцам обращаемся без кавычек. В остальном, допускается тот же синтаксис с использованием булевых операторов. 

Пример:

In [None]:
b.query('(col1 < 6) & (col2 > "c")')

Unnamed: 0,col1,col2
2,4,e
3,5,g


Как мы уже отмечали, выбирая один столбец из `DataFrame`, мы получаем массив `Series`. Если хочется получить столбец именно в виде `DataFrame`, можно запросить запросить его, подавая в квадратные скобки не название столбца, а список, содержащий только один этот столбец:

In [None]:
type(b["col1"])

pandas.core.series.Series

In [None]:
type(b[["col1"]])

pandas.core.frame.DataFrame

В любом случае, конвертировать `Series` в `DataFrame` можно и явно:

In [None]:
c = pd.Series([3, 1, 2])
d = pd.DataFrame(c)
d

Unnamed: 0,0
0,3
1,1
2,2


Если требуется скопировать массив `Series` или `DataFrame`, это можно сделать с помощью метода `.copy`: `e = d.copy()`.

In [None]:
b

Unnamed: 0,col1,col2
0,1,a
1,2,c
2,4,e
3,5,g
4,6,z
5,7,x
6,8,y


In [None]:
ee = b
e = b.copy()

In [None]:
b['col1']=b['col1']+1

In [None]:
b

Unnamed: 0,col1,col2
0,2,a
1,3,c
2,5,e
3,6,g
4,7,z
5,8,x
6,9,y


In [None]:
ee

Unnamed: 0,col1,col2
0,2,a
1,3,c
2,5,e
3,6,g
4,7,z
5,8,x
6,9,y


In [None]:
e

Unnamed: 0,col1,col2
0,1,a
1,2,c
2,4,e
3,5,g
4,6,z
5,7,x
6,8,y


#### Случайный выбор значений из DataFrame

Случайный выбор строк из массива `DataFrame` производится с помощью метода `.sample`. Вот несколько его важных параметров:

* `frac` - какую долю от общего числа строк нужно вернуть (число от 0 до 1)
* `n` - сколько строк нужно вернуть (число от 0 до числа строк в массиве)
* `replace` - индикатор того, производится ли выбор _с возвращением_, т.е. с возможным повторением строк в выборке, или _без возвращения_ (`True` или `False`)

Нельзя использовать параметры `frac` и `n` одновременно, нужно выбрать какой-то один.

In [None]:
b.sample(frac=0.5, replace=True)

Unnamed: 0,col1,col2
4,7,z
2,5,e
2,5,e
0,2,a


Если требуется просто перемешать всю выборку, это также можно выполнить с помощью метода `.sample`, передав в него параметр `frac=1`.


#### Запись и чтение DataFrame из файлов

Для хранения таблиц широко распространён формат файлов с расширением `.csv`.

Сохранить массив в файл можно с помощью метода `.to_csv`. Вот несколько важных параметров этого метода:

* `sep` - символ, который нужно использовать для разделения значения столбцов между собой. По умолчанию это `","`, но можно также использовать `";"`, `"\t"` и др.
* `index` - булево значение, индикатор того, нужно ли в файл сохранить также столбец индексов.

In [None]:
b.to_csv("test.csv", sep=";", index=False)

Прочитать массив из файла можно с помощью функции `pd.read_csv`. Здесь также можно указать разделитель столбцов в параметре `sep`.

In [None]:
b = pd.read_csv("test.csv", sep=";")
b

Unnamed: 0,col1,col2
0,2,a
1,3,c
2,5,e
3,6,g
4,7,z
5,8,x
6,9,y


У данных команд для сохранения и чтения таблиц есть множество других важных и полезных параметров, поэтому рекомендуется также изучить их документацию: [to_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html), [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

В `pandas` также имеются аналогичные команды для сохранения и записи таблиц как `excel` и `pickle`.

### Работа с данными в Pandas

#### Слияние данных

Рассмотрим следующий пример. Допустим, что мы работаем с небольшим отделом книжного магазина, в котором продаётся классическая литература на английском языке. Наша задача - систематизировать ассортимент отдела.

У нас есть таблица `authors`, содержащая данные об авторах: их идентификаторы (`author_id`) и имена (`author_name`):

In [None]:
authors = pd.DataFrame({
    'author_id': [1, 2, 3],
    'author_name': ['Pushkin', 'Tolstoy', 'Dostoevsky'],
})
authors

Unnamed: 0,author_id,author_name
0,1,Pushkin
1,2,Tolstoy
2,3,Dostoevsky


Кроме того, у нас есть таблица `books`, содержащая информацию о книгах этих авторов. В этой таблице также есть колонка `author_id`, а также колонка `book_title`, содержащая название книги:

In [None]:
books = pd.DataFrame({
    'author_id': [2, 3, 3, 4],
    'book_title': ['War and Peace', 'The Idiot', 'Crime and Punishment',
                   'Fathers and Sons'],
})
books

Unnamed: 0,author_id,book_title
0,2,War and Peace
1,3,The Idiot
2,3,Crime and Punishment
3,4,Fathers and Sons


Что делать, если мы, например, захотим сопоставить названия книг именам их авторов? Для этого используется функция `pd.merge`: в эту функцию помещаются те таблицы, которые мы хотим соединить, а также несколько других важных аргументов:

* `on` - параметр, отвечающий за то, какой столбец мы будем использовать для слияния,
* `how` - каким образом производить слияние.

Опишем подробнее, какие значения может принимать параметр `how`:

* `"inner"` - внутреннее слияние. В этом случае в слиянии участвуют только те строки, которые присутствуют в обоих таблицах,
* `"left"` - в слиянии участвуют все строки из левой таблицы,
* `"right"` - то же самое, но для правой таблицы,
* `"outer"` - внешнее слияние, соединяются все строки как из левой, так и из правой таблицы.

In [None]:
pd.merge(authors, books, on='author_id', how='inner')

Unnamed: 0,author_id,author_name,book_title
0,2,Tolstoy,War and Peace
1,3,Dostoevsky,The Idiot
2,3,Dostoevsky,Crime and Punishment


Если мы выбираем `"left"`, `"right"` или `"outer"`, может случиться так, что строку из одной таблицы будет невозможно соединить со второй. Например, мы видим, что в нашей таблице `books` нет произведений Пушкина (его `id` равен 1). В свою очередь, в таблице `books` есть книга, для которой `author_id` равен 4, хотя, в таблице `authors` нет записи с таким `author_id`. Рассмотрим внешнее слияние этих таблиц:

In [None]:
merged_df = pd.merge(authors, books, on='author_id', how='outer')
merged_df

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,,Fathers and Sons


Как мы видим, в получившейся таблице присутствуют пропущенные значения (`NaN`).

#### Работа с пропущенными данными

Пропущенные значения в `Series` или `DataFrame` можно получить с помощью метода `.isnull`. Наоборот, все имеющиеся непустые значения можно получить с помощью метода `.notnull`:

In [None]:
merged_df[merged_df["author_name"].isnull()]

Unnamed: 0,author_id,author_name,book_title
4,4,,Fathers and Sons


In [None]:
merged_df[merged_df["author_name"].notnull()]

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment


Заполнить пропущенные значения каким-то своим значением можно с помощью метода `.fillna()`:

In [None]:
merged_df["author_name"] = merged_df["author_name"].fillna("unknown")
merged_df

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,unknown,Fathers and Sons


In [None]:
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


In [None]:
import numpy as np
merged_df['sales_flag'] = np.select([(merged_df['quantity']==0),
                                          (merged_df['quantity']>0)],
                                         [0, 1])

In [None]:
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,sales_flag
0,1,Pushkin,,0,0
1,2,Tolstoy,War and Peace,1,1
2,3,Dostoevsky,The Idiot,1,1
3,3,Dostoevsky,Crime and Punishment,1,1
4,4,unknown,Fathers and Sons,1,1


In [None]:
del merged_df['sales_flag']

In [None]:
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


In [None]:
date_rng = pd.date_range(start='1/1/2021', end='1/08/2021', freq='H')
df_ts = pd.DataFrame(date_rng, columns=['date'])
df_ts['data'] = np.random.randint(0,100,size=(len(date_rng)))

In [None]:
df_ts.head()

Unnamed: 0,date,data
0,2021-01-01 00:00:00,5.0
1,2021-01-01 01:00:00,46.0
2,2021-01-01 02:00:00,
3,2021-01-01 03:00:00,52.0
4,2021-01-01 04:00:00,29.0


In [None]:
df_ts['data'].iloc[2:3,] = np.NaN

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  iloc._setitem_with_indexer(indexer, value)


In [None]:
df_ts[df_ts['data'].isna()]

Unnamed: 0,date,data
2,2021-01-01 02:00:00,


In [None]:
df_ts['data'] = df_ts['data'].ffill()

In [None]:
df_ts.head()

Unnamed: 0,date,data
0,2021-01-01 00:00:00,5.0
1,2021-01-01 01:00:00,46.0
2,2021-01-01 02:00:00,46.0
3,2021-01-01 03:00:00,52.0
4,2021-01-01 04:00:00,29.0


#### Добавление столбцов в `DataFrame`.

Допустим, каждая из наших книг имеется в единственном экземпляре. Мы хотели бы создать в таблице `merged_df` столбец `quantity`, который бы содержал количество экземпляров каждой книги.

Создание нового столбца в таблице `DataFrame` происходит аналогично созданию нового значения в словаре `dict`. Достаточно просто объявить значение `merged_df["quantity"]`. Если подать в это значение какое-нибудь число или строку, то все значения в данном столбце приравняются к этому числу или строке. Также можно подать сюда список, тогда значения из этого списка поступят в соответствующие строки этого столбца. В этом случае длина списка обязана совпадать с числом строк таблицы.

Итак, выберем все строки с непустым значением поля `book_title`, и для них запишем в столбец `quantity` число 1. Это можно сделать с помощью атрибута `.loc`:

In [None]:
merged_df.loc[merged_df["book_title"].notnull(), "quantity"] = 1
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,1.0


Теперь заполним все пропуски в этом столбце числом 0:

In [None]:
merged_df["quantity"].fillna(0, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0.0
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,1.0


Наконец, приведём значения в этом столбце к типу `int`. (Это сделать невозможно, если в столбце содержатся пропуски.)

In [None]:
merged_df["quantity"] = merged_df["quantity"].astype(int)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


В `DataFrame` можно использовать индексы по умолчанию, а можно и назначить свои. Например, в качестве индексов можно использовать какой-нибудь из столбцов:

In [None]:
merged_df.set_index("author_id", inplace=True)
merged_df

Unnamed: 0_level_0,author_name,book_title,quantity
author_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Pushkin,,0
2,Tolstoy,War and Peace,1
3,Dostoevsky,The Idiot,1
3,Dostoevsky,Crime and Punishment,1
4,unknown,Fathers and Sons,1


Если что, индексы всегда можно сбросить. Тогда текущие индексы становятся столбцом:

In [None]:
merged_df.reset_index(inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


#### Удаление данных


Для удаления данных из `DataFrame` используется метод `.drop`. В этот метод подаётся метка элемента, который необходимо удалить (индекс строки или название столбца), а также ось `axis`. При `axis=0` удаляется строка, при значении `axis=1` - столбец:

In [None]:
merged_df["price"] = 500
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,,0,500
1,2,Tolstoy,War and Peace,1,500
2,3,Dostoevsky,The Idiot,1,500
3,3,Dostoevsky,Crime and Punishment,1,500
4,4,unknown,Fathers and Sons,1,500


In [None]:
merged_df.drop("price", axis=1, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


Теперь удалим строку с индексом 1:

In [None]:
merged_df.drop(1, axis=0, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


#### Сортировка данных

Вернём только что удалённую строку. Напомним, что для этого используется метод `.append`. Кстати, добавлять строки к `DataFrame` можно прямо в виде словарей `dict`:

In [None]:
merged_df = merged_df.append(
    {
        "author_id": 2,
        "author_name": "Tolstoy",
        "book_title": "War and Peace",
        "quantity": 1,
    },
    ignore_index=True,
)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,3,Dostoevsky,The Idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,1
4,2,Tolstoy,War and Peace,1


Параметр `ignore_index=True` подаётся сюда, чтобы индексы соединяемых таблиц не учитывались. В результирующей таблице будут использованы стандартные последовательные индексы, начинающиеся с 0.

Отсортируем эту таблицу по столбцу `author_id`. Это делается с помощью метода `.sort_values`:

In [None]:
merged_df.sort_values(by="author_id", inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
4,2,Tolstoy,War and Peace,1
1,3,Dostoevsky,The Idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,1


Чтобы сбросить индексы, воспользуемся уже известным методом `.reset_index`. В нашем случае, стоит подать в него аргумент `drop=True`, который означает, что текущий столбец из индексов не нужно сохранять в таблице, а можно удалить.

In [None]:
merged_df.reset_index(drop=True, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1


#### Соединение таблиц

Для соединения таблиц можно пользоваться функцией `pd.concat`. С этой функцией мы уже знакомились, когда изучали библиотеку `numpy`. Здесь эта функция работает аналогичным образом: соединяет таблицы либо вертикально (если указан параметр `axis=0`), либо горизонтально (если `axis=1`).

Соединение происходит с сохранением индексов, если не указан параметр `ignore_index=True`.

In [None]:
df1 = pd.DataFrame({
    'author_id': [3, 5],
    'author_name': ['Dostoevsky', 'Chekhov'],
    'book_title': ['The Gambler', 'Three Sisters'],
    'quantity': [2, 3],
})
df2 = pd.concat([merged_df, df1], axis=0, ignore_index=True)
df2

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,1
5,3,Dostoevsky,The Gambler,2
6,5,Chekhov,Three Sisters,3


In [None]:
df3 = pd.DataFrame(
    {'price': [700, 450, 500, 400, 350]},
    index=[1, 2, 3, 5, 6],
)
df4 = pd.concat([df2, df3], axis=1)
df4

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,,0,
1,2,Tolstoy,War and Peace,1,700.0
2,3,Dostoevsky,The Idiot,1,450.0
3,3,Dostoevsky,Crime and Punishment,1,500.0
4,4,unknown,Fathers and Sons,1,
5,3,Dostoevsky,The Gambler,2,400.0
6,5,Chekhov,Three Sisters,3,350.0


#### Операции над таблицами

Как и ранее с массивами `numpy` и `Series`, с таблицами `DataFrame` можно производить различные математические операции. Например, значения различных столбцов можно поэлементно перемножать, складывать и пр.

In [None]:
df4["total"] = df4["quantity"] * df4["price"]
df4

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
0,1,Pushkin,,0,,
1,2,Tolstoy,War and Peace,1,700.0,700.0
2,3,Dostoevsky,The Idiot,1,450.0,450.0
3,3,Dostoevsky,Crime and Punishment,1,500.0,500.0
4,4,unknown,Fathers and Sons,1,,
5,3,Dostoevsky,The Gambler,2,400.0,800.0
6,5,Chekhov,Three Sisters,3,350.0,1050.0


С помощью следующих методов можно посчитать основные статистики по желаемым столбцам:

* `df4["price"].max()` - максимум
* `df4["price"].min()` - минимум
* `df4["price"].mean()` - среднее
* `df4["price"].median()` - медиана
* `df4["price"].std()` - среднее квадратическое значение
* `df4["price"].var()` - дисперсия

С помощью метода `.nlargest` можно вывести несколько наибольших значений. Указывается то, сколько значений нужно вернуть, а также то, по какому именно значению нужно сортировать:

In [None]:
df4.nlargest(3, "price")

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
1,2,Tolstoy,War and Peace,1,700.0,700.0
3,3,Dostoevsky,Crime and Punishment,1,500.0,500.0
2,3,Dostoevsky,The Idiot,1,450.0,450.0


Имеется также аналогичный метод `.nsmallest`.

С помощью метода `.unique` можно получить уникальные значения заданного столбца:

In [None]:
df4["author_name"].unique()

array(['Pushkin', 'Tolstoy', 'Dostoevsky', 'unknown', 'Chekhov'],
      dtype=object)

Если нужно получить не уникальные значения, а лишь их количество, можно воспользоваться методом `.nunique`.

С помощью метода `.value_counts` можно получить информацию о том, сколько раз каждое уникальное значение появляется в данном столбце:

In [None]:
df4["author_name"].value_counts()

Dostoevsky    3
Pushkin       1
Chekhov       1
Tolstoy       1
unknown       1
Name: author_name, dtype: int64

К значениям таблицы можно применять и функции, которые не имеются в библиотеках `pandas` и `numpy`. Делается это с помощью метода `.apply`:

In [None]:
df4["author_name"].apply(lambda x: x.upper())

0       PUSHKIN
1       TOLSTOY
2    DOSTOEVSKY
3    DOSTOEVSKY
4       UNKNOWN
5    DOSTOEVSKY
6       CHEKHOV
Name: author_name, dtype: object

#### Группировка данных

Данные в таблице `DataFrame` можно группировать по повторяющимся значениям выбранного столбца. Группировка позволяет вычислять какие-то _агренированные_ значения, т.е. значения, полученные каким-то образом из групп других значений. Например, если мы захотим сгруппировать нашу таблицу по значениям `author_name`, то каждая группа будет содержать все строки с одинаковым значением `author_name`. По таким группам можно затем посчитать какую-нибудь агрегирующую функцию, например, сумму, среднее, минимум и др.

Вот несколько способов это сделать. В первом случае мы просто выбираем конкретный столбец из группировки и применяем к нему какую-то агрегирующую функцию:

In [None]:
groupby = df4.groupby("author_name")

In [None]:
groupby["price"].mean()

author_name
Chekhov       350.0
Dostoevsky    450.0
Pushkin         NaN
Tolstoy       700.0
unknown         NaN
Name: price, dtype: float64

In [None]:
df4

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
0,1,Pushkin,,0,,
1,2,Tolstoy,War and Peace,1,700.0,700.0
2,3,Dostoevsky,The Idiot,1,450.0,450.0
3,3,Dostoevsky,Crime and Punishment,1,500.0,500.0
4,4,unknown,Fathers and Sons,1,,
5,3,Dostoevsky,The Gambler,2,400.0,800.0
6,5,Chekhov,Three Sisters,3,350.0,1050.0


Второй способ - с помощью метода `.agg`. Данный метод является более гибким. Например, он позволяет вычислять одновременно несколько различных агрегирующих функций от разных столбцов:

In [None]:
groupby.agg({"price": "max", "total": "count"})

Unnamed: 0_level_0,price,total
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Chekhov,350.0,1
Dostoevsky,500.0,3
Pushkin,,0
Tolstoy,700.0,1
unknown,,0


In [None]:
df4_agg = df4.groupby(['author_name']).agg(
                                    {'price':['mean', "max", "min"],
                                     'total':['count']}
                                    ).reset_index()

In [None]:
df4_agg

Unnamed: 0_level_0,author_name,price,price,price,total
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,min,count
0,Chekhov,350.0,350.0,350.0,1
1,Dostoevsky,450.0,500.0,400.0,3
2,Pushkin,,,,0
3,Tolstoy,700.0,700.0,700.0,1
4,unknown,,,,0


In [None]:
column_names = [
        f'{col}__{agg}'
        for col, agg in df4_agg.columns
    ]
df4_agg.columns = column_names

In [None]:
df4_agg

Unnamed: 0,author_name__,price__mean,price__max,price__min,total__count
0,Chekhov,350.0,350.0,350.0,1
1,Dostoevsky,450.0,500.0,400.0,3
2,Pushkin,,,,0
3,Tolstoy,700.0,700.0,700.0,1
4,unknown,,,,0


In [None]:
df4_agg.rename(columns={'author_name__':'author_name'}, inplace=True)

In [None]:
df4_agg

Unnamed: 0,author_name,price__mean,price__max,price__min,total__count
0,Chekhov,350.0,350.0,350.0,1
1,Dostoevsky,450.0,500.0,400.0,3
2,Pushkin,,,,0
3,Tolstoy,700.0,700.0,700.0,1
4,unknown,,,,0
