In [1]:
import numpy as np

**NumPy** — это библиотека языка _Python_, в которой реализованы простые и удобные способы создания многомерных массивов и матриц, а также очень быстрые в реализации математические функции для работы с этими массивами. 

В анализе данных очень часто используется библиотека _NumPy_, так как данные могут представляться в виде списков и матриц. Также хорошее понимание анализа данных и машинного обучения невозможно без знаний линейной алгебры, которая тоже довольно хорошо реализована в _NumPy_. Про линал подробно мы поговорим на следующем занятии.

# 1. Первое знакомство с массивами (списками) в Python
## 1.1 Создание

В _Python_ уже есть свои способы задания списков. 

In [6]:
a = list(range(10))
b = [str(i) for i in a]
c = [True, "2", 3.0, 4]
print(a,type(a))
print(b,type(b))
print(c,type(c))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] <class 'list'>
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'] <class 'list'>
[True, '2', 3.0, 4] <class 'list'>


In [4]:
import array
A = array.array('i', a)
print(A, type(A))

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) <class 'array.array'>


Но в _NumPy_ они более удобные и функциональные.

In [3]:
x = np.array([1, 2, 3, 4, 5])
print(x, type(x))

[1 2 3 4 5] <class 'numpy.ndarray'>


In [4]:
x[[0,2]]

array([1, 3])

In [7]:
a[[0,2]]

TypeError: list indices must be integers or slices, not list

In [6]:
np.array([range(i, i + 3) for i in [1, 2, 3]])

array([[1, 2, 3],
       [2, 3, 4],
       [3, 4, 5]])

Некоторые массивы уже реализованы в библиотеке

In [7]:
print(np.zeros(10, dtype=int)) # матрица, заполненная нулями
print(np.ones((3, 3), dtype=float)) # матрица, заполненная единицами
print(np.full((3, 3), 10.25)) # матрица, заполненная конкретным числом
print(np.eye(3)) # единичная матрица
print(np.empty(4)) # массив, не требующий заполнения значениями

[0 0 0 0 0 0 0 0 0 0]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
[[10.25 10.25 10.25]
 [10.25 10.25 10.25]
 [10.25 10.25 10.25]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[ 0.00000000e+000 -1.28822983e-231  9.88131292e-324  2.78134232e-309]


Еще парочка функций. Они будут очень часто использоваться в дальнейшем.

In [8]:
print(np.arange(0, 20, 2)) # задаем список от 0 до 20 с шагом 2
print(np.linspace(0, 1, 5)) # задаем 5 равноудаленных значений на [0,1]

[ 0  2  4  6  8 10 12 14 16 18]
[0.   0.25 0.5  0.75 1.  ]


In [9]:
# равномерное распределение
a = np.random.random((3, 3))
# нормальное распределение
b = np.random.normal(0, 1, (3, 3))
# из целочисленных
c = np.random.randint(0, 10, (3, 3))
print("a \n",a)
print("b \n",b)
print("c \n",c)

a 
 [[0.72752472 0.69688182 0.18567189]
 [0.95641222 0.40716103 0.98974772]
 [0.84427596 0.58947942 0.84943329]]
b 
 [[-0.75031346  0.44069129 -1.17801772]
 [-0.7945975   0.1888404   0.61873257]
 [-1.09285165  0.2814091  -0.02473593]]
c 
 [[4 4 8]
 [6 7 8]
 [7 8 2]]


Более подробно про генерацию случайных чисел мы поговорим на занятии про матстат и тервер, а пока что достаточно знать, что таким образом тоже можно создавать массивы

In [10]:
# трехмерный массив
x3 = np.random.randint(10, size=(3, 4, 5)) 
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)
print("dtype:", x3.dtype)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60
dtype: int64


## 1.2 Преобразование

Часто для решения задачи приходится изменять размерность у массива. Например, из курса линейной алгебры вы знаете, что перемножать можно только согласованные матрицы, то есть такие, у которых кол-во строк, стоящей матрицы "слева", равно кол-ву столбцов матрицы "справа". 

In [55]:
a = np.array([1, 2, 3])
b = np.array([[1], [2], [3]])
print ("Вектор:\n", a)
print ("Его размерность:\n", a.shape)
print ("Двумерный массив:\n", b)
print ("Его размерность:\n", b.shape)

Вектор:
 [1 2 3]
Его размерность:
 (3,)
Двумерный массив:
 [[1]
 [2]
 [3]]
Его размерность:
 (3, 1)


In [44]:
mat = np.arange(1, 10).reshape((3, 3))
print(mat)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [45]:
x = np.array([1, 2, 3])

print(x.reshape((1, 3)))
print(x[np.newaxis, :])

[[1 2 3]]
[[1 2 3]]


In [46]:
print(x.reshape((3, 1)))
print(x[:, np.newaxis])

[[1]
 [2]
 [3]]
[[1]
 [2]
 [3]]


## 1.3 Сравнительные операторы 
Здесь все просто

In [12]:
x = np.array([1, 2, 3, 4, 5])
print(x < 3)
print(x > 3)
print(x <= 3)
print(x >= 3)
print(x != 3)
print(x == 3)

[ True  True False False False]
[False False False  True  True]
[ True  True  True False False]
[False False  True  True  True]
[ True  True False  True  True]
[False False  True False False]


In [13]:
rng = np.random.RandomState(0)
x = rng.randint(10, size=(3, 4))
print(x)
# как много значений <6?
print(np.count_nonzero(x < 6))
print(np.sum(x < 6))

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]
8
8


In [14]:
# как много значений <6 в каждой строке?
np.sum(x < 6, axis=1)

array([4, 2, 2])

In [16]:
# есть ли хоть что-то большее 8?
print(np.any(x > 8))
# все ли = 6?
print(np.all(x == 6))

True
False


## 1.4 Работаем с булевскими операторами

In [17]:
x = np.array([1,2,0,0.5,0.7,4,5,10])
np.sum((x > 0.5) & (x < 1))

1

In [18]:
(~( (x <= 0.5) | (x >= 1) ))

array([False, False, False, False,  True, False, False, False])

## 1.5 Индексирование и срезы

Индексирование - это способ извлекать из списков только часть информации. Происходит это с помощью указания индекса, то есть позиции, на котором стоят интересующие нас элементы. 

Обычно индексированием называют вывод одного элемента из списка, а срезом - нескольких элементов. Мы же не будем различать эти понятия, поэтому в дальнейшем они равнозначны

In [19]:
# одномерный массив
x1 = np.array([1,2,3,4,5,6,7,8])
print(x1[0]) # первый
print(x1[-1]) # последний
print(x1[:5]) # последние 5
print(x1[5:]) # первые 5
print(x1[::2]) # через шаг = 2 
print(x1[::-2]) # начинаем с конца с шагом = 2

1
8
[1 2 3 4 5]
[6 7 8]
[1 3 5 7]
[8 6 4 2]


In [20]:
# двумерный массив
x2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(x2)
print(x2[2, -1]) # 2 строка, последний элемент
print(x2[:2, :3]) # до 2 строки, до 3 столбца (начинаем с 0)
print(x2[:, ::2]) # все строки, каждый 2ой столбец
print(x2[::-1, ::-1]) # переворачиваем матрицу

[[1 2 3]
 [4 5 6]
 [7 8 9]]
9
[[1 2 3]
 [4 5 6]]
[[1 3]
 [4 6]
 [7 9]]
[[9 8 7]
 [6 5 4]
 [3 2 1]]


In [21]:
print(x2[:, 0])  # первый столбец
print(x2[0, :])  # первая строка

[1 4 7]
[1 2 3]


### Индексирование с изменением исходного массива

Заметим, что если мы делаем срез по списку (то есть вытаскиваем только часть информации), а затем хотим в этой части информации что-то заменить, то исходный массив тоже меняется. Это может оказаться и "плюсом" и "минусом".

In [22]:
x2_new = x2[:2, :2]
x2_new[0, 0] = 100
print(x2_new)
print(x2)

[[100   2]
 [  4   5]]
[[100   2   3]
 [  4   5   6]
 [  7   8   9]]


### Не хотим сохранять в исходном массиве 

Если это оказывается для нас "минусом", то нужно воспользоваться функцией `copy()`, создающая копию списка, который мы и будем изменять в дальнейшем

In [23]:
x2[0,0] = 1

In [24]:
x2_copy = x2[:2, :2].copy()
x2_copy[0, 0] = 100
print(x2_copy)
print(x2)

[[100   2]
 [  4   5]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


### Индексируем с помощью масок

Индексирование с помощью масок - это выполнения среза из списка с помощью какого-либо условия.

In [25]:
rng = np.random.RandomState(0)
x = rng.randint(10, size=(3, 4))
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [26]:
x[x < 5]

array([0, 3, 3, 3, 2, 4])

### Fancy indexing
Еще один тип, позволяющий индексировать по заранее заданным спискам индексов.

In [27]:
rand = np.random.RandomState(42)
x = rand.randint(100, size=10)
print(x)

[51 92 14 71 60 20 82 86 74 74]


In [28]:
[x[3], x[7], x[2]]

[71, 86, 14]

In [29]:
ind = [3, 7, 4]
x[ind]

array([71, 86, 60])

In [30]:
ind = np.array([[3, 7],
                [4, 5]])
x[ind]

array([[71, 86],
       [60, 20]])

In [31]:
X = np.arange(12).reshape((3, 4))
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [34]:
row = np.array([0, 1, 2])
col = np.array([1, 2, 3])
X[row, col]

array([ 1,  6, 11])

In [35]:
X[row[:, np.newaxis], col]

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])

### Все вместе

In [36]:
X[2, [2, 0, 1]]

array([10,  8,  9])

In [37]:
X[1:, [2, 0, 1]]

array([[ 6,  4,  5],
       [10,  8,  9]])

In [38]:
mask = np.array([1, 0, 1, 0], dtype=bool)
X[row[:, np.newaxis], mask]

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

In [39]:
x = np.arange(10)
i = np.array([2, 1, 8, 4])
x[i] = 99
print(x)

[ 0 99 99  3 99  5  6  7 99  9]


In [40]:
x[i] -= 10
print(x)

[ 0 89 89  3 89  5  6  7 89  9]


Если мы передадим элементу в исходном списке массив из двух значений, то останется только последний. Это происходит, потому что элемент заменяется поочередно 

In [41]:
x = np.zeros(10)
x[[0, 0]] = [4, 6]
print(x) # 4 пропало

[6. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


## 1.6 Соединение
Соединение двух массивов обычно задается тремя функциями. Первая: `concatenate` - работает только с массивами одной длины. 

В ней есть встроенная функция `axis`, которая используется практически в каждой функции. Она задает направление действия функции в массивах размерности 2 и выше. `axis=0` с функцией `concatenate` в двумерном массиве говорит нам о добавлении массива по столбцам, а `axis=1`, соответственно, по строкам.

In [3]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [5]:
mat = np.array([[1, 2, 3],
                [4, 5, 6]])
print(np.concatenate([mat, mat]))
print(np.concatenate([mat, mat], axis=1))

[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]]
[[1 2 3 1 2 3]
 [4 5 6 4 5 6]]


Функции `vstack` и `hstack` говорят о добавлении массивов по вертикали и горизонтали соответственно. Их главное отличие от функции `concatenate` заключается в том, что они могут работать с массивами разной размерности.

In [49]:
x = np.array([1, 2, 3])
mat = np.array([[9, 8, 7],
                [6, 5, 4]])
np.vstack([x, mat])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [50]:
y = np.array([99,99])
y = y[:,np.newaxis]
np.hstack([mat, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

## 1.7 Разъединение

In [51]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5]) # [3,5] задает разбиения (то есть на 3 и на 5 элемент)
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


In [52]:
mat = np.arange(16).reshape((4, 4))
mat

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [53]:
upper, lower = np.vsplit(mat, [2])
left, right = np.hsplit(mat, [2])
print("upper\n",upper)
print("lower\n",lower)
print("left\n",left)
print("right\n", right)

upper
 [[0 1 2 3]
 [4 5 6 7]]
lower
 [[ 8  9 10 11]
 [12 13 14 15]]
left
 [[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
right
 [[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


# 2. Зайдем глубже. Математические операции над массивами

Как уже говорилось ранее, в _NumPy_ удобно реализованы математические операции над массивами. Что значит удобно? Чтобы ответить на этот вопрос, давайте сравним простую арифметическую операцию над встроенным списком в _Python_ и над нумпаевским списком

## 2.1 Арифметические операции

In [3]:
a = list(range(5))
a * 4

[0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4]

In [56]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2) 
print("-x     = ", -x)
print("x ** 2 = ", x ** 2)
print("x % 2  = ", x % 2)

x     = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]
-x     =  [ 0 -1 -2 -3]
x ** 2 =  [0 1 4 9]
x % 2  =  [0 1 0 1]


| Оператор	    | Эквивалентная функция | Описание                           |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Суммирование (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |Вычитание (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |Отрицательное значение(e.g., ``-2``)          |
|``*``          |``np.multiply``      |Умножение (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |Деление (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |Деление без остатка (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Возведение в степень (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |Вычисление остатка (e.g., ``9 % 4 = 1``)|

### С комплексными числами

В NumPy также можно создавать комплексные числа, однако с ними мы работать будем очень редко. 

In [59]:
a = 3 + 2j
b = 1j
print(a)
print(b)

(3+2j)
1j


In [60]:
c = a * a
d = a / (4 - 5j)
print(c)
print(d)

(5+12j)
(0.0487804878048781+0.5609756097560976j)


## 2.2 Тригонометрические операции

In [61]:
theta = np.linspace(0, np.pi, 3)
print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

x = [-1, 0, 1]
print("x         = ", x)
print("arcsin(x) = ", np.arcsin(x))
print("arccos(x) = ", np.arccos(x))
print("arctan(x) = ", np.arctan(x))

theta      =  [0.         1.57079633 3.14159265]
sin(theta) =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta) =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta) =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]
x         =  [-1, 0, 1]
arcsin(x) =  [-1.57079633  0.          1.57079633]
arccos(x) =  [3.14159265 1.57079633 0.        ]
arctan(x) =  [-0.78539816  0.          0.78539816]


## 2.3 Экспоненты и логарифмы

In [62]:
x = [1, 2, 3]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))

x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

x     = [1, 2, 3]
e^x   = [ 2.71828183  7.3890561  20.08553692]
2^x   = [2. 4. 8.]
3^x   = [ 3  9 27]
x        = [1, 2, 4, 10]
ln(x)    = [0.         0.69314718 1.38629436 2.30258509]
log2(x)  = [0.         1.         2.         3.32192809]
log10(x) = [0.         0.30103    0.60205999 1.        ]


## 2.4 `Special`

Модуль _Special_ содержит в себе уже какие-то сложные функции, которые используются довольно часто. Ниже представлены гамма-функция, бетта-функция, функция ошибок и тд

In [63]:
from scipy import special

In [64]:
x = [1, 5, 10]
print("gamma(x)     =", special.gamma(x))
print("ln|gamma(x)| =", special.gammaln(x))
print("beta(x, 2)   =", special.beta(x, 2))

x = np.array([0, 0.3, 0.7, 1.0])
print("erf(x)  =", special.erf(x))
print("erfc(x) =", special.erfc(x))
print("erfinv(x) =", special.erfinv(x))

gamma(x)     = [1.0000e+00 2.4000e+01 3.6288e+05]
ln|gamma(x)| = [ 0.          3.17805383 12.80182748]
beta(x, 2)   = [0.5        0.03333333 0.00909091]
erf(x)  = [0.         0.32862676 0.67780119 0.84270079]
erfc(x) = [1.         0.67137324 0.32219881 0.15729921]
erfinv(x) = [0.         0.27246271 0.73286908        inf]


# 3. Сортировка

Мы уже говорили о сортировках на первом занятии. В _NumPy_ реализована быстрая сортировка функцией `np.sort()`, которая **не изменяет** исходный массив, в отличие от функции `sort()`. Еще стоит знать о `np.argsort()`, которая тоже сортирует массив, но возвращает индексы элементов в отсортированном массиве.

In [97]:
# np.sort (O(N*log(N))) - быстрая сортировка
x = np.array([2, 1, 4, 3, 5])
print(np.sort(x))
print(x)

[1 2 3 4 5]
[2 1 4 3 5]


In [98]:
# с изменением x
x.sort()
print(x)

[1 2 3 4 5]


In [99]:
# возвращаем индексы
x = np.array([2, 1, 4, 3, 5])
i = np.argsort(x)
print(i)

[1 0 3 2 4]


#### Сортировка по строкам и столбцам

Изученная ранее функция `axis` внутри функции `np.sort` говорит нам о сортировке по столбцам в двумерном массиве при `axis=0`, либо по строкам при `axis=1`.

In [101]:
rand = np.random.RandomState(42)
X = rand.randint(0, 10, (4, 6))
print(X)

[[6 3 7 4 6 9]
 [2 6 7 4 3 7]
 [7 2 5 4 1 7]
 [5 1 4 0 9 5]]


In [102]:
np.sort(X, axis=0)

array([[2, 1, 4, 0, 1, 5],
       [5, 2, 5, 4, 3, 7],
       [6, 3, 7, 4, 6, 7],
       [7, 6, 7, 4, 9, 9]])

In [103]:
np.sort(X, axis=1)

array([[3, 4, 6, 6, 7, 9],
       [2, 3, 4, 6, 7, 7],
       [1, 2, 4, 5, 7, 7],
       [0, 1, 4, 5, 5, 9]])

#### Выводим несколько наименьших элементов

Часто полезно при сортировке массивов отсортировывать не все элементы, а только часть, например в алгоритме машинного обучения KNN (k nearest neighbours). Для таких случаев в NumPy реализованы функции `np.partition` и `np.argpartition`, принимающие массив и значение, показывающее, до какого элемента нужно отсортировать массив (помним, что нумерация идет с 0). `np.argpartition` аналогично функции `np.argsort` возвращает **индексы** отсортированных элементов. Также заметим, что при сортировке двумерного массива, мы пользуемся функцией `axis`, о которой было рассказано ранее

In [104]:
x = np.array([7, 2, 3, 1, 6, 5, 4])
np.partition(x, 3)

array([2, 1, 3, 4, 6, 5, 7])

In [105]:
np.partition(X, 2, axis=1)

array([[3, 4, 6, 7, 6, 9],
       [2, 3, 4, 7, 6, 7],
       [1, 2, 4, 5, 7, 7],
       [0, 1, 4, 5, 9, 5]])

In [106]:
# аналогично с индексами
np.argpartition(x,3)

array([1, 3, 2, 6, 4, 5, 0])

# 4. Агрегирование

Агрегирование - это когда нам нужно получить какой-то сводный показатель. Это может быть сумма, среднее, мода, медиана, максимум, минимум и тд. То есть все функции, для реализации которых желательно, как правило, больше одного значения. 

Рассмотрим функцию суммы на большом наборе значений. Сравним скорость работы встроенной в _Python_ функции `sum` и функции `np.sum` библиотеки _NumPy_. 

In [7]:
L = np.random.random(10000000)
%timeit sum(L)
%timeit np.sum(L)

745 ms ± 7.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
4.5 ms ± 101 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Как и следовало ожидать, функции в _NumPy_ работают существенно быстрее

Агрегирующие функции также работают и на многомерных массивах данных. Рассмотрим пример на вычислении минимума и максимума. Здесь нам также пригодится уже изученная функция `axis`

In [9]:
M = np.random.random((3,4))
print(M)

[[0.02886212 0.84705759 0.90115373 0.98018014]
 [0.32625116 0.22125958 0.21004521 0.53525719]
 [0.85942762 0.85159726 0.45385157 0.27788411]]


In [11]:
np.min(M, axis=0)

array([0.02886212, 0.22125958, 0.21004521, 0.27788411])

In [12]:
np.max(M, axis=1)

array([0.98018014, 0.53525719, 0.85942762])

Таким образом, мы рассмотрели основные базовые функции библиотеки _NumPy_. На следующем занятии мы поговорим о линейной алгебре: кратко пройдемся по теории, а потом узнаем, как все основные операции выполнять в одну строчку кода с помощью библиотеки _NumPy_.