<a href="https://colab.research.google.com/github/boriskuchin/MADMO-BASE-2024/blob/main/03_ml_libraries_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Библиотека NumPy


# Особенности Numpy

**[NumPy]((http://www.numpy.org/))** (**Num**eric **Py**thon) - это open-source модуль для Python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций (использует типы из C, которые существенно быстрее чем Python типы). Они обеспечивают функционал, который можно сравнить с функционалом MatLab.

In [None]:
import numpy as np

**Преимущества NumPy:**

- **Быстрее** - NumPy использует алгоритмы, написанные на C, которые работают *значительно быстрее* чем те, что написаны на Python.
- **Меньше циклов** - NumPy помогает уменьшить количество циклов в коде вашей программы, что мешает не запутаться в них.
- **Чище код** - без вложенных циклов ваш код больше будет намного чище и проще для чтения.
- **Better quality** - код библиотеки написан сообществом профессионалов, поэтому он оптимизирован, приятен в работе и не содержит багов.

По этим причинам NumPy является де-факто стандартом для работы с многомерными массивами в анализе данных. Многие популярные библиотеки в своем исходном коде используют NumPy.

In [None]:
np.__version__

'1.25.2'

# Массивы в NumPy

Основным объектом `NumPy` является *однородный* многомерный массив, в numpy он реализован через объект `ndarray`. Массивы (`ndarray`) похожи на списки (`list`), но могут хранить только элементы одного типа. Производить вычисления с массивами гораздо быстрее и эффективнее чем со списками.

 NumPy основан на предварительно скомпилированных программах, написанных на C, и по сути является оберткой над ними. По этой причине NumPy использует отдельные типы данных и отличаются от питоновских (хотя и похожи). Эти типы являются обёртками над этими типами, которые **используют реализацию типов на C**, например, `int8`, `int16`, `int32`, `int64` (подробнее о типах данных `numpy` можно прочитать [здесь](https://www.numpy.org/devdocs/user/basics.types.html)). За счёт того, что используются типы данных из C, numpy получает ускорение операций.

## Создание массива из списка

In [None]:
a = np.array([1.0, 2, 3, 1, 0], dtype=np.int16)
a

array([1, 2, 3, 1, 0], dtype=int16)

Тип создаваемого объекта - `ndarray`:

In [None]:
type(a)

numpy.ndarray

In [None]:
a.dtype

dtype('int16')

Посмотрим значения атрибутов у созданного массива:

In [None]:
print(a)
print("a.shape = ", a.shape)
print("a.ndim =", a.ndim)
print("a.size =", a.size)
print("a.dtype =", a.dtype)
print("Размер каждого элемента массива в байтах a.itemsize =", a.itemsize)
print("Обращение к элементу a[0] =", a[0])

[1 2 3 1 0]
a.shape =  (5,)
a.ndim = 1
a.size = 5
a.dtype = int16
Размер каждого элемента массива в байтах a.itemsize = 2
Обращение к элементу a[0] = 1


Аналогично создается и двумерный массив из списка списков:

In [None]:
b = np.array([[1, 8, 3],
              [3, 2, 3],
              [3, 5, 6]])

In [None]:
print(b)
print("a.shape = ", b.shape)
print("a.ndim =", b.ndim)
print("a.size =", b.size)
print("a.dtype =", b.dtype)
print("Размер каждого элемента массива в байтах a.itemsize =", b.itemsize)
print("Нулевая строка b[0] =", b[0])
print("Обращение к элементу b[строка][столбец]: b[0][1] =", b[0][1])
print("Обращение к элементу b[строка, столбец]: b[0, 1] =", b[0, 1])

[[1 8 3]
 [3 2 3]
 [3 5 6]]
a.shape =  (3, 3)
a.ndim = 2
a.size = 9
a.dtype = int64
Размер каждого элемента массива в байтах a.itemsize = 8
Нулевая строка b[0] = [1 8 3]
Обращение к элементу b[строка][столбец]: b[0][1] = 8
Обращение к элементу b[строка, столбец]: b[0, 1] = 8


In [None]:
a

array([  1,   2,   3, -84,   0], dtype=int16)

In [None]:
a[3] = -84
a

array([  1,   2,   3, -84,   0], dtype=int16)

**Важный момент** - вложенные списки должны быть одинаковой длины, чтобы массив был представим в виде прямоугольника.

In [None]:
np.array([[1, 8, 3], [3, 3]], dtype=int)

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part.

## Способы генерации массивов

Не всегда нужно получать массив из готовых данных, иногда нужно получать заполненные массивы по заданному правилу.

### Заполненный нулями

In [None]:
m = np.zeros((4, 3, 2))
print(m)
print()
print(m.ndim)

[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]]

3


In [None]:
m[1, 1, 1]

0.0

Еще одна функция - `zeros_like`, позволяет создавать массив из нулей с формой массива, передаваемого как аргумент (сделай такой же массив как этот, только заполненный нулями):

In [None]:
b

array([[1, 8, 3],
       [3, 2, 3],
       [3, 5, 6]])

In [None]:
m = np.zeros_like(b)
print(m)
print()
print(m.ndim)

[[0 0 0]
 [0 0 0]
 [0 0 0]]

2


### Заполненный единицами

In [None]:
m = np.ones((5, 4), dtype=np.float64)
print(m)
print(m.shape)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
(5, 4)


И функция `ones_like`:

In [None]:
m = np.ones_like(b)
print(m)
print()
print(m.ndim)

[[1 1 1]
 [1 1 1]
 [1 1 1]]

2


### Eдиничная матрица

Для создания такой матрицы в NumPy используется функция `eye`:

In [None]:
m = np.eye(13)
print(m)

[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]


In [None]:
np.eye(3, 4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

### Массив из диапазона значений

Подобно функции range в обычном Python, в NumPy можно создавать массивы из диапазона чисел `[start, end)` с определенным шагом с помощью функции `arange`:

In [None]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange(1, 10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange(0, 10, 0.2)

array([0. , 0.2, 0.4, 0.6, 0.8, 1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4,
       2.6, 2.8, 3. , 3.2, 3.4, 3.6, 3.8, 4. , 4.2, 4.4, 4.6, 4.8, 5. ,
       5.2, 5.4, 5.6, 5.8, 6. , 6.2, 6.4, 6.6, 6.8, 7. , 7.2, 7.4, 7.6,
       7.8, 8. , 8.2, 8.4, 8.6, 8.8, 9. , 9.2, 9.4, 9.6, 9.8])

Альтернативой функции arange является функция linspace, которая позволяет разбить числовой диапазон `[start, stop]` на нужное количество точек:

In [None]:
m = np.linspace(0, 3, 40)
print(m)

[0.         0.07692308 0.15384615 0.23076923 0.30769231 0.38461538
 0.46153846 0.53846154 0.61538462 0.69230769 0.76923077 0.84615385
 0.92307692 1.         1.07692308 1.15384615 1.23076923 1.30769231
 1.38461538 1.46153846 1.53846154 1.61538462 1.69230769 1.76923077
 1.84615385 1.92307692 2.         2.07692308 2.15384615 2.23076923
 2.30769231 2.38461538 2.46153846 2.53846154 2.61538462 2.69230769
 2.76923077 2.84615385 2.92307692 3.        ]


In [None]:
m.dtype

dtype('float16')

In [None]:
np.linspace?

In [None]:
np.linspace(0, 3)

array([0.        , 0.06122449, 0.12244898, 0.18367347, 0.24489796,
       0.30612245, 0.36734694, 0.42857143, 0.48979592, 0.55102041,
       0.6122449 , 0.67346939, 0.73469388, 0.79591837, 0.85714286,
       0.91836735, 0.97959184, 1.04081633, 1.10204082, 1.16326531,
       1.2244898 , 1.28571429, 1.34693878, 1.40816327, 1.46938776,
       1.53061224, 1.59183673, 1.65306122, 1.71428571, 1.7755102 ,
       1.83673469, 1.89795918, 1.95918367, 2.02040816, 2.08163265,
       2.14285714, 2.20408163, 2.26530612, 2.32653061, 2.3877551 ,
       2.44897959, 2.51020408, 2.57142857, 2.63265306, 2.69387755,
       2.75510204, 2.81632653, 2.87755102, 2.93877551, 3.        ])

In [None]:
np.linspace(0, 3, dtype=np.float16)

array([0.     , 0.06122, 0.12244, 0.1837 , 0.2449 , 0.3062 , 0.3674 ,
       0.4285 , 0.4897 , 0.551  , 0.6123 , 0.6733 , 0.735  , 0.796  ,
       0.857  , 0.9185 , 0.9795 , 1.041  , 1.102  , 1.163  , 1.225  ,
       1.286  , 1.347  , 1.408  , 1.47   , 1.53   , 1.592  , 1.653  ,
       1.714  , 1.775  , 1.837  , 1.898  , 1.959  , 2.02   , 2.082  ,
       2.143  , 2.203  , 2.266  , 2.326  , 2.389  , 2.45   , 2.51   ,
       2.572  , 2.633  , 2.693  , 2.756  , 2.816  , 2.877  , 2.94   ,
       3.     ], dtype=float16)

In [None]:
np.array?

In [None]:
np.linspace(0)

TypeError: ignored

Помимо линейного диапазона в NumPy еще есть и экспоненциальный диапазон -   $[base^{start}$, $base^{end}]$

In [None]:
np.logspace(1, 10, num=50, base=10)

array([1.00000000e+01, 1.52641797e+01, 2.32995181e+01, 3.55648031e+01,
       5.42867544e+01, 8.28642773e+01, 1.26485522e+02, 1.93069773e+02,
       2.94705170e+02, 4.49843267e+02, 6.86648845e+02, 1.04811313e+03,
       1.59985872e+03, 2.44205309e+03, 3.72759372e+03, 5.68986603e+03,
       8.68511374e+03, 1.32571137e+04, 2.02358965e+04, 3.08884360e+04,
       4.71486636e+04, 7.19685673e+04, 1.09854114e+05, 1.67683294e+05,
       2.55954792e+05, 3.90693994e+05, 5.96362332e+05, 9.10298178e+05,
       1.38949549e+06, 2.12095089e+06, 3.23745754e+06, 4.94171336e+06,
       7.54312006e+06, 1.15139540e+07, 1.75751062e+07, 2.68269580e+07,
       4.09491506e+07, 6.25055193e+07, 9.54095476e+07, 1.45634848e+08,
       2.22299648e+08, 3.39322177e+08, 5.17947468e+08, 7.90604321e+08,
       1.20679264e+09, 1.84206997e+09, 2.81176870e+09, 4.29193426e+09,
       6.55128557e+09, 1.00000000e+10])

In [None]:
m = np.logspace(2.0, 5.0, num=4, base=2)
print(m)

[ 4.  8. 16. 32.]


### Заполнение случайными числами

В NumPy имеется модуль для работы со случайными числами и распределениями - `random` (во многом похож на модуль `random` в Python).

Для создания массива, заполненного равномерно из диапазона $[0,1]$, можно использовать функцию `rand` модуля `random`:

In [None]:
np.random.seed(42)
print(np.random.rand(2, 2))

[[0.37454012 0.95071431]
 [0.73199394 0.59865848]]


In [None]:
#np.random.seed(42)
print(np.random.rand(2, 2))

[[0.83244264 0.21233911]
 [0.18182497 0.18340451]]


Если нужно нормальное распределение - `randn`!

In [None]:
np.random.randn(2, 3, 2)

array([[[ 0.24196227, -1.91328024],
        [-1.72491783, -0.56228753],
        [-1.01283112,  0.31424733]],

       [[-0.90802408, -1.4123037 ],
        [ 1.46564877, -0.2257763 ],
        [ 0.0675282 , -1.42474819]]])

Если хотите случайно заполнить массив из какого-либо другого списка / массива, пригодится `choice`:

In [None]:
# массив из случайно выбранных чисел
# size - размер возвращаемого массива, replace=False без замещения
np.random.choice(a=np.arange(20), size=10, replace=True)

array([ 2,  4, 18,  6,  8,  6, 17,  3, 13, 17])

In [None]:
np.random.choice(a=np.arange(20), size=(5, 5), replace=False)

ValueError: Cannot take a larger sample than population when 'replace=False'

### Типы данных в NumPy

**А что со временем?**

In [None]:
%%time
a_py = list(range(10 ** 8))
#  %%time - выводит время выполнения ячейки

CPU times: user 1.47 s, sys: 7.27 s, total: 8.74 s
Wall time: 8.89 s


In [None]:
%%time
a_np = np.arange(10 ** 8)

CPU times: user 64.9 ms, sys: 873 ms, total: 938 ms
Wall time: 972 ms


# Индексация

## Выбор одного элемента

Базовая индексация в NumPy очень похожа на питоновскую:

In [None]:
m = np.array([[1, 8, 3],
              [3, 2, 1],
              [3, 5, 6]])
print(m)

[[1 8 3]
 [3 2 1]
 [3 5 6]]


In [None]:
m[2]

array([3, 5, 6])

In [None]:
m[2][1]

5

In [None]:
m[2, 1]

5

Так же поддерживаются срезы:

In [None]:
m[2, :]

array([3, 5, 6])

In [None]:
m[2, 0::2]

array([3, 6])

Так же поддерживается срезы и по первой координате:

In [None]:
m[:, 1]

array([8, 2, 5])

В обычном питоне такое сделать не получится:

In [None]:
a = [[i for i in range(10)] for i in range(5)]
a

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]]

In [None]:
a[:][1]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
[a[i][1] for i in range(len(a))]

[1, 1, 1, 1, 1]

In [None]:
a_np = np.array(a)
a_np

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [None]:
a_np[:, 1]

array([1, 1, 1, 1, 1])

In [None]:
a_np[::2, 2:7:2]

array([[2, 4, 6],
       [2, 4, 6],
       [2, 4, 6]])

## Выбор нескольких элементов

В NumPy имеется несколько способов выбрать набор элементов.

In [None]:
m

array([[1, 8, 3],
       [3, 2, 1],
       [3, 5, 6]])

Первый способ подходит, если мы, например, работаем с табличными данными и хотим подробнее посмотреть на несколько строк в таблице, но не на все столбцы с данными, а лишь на несколько.

В таком случае мы можем воспользоваться функцией `ix_` указать список индексов для каждой из координат:

In [None]:
np.ix_([0, 2], [1, 2])

(array([[0],
        [2]]),
 array([[1, 2]]))

In [None]:
m[np.ix_([0, 2], [1, 2])]

array([[8, 3],
       [5, 6]])

In [None]:
m[np.ix_([0], [2])]

array([[3]])

In [None]:
m[0, 2] = 4

In [None]:
m[np.ix_([1], [1, 2])]

array([[2, 1]])

In [None]:
m_dop = m[np.ix_([0, 2], [0, 1, 2, 1])]

In [None]:
m_dop

array([[1, 8, 3, 8],
       [3, 5, 6, 5]])

In [None]:
m

array([[1, 8, 4],
       [3, 2, 1],
       [3, 5, 6]])

In [None]:
m[np.ix_(np.arange(m.shape[0]), [0, 2])]

array([[1, 3],
       [3, 1],
       [3, 6]])

In [None]:
m

array([[1, 8, 4],
       [3, 2, 1],
       [3, 5, 6]])

Второй способ - хотим просто получить набор элементов с конкретными индексами. В таком случае просто указываем индексы желаемых элементов для каждой из координат:

In [None]:
m[[0, 2, 0, 1], [0, 1, 2, 1]]

array([1, 5, 4, 2])

In [None]:
m[[0, 2, 0, 1], [0, 1, 2, 1]].reshape((4, 1))

array([[1],
       [5],
       [3],
       [2]])

In [None]:
m

array([[1, 8, 3],
       [3, 2, 1],
       [3, 5, 6]])

# Broadcasting (Расширение/адаптация размерностей)


Мощный механизм, позволяющий NumPy работать с массивами различной формы при выполнении арифметических операций. Часто у нас есть меньший массив и больший массив, и мы хотим использовать меньший массив несколько раз, чтобы выполнить некоторую операцию над большим массивом

[Наглядный туториал](https://scipy.github.io/old-wiki/pages/EricsBroadcastingDoc)

Иногда хотим выполнить операции между массивами разной формы.

**Пример** - хотим посчитать разницу между одномерным массивом и каждой из строк матрицы (двумерного массива). Обычный Python не позволяет нам выполнять такую операцию. Но можем ли мы это сделать в NumPy:

In [None]:
vector = np.array([1, 2, 3])
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
vector - matrix

array([[ 0,  0,  0],
       [-3, -3, -3],
       [-6, -6, -6],
       [-9, -9, -9]])

Что по сути происходит - NumPy "расширяет" наш вектор до размера 4x3, а затем выполняет вычитание.

Этот механизм называется **broadcasting**.

Всегда ли он работает?

In [None]:
vector = np.array([1, 2, 3, 4])
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
vector - matrix

ValueError: ignored

## Как работает broadcasing?

Broadcasting работает с формами двух массивов:

In [None]:
vector.shape

(3,)

In [None]:
matrix.shape

(4, 3)

Их формы представляются следующим образом:

```
matrix  (2d array): 4 x 3
vector  (1d array):     3
```

Первым делом их формы выравниваются с помощью добавления осей-пустышек:

```
matrix  (2d array): 4 x 3
vector  (1d array): 1 x 3
```

Затем мы проходим справа налево и сравниваем количества элементов в двух массивах:

1. Если они одинаковые, то это же количество будет и в результирующем векторе
2. Если один из них равен 1, то другое значение будет в результирующем векторе (растянем по этой оси)
3. Если не равны и ни один из них не равен 1, broadcasting не сработает

Для нашего примера получим следующее:

```
matrix  (2d array): 4 x 3
vector  (1d array): 1 x 3
result  (2d array): 4 x 3
```

In [None]:
# без broadcasting
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
v = np.array([3, 4, 5])
# empty like создает пустую матрицу такого же размера как x
y = np.zeros_like(x) # создаем пустую структуру, в нее мы будем складывать ответ
# zeros_like
# ones_like

print(x)
print(v)

for i in range(4):
    y[i, :] = x[i, :] + v

print(y)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[3 4 5]
[[ 4  6  8]
 [ 7  9 11]
 [10 12 14]
 [13 15 17]]


# Операции с матрицами и векторами

В NumPy двумерный массив можно рассматривать и как матрицу, то есть для него определены все матричные операции. Одномерный массив также можно рассматривать как вектор.

**Транспонирование**

Транспонированной матрицей $A^{T}$ называется матрица, полученная из исходной матрицы $A$ путем замены строк на столбцы.

In [None]:
m = np.array([[1, 12, 3, 4],
              [3, 2, 10, 2],
              [3, 56, 6, 11]])
print(m)
print()
print(m.T)

[[ 1 12  3  4]
 [ 3  2 10  2]
 [ 3 56  6 11]]

[[ 1  3  3]
 [12  2 56]
 [ 3 10  6]
 [ 4  2 11]]


**Скалярное произведение векторов**

Рассмотрим два вектора $a$ и $b$ в n-мерном пространстве  
$a = (a_1, a_2, a_3, \dots a_n)$   
$b = (b_1, b_2, b_3, \dots b_n)$   
Скалярное произведение векторов $a$ и $b$ определяется следующим образом:  
$$\langle a, b \rangle = a_1 b_1 + a_2 b_2 + a_3 b_3 \dots + a_n b_n = \sum_{i = 1}^{n} a_i b_i$$

In [None]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4])
# <a, b> = 3*2 + 1*5 + 5*2 + 2*4
print(a @ b)    # python 3 style
print(a.dot(b))
print(np.dot(a, b))

29
29
29


In [None]:
a

array([3, 1, 5, 2])

**Векторное произведение** - функция `np.cross`:

In [None]:
x = [1, 2, 3]
y = [4, 5, 6]
np.cross(x, y)

array([-3,  6, -3])

![cross_prod](https://upload.wikimedia.org/wikipedia/commons/thumb/b/b0/Cross_product_vector.svg/500px-Cross_product_vector.svg.png)

**Умножение матриц**  
  
Операция умножения определена для двух матриц, таких что число столбцов первой равно числу строк второй.

Пусть матрицы $A$ и $B$ таковы, что $A \in \mathbb{R}^{n \times k}$ и $B \in \mathbb{R}^{k \times m}$.    
__Произведением__ матриц $A$ и $B$ называется матрица $C$, такая что
$$c_{ij} = \sum_{r=1}^{k} a_{ir}b_{rj}$$,
где  $c_{ij}$ — элемент матрицы $C$, стоящий на пересечении строки с номером $i$ и столбца с номером $j$.

In [None]:
a = np.array([[1, 2], [0, 1]])
b = np.array([[4, 1], [2, 2]])
print(a @ b)    # python 3 style
print(a.dot(b))
print(np.dot(a, b))

[[8 5]
 [2 2]]
[[8 5]
 [2 2]]
[[8 5]
 [2 2]]


Также доступно *ПОЭЛЕМЕНТНОЕ* умножение, не путать с матричным!

In [None]:
print(a * b)

[[4 2]
 [0 2]]


In [None]:
[0, 1] @ [0, 1]

TypeError: ignored

**Умножение матриц и векторов**

In [None]:
m = np.array([[1, 2], [0, 1], [2, 4]])
m

array([[1, 2],
       [0, 1],
       [2, 4]])

In [None]:
v = np.array([2, 5])
v

array([2, 5])

In [None]:
m @ v

array([12,  5, 24])

In [None]:
m = np.array([[1, 2, 1, 1], [0, 1, 1, 1], [2, 4, 1, 1]])
m

array([[1, 2, 1, 1],
       [0, 1, 1, 1],
       [2, 4, 1, 1]])

In [None]:
v = np.array([2, 5])
v

array([2, 5])

In [None]:
m @ v

ValueError: ignored

# Математические функции

NumPy используется для анализа данных, а анализ невозможен без математических функций. Поэтому в NumPy присутствует набор основных математических функций.

Вспомним, какие математические функции есть в обычном Python:

In [None]:
import math
print(*dir(math))

__doc__ __loader__ __name__ __package__ __spec__ acos acosh asin asinh atan atan2 atanh ceil comb copysign cos cosh degrees dist e erf erfc exp expm1 fabs factorial floor fmod frexp fsum gamma gcd hypot inf isclose isfinite isinf isnan isqrt lcm ldexp lgamma log log10 log1p log2 modf nan nextafter perm pi pow prod radians remainder sin sinh sqrt tan tanh tau trunc ulp


- `np.log(x)` - натуральный логарифм x
- `np.log10(x)` - десятичный логарифм x
- `np.log2(x)`
- `np.sqrt(x)` - квадратный корень из x
- `np.power(x, n)` - возведение x в степень n
- `np.abs(x)` - модуль x
- `np.round(x, n)` - математическое округление x
- `np.floor(x)` - округление вниз
- `np.ceil(x)` - округление вверх
- `np.int(x)` - округление к нулю
- `np.sin(x)` - синус
- `np.cos(x)` - косинус
- ... и т. д..

Рассмотрим примеры таких функций:

In [None]:
math.log(10)

2.302585092994046

In [None]:
np.log(10, dtype=np.float64)

2.302585092994046

In [None]:
np.log(0.0)

  np.log(0.0)


-inf

In [None]:
np.log10(10)

1.0

In [None]:
np.log10(100)

2.0

In [None]:
np.round(4.5), np.floor(4.5), np.ceil(4.5)

(4.0, 4.0, 5.0)

In [None]:
np.round(3.5), np.floor(3.5), np.ceil(3.5)

(4.0, 3.0, 4.0)

In [None]:
np.round(-4.5), np.floor(-4.5), np.ceil(-4.5)

(-4.0, -5.0, -4.0)

In [None]:
np.power(2, 3)

8

In [None]:
# переполнение!
np.power(2, 1000), type(np.power(2, 1000))

(0, numpy.int64)

То же самое, но с помощью Python-типа int

In [None]:
2 ** 1000, type(2 ** 1000) # питоновское возведение в степень

(10715086071862673209484250490600018105614048117055336074437503883703510511249361224931983788156958581275946729175531468251871452856923140435984577574698574803934567774824230985421074605062371141877954182153046474983581941267398767559165543946077062914571196477686542167660429831652624386837205668069376,
 int)

In [None]:
np.cos(np.pi)

-1.0

In [None]:
np.e

2.718281828459045

Все функции описанные в предыдущем разделе можно применять к массивам!

In [None]:
b = np.array([[1, 2], [10, 100]])
b

array([[  1,   2],
       [ 10, 100]])

In [None]:
np.log10(b)

array([[0.     , 0.30103],
       [1.     , 2.     ]])

In [None]:
np.log(b).shape == b.shape

True

In [None]:
np.sin(b)

array([[ 0.84147098,  0.90929743],
       [-0.54402111, -0.50636564]])

In [None]:
math.sin([1, 2])

TypeError: ignored

+ numba

# Extra. Полезные функции и методы

In [None]:
a = np.random.choice(a=np.linspace(1, 50, 50) + 100, size=10, replace=False)
b = np.random.choice(a=np.linspace(1, 50, 50) + 100, size=10, replace=False)

In [None]:
a

array([123., 134., 104., 143., 116., 121., 136., 126., 140., 118.])

In [None]:
b

array([131., 135., 140., 123., 112., 143., 114., 113., 110., 150.])

## Замена элементов по индексу

In [None]:
np.put(a, ind=[0, 2], v=[-44, -55, -66, -88])
a

array([-44., 134., -55., 143., 116., 121., 136., 126., 140., 118.])

## Выделение элементов по условию (булева маска)

In [None]:
a < 0

array([ True, False,  True, False, False, False, False, False, False,
       False])

In [None]:
(a < 0) | (b > 110) | (b < -110)  # | == or

array([ True,  True,  True,  True, False,  True,  True,  True,  True,
        True])

In [None]:
(a < 0) & (b > 110)

array([ True, False,  True, False, False, False, False, False, False,
       False])

In [None]:
~(a < 0)

array([False,  True, False,  True,  True,  True,  True,  True,  True,
        True])

## "Условный оператор присвоения" where

In [None]:
np.where(a < 0, a, b)

array([-44., 135., -55., 123., 112., 143., 114., 113., 110., 150.])

In [None]:
np.where(a < 0)

(array([0, 2]),)

In [None]:
np.where(a < 0, -42)

ValueError: ignored

In [None]:
a[np.where(~(a < 0))]

array([134., 143., 116., 121., 136., 126., 140., 118.])

In [None]:
a[~(a < 0)]

array([134., 143., 116., 121., 136., 126., 140., 118.])

## Сортировка

Получить отсортированный массив:

In [None]:
a

array([-44., 134., -55., 143., 116., 121., 136., 126., 140., 118.])

In [None]:
np.sort(a, kind='merge_sort')

array([-55., -44., 116., 118., 121., 126., 134., 136., 140., 143.])

In [None]:
np.sort?

Индексы сортированного массива:

In [None]:
np.argsort(a)

array([2, 0, 4, 9, 5, 7, 1, 6, 8, 3])

In [None]:
# создание матрицы для демонстрации примеров
m = np.round(np.random.rand(4, 5) * 10, 3)
m

array([[1.75 , 9.822, 5.166, 2.608, 9.963],
       [9.654, 5.583, 8.826, 1.887, 2.789],
       [7.004, 8.467, 8.563, 4.045, 8.878],
       [8.509, 9.356, 7.853, 6.69 , 5.807]])

In [None]:
# сортировка
np.sort(m)

array([[1.75 , 2.608, 5.166, 9.822, 9.963],
       [1.887, 2.789, 5.583, 8.826, 9.654],
       [4.045, 7.004, 8.467, 8.563, 8.878],
       [5.807, 6.69 , 7.853, 8.509, 9.356]])

In [None]:
# сортировка по столбцам
np.sort(m, axis=0)

array([[1.75 , 5.583, 5.166, 1.887, 2.789],
       [7.004, 8.467, 7.853, 2.608, 5.807],
       [8.509, 9.356, 8.563, 4.045, 8.878],
       [9.654, 9.822, 8.826, 6.69 , 9.963]])

In [None]:
# сортировка по строкам
np.sort(m, axis=1)

array([[1.75 , 2.608, 5.166, 9.822, 9.963],
       [1.887, 2.789, 5.583, 8.826, 9.654],
       [4.045, 7.004, 8.467, 8.563, 8.878],
       [5.807, 6.69 , 7.853, 8.509, 9.356]])

<span style="color:blue">Отсортируйте все строки по столбцу с номером 1:</span>

In [None]:
np.random.seed(42)
a = np.random.randint(0, 10, (5, 3))
a

array([[6, 3, 7],
       [4, 6, 9],
       [2, 6, 7],
       [4, 3, 7],
       [7, 2, 5]])

In [None]:
a[:, 1].argsort()

array([4, 0, 3, 1, 2])

In [None]:
a[a[:, 1].argsort()]

array([[7, 2, 5],
       [6, 3, 7],
       [4, 3, 7],
       [4, 6, 9],
       [2, 6, 7]])

In [None]:
a[:, 1].argsort()

array([4, 0, 3, 1, 2])

In [None]:
np.sort?

In [None]:
a[np.array([4, 0, 3, 1, 2])]

[[7 2 5]
 [6 3 7]
 [4 3 7]
 [4 6 9]
 [2 6 7]]


In [None]:
a = np.arange(8).reshape(8, 1, 6, 1)
print(a.shape)
b = np.arange(35).reshape(7, 1, 5)
print(b.shape)
(a + b).shape

ValueError: ignored

In [None]:
a = np.arange(48).reshape(8, 1, 6, 1, 1, 1, 1)
print(a.shape)
b = np.arange(35).reshape(7, 1, 5)
print(b.shape)
(a + b).shape

(8, 1, 6, 1, 1, 1, 1)
(7, 1, 5)


(8, 1, 6, 1, 7, 1, 5)

## Добавление нового измерения

In [None]:
a = np.linspace(1, 10, 10)
print(a)
print(a.shape)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
(10,)


In [None]:
a_new = a[np.newaxis, :]
print(a_new)
print("New shape ", a_new.shape)

[[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]]
New shape  (1, 10)


In [None]:
a_new = a[:, None]
print(a_new)
print("New shape ", a_new.shape)

[[ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]]
New shape  (10, 1)


In [None]:
m = np.random.randint(0, 10, (5, 10))
m

array([[4, 1, 7, 5, 1, 4, 0, 9, 5, 8],
       [0, 9, 2, 6, 3, 8, 2, 4, 2, 6],
       [4, 8, 6, 1, 3, 8, 1, 9, 8, 9],
       [4, 1, 3, 6, 7, 2, 0, 3, 1, 7],
       [3, 1, 5, 5, 9, 3, 5, 1, 9, 1]])

In [None]:
m.reshape(2, 1, -1)

In [None]:
a.reshape(-1, 5)

array([[ 1.,  2.,  3.,  4.,  5.],
       [ 6.,  7.,  8.,  9., 10.]])

In [None]:
a.reshape(-1, 6)

ValueError: ignored

- **any / all**

`Any` возвращает True, если хотя бы один элемент `True`   
`All` возвращает True, если все элементы `True`

In [None]:
any([True, True, False, True, False, False, False])

True

In [None]:
all([True, True, False, True, False, False, False])

False

In [None]:
np.array([1, 1, 0, 2]) == np.array([1, 1, 0, 2])

array([ True,  True,  True,  True])

In [None]:
# сравнение векторов
all(np.array([1, 1, 0, 2]) == np.array([1, 1, 0, 2]))

True

In [None]:
all(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

False

In [None]:
any(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

True

- Методы all и any

In [None]:
np.array([1, 1, 0, 8, 1, 5, 1, 1]) == np.array([1, 1, 3, 2, 1, 5, 1, 1])

array([ True,  True, False, False,  True,  True,  True,  True])

In [None]:
a = (np.array([1, 1, 0, 8, 1, 5, 1, 1]) == np.array([1, 1, 3, 2, 1, 5, 1, 1])).reshape((2, 4))
print(a)

[[ True  True False False]
 [ True  True  True  True]]


In [None]:
# any по строкам
a.any(axis=1)

array([ True,  True])

In [None]:
# any по столбцам
a.any(axis=0, keepdims=True)

array([[ True,  True,  True,  True]])

In [None]:
# По строкам и столбцам
a.all(axis=(0, 1)) # берем элементы по осям исходной подматрицы с индексами 0 и 1

False

In [None]:
np.all?

- diff   
out[n] = a[n+1] - a[n]

In [None]:
a = np.array([1, 2, 4, 7, 0])
print(a)
print(np.diff(a))

[1 2 4 7 0]
[ 1  2  3 -7]


- split (забиение на части)

In [None]:
a = np.arange(1, 10)
print(a)

[1 2 3 4 5 6 7 8 9]


In [None]:
np.split(a, [2, 7]) # разбивает по элементам 2 и 7

[array([1, 2]), array([3, 4, 5, 6, 7]), array([8, 9])]

## Вычисление статистик

In [None]:
a = np.random.randint(-10, 70, (5, 4))
print(a)

[[63 51  3 37]
 [ 4 61 67 51]
 [29 69 42 13]
 [15 49 30 18]
 [ 4 34 54 60]]


- среднее

In [None]:
a.mean()

37.7

In [None]:
# среднее по столбцам
a.mean(axis=0)

array([23. , 52.8, 39.2, 35.8])

In [None]:
# среднее по строкам
a.mean(axis=1)

array([38.5 , 45.75, 38.25, 28.  , 38.  ])

- медиана

In [None]:
print(np.median(a))
print(np.median(a, axis=0))
print(np.median(a, axis=1))

39.5
[15. 51. 42. 37.]
[44.  56.  35.5 24.  44. ]


- максимум и минимум

In [None]:
print(a)

[[63 51  3 37]
 [ 4 61 67 51]
 [29 69 42 13]
 [15 49 30 18]
 [ 4 34 54 60]]


In [None]:
print(a.max())              # максимальный элемент
print(a.max(axis=0))        # максимумы по столбцам
print(a.argmax(axis=0))     # индексы строк максимумов по столбцам
print(a.max(axis=1))        # максимумы по строкам
print(a.argmax(axis=1))     # индексы столбцов максимумов по строкам

69
[63 69 67 60]
[0 2 1 4]
[63 67 69 49 60]
[0 2 1 1 3]


- счетчик

In [None]:
np.bincount(np.arange(5))
# np.arange(5) == array([0, 1, 2, 3, 4])
# [0, 1, 2, 3, 4]

array([1, 1, 1, 1, 1])

In [None]:
np.bincount(np.array([0, 1, 1, 3, 2, 1, 7]))
# [0, 1, 2, 3, 4, 5, 6, 7]

array([1, 3, 1, 1, 0, 0, 0, 1])

Как это получилось? Получили массив соответсвующий диапазону от 0 до max. И посчитали кол-во попаданий в 0, 1, 2, ... max.

In [None]:
# с помощью аргумента weights можно посчитать сумму части эелемента массива
sub_sums = np.bincount(np.array([2, 0, 2, 1, 0, 0, 2, 2, 0, 1]),
                        weights=[4, 4, 2, 3, 5, 1, 6, 1, 7, 5])
# [0, 1, 2]
# 0 -> 4 + 5 + 1 + 7 = 17
# 1 -> 3 + 5 = 8
# 2 -> 4 + 2 + 6 + 1 = 13
print(sub_sums)

[17.  8. 13.]


<span style="color:blue">Как найти наиболее частое значение в массиве?</span>

In [None]:
z = np.random.randint(0, 10, 50)
print(z)
print(np.bincount(z).argmax())

[8 7 0 7 7 2 0 7 2 2 0 4 9 6 9 8 6 8 7 1 0 6 6 7 4 2 7 5 2 0 2 4 2 0 4 9 6
 6 8 9 9 2 6 0 3 3 4 6 6 3]
6


In [None]:
np.bincount(z)

array([7, 1, 8, 3, 5, 1, 9, 7, 4, 5])