(numpy)=
# Numpy

Широко используемая библиотека для вычислений с многомерными массивами. API большей частью вдохновлен MATLABом (великая и ужасная среда, язык и IDE для матричных вычислений), а теперь сам является примером для подражания API различных вычислительных пакетов.

Более последовательный гайд стоит посмотреть на [оффсайте библиотеки](https://numpy.org/devdocs/user)


## Массивы

In [1]:
import numpy as np

a = np.array([1, 2, 3]) # создадим вектор
print(f'{a=}')
b = np.zeros((2, 2))
print(f'{b=}')
c = np.eye(3)
print(f'{c=}')
q = np.random.random((1, 100))
print(f'{q=}')

a=array([1, 2, 3])
b=array([[0., 0.],
       [0., 0.]])
c=array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])
q=array([[0.06386128, 0.65336907, 0.46841928, 0.60732283, 0.28954344,
        0.16910143, 0.09216393, 0.72863515, 0.76218305, 0.9971869 ,
        0.13046268, 0.11452328, 0.5484082 , 0.97121189, 0.07335811,
        0.31666155, 0.69109277, 0.2119708 , 0.20405354, 0.48059035,
        0.395689  , 0.52002569, 0.64699697, 0.97722776, 0.53526465,
        0.48201101, 0.92793049, 0.97523349, 0.1619291 , 0.09816969,
        0.32132199, 0.73204432, 0.97790937, 0.19771633, 0.97138366,
        0.44247031, 0.27405911, 0.6550012 , 0.68150798, 0.76660065,
        0.67218506, 0.17569958, 0.13086829, 0.15402804, 0.09253279,
        0.02741459, 0.98620279, 0.44237585, 0.59795419, 0.93960663,
        0.19554344, 0.48523206, 0.13011124, 0.72603291, 0.80908769,
        0.46694355, 0.90314427, 0.50409221, 0.48809871, 0.14912362,
        0.28223662, 0.70705966, 0.70557501, 0.94254408, 0.10

## Math ops
Для удобства использования np.ndarray определены арифметические операторы, так чтобы соответствовать ожиданиям:

In [2]:
a = np.array([1, 2, 3])
b = np.array([-1, 3, 4])
diff = a - b
print(f'{diff=}')
mult = a * b
print(f'{mult=}')
scalar_mult = a@b
print(f'{scalar_mult=}')

diff=array([ 2, -1, -1])
mult=array([-1,  6, 12])
scalar_mult=17


## Indexing, slicing and sugar

Numpy поддерживает кажется все разумные варианты индексации:

In [3]:
a = np.arange(16).reshape(4, 4)
print(f'{a=}')

# просто по индексам
print("a_{0,1}", a[0, 1], a[0][1])

# по слайсам
print("a_{1,1..3}", a[0, 1:3])
print("a_{2}", a[2], a[2, :], a[2, ...])

# по маске
mask = (a % 3 == 0)
print(f'{mask=}')
print(a[mask])

first_rows = np.array([True, True, False, False])
print(a[first_rows])

a=array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])
a_{0,1} 1 1
a_{1,1..3} [1 2]
a_{2} [ 8  9 10 11] [ 8  9 10 11] [ 8  9 10 11]
mask=array([[ True, False, False,  True],
       [False, False,  True, False],
       [False,  True, False, False],
       [ True, False, False,  True]])
[ 0  3  6  9 12 15]
[[0 1 2 3]
 [4 5 6 7]]


Для работы с размерностями часто используются еще три конструкции: `None`, `...` (ellipsis, многоточие) и `:` (двоеточие).

In [4]:
# None добавляет ось размерности 1
print(f'{a=}')
print(a[None].shape)
print(a[:, :, None].shape)

# : превращается в slice (None), берет все элементы вдоль размерности
print(a[2, :])
print(a[2, 0:None])

# ... ellipsis, превращается в необходимое число двоеточий :,:,:

print(a[...], a)

z = np.arange(27).reshape(3, 3, 3)
print(z[0, ..., 1], z[0, :, 1]) # ... удобен когда мы не знаем настоящий шейп массива или нужно не трогать несколько подряд идущих размерностей

a=array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])
(1, 4, 4)
(4, 4, 1)
[ 8  9 10 11]
[ 8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[1 4 7] [1 4 7]


В целом, в numpy очень здорово реализованы методы `__getitem__`/`__setitem__`.

In [5]:
a = np.array([1, 2, 3])
element = a[2]
print(f'{element=}')
a[2] = 5
print(f'{a=}')

element=3
a=array([1, 2, 5])


Кроме того, мы можем делать индексацию по заданному условию с помощью `np.where`

In [6]:
# создадим вектор
a = np.array([2, 4, 6, 8])
selection = np.where(a < 5)
print(f'{selection=}')

# дополнительно мы можем передать два значения или вектора, при выполнении условия выбираются элементы из первого значения/вектора, при невыполнении - из второго
a2 = np.where(a < 5, 2, a * 2)
print(f'{a2=}')

# np.where работает и с многомерными массивами
a = np.array([[8, 8, 2, 6], [0, 5, 3, 4]])
a3 = np.where(a < 4, a, 1)
print(f'{a3=}')

selection=(array([0, 1]),)
a2=array([ 2,  2, 12, 16])
a3=array([[1, 1, 2, 1],
       [0, 1, 3, 1]])


## Broadcasting

Что происходит, если мы хотим арифметику с массивами разных размеров?

In [7]:
a = np.array([1, 2, 3])
k = 2
broad = a * k
print(f'{broad=}')

broad=array([2, 4, 6])


С точки зрения математики, ничего интересного тут не происходит: мы подразумевали умножение всего вектора на скаляр.
Однако матричные операции в numpy справляются и с менее очевидными случаями, например при сложении или вычитании вектора и скаляра:

In [8]:
a = np.array([1, 2, 3])
k = 2
broad = a - k
print(f'{broad=}')

broad=array([-1,  0,  1])


В numpy приняты следующие правила работы с массивами разного размера:

1. Размерности сравниваются справа налево
2. Два массива совместимы в размерности, если она одинаковая, либо у одного из массивов единичная.
3. Вдоль отсутствующих размерностей происходит расширение повторением (`np.repeat`).

![.](https://i.stack.imgur.com/JcKv1.png)

```{admonition} Link to the source
https://mathematica.stackexchange.com/questions/99171/how-to-implement-the-general-array-broadcasting-method-from-numpy
```

Be aware, автоматический броадкастинг легко приводит к ошибкам, так что лучше делать его самостоятельно в явной форме.


## floating point things

Отдельно стоит поговорить про числа с плавающей точкой.
Число с плавающей запятой (или число с плавающей точкой) — экспоненциальная форма представления вещественных (действительных) чисел, в которой число хранится в виде мантиссы и порядка (показателя степени). При этом число с плавающей запятой имеет фиксированную относительную точность и изменяющуюся абсолютную.
В результате одно и то же значение может выглядеть по-разному, если хранить его с разной точностью.

In [9]:
f16 = np.float16("0.1")
f32 = np.float32(f16)
f64 = np.float64(f32)
print(f16 == f32 == f64)
print(f16, f32, f64)
print(f'{f16=} {f32=} {f64=}')

f16 = np.float16("0.1")
f32 = np.float32("0.1")
f64 = np.float64("0.1")
print(f'{f16=} {f32=} {f64=}')
print(f16 == f32 == f64)

True
0.1 0.099975586 0.0999755859375
f16=0.1 f32=0.099975586 f64=0.0999755859375
f16=0.1 f32=0.1 f64=0.1
False


Из-за этого для сравнения массивов с типом float используют `np.allclose`.

In [10]:
print(np.allclose([1e10,1e-7], [1.00001e10,1e-8]))
print(np.allclose([1e10,1e-8], [1.00001e10,1e-9]))

False
True


## numpy & linalg fun

[Не знаю, что имеется ввиду под "Матричные трюки"]

["вычисление попарных расстояний" - вроде обычно используется scipy/sklearn?]


### Решение системы линейных уравнений

Numpy позволяет решить систему линейных уравнений.

In [11]:
a = np.array([[7, 4], [9, 8]])
b = np.array([5, 3])
solution = np.linalg.solve(a, b)
print(f'{solution=}')

solution=array([ 1.4, -1.2])


### Обращение матриц.

Numpy даёт возможность выполнить операцию обращения матриц.

In [12]:
a = np.array([[1., 2.], [3., 4.]])
inv = np.linalg.inv(a)
print(f'{inv=}')

inv=array([[-2. ,  1. ],
       [ 1.5, -0.5]])


### Собственные вектора и числа

Вычисление собственных векторов и чисел.

In [13]:
print(np.linalg.eig(np.diag((1, 2, 3))))

(array([1., 2., 3.]), array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]]))


## Что мы узнали

- основы работы с numpy
- индексацию в массивах
- broadcasting
- floating point things
- numpy fun