# NumPy

[NumPy](https://numpy.org/) (Numerical Python) – это библиотека для языка программирования Python, предназначенная для работы с массивами данных и выполнения математических операций над ними.

NumPy предоставляет множество функций для выполнения операций линейной алгебры, обработки сигналов, обработки изображений и других вычислительных задач, которые требуют работу с массивами данных. Библиотека NumPy является основой для многих других библиотек, используемых в научных вычислениях и анализе данных, таких как [Pandas](https://pandas.pydata.org/docs/user_guide/10min.html), [SciPy](https://docs.scipy.org/doc/scipy/tutorial/index.html) и [Scikit-Learn](https://scikit-learn.org/stable/).

Одним из главных преимуществ NumPy является возможность выполнения вычислений над массивами данных с высокой производительностью. NumPy использует оптимизированные алгоритмы, написанные на языке программирования C, что позволяет ему обрабатывать большие объемы данных с высокой скоростью.

В NumPy определен многомерный массив (ndarray), который является основным объектом библиотеки. Этот объект представляет собой таблицу элементов (чисел), все из которых должны иметь одинаковый тип. NumPy также предоставляет функции для создания и манипулирования массивами данных, включая срезы (*slicing*), индексацию и изменение формы массивов. Подробности в [документации](https://numpy.org/doc/stable/).

Установить библиотеку NumPy в Python можно выполнив в терминале
```bash
pip install numpy
```

In [1]:
import numpy as np

# Создание массивов

Здесь приведены наиболее часто используемые способы создания массивов. Полный список функций, создающих массивы [здесь](https://numpy.org/doc/stable/reference/routines.array-creation.html#routines-array-creation).

## Из списков и кортежей: `np.array()`

Можно определить список непосредственно в аргументе функции `np.array`. Но можно также передать в функцию уже созданный список:

In [2]:
import numpy as np

x1 = np.array([1, 4, 6., 8])        # определение списка в аргументе

some_numeric_list = [5, 6, 7, 8]
x2 = np.array(some_numeric_list)    # создание массива из списка

print(x1, x2)

[1. 4. 6. 8.] [5 6 7 8]


Объекты NumPy представляют собой экземпляры класса `np.ndarray`:

In [3]:
type(x1)

numpy.ndarray

Все элементы массива имеют единый тип, который хранится в поле `dtype`. Если явно не определять этот параметр, то NumPy автоматически подберет подходящий тип. Если это целочисленный тип, то по умолчанию будет `int64` (или `int32`), если число с плавающей точкой – то `float64`:

In [4]:
x1.dtype, x2.dtype

(dtype('float64'), dtype('int64'))

Создадим двумерный массив (матрицу) с заданным типом элементов. Двумерный массив является представлением тензора ранга 2. Форма тензора хранится в поле `shape`:

In [5]:
x3 = np.array([
    [1, 4, 3, 2],
    [4, 5, 6, 3],
    [5, 1, 3, 7],
], dtype=np.float32)    # явно задаем тип элементов

print(x3)
print('array shape:', x3.shape)

[[1. 4. 3. 2.]
 [4. 5. 6. 3.]
 [5. 1. 3. 7.]]
array shape: (3, 4)


Здесь явно задан тип `float32`. Полный список доступных типов [здесь](https://numpy.org/doc/stable/user/basics.types.html).

## Создание с заполнением: `zeros()`, `ones()`

Функции `zeros()`, `ones()` и `full()` возвращают массивы, заполненные соответственно нулями, единицами или заданным значением. Форма массива задается первым аргументом (`shape`).

In [6]:
xZeros = np.zeros((2, 3))                   # заполнение нулями
xOnes = np.ones((2, 4))                     # заполнение единицами
xFull = np.full((2, 2), fill_value=7.0)     # заполнение числом 7

print(f"{xZeros = }")
print(f"{xOnes = }")
print(f"{xFull = }")

xZeros = array([[0., 0., 0.],
       [0., 0., 0.]])
xOnes = array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])
xFull = array([[7., 7.],
       [7., 7.]])


## Диагональные матрицы: `eye()`, `diag()`

In [7]:
xEye = np.eye(4, dtype=np.int16)    # значения по главной диагонали равны 1
xDiag = np.diag(v=(1, 2, 3, 4))

print('eye:\n', xEye)
print('\ndiag:\n', xDiag)

eye:
 [[1 0 0 0]
 [0 1 0 0]
 [0 0 1 0]
 [0 0 0 1]]

diag:
 [[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]


## Создание по образцу: `zeros_like()`

Можно создать массив, заполненный определенным числом, форма и тип значений которого повторяет форму и тип элементов другого массива при помощи функций `zeros_like()`, `ones_like()`, `full_like()`. При желании можно задать определенный тип элементов (аргумент `dtype`), переняв от исходного массива только форму.


In [8]:
xFillLike = np.full_like(x3, fill_value=3)
xOnesLike = np.ones_like(x3, dtype=np.int16)

print(f"{xFillLike = }\n{xOnesLike = }")

xFillLike = array([[3., 3., 3., 3.],
       [3., 3., 3., 3.],
       [3., 3., 3., 3.]], dtype=float32)
xOnesLike = array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int16)


## Случайные значения: модуль `np.random`

Используя функции из модуля `numpy.random`, можно сгенерировать массив заданной формы, содержащий случайные значения. Для генерации массива из целых чисел в заданном диапазоне, используется функция `randint()`. Для генерации массива из чисел с плавающей точкой в заданном диапазоне с равномерным распределением, используется функция `uniform()`. Первые два аргумента задают диапазон, а третий – форму.

В модуле `numpy.random` имеется еще множество [других функций](https://numpy.org/doc/stable/reference/random/index.html).

In [9]:
r = np.random.randint(5)
R1 = np.random.randint(5, 10, size=(4, 5))
R2 = np.random.uniform(5, 10, size=(4, 5))

print(f"{r = }\n{R1 = }\n{R2 = }")

r = 3
R1 = array([[9, 9, 7, 5, 7],
       [8, 9, 7, 7, 7],
       [9, 8, 9, 5, 5],
       [9, 6, 6, 5, 7]], dtype=int32)
R2 = array([[9.6130375 , 5.63812882, 8.5926688 , 6.64752999, 9.65336863],
       [8.2890267 , 8.09726025, 6.67652572, 8.24929866, 7.8530683 ],
       [9.165772  , 8.58662258, 8.07652665, 9.84240595, 6.74590671],
       [8.01839589, 7.3135306 , 5.0431749 , 6.64533042, 6.41013136]])


## Последовательности: `arange()`, `linspace()`

Можно задать массив состоящий из последовательности в заданном диапазоне с заданным шагом. В функции `arange()` позиционными аргументами можно задать:
- первый аргумент: стартовое значение последовательности
- второй аргумент: финальное значение (не входит в последовательность)
- третий аргумент: шаг последовательности

In [10]:
xArange = np.arange(10)             # задан только один аргумент
yArange = np.arange(5, 15, 2)       # возрастающая последовательность
zArange = np.arange(15, 5, -2)      # убывающая последовательность

print(xArange)
print(yArange)
print(zArange)

[0 1 2 3 4 5 6 7 8 9]
[ 5  7  9 11 13]
[15 13 11  9  7]


Равномерно распределенные значения в заданном диапазоне с заданным числом разбиения диапазона

In [11]:
xSpace = np.linspace(5, 15, 11)
print(xSpace)
print(xSpace.dtype)

[ 5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15.]
float64


# Атрибуты массива

In [12]:
import numpy as np
a = np.random.randint(0, 100, (2, 3, 4), dtype=np.int64)
print(a)

[[[79 97 38 99]
  [ 4  4 54 35]
  [46 55 15  9]]

 [[56 18 70 36]
  [72  1 85 14]
  [26 17 16 97]]]


In [13]:
print(f"{ a.dtype     =  }") # тип элементов
print(f"{ a.shape     =  }") # форма массива
print(f"{ a.ndim      =  }") # размерность (число индексов у элемента)
print(f"{ a.size      =  }") # число элементов в массиве
print(f"{ a.itemsize  =  }") # число байтов, занимаемых одним элементом


 a.dtype     =  dtype('int64')
 a.shape     =  (2, 3, 4)
 a.ndim      =  3
 a.size      =  24
 a.itemsize  =  8


# Индексация и срезы

**Индексация и срезы** (*Indexing & Slicing*) – фундаментальные операции для доступа к элементам массива. NumPy расширяет возможности стандартного Python, добавляя многомерную индексацию, булевы маски и fancy indexing.

## Одномерные массивы

Для одномерных массивов индексация аналогична спискам Python. Индексы начинаются с 0, отрицательные индексы отсчитываются с конца.

In [14]:
import numpy as np

a = np.array([10, 20, 30, 40, 50])

print(a[0])    # 10 — первый элемент
print(a[2])    # 30 — третий элемент
print(a[-1])   # 50 — последний элемент
print(a[-2])   # 40 — предпоследний элемент

10
30
50
40


Как и с массивами, в срезах может участвовать в общем случае три значения `[start : stop : step]`. Если массив имеет длину `N`, то при `step > 0` (инкремент) имеем вариации:

- `[start : stop : step]`
- `[start : stop]` ⇔ `[start : stop : ]` ⇔ `[start : stop : 1]`
- `[ : stop : step]` ⇔ `[0 : stop : step]`  
- `[start :  : step]` ⇔ `[start : N : step]`
- `[start :]` ⇔ `[start : : ]` ⇔ `[start : N : 1]`
- `[ : stop ]` ⇔ `[ : stop : ]` ⇔ `[0 : stop : 1]`
- `[ :  : step]` ⇔ `[0 : N : step]`
- `[ : ]` ⇔ `[ :  : ]` ⇔ `[0 : N : 1]`

При `step < 0` идет обратный шаг (декремент):

- `[ : : -step]` ⇔ `[N-1 : -(N+1) : -step]`
- `[start : : -step]` ⇔ `[start : -(N+1) : -step]`
- `[ : stop : -step]` ⇔ `[N-1 : stop : -step]`

`-(N+1)` означает: до начала массива, включая элемент с индексом 0. Для того, чтобы спуститься до 0 включительно, мы не можем задать `stop=0`, так как итерация будет производится до `stop` не включительно. Хочется написать `stop=-1`, но `-1` интерпретируется как последний элемент. Выражение `-(N+1)` даст отрицательный индекс, который как раз будет идти за нулем (влево).

In [15]:
import numpy as np

a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
N = len(a)  # 13

Для положительных `step`:

In [16]:
# [start : stop : step] — базовая форма
print(f'{  a[3:10:2]  = }')  # каждый второй элемент в диапазоне от 3 до 10

# [start : stop : ] ⇔ [start : stop : 1] ⇔ [start : stop]
print(f'{  a[3:10]    = }')  # элементы с 3 по 9 (step=1 по умолчанию)

# [ : stop : step] ⇔ [0 : stop : step]
print(f'{  a[:7:2]    = }')  # от начала до 7 с шагом 2

# [start : : step] ⇔ [start : N : step]
print(f'{  a[5::3]    = }')  # от 5 до конца с шагом 3

# [start :] ⇔ [start : : ] ⇔ [start : N : 1]
print(f'{  a[8:]      = }')  # от 8 до конца

# [ : stop] ⇔ [ : stop : ] ⇔ [0 : stop : 1]
print(f'{  a[:5]      = }')  # первые 5 элементов

# [ : : step] ⇔ [0 : N : step]
print(f'{  a[::4]     = }')  # каждый четвёртый от начала до конца

# [ : : ] ⇔ [ : ] ⇔ [0 : N : 1]
print(f'{  a[:]       = }')  # копия всего массива (view)

  a[3:10:2]  = array([3, 5, 7, 9])
  a[3:10]    = array([3, 4, 5, 6, 7, 8, 9])
  a[:7:2]    = array([0, 2, 4, 6])
  a[5::3]    = array([ 5,  8, 11])
  a[8:]      = array([ 8,  9, 10, 11, 12])
  a[:5]      = array([0, 1, 2, 3, 4])
  a[::4]     = array([ 0,  4,  8, 12])
  a[:]       = array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])


Для отрицательных `step`:

In [17]:
# [ : : -step] ⇔ [N-1 : -(N+1) : -step]
print(f'{  a[::-2]        = }')  # от конца к началу с шагом 2

# [start : : -step] ⇔ [start : -(N+1) : -step]
print(f'{  a[10::-3]       = }')  # от 10 до начала с шагом 3

# [ : stop : -step] ⇔ [N-1 : stop : -step]
print(f'{  a[:3:-2]       = }')  # от конца до 3 (не включая) с шагом 2

# Полный разворот массива
print(f'{  a[::-1]        = }')  # классический способ реверса

  a[::-2]        = array([12, 10,  8,  6,  4,  2,  0])
  a[10::-3]       = array([10,  7,  4,  1])
  a[:3:-2]       = array([12, 10,  8,  6,  4])
  a[::-1]        = array([12, 11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])


## Многомерные массивы

В NumPy индексы по разным осям указываются через запятую внутри одних скобок. Это значительно отличается от вложенных списков Python, в которых используются отдельные скобки. 

Доступ по индексу предоставляет возможность как чтения так и записи значения.

In [18]:
import numpy as np

a = np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
])
# shape: (3, 4)
# axis 0 – строки, axis 1 – столбцы

print(a[0, 0])   #  1 – элемент первой строки, первой колонки
print(a[1, 2])   #  7 – элемент второй строки, третьей колонки
print(a[-1, -1]) # 12 – правый нижний угол

1
7
12


Такая возможность позволяет получить доступ к отдельным строкам и колонкам:

In [19]:
print(a[0])     # первая строка
print(a[1])     # вторая строка
print(a[-1])    # последняя строка

[1 2 3 4]
[5 6 7 8]
[ 9 10 11 12]


Для доступа к колонке нужен срез:

In [20]:
print(a[:, 0])

[1 5 9]


Правила для срезов работают и для отдельных осей многомерного массива:

In [21]:
a = np.array([
    [ 1,  2,  3,  4],
    [ 5,  6,  7,  8],
    [ 9, 10, 11, 12],
    [13, 14, 15, 16]
])

# Подматрицы
print(a[1:3, 2:4])

# С шагом
print(a[::2, ::2])  # каждая вторая строка и колонка
print(a[::-1, ::-1])  # полный разворот матрицы

[[ 7  8]
 [11 12]]
[[ 1  3]
 [ 9 11]]
[[16 15 14 13]
 [12 11 10  9]
 [ 8  7  6  5]
 [ 4  3  2  1]]


## `Ellipsis` (`...`)

`Ellipsis` – специальный объект Python, который в контексте индексации NumPy заменяет «столько двоеточий, сколько нужно».

In [22]:
Ellipsis is ...

True

In [23]:
import numpy as np

a = np.arange(120).reshape(2, 3, 4, 5)

# Эквивалентные записи:
a[0, :, :, :]    # явные срезы
a[0, ...]        # Ellipsis заменяет :, :, :
a[0]             # NumPy дополняет автоматически

a[0, ...].shape

(3, 4, 5)

In [24]:
a[:, :, :, 0]    # последний индекс = 0
a[..., 0]        # то же самое, короче

a[..., 0].shape

(2, 3, 4)

In [25]:
a[:, :, 0, :]
a[..., 0, :]     # то же самое

a[..., 0, :].shape

(2, 3, 5)

## Оператор инверсии `~`

Оператор `~` производит битовую инверсию. Для целых чисел в дополнительном коде:

$$\sim x=−(x+1)$$

In [26]:
print(~0)   # -1
print(~1)   # -2
print(~2)   # -3
print(~(-1))  # 0

-1
-2
-3
0


Благодаря такому свойству оператор `~` может оказаться полезен при движении по массиву с конца, так как в отличие от использования отрицательных индексов, здесь сохраняется симметрия с движением по массиву с начала. Если отрицательная индексация начинается с `-1`, то инверсией мы сможем начинать с `~0`:

In [27]:
a = np.array([10, 20, 30, 40, 50])
#             0   1   2   3   4   — прямые индексы
#            ~4  ~3  ~2  ~1  ~0   — инвертированные индексы
#            -5  -4  -3  -2  -1   — отрицательные индексы

print(a[0], a[~0])   # 10, 50 — первый и последний
print(a[1], a[~1])   # 20, 40 — второй и предпоследний
print(a[2], a[~2])   # 30, 30 — центральный элемент

10 50
20 40
30 30


Для булевых массивов `~` выполняет логическую инверсию (NOT):

In [28]:
~np.array([True, False, True, False])

array([False,  True, False,  True])

In [29]:
a = 1
True == a

True

## Фильтрация массива (Masking)

Отфильтровать массив можно при помощи **булевой индексации** (*Boolean Indexing*). Это так же называется **маскированием** (*masking*). Для массива `b` выражение `b%2==0` возвращает булевый массив, содержащий `True` в тех позициях, где элемент массива `b` является четным, и `False` – где элемент массива `b` является нечетным.

Булева индексация возвращает копию.

In [30]:
import numpy as np

b = np.random.randint(0, 100, 8)
print(b)
b_even = b%2==0

b_even

[15 55 41  6 13 57 89 34]


array([False, False, False,  True, False, False, False,  True])

Наложив такую "обтравочную" маску можно отфильтровать массив той же формы: останутся только элементы в тех же позициях, в которых записан `True` в маске:

In [31]:
a = np.arange(8)
a[b_even]

array([3, 7])

Можно произвести фильтрацию одним выражением, поместив выражение со сравнением в скобки:

In [32]:
a[b%2 == 0]

array([3, 7])

Для объединения условий используйте побитовые операторы `&` (AND), `|` (OR), `~` (NOT) (нельзя использовать `and`, `or`, `not`). Каждое условие должно быть в скобках:

In [33]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

print(a[(a > 3) & (a < 8)])     # AND: оба условия выполнены
print(a[(a < 3) | (a > 8)])     # OR: хотя бы одно условие выполнено
print(a[~(a > 5)])              # NOT: инверсия условия

[4 5 6 7]
[ 1  2  9 10]
[1 2 3 4 5]


По маске можно не только получать значения, но и присваивать:

In [34]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8])

a[a > 5] = 0
print(a) 

[1 2 3 4 5 0 0 0]


Булева индексация для многомерных массивов возвращает одномерный массив с отобранными элементами:

In [35]:
A = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

print(A[A > 5])

[6 7 8 9]


Но присваивание по маске сохраняет форму:

In [36]:
A[A > 5] = 0
print(A)

[[1 2 3]
 [4 5 0]
 [0 0 0]]


Можно выбирать не только элементы, но и строки, колонки и т.д. Для этого нужна маска соответствующей формы:

In [37]:
A = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

# Строки, где первый элемент > 3
row_mask = A[:, 0] > 3
print(row_mask)         # array([False, True, True])
print(A[row_mask])

[False  True  True]
[[4 5 6]
 [7 8 9]]


In [38]:
row_sums = A.sum(axis=1)
print(A[row_sums > 10])

[[4 5 6]
 [7 8 9]]


Выбор колонок по условию:

In [39]:
col_mask = A.mean(axis=0) > 4       # колонки, где среднее > 4
print(col_mask)                     # array([False, True, True])
print(A[:, col_mask])

[False  True  True]
[[2 3]
 [5 6]
 [8 9]]


## Функция `where()`

Функция `np.where()` возвращает индексы элементов, удовлетворяющих условию:

In [40]:
import numpy as np

a = np.array([1, 2, 3, 4, 5, 6])

indices = np.where(a > 3)
print(indices)  # (array([3, 4, 5]),)
print(a[indices])  # array([4, 5, 6])

(array([3, 4, 5]),)
[4 5 6]


Для многомерных массивов возвращается кортеж индексов по каждой оси. Длина каждого кортежа равна числу элементов, удовлетворяющих условию. Соответствующие пары значений кортежей образуют пару индексов, поэтому при помощи этих кортежей можно произвести fancy indexing:

In [41]:
A = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

rows, cols = np.where(A > 5)
print(rows)             # array([1, 2, 2, 2])
print(cols)             # array([2, 0, 1, 2])
print(A[rows, cols])    # array([6, 7, 8, 9])

[1 2 2 2]
[2 0 1 2]
[6 7 8 9]


Трёхаргументная форма `np.where()`:

In [42]:
a = np.array([1, 2, 3, 4, 5])

# np.where(condition, x, y) — где True, берём x; где False — y
result = np.where(a > 3, a, 0)
print(result)  # array([0, 0, 0, 4, 5])

result = np.where(a % 2 == 0, 'even', 'odd')
print(result)  # array(['odd', 'even', 'odd', 'even', 'odd'], dtype='<U4')

[0 0 0 4 5]
['odd' 'even' 'odd' 'even' 'odd']


## Расширенная индексация (Fancy Indexing)

Fancy Indexing – выбор элементов с помощью последовательности индексов. Расширенной индексацией можно как получать новые объекты, так и присваивать. Fancy Indexing возвращает копию.

In [43]:
a = np.array([10, 20, 30, 40, 50])

indices = [0, 2, 4]
print(a[indices])
print(a[[0, 0, 1, 1, 2]])   # Можно повторять индексы
print(a[[4, 2, 0]])         # Порядок произвольный
print(a[[-1, -2, 0]])       # Отрицательные индексы

[10 30 50]
[10 10 20 20 30]
[50 30 10]
[50 40 10]


In [44]:
A = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

print(A[[0, 2]])        # Выбор строк
print(A[:, [0, 2]])     # Выбор колонок

[[1 2 3]
 [7 8 9]]
[[1 3]
 [4 6]
 [7 9]]


Выбор конкретных элементов: `A[rows, cols]`

In [45]:
rows = [0, 1, 2]
cols = [2, 1, 0]
print(A[rows, cols])                # диагональ справа налево
print(A[0, 2], A[1, 1], A[2, 0])    # 3, 5, 7

[3 5 7]
3 5 7


## Функция `ix_()` для сетки индексов



In [46]:
A = np.arange(16).reshape(4, 4)
print(A)

rows = [0, 2, 3]
cols = [1, 3]

print(A[np.ix_(rows, cols)])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 1  3]
 [ 9 11]
 [13 15]]


Без `np.ix_` выражение `A[rows, cols]` возвращает отдельные элементы, а данном случае произойдет ошибка в силу разной длины `rows` и `cols`. С `np.ix_` получаем подматрицу.

# Операции над массивами

## Поэлементные операции

В отличие от стандартных списков Python, массивы NumPy поддерживают поэлементные арифметические операции. Когда вы применяете оператор к двум массивам одинаковой формы, операция выполняется для каждой пары соответствующих элементов.

In [47]:
import numpy as np

a = np.array([1, 2, 3, 4])
b = np.array([10, 20, 30, 40])

print( a + b )   
print( a - b )   
print( a * b )   
print( a / b )   
print( a ** 2 )  

[11 22 33 44]
[ -9 -18 -27 -36]
[ 10  40  90 160]
[0.1 0.1 0.1 0.1]
[ 1  4  9 16]


Вместо бинарных операторов можно использовать универсальные функции `np.add()`, `np.power()`, `np.mod()` и т.д.

## Агрегирующие функции

Агрегирующие функции сводят массив к одному значению (или к массиву меньшей размерности).

In [48]:
import numpy as np

a = np.array([1, 2, 3, 4, 5])

np.sum(a)      # 15 — сумма всех элементов
np.prod(a)     # 120 — произведение всех элементов
np.mean(a)     # 3.0 — среднее арифметическое
np.std(a)      # 1.414... — стандартное отклонение
np.var(a)      # 2.0 — дисперсия
np.min(a)      # 1 — минимальный элемент
np.max(a)      # 5 — максимальный элемент
np.argmin(a)   # 0 — индекс минимального элемента
np.argmax(a)   # 4 — индекс максимального элемента
np.median(a)   # 3.0 — медиана

np.float64(3.0)

Эти функции доступны и как методы массива:

In [49]:
a.sum()
a.mean()
a.max()
# и т.д.

np.int64(5)

Если задать параметр `axis`, то агрегирование будет происходить вдоль указанной оси:
```
           axis=1 →                     
          ┌─────────────┐               
  axis=0  │  1   2   3  │  → sum = 6    
     ↓    │  4   5   6  │  → sum = 15   
          └─────────────┘               
             ↓   ↓   ↓                  
             5   7   9                  
```

Указанная ось схлопывается.

In [50]:
A = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

A.sum(axis=1)

array([ 6, 15])

## Транслирование (Broadcasting)

Broadcasting – механизм, позволяющий NumPy выполнять операции над массивами разных форм. Меньший массив «растягивается» до размеров большего.

Простейший пример – при умножении массива на скаляр:

In [51]:
import numpy as np

a = np.array([1, 2 ,3])

print( a * 2 )

[2 4 6]


В операции `a * 2` производится транслирование скаляра `2` в массив `[2, 2, 2]`, затем производится поэлементное умножение. Такие действия производятся и с другими арифметическими операциями.

Можно таким же образом умножить вектор на все строки (или колонки) матрицы. Для этого требуется совместимость между вектором и компонентом матрицы:

In [52]:
A = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
b = np.array([10, 20, 30])  # форма (3,)
c = np.array([              # форма (2, 1) – вектор-колонка
    [100],
    [200],
])
print(A * b)    # произойдет умножение вектора на строки 
print(A * c)    # произойдет умножение вектора на колонки

[[ 10  40  90]
 [ 40 100 180]]
[[ 100  200  300]
 [ 800 1000 1200]]


### Общее правило Broadcasting:

1. Если массивы имеют разное число измерений, форма меньшего дополняется единицами слева:

```
    A.shape = (3, 4, 5)
    b.shape =       (5,)
            ↓
    b.shape = (1, 1, 5)    ← дополнили единицами слева
```
2. Производится проверка совместимости по каждому измерению (по каждой оси). Оси совместимы, если выполняется одно из условий:
- размеры осей равны;
- размер хотя бы одной оси равен 1.

Размерность, равная 1, растягивается до размера другого массива.

```
    A.shape = (3, 4, 5)
    b.shape = (1, 1, 5)
            ↓  ↓  ↓
            3  4  5    ← результирующая форма
```

Результирующий размер по каждой оси:

$$
r_i = \max(d_i, e_i)
$$


**Примеры**

| A.shape | b.shape | Совместимо? | Результат |
|---------|---------|-------------|-----------|
| `(4, 3)` | `(3,)` | ✓ | `(4, 3)` |
| `(4, 3)` | `(4,)` | ✗ | — |
| `(4, 3)` | `(4, 1)` | ✓ | `(4, 3)` |
| `(4, 3)` | `(1, 3)` | ✓ | `(4, 3)` |
| `(2, 3, 4)` | `(3, 4)` | ✓ | `(2, 3, 4)` |
| `(2, 3, 4)` | `(2, 1, 4)` | ✓ | `(2, 3, 4)` |
| `(3,)` | `(4,)` | ✗ | — |



### Внешнее произведение

Если массив с формой `(2, 1)` умножить с массивом формы `(3,)` будет произведено **внешнее произведение** (*outer product*): 

$$\mathbf{x} \mathbf{y}^\top$$

In [53]:
import numpy as np

b = np.array([10, 20, 30])  # форма (3,)
c = np.array([              # форма (2, 1) – вектор-колонка
    [100],
    [200],
])
c.shape, b.shape

((2, 1), (3,))

In [54]:
c * b
# b * c

array([[1000, 2000, 3000],
       [2000, 4000, 6000]])

Cначала второй массив будет дополнен до `(1, 3)`, затем проверка покажет совместимость, и оба массива будут растянуты до формы `(2, 3)`. Далее будет произведено поэлементно умножение и результатом будет матрица $2 \times 3$.

Если же массив с формой `(3,)` умножить на массив с формой `(2, 1)` то результат будет таким же, так как после дополнения до `(1, 3)` будет произведено растяжение обеих массивов до `(2, 3)`.

Если мы хотим произвести внешнее умножение двух массивов с формами `(n,)` и `(m,)`, то нужно поменять форму одного из них – добавить ось:

In [55]:
a = np.array([1, 2, 3])           # shape (3,)
b = np.array([10, 20])            # shape (2,)

outer = a[:, np.newaxis] * b      # (3, 1) * (2,) → (3, 2)
outer

array([[10, 20],
       [20, 40],
       [30, 60]])

В выражении `a[:, np.newaxis]` производится добавление оси в конец формы.

## Операции сравнения

Операторы сравнения для двух массивов NumPy одинаковой формы возвращают массив той же формы, содержащий булевые значения, в соответствии с отношением между элементами:

In [56]:
import numpy as np

a = np.array([1, 2, 3, 4])
b = np.array([2, 2, 2, 2])

a != b

array([ True, False,  True,  True])

Следует отметить, что элементами массива являются не обычные объекты `True` и `False`, а специальные объекты `np.True_` и `np.False_`:

In [57]:
(a != b)[0]

np.True_

Это правило работает и с другими операторами сравнения. Полезны бывают функции `np.maximum()` и `minimum()`, которые для двух массивов одинаковой формы возвращают массив той же формы, содержащий максимальные (минимальные) значения соответствующих элементов:

In [58]:
np.minimum(a, b)

array([1, 2, 2, 2])

## Элементарные функции

Можно получить преобразование массива при котором все элементы исходного массива отображаются некоторой элементарной функцией:

In [59]:
angles  = np.array([0, np.pi/6, np.pi/4, np.pi/3, np.pi/2])

np.sin(angles )      # синус
np.cos(angles )      # косинус
np.tan(angles )      # тангенс

array([0.00000000e+00, 5.77350269e-01, 1.00000000e+00, 1.73205081e+00,
       1.63312394e+16])

In [60]:
x = np.array([1, 2, 3, 4, 5])

np.exp(x)      # экспонента e^x
np.log(x)      # натуральный логарифм
np.log10(x)    # логарифм по основанию 10
np.log2(x)     # логарифм по основанию 2
np.sqrt(x)     # квадратный корень
np.abs(x)      # модуль (абсолютное значение)

array([1, 2, 3, 4, 5])

Логарифм по произвольному основанию можно получить по формуле перехода:

$$\log_b(x) = \frac{\ln(x)}{\ln(b)}$$

### Функции $\ln(1 + x)$ и $e^x-1$

Для малых значений $x$ вычисление $\ln(1 + x)$ через `np.log(1 + x)` теряет точность из за ограниченной точноти младших разрядов во `float`. Функция `np.log1p()` вычисляет $\ln(1 + x)$ значительно точнее при малых $x$. `log1p` – сокращение от log 1 plus.

Аналогично для малых $x$ вычисление $e^x-1$ через `np.exp(x) - 1` дает большую погрешность. Функция `np.expm1()` вычисляет $e^x-1$ значительно точнее при малых $x$. `expm1` – сокращение от exp minus 1.

# Копии и представления

## Представление

Два различных объекта могут ссылаться на одну и ту же область памяти, но интерпретировать ее как разные массивы. Некоторые операции над массивами возвращают **представление** (*view*) – новый объект массива, который ссылается на те же данные в памяти, что и исходный массив. Изменение элементов через view изменяет и оригинал.

К операциям, создающим view относятся:
- срезы;
- методы `reshape()` и `ravel()`;
- транспонирование;
- методы `view()` – явное создание представления.

Если объект является представлением на основе другого объекта, то на исходный объект будет ссылаться атрибут `base`:

In [61]:
A = np.array([
    [1, 2],
    [3, 4],
])

B = A.T         # транспонирование
B.base

array([[1, 2],
       [3, 4]])

Если объект владеет своими данными, то в атрибуте `base` будет `None`:

In [62]:
print(A.base)

None


Выяснить, разделяют ли два объекта один и тот же блок памяти можно функцией `np.shares_memory()`:

In [63]:
np.shares_memory(A, B)

True

## Непрерывные массивы `flags`

**Непрерывный** (*contiguous*) означает, что элементы массива расположены в памяти последовательно, без разрывов. Это важно для производительности, поскольку процессор эффективнее работает с непрерывными блоками памяти. Если массив представляет матрицу, то можно рассматривать два варианта непрерывности: строки хранятся последовательно (*row-major order* or *C-major*) или колонки хранятся последовательно (*column-major order* or *F-order*). Буквы C и F связаны с языками C и Fortran: C-major является стандартом для C, C++, Python, NumPy, а F-major – для Fortran, MATLAB, R.

При C-major элементы строки расположены рядом в памяти, а последний индекс меняется быстрее всего. При F-major элементы колонки расположены рядом в памяти, а первый индекс меняется быстрее всего.

Многие функции имеют параметр `order`, позволяющий задать порядок: значение `'C'` для C-major, значение `'F'` для F-major и значение `'K'` для сохранения исходного порядка.

Состояние памяти массива можно посмотреть через атрибут `flags`, который содержит словарь:

In [64]:
A.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

- `C_CONTIGUOUS` будет `True`, если массив непрерывый с C-order.
- `F_CONTIGUOUS` будет `True`, если массив непрерывый с F-order.
- `OWNDATA` будет `True`, если массив владеет своими данными (а не является view на чужие данные).
- `WRITEABLE` определяет можно ли изменять элементы массива.

## Копия

Копия представляет собой новый объект массива с собственной копией данных в отдельной области памяти. Изменение копии не затрагивает оригинал.

К операциям, создающим копии относятся:
- арифметические операции;
- метод изменения формы `flatten()`;
- булева индексация и fancy indexing;
- явное копирование `copy()`.

Срез не создает независимую копию в случае с массивами:

In [65]:
a = np.array([1, 2, 3])
c = a[:]
d = a.copy()
c.flags.owndata, d.flags["OWNDATA"]

(False, True)

## In-place операции

In-place операции изменяют данные массива непосредственно, без создания нового массива. Это экономит память, но влияет на все view, ссылающиеся на эти данные.

К in-place операциям относятся:
- любое присваивание через `[]`, включая срезы, булеву индексацию и fancy indexing;
- арифметические операторы присваивания (`+=`, `//=` и т.д.);
- методы `sort()`, `fill()`, `put()`, `itemset()`, `resize()`;
- многие функции имеют параметр `out`, позволяющий записать результат в существующий массив (в частности это элементарные и агрегирующие функции);
- функции с явным in-place поведением `np.copyto()`, `np.place()`, `np.put()`, `np.put_along_axis()`, `np.putmask()`, `np.fill_diagonal()`;
- Итератор `nditer` позволяет модифицировать массив поэлементно.

In [66]:
import numpy as np

a = np.array([1, 5, 10, 15, 20])
print(a)
np.clip(a, 5, 15, out=a)
print(a) 

[ 1  5 10 15 20]
[ 5  5 10 15 15]


# Изменение формы массива (Reshaping)

Важно понимать, что большинство операций с изменением формы не копируют данные, а создают новое представление (view) тех же данных в памяти. При изменении формы общее количество элементов массива должно оставаться неизменным.

## `reshape()`
Метод `reshape() `возвращает новое представление массива с заданной формой. Форма передается в аргумент в виде кортежа, либо как отдельные аргументы. Если массив не является непрерывным, то `reshape()` вернет копию, а не представление.

In [67]:
import numpy as np

a = np.array([
            [1,  2,  3,  4],
            [5,  6,  7,  8],
            [9, 10, 11, 12],
            ])
a.shape

(3, 4)

In [68]:
b = a.reshape((4, 3))   # передаем форму в виде кортежа
b

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [69]:
b.base is a     # массив a является базой для b

True

In [70]:
a.reshape(2, 2, 3)    # передаем форму в виде отдельных аргументов

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

### Aвтоматический расчёт размерности `(-1)`

Если одну из размерностей указать как `-1`, NumPy вычислит её автоматически:

In [71]:
a.reshape((2, -1))
# вторым значением формы будет 6:

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [72]:
a.reshape((2, -1, 2))

array([[[ 1,  2],
        [ 3,  4],
        [ 5,  6]],

       [[ 7,  8],
        [ 9, 10],
        [11, 12]]])

In [73]:
a.reshape(-1)   # одномерный массив

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

Матричная форма вектора:

In [74]:
a.reshape((1, -1))  # вектор-строка

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [75]:
a.reshape((-1, 1))  # вектор-колонка

array([[ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12]])

## `flatten()` и `ravel()`

Обе функции преобразуют многомерный массив в одномерный, но с важным различием: `ravel()` – возвращает view (если массив непрерывный), а `flatten()` всегда возвращает копию. 

In [76]:
import numpy as np

a = np.array([[1, 2, 3],
              [4, 5, 6]])

a.ravel(order='C')  # array([1, 2, 3, 4, 5, 6]) – по строкам
a.ravel(order='F')  # array([1, 4, 2, 5, 3, 6]) – по столбцам
a.ravel(order='K')  # сохраняет порядок элементов в памяти

array([1, 2, 3, 4, 5, 6])

## Транспонирование

Представление, получаемое в результате транспонирования, как правило, нарушает непрерывность массива. 

### Атрибут `T`

Атрибут `T` представляет собой вычисляемое свойство (дескриптор property), которое возвращает транспонированное представление массива. Для матриц транспонирование меняет строки и столбцы местами:

$$[\mathbf{A}^\top]_{ij} = [\mathbf{A}]_{ji}$$

Если $\mathbf{A} \in \mathbb{R}^{m \times n}$, то $\mathbf{A}^\top \in \mathbb{R}^{n \times m}$.


In [77]:
import numpy as np

a = np.array([[1, 2, 3],
              [4, 5, 6]])

print(a.T)
print(a.shape, a.T.shape)

[[1 4]
 [2 5]
 [3 6]]
(2, 3) (3, 2)


При транспонировании вектора с формой `(n, 1)` или `(1, n)`, меняется форма: вектор-колонка превращается в вектор-строку и наоборот. Если же массив является одномерным (имеет форму `(n,)`), то транспонирование ничего не делает – возвращает представление. При таком транспонировании непрерывность массива не меняется.

In [78]:
a = np.array([1, 2, 3])
a.T.base is a

True

In [79]:
v1 = np.array([[1, 2, 3]])  # вектор-строка
print(v1.shape)
v2 = v1.T                   # вектор-колонка
print(v2.shape)
v2

(1, 3)
(3, 1)


array([[1],
       [2],
       [3]])

Для массива произвольной размерности `T` возвращает массив с разворотом всех осей. В этом случае непрерывность меняет порядок: C-order превращается в F-order (и наоборот).

In [80]:
a = np.arange(24).reshape(2, 3, 4)
print(a.shape)    # (2, 3, 4)
print(a.T.shape)  # (4, 3, 2) – оси в обратном порядке

(2, 3, 4)
(4, 3, 2)


### Метод `transpose()`

Вызов `transpose()` без аргументов эквивалентен `T` – производит перестановку всех индексов в обратном порядке. Задавая аргументы с `transpose()` можно произвести транспонирование пары заданных индексов или произвольную перестановку нескольких индексов. В этом случае непрерывность массива нарушается.

In [81]:
import numpy as np

a = np.arange(24).reshape(2, 3, 4)
# Оси: 0 → размер 2, 1 → размер 3, 2 → размер 4

# Указываем новый порядок осей
b = a.transpose(1, 2, 0)  
# Ось 1 становится первой, ось 2 — второй, ось 0 — третьей
print(b.shape)  # (3, 4, 2)

c = a.transpose(0, 2, 1)  # Меняем только оси 1 и 2
print(c.shape)  # (2, 4, 3)

(3, 4, 2)
(2, 4, 3)


In [82]:
c.flags

  C_CONTIGUOUS : False
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

### Метод `swapaxes()`

Метод `swapaxes()` производит транспонирование пары осей и возвращает представление:

In [83]:
import numpy as np

a = np.arange(24).reshape(2, 3, 4)
b = a.swapaxes(1, 2)
b.shape

(2, 4, 3)

При этом непрерывность может нарушаться:

In [84]:
b.flags

  C_CONTIGUOUS : False
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

## Добавление новых осей

### `np.newaxis`

Добавить ось можно следующим образом:

In [85]:
import numpy as np

a = np.array([1, 2, 3, 4])


b = a[:, np.newaxis]           # Добавление оси в конец
c = a[np.newaxis, :]           # Добавление оси в начало

print(b.base is a)             # True   (a является базой b)

True


Для многомерных массивов удобнее использовать `Ellipsis`:

In [86]:
a = np.array([1, 2, 3, 4]).reshape((2, 2))
b = a[..., np.newaxis]      # Добавление оси в конец
c = a[np.newaxis, ...]      # Добавление оси в начало
b.shape, c.shape

((2, 2, 1), (1, 2, 2))

Можно добавить ось в середину:

In [87]:
b = a[:, np.newaxis, :]
b = a[:, np.newaxis, ...]

Объект `np.newaxis` является просто псевдонимом (alias) для объекта `None`:

In [88]:
np.newaxis is None

True

### Функция `expand_dims()`

Функция `np.expand_dims()` добавляет оси по индексу. Возвращает представление.

In [89]:
import numpy as np

a = np.array([1, 2, 3, 4])
print(a.shape)  # (4,)

np.expand_dims(a, axis=0).shape  # (1, 4)
np.expand_dims(a, axis=1).shape  # (4, 1)
np.expand_dims(a, axis=-1).shape # (4, 1)   – добавляет индекс в конец

(4,)


(4, 1)

Можно добавить несколько осей сразу:

In [90]:
a = np.arange(12).reshape(3, 4)
print(a.shape)  # (3, 4)

b = np.expand_dims(a, axis=(0, 3))
print(b.shape)  # (1, 3, 4, 1)

(3, 4)
(1, 3, 4, 1)


## Сжатие осей `squeeze()`

Метод `squeeze()` удаляет ось с размером 1. Возвращает представление. Задав параметр `axis` можно удалять конкретные оси с размером 1. При попытке удалить ось с размером больше 1 возникнет исключение `ValueError`.

In [91]:
import numpy as np

a = np.array([[[1, 2, 3]]])
print(a.shape)  # (1, 1, 3)

b = a.squeeze()
print(b.shape)  # (3,)
print(b)  # array([1, 2, 3])

(1, 1, 3)
(3,)
[1 2 3]


In [92]:
a.squeeze(axis=(0, 1))

array([1, 2, 3])

# Not a Number & Infinity

In [93]:
import numpy as np

np.nan, np.inf, -np.inf, -(-np.inf)

(nan, inf, -inf, inf)

In [94]:
print(f'{   bool(np.nan)     = }')
print(f'{   np.nan == np.nan = }')
print(f'{   bool(np.inf)     = }')
print(f'{   np.inf == np.inf = }')

   bool(np.nan)     = True
   np.nan == np.nan = False
   bool(np.inf)     = True
   np.inf == np.inf = True


In [95]:
print(f"{ np.nan + 10 = }")
print(f"{ np.nan - 10 = }")
print(f"{ np.nan * 10 = }")
print(f"{ np.nan / 10 = }")

 np.nan + 10 = nan
 np.nan - 10 = nan
 np.nan * 10 = nan
 np.nan / 10 = nan


In [96]:
print(f"{ np.inf + 10 = }")
print(f"{ np.inf - 10 = }")
print(f"{ np.inf * 10 = }")
print(f"{ np.inf / 10 = }")

 np.inf + 10 = inf
 np.inf - 10 = inf
 np.inf * 10 = inf
 np.inf / 10 = inf


In [97]:
np.isnan(np.nan), np.isinf(np.inf), np.isinf(-np.inf)

(np.True_, np.True_, np.True_)

## `nan`-функции

Агрегирующие и кумулятивные функции с приставкой `nan` (такие как `np.nansum()`, `np.nanmean()`) игнорируют `NaN` при вычислениях.

In [98]:
import numpy as np

a = np.array([1, 2, np.nan, 4, 5])

print(np.sum(a))      # nan — обычная функция «заражается» NaN
print(np.nansum(a))   # 12.0 — NaN игнорируется

print(np.mean(a))     # nan
print(np.nanmean(a))  # 3.0 — среднее от [1, 2, 4, 5]

print(np.max(a))      # nan
print(np.nanmax(a))   # 5.0

nan
12.0
nan
3.0
nan
5.0
