# NumPy

[NumPy](https://numpy.org/) (Numerical Python) – это библиотека для языка программирования Python, предназначенная для работы с массивами данных и выполнения математических операций над ними.

NumPy предоставляет множество функций для выполнения операций линейной алгебры, обработки сигналов, обработки изображений и других вычислительных задач, которые требуют работу с массивами данных. Библиотека NumPy является основой для многих других библиотек, используемых в научных вычислениях и анализе данных, таких как [Pandas](https://pandas.pydata.org/docs/user_guide/10min.html), [SciPy](https://docs.scipy.org/doc/scipy/tutorial/index.html) и [Scikit-Learn](https://scikit-learn.org/stable/).

Одним из главных преимуществ NumPy является возможность выполнения вычислений над массивами данных с высокой производительностью. NumPy использует оптимизированные алгоритмы, написанные на языке программирования C, что позволяет ему обрабатывать большие объемы данных с высокой скоростью.

В NumPy определен многомерный массив (ndarray), который является основным объектом библиотеки. Этот объект представляет собой таблицу элементов (чисел), все из которых должны иметь одинаковый тип. NumPy также предоставляет функции для создания и манипулирования массивами данных, включая срезы (*slicing*), индексацию и изменение формы массивов. Подробности в [документации](https://numpy.org/doc/stable/).

Установить библиотеку NumPy в Python можно выполнив в терминале
```bash
pip install numpy
```

In [7]:
import numpy as np

# Создание массивов

Здесь приведены наиболее часто используемые способы создания массивов. Полный список функций, создающих массивы [здесь](https://numpy.org/doc/stable/reference/routines.array-creation.html#routines-array-creation).

## Из списков и кортежей: `np.array()`

Можно определить список непосредтсвенно в аргументе функции `np.ndarray`. Но можно также передать в функцию уже созданный список:

In [8]:
import numpy as np

x1 = np.array([1, 4, 6., 8])        # определение списка в аргументе

some_numeric_list = [5, 6, 7, 8]
x2 = np.array(some_numeric_list)    # создание массива из списка

print(x1, x2)

[1. 4. 6. 8.] [5 6 7 8]


Объекты NumPy представляют собой экземпляры класса `nd.array`:

In [9]:
type(x1)

numpy.ndarray

Все элементы массива имеют единый тип, который хранится в поле `dtype`. Если явно не определять этот параметр, то NumPy автоматически подберет подходящий тип. Если это целочисленный тип, то по умолчанию будет `int64` (или `int32`), если число с плавающей точкой – то `float64`:

In [10]:
x1.dtype, x2.dtype

(dtype('float64'), dtype('int64'))

Создадим двумерный массив (матрицу) с заданным типом элементов. Двумерный массив является представлением тензора ранга 2. Форма тензора хранится в поле `shape`:

In [11]:
x3 = np.array([
    [1, 4, 3, 2],
    [4, 5, 6, 3],
    [5, 1, 3, 7],
], dtype=np.float32)    # явно задаем тип элементов

print(x3)
print('array shape:', x3.shape)

[[1. 4. 3. 2.]
 [4. 5. 6. 3.]
 [5. 1. 3. 7.]]
array shape: (3, 4)


Здесь явно задан тип `float32`. Полный список доступных типов [здесь](https://numpy.org/doc/stable/user/basics.types.html).

## Создание с заполнением: `zeros()`, `ones()`

Функции `zeros()`, `ones()` и `full()` возвращают массивы, заполненные соответственно нулями, единицами или заданным значением. Форма массива задается первым аргументом (`shape`).

In [12]:
xZeros = np.zeros((2, 3))                   # заполнение нулями
xOnes = np.ones((2, 4))                     # заполнение единицами
xFull = np.full((2, 2), fill_value=7.0)     # заполнение числом 7

print(f"{xZeros = }")
print(f"{xOnes = }")
print(f"{xFull = }")

xZeros = array([[0., 0., 0.],
       [0., 0., 0.]])
xOnes = array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])
xFull = array([[7., 7.],
       [7., 7.]])


## Диагональные матрицы: `eye()`, `diag()`

In [63]:
xEye = np.eye(4, dtype=np.int16)    # значения по главной диагонали равны 1
xDiag = np.diag(v=(1, 2, 3, 4))

print('eye:\n', xEye)
print('\ndiag:\n', xDiag)

eye:
 [[1 0 0 0]
 [0 1 0 0]
 [0 0 1 0]
 [0 0 0 1]]

diag:
 [[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]


## Создание по образцу: `zeros_like()`

Можно создать массив, заполненный определенным числом, форма и тип значений которого повторяет форму и тип элементов другого массива при помощи функций `zeros_like()`, `ones_like()`, `full_like()`. При желании можно задать определенный тип элементов (аргумент `dtype`), переняв от исходного массива только форму.


In [14]:
xFillLike = np.full_like(x3, fill_value=3)
xOnesLike = np.ones_like(x3, dtype=np.int16)

print(f"{xFillLike = }\n{xOnesLike = }")

xFillLike = array([[3., 3., 3., 3.],
       [3., 3., 3., 3.],
       [3., 3., 3., 3.]], dtype=float32)
xOnesLike = array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int16)


## Случайные значения: модуль `np.random`

Используя функции из модуля `numpy.random`, можно сгенерировать массив заданной формы, содержащий случайные значения. Для генерации массива из целых чисел в заданном диапазоне, используется функция `randint()`. Для генерации массива из чисел с плавающей точкой в заданном диапазоне с равномерным распределением, используется функция `uniform()`. Первые два аргумента задают диапазон, а третий – форму.

В модуле `numpy.random` имеется еще множество [других функций](https://numpy.org/doc/stable/reference/random/index.html).

In [15]:
r = np.random.randint(5)
R1 = np.random.randint(5, 10, size=(4, 5))
R2 = np.random.uniform(5, 10, size=(4, 5))

print(f"{r = }\n{R1 = }\n{R2 = }")

r = 1
R1 = array([[8, 6, 9, 7, 9],
       [7, 7, 8, 6, 9],
       [6, 5, 5, 6, 8],
       [7, 8, 5, 8, 6]], dtype=int32)
R2 = array([[6.37455536, 9.40344324, 6.09297208, 8.00021719, 8.82378512],
       [6.52089986, 7.34341649, 6.72319816, 7.02039835, 9.37927695],
       [8.52790243, 6.14579906, 5.92204032, 5.67059607, 9.02898735],
       [8.07980434, 9.21328078, 9.41564613, 7.52364464, 9.62844197]])


## Последовательности: `arange()`, `linspace()`

Можно задать массив состоящий из последовательности в заданном диапазоне с заданным шагом. В функции `arange()` позиционными аргументами можно задать:
- первый аргумент: стартовое значение последовательности
- второй аргумент: финальное значение (не входит в последовательность)
- третий аргумент: шаг последовательности

In [16]:
xArange = np.arange(10)             # задан только один аргумент
yArange = np.arange(5, 15, 2)       # возрастающая последовательность
zArange = np.arange(15, 5, -2)      # убывающая последовательность

print(xArange)
print(yArange)
print(zArange)

[0 1 2 3 4 5 6 7 8 9]
[ 5  7  9 11 13]
[15 13 11  9  7]


Равномерно распределенные значения в заданном диапазоне с заданным числом разбиения диапазона

In [17]:
xSpace = np.linspace(5, 15, 11)
print(xSpace)
print(xSpace.dtype)

[ 5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15.]
float64


# Атрибуты массива

In [64]:
import numpy as np
a = np.random.randint(0, 100, (2, 3, 4), dtype=np.int64)
print(a)

[[[47 26 74 38]
  [63 45 87 78]
  [33 49 72 92]]

 [[50 29  2 55]
  [39 41 27  8]
  [ 6 61 49 68]]]


In [65]:
print(f"{ a.dtype     =  }") # тип элементов
print(f"{ a.shape     =  }") # форма массива
print(f"{ a.ndim      =  }") # размерность (число индексов у элемента)
print(f"{ a.size      =  }") # число элементов в массиве
print(f"{ a.itemsize  =  }") # число байтов, занимаемых одним элементом


 a.dtype     =  dtype('int64')
 a.shape     =  (2, 3, 4)
 a.ndim      =  3
 a.size      =  24
 a.itemsize  =  8


# Операции над массивами

## Поэлементные операции

В отличие от стандартных списков Python, массивы NumPy поддерживают поэлементные арифметические операции. Когда вы применяете оператор к двум массивам одинаковой формы, операция выполняется для каждой пары соответствующих элементов.

In [68]:
import numpy as np

a = np.array([1, 2, 3, 4])
b = np.array([10, 20, 30, 40])

print( a + b )   
print( a - b )   
print( a * b )   
print( a / b )   
print( a ** 2 )  

[11 22 33 44]
[ -9 -18 -27 -36]
[ 10  40  90 160]
[0.1 0.1 0.1 0.1]
[ 1  4  9 16]


Вместо бинарных операторов можно использовать универсальные функции `np.add()`, `np.power()`, `np.mod()` и т.д.

## Агрегирующие функции

Агрегирующие функции сводят массив к одному значению (или к массиву меньшей размерности).

In [70]:
import numpy as np

a = np.array([1, 2, 3, 4, 5])

np.sum(a)      # 15 — сумма всех элементов
np.prod(a)     # 120 — произведение всех элементов
np.mean(a)     # 3.0 — среднее арифметическое
np.std(a)      # 1.414... — стандартное отклонение
np.var(a)      # 2.0 — дисперсия
np.min(a)      # 1 — минимальный элемент
np.max(a)      # 5 — максимальный элемент
np.argmin(a)   # 0 — индекс минимального элемента
np.argmax(a)   # 4 — индекс максимального элемента
np.median(a)   # 3.0 — медиана

np.float64(3.0)

Эти функции доступны и как методы массива:

In [None]:
a.sum()
a.mean()
a.max()
# и т.д.

Если задать параметр `axis`, то агрегирование будет происходить вдоль указанной оси:
```
           axis=1 →                     
          ┌─────────────┐               
  axis=0  │  1   2   3  │  → sum = 6    
     ↓    │  4   5   6  │  → sum = 15   
          └─────────────┘               
             ↓   ↓   ↓                  
             5   7   9                  
```

Указанная ось схлопывается.

In [71]:
A = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

A.sum(axis=1)

array([ 6, 15])

## Транслирование (Broadcasting)

Broadcasting – механизм, позволяющий NumPy выполнять операции над массивами разных форм. Меньший массив «растягивается» до размеров большего.

Простейший пример – при умножении массива на скаляр:

In [None]:
import numpy as np

a = np.array([1, 2 ,3])

print( a * 2 )

[3 4 5]


В операции `a * 2` производится транслирование скаляра `2` в массив `[2, 2, 2]`, затем производится поэлементнаое умножение. Такие действия производятся и с другими арифметическими операциями.

Можно таким же образом умножить вектор на все строки (или колонки) матрицы. Для этого требуется совместимость между вектором и компонентом матрицы:

In [79]:
A = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
b = np.array([10, 20, 30])  # форма (3,)
c = np.array([              # форма (2, 1) – вектор-колонка
    [100],
    [200],
])
print(A * b)    # произойдет умножение вектора на строки 
print(A * c)    # произойдет умножение вектора на колонки

[[ 10  40  90]
 [ 40 100 180]]
[[ 100  200  300]
 [ 800 1000 1200]]


### Общее правило Broadcasting:

1. Если массивы имеют разное число измерений, форма меньшего дополняется единицами слева:

```
    A.shape = (3, 4, 5)
    b.shape =       (5,)
            ↓
    b.shape = (1, 1, 5)    ← дополнили единицами слева
```
2. Производится проверка совместимости по каждому измерению (по каждой оси). Оси совместимы, если выполняется одно из условий:
- размеры осей равны;
- размер хотя бы одной оси равен 1.

Размерность, равная 1, растягивается до размера другого массива.

```
    A.shape = (3, 4, 5)
    b.shape = (1, 1, 5)
            ↓  ↓  ↓
            3  4  5    ← результирующая форма
```

Результирующий размер по каждой оси:

$$
r_i = \max(d_i, e_i)
$$


**Примеры**

| A.shape | b.shape | Совместимо? | Результат |
|---------|---------|-------------|-----------|
| `(4, 3)` | `(3,)` | ✓ | `(4, 3)` |
| `(4, 3)` | `(4,)` | ✗ | — |
| `(4, 3)` | `(4, 1)` | ✓ | `(4, 3)` |
| `(4, 3)` | `(1, 3)` | ✓ | `(4, 3)` |
| `(2, 3, 4)` | `(3, 4)` | ✓ | `(2, 3, 4)` |
| `(2, 3, 4)` | `(2, 1, 4)` | ✓ | `(2, 3, 4)` |
| `(3,)` | `(4,)` | ✗ | — |



### Внешнее произведение

Если массив с формой `(2, 1)` умножить с массивом формы `(3,)` будет произведено **внешнее произведение** (*outer product*): 

$$\mathbf{x} \mathbf{y}^\top$$

In [89]:
import numpy as np

b = np.array([10, 20, 30])  # форма (3,)
c = np.array([              # форма (2, 1) – вектор-колонка
    [100],
    [200],
])
c.shape, b.shape

((2, 1), (3,))

In [90]:
c * b
# b * c

array([[1000, 2000, 3000],
       [2000, 4000, 6000]])

Cначала второй массив будет дополнен до `(1, 3)`, затем проверка покажет совместимость, и оба массива будут растянуты до формы `(2, 3)`. Далее будет произведено поэлементно умножение и результатом будет матрица $2 \times 3$.

Если же массив с формой `(3,)` умножить на массив с формой `(2, 1)` то результат будет таким же, так как после дополнения до `(1, 3)` будет произведено растяжение обеих массивов до `(2, 3)`.

Если мы хотим произвести внешнее умножение двух массивов с формами `(n,)` и `(m,)`, то нужно поменять форму одного из них – добавить ось:

In [98]:
a = np.array([1, 2, 3])           # shape (3,)
b = np.array([10, 20])            # shape (2,)

outer = a[:, np.newaxis] * b      # (3, 1) * (2,) → (3, 2)
outer

array([[10, 20],
       [20, 40],
       [30, 60]])

В выражении `a[:, np.newaxis]` производится добавление оси в конец формы.

## Операции сравнения

Операторы сравнения для двух массивов NumPy одинаковой формы возвращают массив тойже формы, содержащий булевые значения, в соответствтии с отношением между элементами:

In [99]:
import numpy as np

a = np.array([1, 2, 3, 4])
b = np.array([2, 2, 2, 2])

a != b

array([ True, False,  True,  True])

Это правило работает и с другими операторами сравнения. Полезны бывают функции `np.maximum()` и `minimum()`, которые для двух массивов одинаковой формы возвращают массив той же формый, содержащий максимальные (минимальные) значения соответствующих элементов:

In [100]:
np.minimum(a, b)

array([1, 2, 2, 2])

## Линейная алгебра

Модуль `np.linalg` содержит функции линейной алгебры. Некоторые базовые операции доступны непосредственно в пространстве имён `np`.


|Функция|Описание|
|---|---|
|`dot()`, `@`, `matmul()`|Матричное умножение|
|`inner()`|Внутреннее (скалярное) произведение|
|`outer()`|Внешнее произведение|
|`trace()`|След матрицы|
|`det()`|Определитель|
|`matrix_rank()`|Ранг матрицы|
|`inv()`|Обратная матрица|
|`pinv()`|Псевдообратная матрица|
|`norm()`|Норма вектора или матрицы|
|`solve()`|Решение системы $\mathbf{Ax} = \mathbf{b}$|
|`lstsq()`|Метод наименьших квадратов|
|`eig()`|Собственные значения и векторы|
|`eigvals()`|Только собственные значения|
|`eigh()`|Для симметричных/эрмитовых матриц|
|`qr()`|QR-разложение|
|`svd()`|Сингулярное разложение|
|`cholesky()`|Разложение Холецкого|


### Скалярное произведение

**Скалярное произведение** (*dot product*, *inner product*) двух векторов $\mathbf{a}, \mathbf{b} \in \mathbb{R}^n$:

$$\mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^{n} a_i b_i = a_1 b_1 + a_2 b_2 + \ldots + a_n b_n$$

производится функциями `np.dot()`, `np.inner()` или оператором `@`:

In [None]:
import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

np.dot(a, b)      # 32
a @ b             # 32 — оператор @ (Python 3.5+)
np.inner(a, b)    # 32 — для 1D массивов эквивалентно dot
(a * b).sum()     # 32 — через поэлементное умножение

### Матричное умножение

Для матриц $\mathbf{A} \in \mathbb{R}^{m \times n}$ и $\mathbf{B} \in \mathbb{R}^{n \times p}$ **матричное умножение** (*matrix multiplication*) $\mathbf{C} = \mathbf{A}\mathbf{B} \in \mathbb{R}^{m \times p}$:

$$C_{ij} = \sum_{k=1}^{n} A_{ik} B_{kj}$$

производтится функциями `np.dot()`, `np.matmul()` или оператором `@`:

In [None]:
import numpy as np

A = np.array([[1, 2], 
              [3, 4]])
B = np.array([[5, 6], 
              [7, 8]])

A @ B              # рекомендуемый способ
np.matmul(A, B)    # эквивалентно @
np.dot(A, B)       # для 2D массивов эквивалентно matmul

### Различие между `@`, `np.dot()` и `np.matmul()`

|Операция|`np.dot()`|`np.matmul()` / `@`|
|---|---|---|
|1D × 1D|скалярное произведение|скалярное произведение|
|2D × 2D|матричное умножение|матричное умножение|
|ND × ND|сумма по последней и предпоследней осям|batch-умножение матриц|
|Скаляры|поддерживает|не поддерживает|

Для batch-операций (стопка матриц) `@` и `matmul()` применяют матричное умножение к каждой паре матриц:

In [7]:
import numpy as np

# Две "стопки" по 3 матрицы 2×2
A = np.random.rand(3, 2, 2)
B = np.random.rand(3, 2, 2)

(A @ B).shape  # (3, 2, 2) — три результата 2×2

(3, 2, 2)

`np.dot(A, B)` суммирует по последней оси `A` и предпоследней оси `B`:

$$\texttt{dot}(A, B)_{ijkl} = \sum_{m} A_{ijm} \cdot B_{kml}$$

То есть каждая «строка» из `A` скалярно умножается на каждую колонку из `B` – по всем комбинациям первых осей:

In [8]:
np.dot(A, B).shape

(3, 2, 3, 2)

### Умножение матрицы на вектор

In [3]:
A = np.array([[1, 2], 
              [3, 4]])
v = np.array([5, 6])

A @ v          # array([17, 39]) — вектор-результат
v @ A          # array([23, 34]) — v трактуется как вектор-строка

array([23, 34])

## Элементарные функции

Можно получить преобразование массива при котором все элементы исходного массива отображаются некоторой элементарной функцией:

In [102]:
angles  = np.array([0, np.pi/6, np.pi/4, np.pi/3, np.pi/2])

np.sin(angles )      # синус
np.cos(angles )      # косинус
np.tan(angles )      # тангенс

array([0.00000000e+00, 5.77350269e-01, 1.00000000e+00, 1.73205081e+00,
       1.63312394e+16])

In [104]:
x = np.array([1, 2, 3, 4, 5])

np.exp(x)      # экспонента e^x
np.log(x)      # натуральный логарифм
np.log10(x)    # логарифм по основанию 10
np.log2(x)     # логарифм по основанию 2
np.sqrt(x)     # квадратный корень
np.abs(x)      # модуль (абсолютное значение)

array([1, 2, 3, 4, 5])

Логарифм по произвольному основанию можно полчить по формуле перехода:

$$\log_b(x) = \frac{\ln(x)}{\ln(b)}$$

### Функции $\ln(1 + x)$ и $e^x-1$

Для малых значений $x$ вычисление $\ln(1 + x)$ через `np.log(1 + x)` теряет точность из за ограниченной точноти младших разрядов во `float`. Функция `np.log1p()` вычисляет $\ln(1 + x)$ значительно точнее при малых $x$. `log1p` – сокращение от log 1 plus.

Аналогично для малых $x$ вычисление $e^x-1$ через `np.exp(x) - 1` дает большую погрешность. Функция `np.expm1()` вычисляет $e^x-1$ значительно точнее при малых $x$. `expm1` – сокращение от exp minus 1.

# Копии и представления

## Представление

Два различных объекта могут ссылаться на одну и ту же область памяти, но интерпретировать ее как разные массивы. Некоторые операции над массивами возвращают **представление** (*view*) – новый объект массива, который ссылается на те же данные в памяти, что и исходный массив. Изменение элементов через view изменяет и оригинал.

К операциям, создающим view относятся:
- срезы;
- методы `reshape()` и `ravel()`;
- траснсопнирование;
- методы `view()` – явное создание представления.

Если объект является представлением на основе другого объекта, то на исходный объект будет ссылаться атрибут `base`:

In [113]:
A = np.array([
    [1, 2],
    [3, 4],
])

B = A.T         # транспонирование
B.base

array([[1, 2],
       [3, 4]])

Если объект владеет своими данными, то в атрибуте `base` будет `None`:

In [112]:
print(A.base)

None


Выяснить, разделяют ли два объекта один и тот же блок памяти можно функцией `np.shares_memory()`:

In [117]:
np.shares_memory(A, B)

True

## Непрерывные массивы `flags`

**Непрерывный** (*contiguous*) означает, что элементы массива расположены в памяти последовательно, без разрывов. Это важно для производительности, поскольку процессор эффективнее работает с непрерывными блоками памяти. Если массив представляет матрицу, то можно рассматривать два варианта непрерывности: строки хранятся последовательно (*row-major order* or *C-major*) или колонки хранятся последовательно (*column-major order* or *F-order*). Буквы C и F связаны с языками C и Fortran: C-major является стандартом для C, C++, Python, NumPy, а F-major – для Fortran, MATLAB, R.

При C-major элементы строки расположены рядом в памяти, а последний индекс меняется быстрее всего. При F-major элементы колонки расположены рядом в памяти, а первый индекс меняется быстрее всего.

Многие функции имеют параметр `order`, позволяющий задать порядок: значение `'C'` для C-major, значение `'F'` для F-major и значение `'K'` для сохранения исходного порядка.

Состояние памяти массива можно посмотреть через атрибут `flags`, который содержит словарь:

In [119]:
A.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

- `C_CONTIGUOUS` будет `True`, если массив непрерывый с C-order.
- `F_CONTIGUOUS` будет `True`, если массив непрерывый с F-order.
- `OWNDATA` будет `True`, если массив владеет своими данными (а не является view на чужие данные).
- `WRITEABLE` определяет можно ли изменять элементы массива.

## Копия

Копия представляет собой новый объект массива с собственной копией данных в отдельной области памяти. Изменение копии не затрагивает оригинал.

К операциям, создающим копии относятся:
- арифметические операции;
- метод изменения формы `flaten()`;
- fancy indexing;
- явное копирование `copy()`.

Срез не создает независимую копию в случае с массивами:

In [122]:
a = np.array([1, 2, 3])
c = a[:]
d = a.copy()
c.flags.owndata, d.flags["OWNDATA"]

(False, True)

## In-place операции

In-place операции изменяют данные массива непосредственно, без создания нового массива. Это экономит память, но влияет на все view, ссылающиеся на эти данные.

К in-place операциям относятся:
- любое присваивание через `[]`, включая срезы, булеву индексацию и fancy indexing;
- арифметические операторы присваивания (`+=`, `//=` и т.д.);
- методы `sort()`, `fill()`, `put()`, `itemset()`, `resize()`;
- многие функции имеют параметр `out`, позволяющий записать результат в существующий массив (в частности это элементарные и агрегирующие функции);
- функции с явным in-place поведением `np.copyto()`, `np.place()`, `np.put()`, `np.put_along_axis()`, `np.putmask()`, `np.fill_diagonal()`;
- Итератор `nditer` позволяет модифицировать массив поэлементно.

In [4]:
import numpy as np

a = np.array([1, 5, 10, 15, 20])
print(a)
np.clip(a, 5, 15, out=a)
print(a) 

[ 1  5 10 15 20]
[ 5  5 10 15 15]


# Изменение формы массива (Reshaping)

Важно понимать, что большинство операций с изменением формы не копируют данные, а создают новое представление (view) тех же данных в памяти. При изменении формы общее количество элементов массива должно оставаться неизменным.

## `reshape()`
Метод `reshape() `возвращает новое представление массива с заданной формой. Форма передается в аргумент в виде кортежа, либо как отдельные аргументы. Если массив не является непрерывным, то `reshape()` вернет копию, а не представление.

In [11]:
import numpy as np

a = np.array([
            [1,  2,  3,  4],
            [5,  6,  7,  8],
            [9, 10, 11, 12],
            ])
a.shape

(3, 4)

In [None]:
b = a.reshape((4, 3))   # передаем форму в виде кортежа
b

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [14]:
b.base is a     # массив a является базой для b

True

In [15]:
a.reshape(2, 2, 3)    # передаем форму в виде отдельных аргументов

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

### Aвтоматический расчёт размерности `(-1)`

Если одну из размерностей указать как `-1`, NumPy вычислит её автоматически:

In [16]:
a.reshape((2, -1))
# вторым значением формы будет 6:

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [17]:
a.reshape((2, -1, 2))

array([[[ 1,  2],
        [ 3,  4],
        [ 5,  6]],

       [[ 7,  8],
        [ 9, 10],
        [11, 12]]])

In [None]:
a.reshape(-1)   # одномерный массив

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

Матричная форма вектора:

In [None]:
a.reshape((1, -1))  # вектор-строка

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [21]:
a.reshape((-1, 1))  # вектор-колонка

array([[ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12]])

## `flatten()` и `reval()`

Обе функции преобразуют многомерный массив в одномерный, но с важным различием: `ravel()` – возвращает view (если массив непрерывный), а `flatten()` всегда возвращает копию. 

In [22]:
import numpy as np

a = np.array([[1, 2, 3],
              [4, 5, 6]])

a.ravel(order='C')  # array([1, 2, 3, 4, 5, 6]) – по строкам
a.ravel(order='F')  # array([1, 4, 2, 5, 3, 6]) – по столбцам
a.ravel(order='K')  # сохраняет порядок элементов в памяти

array([1, 2, 3, 4, 5, 6])

## Транспонирование

Представление, получаемое в результате транспонирования, как правило, нарушает непрерывность массива. Исключением является только случай, когда при перестановке осей хотя бы одна из них имеет раазмер 1.

### Атрибут `T`

Атрибут `T` представляет собой вычисляемое свойство (дескриптор property), которое возвращает транспонированное представление массива. Для матриц транспонирование меняет строки и столбцы местами:

$$[\mathbf{A}^\top]_{ij} = [\mathbf{A}]_{ji}$$

Если $\mathbf{A} \in \mathbb{R}^{m \times n}$, то $\mathbf{A}^\top \in \mathbb{R}^{n \times m}$.


In [None]:
import numpy as np

a = np.array([[1, 2, 3],
              [4, 5, 6]])

print(a.T)
print(a.shape, a.T.shape)

[[1 4]
 [2 5]
 [3 6]] (2, 3)


При транспонировании вектора с формой `(n, 1)` или `(1, n)`, меняется форма: вектор-колонка превращается в вектор-строку и наоборот. Если же массив является одномерным (имеет форму `(n,)`), то транспонирование ничего не делает – возвращает представление. При таком транспонировании непрерывность массива не нарушается.

In [35]:
a = np.array([1, 2, 3])
a.T.base is a

True

In [37]:
v1 = np.array([[1, 2, 3]])  # вектор-строка
print(v1.shape)
v2 = v1.T                   # вектор-колонка
print(v2.shape)
v2

(1, 3)
(3, 1)


array([[1],
       [2],
       [3]])

Для массива произвольной размерности `T` возвращает массив с разворотом всех осей:

In [None]:
a = np.arange(24).reshape(2, 3, 4)
print(a.shape)    # (2, 3, 4)
print(a.T.shape)  # (4, 3, 2) – оси в обратном порядке

(2, 3, 4)
(4, 3, 2)


### Метод `transpose()`

Вызов `transpose()` без аргументов эквивалентен `T` – производит перестановку всех индексов в обратном порядке. Задавая аргументы с `transpose()` можно произвести транспонирование пары заданных индексов или произвольную перестановку нескольких индексов.

In [43]:
import numpy as np

a = np.arange(24).reshape(2, 3, 4)
# Оси: 0 → размер 2, 1 → размер 3, 2 → размер 4

# Указываем новый порядок осей
b = a.transpose(1, 2, 0)  
# Ось 1 становится первой, ось 2 — второй, ось 0 — третьей
print(b.shape)  # (3, 4, 2)

c = a.transpose(0, 2, 1)  # Меняем только оси 1 и 2
print(c.shape)  # (2, 4, 3)

(3, 4, 2)
(2, 4, 3)


# Доступ к элементам массива по индексам

In [29]:
print(c[2])     # доступ к строке с индексом 2
print(c[:, 1])  # доступ к столбцу с индексом 1
print(c[2, 0])  # доступ к элементу 2-ой строки 0-го столбца
c[0, 1] = 42    # изменение значения элемента 0-ой строки 1-го столбца

[21 24 27]
[ 6 15 24]
21


In [30]:
# перебор всех элементов двумерного массива в цикле
for i in range(c.shape[0]):
    for j in range(c.shape[1]):
        print(c[i, j])

3
42
9
12
15
18
21
24
27


In [31]:
s = 'Text'

a, b, c, d = s[:2], s[2:], s[:-2], s[-2:]
print(a, b, c, d)

a, b, = s[:-1], s[-1]
print(a, b)

(a, b), c = s[:2], s[2:]
print(a, b, c)

Te xt Te xt
Tex t
T e xt


In [32]:
L = list(range(12))
print(f'{  L         = }')
print(f'{  L[3:10:2] = }')  # каждый второй элемент в диапазоне от 3 до 10
print(f'{  L[5::4]   = }')  # каждый четвертый элемент начиная с 5
print(f'{  L[1::2]   = }')  # все элементы с нечетными индексами
print(f'{  L[::2]    = }')  # все элементы с четными индексами [0::2]
print(f'{  L[::3]    = }')  # каждый третий элемент начиная с нулевого

  L         = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
  L[3:10:2] = [3, 5, 7, 9]
  L[5::4]   = [5, 9]
  L[1::2]   = [1, 3, 5, 7, 9, 11]
  L[::2]    = [0, 2, 4, 6, 8, 10]
  L[::3]    = [0, 3, 6, 9]


In [33]:
# срезы в обратном порядке:
print(f'{ L       = }')
print(f'{ L[10:3:-2] = }') # каждый второй элемент в диапазоне от 10 до 3
print(f'{ L[3::-1] = }')   # первые 4 элемента в обратном порядке
print(f'{ L[::-1] = }')    # все элементы в обратном порядке
print(f'{ L[::-3] = }')    # каждый третий эл. с конца начиная с последнего

 L       = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
 L[10:3:-2] = [10, 8, 6, 4]
 L[3::-1] = [3, 2, 1, 0]
 L[::-1] = [11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0]
 L[::-3] = [11, 8, 5, 2]


> Пусть матрица `A` задана в виде списка списков. Получить копию строки можно примерно так же, как и для матрицы NumPy: `A[1][:]`, но вот с копией колонки такой номер не пройдет: `A[:][1]` также возрващает копию строки с индексом `1`:

In [34]:
A = [
    [ 1,  2,  3,  4],
    [ 5,  6,  7,  8],
    [ 9, 10, 11, 12],
    [13, 14, 15, 16]
]
print(f"{  A[1][:]   = }")      # копия строки с индексом 1
print(f"{  A[:][1]   = }")      # копия строки с индексом 1

  A[1][:]   = [5, 6, 7, 8]
  A[:][1]   = [5, 6, 7, 8]


### Срезы в NumPy

In [35]:
import numpy as np

A = np.array(A)
print(f"{  A[1, :]   = }")      # строка с индексом 1
print(f"{  A[:, 1]   = }")      # колонка с индексом 1
print(f"{  A[1, 2:]  = }")      # строка с индексом 1
print(f"{  A[:2, 1]  = }")      # колонка с индексом 1
print(f"{  A[::2, 1] = }")      # колонка с индексом 1

  A[1, :]   = array([5, 6, 7, 8])
  A[:, 1]   = array([ 2,  6, 10, 14])
  A[1, 2:]  = array([7, 8])
  A[:2, 1]  = array([2, 6])
  A[::2, 1] = array([ 2, 10])


## Фильтрация массива по маске

### Создание маски

Для массива `b` выражение `b%2==0` возвращает булевый массив, содержащий `True` в тех позициях, где элемент массива `b` является четным, и `False` – где элемент массива `b` является нечетным.

In [36]:
import numpy as np

a = np.arange(8)
b = np.random.randint(0, 100, 8)

b_even = b%2==0

print(f'{a = }')
print(f'{b = }')
print(f'{b_even = }')
print(f'{b_even.dtype = }')

a = array([0, 1, 2, 3, 4, 5, 6, 7])
b = array([ 2, 30,  2, 41, 37, 85, 48,  1], dtype=int32)
b_even = array([ True,  True,  True, False, False, False,  True, False])
b_even.dtype = dtype('bool')


### Наложение маски
В данном случае массив `b_odd` той же формы что и массив `a`, можно использовать в качестве фильтрующего массива для `a`, если передать его в квадратные скобки:

In [37]:
a_filtered = a[b_even]
print(f'{a_filtered = }')

a_filtered = array([0, 1, 2, 6])


In [38]:
# можно было бы сразу записать так:
a_filtered = a[b%2==0]
print(f'{a_filtered = }')

a_filtered = array([0, 1, 2, 6])


### Получение строк и колонок матрицы по маске

In [39]:
import numpy as np

X = np.random.randint(0, 10, (6, 6))    # двумерный маcсив
mask = X[:, 0] > 5                      # маска по колонке с индексом 0
print(f"{ X }\n\n{ mask }")
X[X[:, 0] > 5]                          # получение строк по маске

[[8 4 1 8 5 2]
 [8 9 2 9 3 9]
 [1 1 2 6 7 8]
 [0 9 9 3 4 9]
 [3 8 6 4 8 1]
 [2 9 6 1 0 5]]

[ True  True False False False False]


array([[8, 4, 1, 8, 5, 2],
       [8, 9, 2, 9, 3, 9]], dtype=int32)

In [40]:
obj = np.array([2, 4, 6, 8, 5, 3])
X[:, (5 > obj)]                         # получение колонок по маске

array([[8, 4, 2],
       [8, 9, 9],
       [1, 1, 8],
       [0, 9, 9],
       [3, 8, 1],
       [2, 9, 5]], dtype=int32)

## Fancy Indexing

В NumPy вы можете использовать список индексов в квадратных скобках для выбора элементов из массива.

In [41]:
import numpy as np

tags = np.array([0.0, 1.1, 2.2, 3.3, 4.4, 5.5])
tags[[1, 4, 3, 4, -1]]

array([1.1, 4.4, 3.3, 4.4, 5.5])

Для многомерных массивов:

In [42]:
X = np.random.randint(0, 10, (3, 3))    # двумерный маcсив
print(X)
X[[0, 1], [2, 2]]

[[0 3 5]
 [6 8 3]
 [3 2 7]]


array([5, 3], dtype=int32)

## Оператор инверсии `~`

Оператор `~` производит битовую инверсию челых чисел в two's-complement (дополнительный код) представлении. Например, число `10` в дополнительном коде представляется как `00001010`, инверсии этого числа `11110101` будет соответствовать число `-11`. Заметим, что инверсией нуля (`00000000`) будет -`1` (`11111111`).

In [55]:
print(f"{ ~10    = }")
print(f"{ ~0     = }")

 ~10    = -11
 ~0     = -1


Благодаря такому свойству оператор `~` может оказаться полезен при движении по массиву с конца, так как в отличие от использования отрицательных индексов, здесь сохраняется симметрия с движением по массиву с начала.

$$∼x=−(x+1)$$

In [44]:
A = [1, 2, 3, 4, 5]
print('i  A[i]  A[-i]  A[~i]')
for i in range(len(A)):
    print(f'{i}    {A[i]}      {A[-i]}      {A[~i]}')

i  A[i]  A[-i]  A[~i]
0    1      1      5
1    2      5      4
2    3      4      3
3    4      3      2
4    5      2      1


Своя специфика имеется при использовании оператора `~` с NumPy:
- Для булевых типов NumPy (`numpy.bool_`) производится инверсия (в отличие от стандартных типов `bool`). А если оператор применить к массиву (или матрице), состоящему из логических элементов, то результатом будет массив, содержащий инвертированные элементы.
- Если применить оператор к массиву (или матрице), состоящей из целочисленных элементов, то вернется матрица, состоящий из инвертированных целых чисел (в соответствии с представлением в дополнительном коде).

In [45]:
import numpy as np

print(f"{~np.False_ = }")   # для типов
print(f"{~np.True_  = }")    # numpy.bool_

L = np.array([False, True, False])

print(f"{~L = }")

A = np.array([0, 1, -2, 3])
print(f"{~A = }")

~np.False_ = np.True_
~np.True_  = np.False_
~L = array([ True, False,  True])
~A = array([-1, -2,  1, -4])


## Оператор Ellipsis (`...`)

In [46]:
# to be defined
def f():
    ...
# Такая запись предполагает, что тело функции в дальнейшем должно быть
# определено (в отличие от pass, где намеренно пропускаются действия)

In [47]:
import numpy as np

n = np.random.rand(3, 3, 3, 3)          # shape (3, 3, 3, 3)
print(n[..., 2])                        # <=> n[:, :, :, 2]

[[[0.11336332 0.63334282 0.6602249 ]
  [0.19746753 0.57145081 0.72008309]
  [0.83753652 0.47754264 0.51588851]]

 [[0.92251637 0.29224852 0.76799842]
  [0.44027865 0.06093583 0.34788487]
  [0.62241003 0.91461428 0.9794662 ]]

 [[0.72580138 0.80298751 0.51213209]
  [0.47127325 0.45380903 0.82552119]
  [0.03518856 0.93293715 0.79383287]]]


# Not a Number & Infinity

In [48]:
import numpy as np

np.nan, np.inf, -np.inf, -(-np.inf)

(nan, inf, -inf, inf)

In [49]:
print(f'{   bool(np.nan)     = }')
print(f'{   np.nan == np.nan = }')
print(f'{   bool(np.inf)     = }')
print(f'{   np.inf == np.inf = }')

   bool(np.nan)     = True
   np.nan == np.nan = False
   bool(np.inf)     = True
   np.inf == np.inf = True


In [50]:
print(f"{ np.nan + 10 = }")
print(f"{ np.nan - 10 = }")
print(f"{ np.nan * 10 = }")
print(f"{ np.nan / 10 = }")

 np.nan + 10 = nan
 np.nan - 10 = nan
 np.nan * 10 = nan
 np.nan / 10 = nan


In [51]:
print(f"{ np.inf + 10 = }")
print(f"{ np.inf - 10 = }")
print(f"{ np.inf * 10 = }")
print(f"{ np.inf / 10 = }")

 np.inf + 10 = inf
 np.inf - 10 = inf
 np.inf * 10 = inf
 np.inf / 10 = inf


In [52]:
np.isnan(np.nan), np.isinf(np.inf), np.isinf(-np.inf)

(np.True_, np.True_, np.True_)