# Быстрый старт NumPy

**Цели обучения**

После прочтения вы будете уметь:
- Понимать разницу между одно-, двух- и n-мерными массивами в NumPy;
- Понимать, как применять некоторые операции линейной алгебры к n-мерным массивам без использования циклов for;

## Основы
Основным объектом NumPy является однородный многомерный массив. Он представляет собой таблицу элементов (обычно чисел) одного типа, индексируемых кортежем неотрицательных целых чисел. В NumPy размерности называются осями.

Например, массив координат точки в трехмерном пространстве [1, 2, 1] имеет одну ось. Эта ось содержит 3 элемента, поэтому мы говорим, что ее длина равна 3.

- Массивы с одной осью, как представленный выше, расположены на одной координатной оси.

![title](img/axes_1.jpg)

В примере, показанном ниже, массив имеет две оси. Длина первой оси равна 2, длина второй оси равна 3.

Для простоты можете воспринимать оси двумерного массива как строки и столбцы, как это делается в Эксель. Например, у матрицы ниже 2 строки и 3 столбца. Однако держите в голове то, что это все-таки оси. В данном случае 2 оси можно представлять как координатную плоскость xy.

In [None]:
[[1., 0., 0.],
 [0., 1., 5.]]

![title](img/axes_2.png)

Класс массивов NumPy называется `ndarray`. Он также известен под псевдонимом `array`. Наиболее важными атрибутами объекта `ndarray` являются:

- `ndarray.ndim`
количество осей (размерностей) массива.

- `ndarray.shape`
размеры массива. Это кортеж целых чисел, указывающих размер массива в каждом измерении. Для матрицы с `n` строками и `m` столбцами `shape` будет иметь вид `(n,m)` (**данная пара чисел в круглых скобках в Python и называется кортежем**). Таким образом, длина кортежа `shape` равна количеству осей, `ndim`.

- `ndarray.size`
общее количество элементов массива. Оно равно произведению элементов `shape`.

- `ndarray.dtype`
объект, описывающий тип элементов массива. Для создания и задания `dtype` можно использовать стандартные типы Python. Кроме того, NumPy предоставляет собственные типы. В качестве примера можно привести `numpy.int32`, `numpy.int16` и `numpy.float64`. Вы уже сталкивались с типами данных в Python, рассматривая строки `string` и числа `int` / `float`

- `ndarray.itemsize`
размер в байтах каждого элемента массива. Например, массив элементов типа float64 имеет размер 8 (=64/8), а массив типа complex32 - 4 (=32/8). Это эквивалентно ndarray.dtype.itemsize.

- `ndarray.data`
буфер, содержащий собственно элементы массива. Обычно этот атрибут не нужен, поскольку доступ к элементам массива осуществляется с помощью средств индексации.

### Пример

In [None]:
import numpy as np
a = np.arange(15).reshape(3, 5)
a

In [None]:
a.shape

In [None]:
a.size

In [None]:
a.ndim

In [None]:
a.dtype.name

In [None]:
a.itemsize

In [None]:
type(a)

In [None]:
b = np.array([6, 7, 8])
b

In [None]:
b.shape

In [None]:
b.size

## Создание массивов
Существует несколько способов создания массивов.

Например, можно создать массив из обычного `списка` или кортежа Python с помощью функции array. Тип результирующего массива определяется по типу элементов в последовательности.

### Небольшое лирическое отступление

В Python хранение нескольких величин в одной переменной может быть реализовано с помощью `списков`. Они позволяют, например, сохранить ваш список дел на день, создав переменную to_do, или же записать фильмы, которые вы хотели бы посмотреть в ближайшем будущем `films`

In [None]:
to_do = ['выгулять собаку', 'помыть посуду', 'поспать']
to_do

In [None]:
films = [
    'Титаник',
    'Она',
    'Джокер'
]

print(films)

In [None]:
len(films) # длина списка / количество элементов

Списки удобны, например, когда вам требуется работать с однородными данными. Например, у вас есть список значений x для функции y = x^2, а вы хотите получить вывод значений y для каждого x. В данном случае нам пригодится комбинация циклов и списков. Используя цикл, можно перебрать каждый элемент списка x, использовав следующую конструкцию **for** (`для каждого элемента в x:`)

In [None]:
x = [1, 2, 3, 4, 5]
for element in x:
    print(element ** 2)

Также можно брать конкретный элемент списка. Например, чтобы взять второй фильм "Она" из списка `films` нужно написать следующее

In [None]:
films[1]

Обратите внимание, что в скобках указывается 1. Не 2. Это связано с тем, что индексирование идет с 0. В данном случае, в списке `films` содержатся элементы с индексами `0, 1, 2`.

Можно менять значения по индексу.

In [None]:
films[1] = 'Барби'

In [None]:
films

На данном этапе это все, что нам нужно знать о списках. Продолжим работу над созданием массивов в Numpy

---

In [None]:
import numpy as np
# передаем np.array список [2, 3, 4]
a = np.array([2, 3, 4])
a

In [None]:
a.dtype

In [None]:
b = np.array([1.2, 3.5, 5.])
b

In [None]:
b.dtype

**Создадим двумерный массив**

array преобразует последовательности последовательностей в двумерные массивы, последовательности последовательностей в трехмерные массивы и т.д.

In [None]:
b = np.array([(1.5, 2, 3), (4, 5, 6)])
b

The type of the array can also be explicitly specified at creation time:

In [None]:
b = np.array([(1.5, 2, 3), (4, 5, 6)], dtype='int') # урежем все числа до целых, задав явно тип значений в массиве
b

Часто бывает так, что элементы массива изначально неизвестны, но известен его размер. Поэтому NumPy предлагает несколько функций для создания массивов с начальным содержимым. Это позволяет минимизировать необходимость изменения размера массивов, что является дорогостоящей операцией.

Функция `zeros` создает массив, заполненный нулями, функция `ones` - массив, заполненный единицами, а функция `empty` - массив, начальное содержимое которого является случайным и зависит от состояния памяти. По умолчанию `dtype` создаваемого массива - `float64`, но он может быть указан через ключевое слово аргумента `dtype`.

In [None]:
np.zeros((3, 4))

In [None]:
np.ones((2, 3, 4), dtype=np.int16)

In [None]:
np.empty((2, 3)) # значения в массиве случайны, они берутся из того, что лежало в свободных ячейках памяти компьютера до создания массива

Для создания последовательностей чисел в NumPy предусмотрена функция `arange`, которая аналогична встроенной в Python функции `range`, но возвращает массив.

In [None]:
np.arange(10, 30, 5) # от 10 до 30 с шагом в 5

In [None]:
np.arange(0, 2, 0.3)

Когда arange используется с аргументами с плавающей точкой, предсказать количество полученных элементов обычно невозможно из-за конечной точности плавающей точки. Поэтому обычно вместо шага лучше использовать функцию `linspace`, принимающую в качестве аргумента нужное нам количество элементов:

In [None]:
from numpy import pi
np.linspace(0, 2, 9) # 9 чисел от 0 до 2

In [None]:
x = np.linspace(0, 2 * pi, 10) # получаем 10 значений x
f = np.sin(x) # считаем от 10 значений x 10 значений y (синус от x)
f

## Печать массивов
При печати массива NumPy отображает его аналогично вложенным спискам, но со следующим расположением:

- последняя ось выводится слева направо,

- предпоследняя - сверху вниз,

- остальные также выводятся сверху вниз, причем каждый фрагмент отделяется от следующего пустой строкой.

Одномерные массивы выводятся в виде строк, двумерные - в виде матриц, трехмерные - в виде списков матриц.

In [None]:
a = np.arange(6)                    # 1d array
print(a)

In [None]:
b = np.arange(12).reshape(4, 3)     # 2d array
print(b)

In [None]:
c = np.arange(24).reshape(2, 3, 4)  # 3d array
print(c)

Если массив слишком велик для печати, NumPy автоматически пропускает центральную часть массива и печатает только его углы:

In [None]:
print(np.arange(10000))

In [None]:
print(np.arange(10000).reshape(100, 100))

Чтобы отключить это поведение и заставить NumPy печатать весь массив, можно изменить параметры печати с помощью set_printoptions.

`import sys`

`np.set_printoptions(threshold=sys.maxsize)`

## Основные операции
Арифметические операторы над массивами применяются поэлементно. Создается новый массив, который заполняется результатом.

In [None]:
a = np.array([20, 30, 40, 50])
b = np.arange(4)
print(a)
print(b)

In [None]:
c = a - b
c

In [None]:
b**2

In [None]:
10 * np.sin(a)

In [None]:
a < 35

В отличие от многих матричных языков, оператор произведения * действует в массивах NumPy поэлементно. Матричное произведение может быть выполнено с помощью оператора @ (в python >=3.5) или функции или метода dot:

In [None]:
A = np.array([[1, 1],
              [0, 1]])
B = np.array([[2, 0],
              [3, 4]])
A * B     # поэлементно

Произведение матриц как это принято делать в линейной алгебре представлено ниже. Каждый элемент формируется суммой произведений элементов строки первой матрицы (левой) на элементы столбца вторйо матрицы (справа).

Например, 19 есть 1 * 5 + 2 * 7. 50 = 3 * 6 + 4 * 8.

Размерность итоговой матрицы есть (количество строк первой, количество столбцов второй матриц)

Более подробно с умножением матриц можно познакомиться на [странице по ссылке](https://ru.wikipedia.org/wiki/%D0%A3%D0%BC%D0%BD%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86).

В том, как происходит перемножение матриц, нет никакого сакрального смысла. Это просто правило, которое стоит запомнить.

![title](img/lin_alg.jpg)

In [None]:
print(A)
print(B)
A @ B

![title](img/mult_mat.png)

In [None]:
A.dot(B)

Некоторые операции, такие как `+=` и `*=`, действуют на месте, изменяя существующий массив, а не создавая новый.

In [None]:
rg = np.random.default_rng(1)  # создать экземпляр генератора случайных чисел по умолчанию
a = np.ones((2, 3), dtype=int)
b = rg.random((2, 3))
a *= 3
print(a)

In [None]:
print(b)

In [None]:
b += a
b

Многие унарные операции, например, вычисление суммы всех элементов массива, реализуются как методы класса `ndarray`

In [None]:
a = rg.random((2, 3))
a

In [None]:
a.sum()

In [None]:
a.min()

In [None]:
a.max()

По умолчанию эти операции применяются к массиву так, как если бы он был списком чисел, независимо от его формы. Однако, указав параметр `axis`, можно применить операцию вдоль указанной оси массива:

In [None]:
b = np.arange(12).reshape(3, 4)
b

In [None]:
b.sum(axis=0) # сумма по колонкам

In [None]:
b.min(axis=1) # по рядам

In [None]:
b.cumsum(axis=1) # кумулятивная сумма по каждой строке

## Универсальные функции
NumPy предоставляет привычные математические функции, такие как `sin`, `cos` и `exp`. В NumPy они называются "универсальными функциями" (`ufunc`). В NumPy эти функции поэлементно оперируют с массивом, создавая на выходе массив.

In [None]:
B = np.arange(5)
B

In [None]:
np.exp(B)

In [None]:
np.sqrt(B)

In [None]:
np.sin(B)

## Индексирование, срез и итерация
Одномерные массивы можно индексировать, нарезать и итерировать, подобно спискам и другим последовательностям Python.

In [None]:
a = np.arange(10)**3
a

In [None]:
a[2] # берем элемент с индексом 2

**Обратите внимание, что индексация массива стартует с 0, поэтому был взят третий элемент, равный 8, а не второй элемент, равный 1** 

In [None]:
a[2:5] # срез со 2 по 5 не включая индекс 5

In [None]:
a[:6:2] = 1000 # замена каждого второго элемента на 1000 вплоть до 6 индекса, далее 6 индекса ничего не меняется
a

In [None]:
a[::-1] # перевернутый a / обратный порядок элементов

In [None]:
for i in a:
    print(i**(1 / 3.)) # кубические корни из каждого элемента a

Многомерные массивы могут иметь по одному индексу на ось. Эти индексы задаются в виде кортежа, разделенного запятыми:

In [None]:
b =np.arange(20).reshape(5, 4)
b

In [None]:
b[2, 3]

In [None]:
b[0:5, 1] # каждая строка второго столбца b

In [None]:
b[1:3, :] # каждый столбец второй и третьей строки b

Если индексов предоставлено меньше, чем число осей, то недостающие индексы считаются полными срезами:

In [None]:
b[-1] # последний ряд. Эквивалентно b[-1, :]

## Копии и представления

При работе с массивами и манипулировании ими их данные иногда копируются в новый массив, а иногда нет. Это часто вызывает недоумение у начинающих. Существует три случая:

### Полное отсутствие копирования
Простые присваивания не производят копирования объектов и их данных.

In [None]:
a = np.array([[ 0, 1, 2, 3],
              [ 4, 5, 6, 7],
              [ 8, 9, 10, 11]])
b = a # новый объект не создается
b is a

In [None]:
print(a)
print(b)

In [None]:
a[0, :] = 555
a

In [None]:
b # b ссылается на ту же область памяти, что и a, поэтому все изменения a отражаются на b, а изменения в b отражаются на a

## Представление или неглубокое копирование
Различные объекты массива могут использовать одни и те же данные. Метод `view` создает новый объект массива, который просматривает те же данные.

In [None]:
c = a.view()
c is a

In [None]:
c = c.reshape((2, 6))  # форма a не меняется
print(a)
print('-' * 50)
print(c)

In [None]:
c[0, 4] = 1234 # изменения в представлении c отразятся на массиве a

In [None]:
a # элемент 1234 теперь есть в массиве a

## Глубокое копирование
Метод `copy` создает полную копию массива и его данных.

In [None]:
d = a.copy() # создается новый объект массива с новыми данными
d is a

In [None]:
d.base is a # d не имеет ничего общего с a

In [None]:
d[0, 0] = 9999
d

In [None]:
a # элементы a не меняются, так как у массива а нет связи с массивом d

## Расширенное индексирование и трюки с индексами
NumPy предлагает больше возможностей индексирования, чем обычные последовательности Python. Помимо индексации по целым числам и срезам, как мы видели ранее, массивы можно индексировать по массивам целых чисел и массивам булевых чисел.

### Индексирование с помощью массивов индексов

In [None]:
a = np.arange(12)**2 # первые 12 квадратных чисел
print('a = ', a)
i = np.array([1, 1, 3, 8, 5]) # массив индексов
print('i = ', i)
print('элементы на позициях a[i] = ', a[i]) # элементы `a` в позициях `i`

In [None]:
j = np.array([[3, 4], [9, 7]]) # двумерный массив индексов
a[j] # той же формы, что и `j`.

Также можно использовать индексацию с массивами в качестве цели для присвоения:

In [None]:
a = np.arange(5)
a

In [None]:
a[[1, 3, 4]] = 0 # присваиваем индексам 1, 3, 4 значение 0
a

### Индексирование с помощью булевых массивов

Когда мы индексируем массивы с помощью массивов (целочисленных) индексов, мы предоставляем список индексов для выбора. С булевыми индексами подход другой: мы явно выбираем, какие элементы массива нам нужны, а какие нет.

Наиболее естественным способом индексации булевых индексов является использование булевых массивов, имеющих ту же форму, что и исходный массив:

In [None]:
a = np.arange(12).reshape(3, 4)
a

In [None]:
b = a > 4
b # `b` - булев массив с формой `a`, где находятся значения True / False для каждого элемента массива a
  # каждый элемент из a был проверен по условию "элемент > 4", что и дало такие результаты 

In [None]:
a[b] = 0 # Все элементы `a`, превосходящие 4, становятся равными 0
a

Второй способ индексации с помощью булевых чисел более похож на целочисленную индексацию; для каждой размерности массива мы задаем 1D булевый массив, выбирающий нужные нам срезы:

In [None]:
a = np.arange(12).reshape(3, 4)
b1 = np.array([False, True, True]) # выборка первой величины
b2 = np.array([True, False, True, False]) # выборка второй величины

In [None]:
a

In [None]:
a[b1, :] # выборка строкa[b1, :] 

In [None]:
a[b1] # то же самое

In [None]:
a[:, b2] # выбор столбцов

In [None]:
a[b1, b2] # странно, но можно

Обратите внимание, что длина одномерного булевого массива должна совпадать с длиной измерения (или оси), которое необходимо нарезать. В предыдущем примере b1 имеет длину 3 (количество строк в a), а b2 (длина 4) подходит для индексации второй оси (столбцов) a.

# Упражнения

Каждый этап задания (пункт списка) вы можете выполнять в отдельных ячейках, чтобы было наглядно видно результат каждого шага

## Задание 1

- Создайте матрицу 5x3, состоящую из единиц
- Создайте матрицу 3x2, в которой будут содержаться случайные значения
- Перемножьте эти две матрицы, как это принято делать в линейной алгебре

## Задание 2

- Создайте массив значений x от -20 до 20 с шагом в 1, то есть -20, -19, -18, ..., 20
- Вам дана функция `y = (2 * x) ** 3`. Создайте на ее основе массив y, передав в функцию значения x
- Выведите первые 10 значений массива y путем использования среза []
- Выведите только те элементы y, которые кратны (делятся нацело) 3

## Задание 3

- Создайте две матрицы 4x4
- Сделайте так, чтобы все элементы второй матрицы стали равны своим квадратам (например, для 2x2 матрицы: [[1, 2], [3, 4]] станет [[1, 4], [9, 16]]
- Поэлементно перемножьте первую и новую вторую матрицы
- Измените размерность матрицы путем reshape с 4x4 на 2x8