In [None]:
# Initialize Otter
import otter
grader = otter.Notebook("intro_to_numpy.ipynb")

# Введение в NumPy

Данный семинар является адаптацией материала [NumPy: the absolute basics for beginners](https://numpy.org/doc/stable/user/absolute_beginners.html).


NumPy (**Num**erical **Py**thon) — это библиотека с открытым исходным кодом для Python, широко используемая в науке. Она содержит инструменты для удобной и эффективной работы с числовыми данными.

## Установка NumPy

Чтобы [установить NumPy](https://numpy.org/install/), воспользуйтесь командой:

```bash
pip install numpy
```

или, если используете [uv](https://docs.astral.sh/uv/):

```bash
uv pip install numpy
```

In [None]:
# !pip install numpy
# !uv pip install numpy

Теперь можно импортировать NumPy:

In [None]:
import numpy as np

np.__version__

## Первый взгляд на массивы `ndarray`

Основным объектом в NumPy являются массивы `ndarray` (_N-dimensional array_). Создать массив можно из последовательности, например, обычного списка:

In [None]:
a = np.array([1, 2, 3, 4, 5, 6])
a

Подобно спискам, массивы в NumPy изменяемы:

In [None]:
a[0] = 10
a

Элементы массива могут быть получены по индексу (индексация начинается с 0):

In [None]:
a[0]

Или при помощи среза:

In [None]:
a[:3]

Многомерные массивы, например матрицы, можно создать из вложенных списков

In [None]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
a

В NumPy измерение массива иногда называют «осью» (_axis_). Заметим, что все элементы по одной оси должны иметь одинаковую длину. Если попытаться создать массив неправильной формы, мы получим ошибку:

In [None]:
try:
    np.array([[3, 4], [5, 6, 7, 8], [9, 10, 11]])
except ValueError as error:
    print(error)

А вот и ещё одно отличие: чтобы обратиться к элементу, достаточно перечислить его координаты по осям через запятую. Так, для элемента матрицы в $i$-й строке и $j$-м столбце достаточно использовать `[i, j]`:

In [None]:
a[2, 3]

## Так зачем же нужен NumPy?

Может показаться, что любые вычисления при желании можно провести и на чистом Python. Это правда. Однако NumPy оптимизирован для работы с массивами и предоставляет ряд готовых инструментов, которые позволяют писать меньше кода и выполнять операции быстрее.

Забежим немного вперед и рассмотрим следующую ситуацию: даны две матрицы $A$ и $B$, необходимо найти их произведение $C = AB$. Несладко нам придется, если попытаться сделать это на чистом Python... (можете попробовать на досуге)


In [None]:
A = np.array([[2, 5, 7], [4, 6, 8]])
A

In [None]:
B = np.array([[1, 3], [9, 2], [4, 5]])
B

In [None]:
C = A @ B  # Магия!
C

## Атрибуты массивов

Теперь, когда у нас есть представление о том, зачем нужны массивы, пришло время познакомиться с некоторыми их свойствами: `ndim`, `shape`, `size`, и `dtype`.

In [None]:
a.ndim  # Размерность массива (количество осей)

In [None]:
a.shape  # Форма массива (размер по каждой из оси)

---

### Первое задание в рамках нашего курса!

Верно ли следующее выражение?

```python
len(a.shape) == a.ndim
```

---

In [None]:
a.size  # Общее количество элементов в массиве

---

### Задание

Верно ли следующее утверждение?

```python
import math

# math.prod(...) возвращает произведение элементов в итерируемом объекте
a.size == math.prod(a.shape)
```

---

Каждый массив в NumPy _гомогенен_, т.е. содержит элементы, принадлежащие к одному типу данных. Узнать его можно при помощи атрибута `dtype`.

In [None]:
a.dtype  # Тип данных элементов массива

## Создание базовых массивов

`np.zeros()`, `np.ones()`, `np.empty()`, `np.arange()` и `np.linspace()`

In [None]:
np.zeros(4)  # Массив нулей

In [None]:
np.ones(4)  # Массив единиц

In [None]:
np.empty(4)  # Не инициализирует значения в созданном массиве, результат может быть разным

In [None]:
np.arange(2, 10, 2)  # Аналог range в Python

In [None]:
np.arange(0, 5, 0.5)  # Но чуточку круче ;)

In [None]:
np.linspace(0, 10, num=5)  # Значения равномерно распределены на заданном интервале

По умолчанию массивы, созданные таким образом, имеют тип данных `np.float64`, однако его можно изменить, передав соответствующий аргумент:

In [None]:
np.ones(4).dtype

In [None]:
np.ones(4, dtype=np.int64)

Подробнее о создании массивов можно прочитать по [ссылке](https://numpy.org/doc/stable/user/quickstart.html#quickstart-array-creation).

## Индексация и срезы

Как было сказано ранее, к элементам массивов в NumPy можно обращаться так же, как и к спискам в Python. Теперь же рассмотрим несколько менее тривиальных примеров:

In [None]:
a = np.array([[1, 9, 8, 4], [2, 0, 4, 9]])
a

In [None]:
a[0]  # 1-я строка матрицы

In [None]:
a[:, 2]  # 3-й столбец матрицы

**Пояснение:** двоеточие используется по аналогии с индексацией в Python, где `[n:]` означает «от n до конца», `[:n]` — «от начала до n», а `[:]` — «все элементы». В данном случае `:` означает «все строки».

In [None]:
a[:, ::2]  # Все строки, все столбцы, но столбцы с шагом 2

In [None]:
a[:, ::-1]  # Все строки, все столбцы, но столбцы с шагом -1, т.е. в обратном порядке

Еще один полезный прием для обращения к элементам массива — создание масок:

In [None]:
mask = a > 5
mask

In [None]:
a[mask]

In [None]:
mask = (a < 3) | (a > 5)  # Логическое ИЛИ
mask

In [None]:
a[mask]

In [None]:
mask = (a < 5) & (a % 2 == 0)  # Логическое И
mask

In [None]:
a[mask]

## Изменение формы массивов

In [None]:
a = np.arange(12)
print(f"{a.shape = }")
a

Один из самых полезных инструментов для изменения формы массива — метод `ndarray.reshape`:

In [None]:
a = a.reshape(4, 3)
print(f"{a.shape = }")
a

In [None]:
a = a.reshape(2, 2, 3)
print(f"{a.shape = }")
a

Иногда считать точное количество элементов по всем осям нецелесообразно — в этом случае можно указать `-1`, и NumPy сам вычислит нужный размер:

In [None]:
a = a.reshape(2, -1)
print(f"{a.shape = }")
a

Главное помнить, что произведение размеров осей должно строго совпадать с количеством элементов в массиве

In [None]:
try:
    a.reshape(4, 5)  # 4 * 5 не равно 12
except ValueError as error:
    print(error)

In [None]:
a = a.T  # Транспонирование матрицы
print(f"{a.shape = }")
a

Также полезно знать еще один прием, позволяющий добавить к массиву дополнительную ось:

In [None]:
a = a[:, np.newaxis, :]  # Или можно использовать [:, None, :]
print(f"{a.shape = }")
a

Для выпрямления массива можно использовать методы `flatten` и `ravel`. Не углубляясь в подробности, скажем, что `flatten` всегда возвращает копию данных:

In [None]:
a = a.flatten()  # Выпрямление массива
print(f"{a.shape = }")
a

---

### Задание

Массив данных `temp_data` содержит информацию о погоде в некотором городе за последние две недели. Сейчас все наблюдения расположены вдоль одной оси. Приведите массив к форме, где одна из осей соответствует неделе.

**Примечание:** для создания данных в этом задании используется генератор псевдослучайных чисел. Подробнее о работе с генератором псевдослучайных чисел в NumPy можно прочитать по [ссылке](https://numpy.org/doc/stable/reference/random/index.html#numpyrandom).

In [None]:
np.random.seed(42)

In [None]:
temp_data = np.random.uniform(20, 30, size=(14,)).round(1)  # Отсчет дней начинается с понедельника

temp_data = ...

In [None]:
grader.check("Task1")

---

### Задание

Запишите в переменную `temp_data_tuesday` температуру во вторник.


In [None]:
temp_data_tuesday = ...

In [None]:
grader.check("Task2")

---

### Задание

Запишите в переменную `temp_data_weekend` температуру в выходные.

In [None]:
temp_data_weekend = ...

In [None]:
grader.check("Task3")

## Базовые операции над массивами

Итак, мы разобрались с созданием массивов всех возможных ~~цветов~~ форм. Теперь можно перейти к манипуляциям над ними:

![image](https://numpy.org/doc/stable/_images/np_array_dataones.png)

In [None]:
data = np.array([1, 2])
ones = np.ones(2, dtype=int)
data + ones

![image](https://numpy.org/doc/stable/_images/np_data_plus_ones.png)

Разумеется, кроме сложения мы также можем поэлементно вычитать, умножать и делить массивы:

In [None]:
data - ones

In [None]:
data * data

In [None]:
data / data

![image](https://numpy.org/doc/stable/_images/np_sub_mult_divide.png)

## Broadcasting

> _Шишков, прости:_  
> _Не знаю, как перевести._  
>  
> _— А. С. Пушкин, «Евгений Онегин»_

Если формы массивов не совпадают, NumPy постарается привести их к одному виду, чтобы поэлементные операции стали возможными. Этот механизм называется _broadcasting_:

In [None]:
data = np.array([1.0, 2.0])
data * 1.6  # Умножение на скаляр

![image](https://numpy.org/doc/stable/_images/np_multiply_broadcasting.png)

Теперь рассмотрим более сложный пример с двумя массивами разной формы:

In [None]:
a = np.arange(6).reshape(2, 3)
print(f"{a.shape = }")
a

In [None]:
b = np.array([0.5, 2.0])[:, None]
print(f"{b.shape = }")
b

In [None]:
c = a * b  # NumPy приведет второй массив к форме первого
print(f"{c.shape = }")
c

---

### Задание

Переведите температуру из градусов Фаренгейта в градусы Цельсия по следующей формуле:

$$ T_c = \frac{5}{9} \cdot (T_F - 32) $$

Попробуйте угадать, температура чего была принята за 100 градусов в оригина

In [None]:
t_f = np.array([0.0, 20.7, 100.0, 451.0, 1.9, 5.3])

t_c = ...

In [None]:
grader.check("Task4")

---

## Сортировки

In [None]:
x = np.arange(12, 0, -1).reshape(3, 4)
x

In [None]:
np.sort(x, axis=None)

In [None]:
np.sort(x, axis=0)

In [None]:
np.sort(x, axis=-1)  # По умолчанию `axis=-1`

In [None]:
x.sort()  # Сортировка in-place
x

In [None]:
np.argsort(x, axis=0)

## Агрегирующие операции

In [None]:
data = np.arange(1, 4)
data

In [None]:
data.max()

In [None]:
data.min()

In [None]:
data.sum()

![image](https://numpy.org/doc/stable/_images/np_aggregation.png)

К полезным агрегирующим операциям также относятся `argmin`, `argmax`, `mean`, `std` и многие другие.

Все агрегирующие операции принимают аргумент `axis`, указывающий, вдоль какой оси производить вычисления:

In [None]:
data = np.arange(12).reshape(3, 4)
data

In [None]:
data.sum()

In [None]:
data.sum(axis=0)

In [None]:
data.sum(axis=1)

---

### Задание

Рассчитайте _средние значения_ вдоль оси `1`. Запрещено использовать `np.mean` и `np.ndarray.mean`.


In [None]:
x = np.random.normal(size=(5, 4, 3))
x

In [None]:
x_mean_along_axis_1 = ...
x_mean_along_axis_1

In [None]:
grader.check("Task5")

---

### Задание

Рассчитайте _стандартное отклонение_ вдоль оси `1`. Запрещено использовать `np.std` и `np.ndarray.std`. Зато использовать `mean` теперь можно :)

In [None]:
x_std_along_axis_0 = ...
x_std_along_axis_0

In [None]:
grader.check("Task6")

---

### Задание

Рассчитайте _евклидово расстояние_ между заданными векторами $\mathbf{v}$ и $\mathbf{u}$:


$$ d(\mathbf{v}, \mathbf{u}) = \sqrt{\sum{(v_i - u_i) ^ 2}} $$

In [None]:
v = np.array([1.2, 1.9, 0.8, 0.2])
u = np.array([1.4, 2.1, 1.1, 0.5])

In [None]:
d = ((v - u) ** 2).sum() ** 0.5  # YOUR CODE HERE

In [None]:
grader.check("Task7")

---

### Задание

Рассчитайте _манхэттенское расстояние_ между заданными векторами $\mathbf{v}$ и $\mathbf{u}$:

$$ d(\mathbf{v}, \mathbf{u}) = \sum{|v_i - u_i|} $$


In [None]:
d = ...

In [None]:
grader.check("Task8")

---

## Линейная алгебра

NumPy предоставляет широкий набор инструментов линейной алгебры. Они собраны в модуле `np.linalg`, ознакомиться с документацией можно по [ссылке](https://numpy.org/doc/2.1/reference/routines.linalg.html). Ранее упомянутый оператор `@` является синонимом метода `dot` и подходит как для матричного умножения, так и для умножения матрицы на вектор.

In [None]:
A

In [None]:
B

In [None]:
A.dot(B)

In [None]:
A @ B

In [None]:
x = np.array([0.5, 2.0, 0.0])
x

In [None]:
A.dot(x)  # Или A @ x

## Чтение и запись данных

Иногда необходимо сохранить массив в файл или прочитать данные из файла. Для работы с текстовыми файлами в NumPy используются функции `loadtxt` и `savetxt`.  
Кроме того, NumPy умеет сохранять и читать данные в бинарном формате `.npy` — для этого применяются функции `save` и `load`.

In [None]:
a = np.random.uniform(size=(5, 4))
a

In [None]:
np.savetxt("example_array.txt", a, fmt="%.3f", delimiter="\t")

In [None]:
!cat example_array.txt

In [None]:
np.loadtxt("example_array.txt")

In [None]:
np.save("example_array.npy", a)

In [None]:
np.load("example_array.npy")

## Submission

Make sure you have run all cells in your notebook in order before running the cell below, so that all images/graphs appear in the output. The cell below will generate a zip file for you to submit. **Please save before exporting!**

In [None]:
# Save your notebook first, then run this cell to export your submission.
grader.export(run_tests=True)