# Предисловие

Несмотря на то, что библиотеки для анализа данных мы изучали в рамках дисциплины "Python для анализа данных", дисциплина "Машинное обучение" началась с того, что мы вспомнили основы, а также освоили продвинутые методы работы с этими библиотеками. Я буду вести конспект по ноутбуку с самой первой лекции и дополнять его новыми примерами кода, определениями и пояснениями.

## NumPy

### Как создать массив и узнать его форму и размерность

**NumPy** — это библиотека в Python, которая позволяет анализировать данные и проводить научные вычисления. Она поддерживает многомерные массивы и матрицы, а также имеет набор математических функций. Центральным объектом библиотеки NumPy является `numpy.ndarray`, или массив. Этот массив представляет собой контейнер, который хранит элементы одного типа в многомерной регулярной сетке.

Давайте начнём с создания массива. Для этого мы используем функцию `np.array()`, которая преобразует вложенные последовательности в массив NumPy.

In [None]:
# Импортируем библиотеку NumPy под общепринятым псевдонимом np
import numpy as np

# Создаём двумерный массив, или матрицу, из вложенного списка
vec = np.array([[1, 2],
               [3, 4],
               [5, 6]])

# Выводим массив, чтобы увидеть его структуру
vec

Массив, который мы только что создали, хранится в переменной `vec`. Давайте теперь исследуем его структуру, чтобы понять, с какими данными мы работаем. Для этого мы определим **размерность массива**. Используем свойство `.ndim`, которое покажет, сколько измерений содержит массив. Вспомним, что вектор имеет одну ось, а матрица — две.

In [None]:
# Запрашиваем число осей, или измерений, у массива vec
vec.ndim

Интерпретатор Python вернул нам `2`. Это означает, что `vec` — это двумерный массив, то есть матрица. 

Теперь давайте определим **форму массива**. Используем свойство `.shape`, которое вернёт кортеж, где каждое число описывает длину масива вдоль соответствующей оси.

In [None]:
# Запрашиваем форму массива vec
vec.shape

Интерпретатор Python вернул нам `(3, 2)`. Это значит, что массив имеет **3 строки** и **2 столбца**. Первый элемент кортежа соответствует оси `0`, то есть строкам, а второй — оси `1`, то есть столбцам.

Мы определили структуру данных. Это первый обязательный шаг, который поможет нам в дальнейшем.

### Что такое агрегирующие операции и параметр `axis`, и как они работают

После того, как мы определили струкуры данных, перейдём к их анализу. Для этого нам понадобятся агрегирующие операции.

**Агрегирующая операция** — это функция, которая преобразует набор значений в одно значение. Такими значениями могут быть скаляр или массив меньшей размерности.

**Вот примеры таких функций:**
- `sum()` — вычисляет сумму;
- `mean()` — вычисляет среднее;
- `min()` — вычисляет минимум;
- `max()` — вычисляет максимум.

Ключевым параметром таких функций является `axis`, или **ось**. Этот параметр определяет, вдоль какого измерения массива система применяет операцию. Если мы укажем ось, то массив схлопнется вдоль этого измерения.

- **если `axis=0`**, то операция применяется вертикально, вдоль строк. Для матрицы это означает, что действие будет выполняться над каждым столбцом. C помощью этой операции мы **анализируем объекты**.

- **если `axis=1`**, то операция применяется горизонтально, вдоль столбцов. Для матрицы это означает, что действие будет выполняться над каждой строкой. С помощью этой операции мы **анализируем характеристики объектов**.

Давайте посмотрим, как работают агрегирующие операции на примере функции `np.sum()`, которая вычисляет сумму. Сначала проверим, как суммируются все элементы, но не будем указывать ось:

In [None]:
# Суммируем все элементы массива, без учёта строк и столбцов
np.sum(vec)

Интепретатор Python вернул нам скаляр `21`. Это сумма всех элементов: `1+2+3+4+5+6`.

Теперь давайте выполним то же суммирование, но по оси `0`. Другими словами, мы попросим систему пройтись по каждому **столбцу** и посчитать сумму его элементов:

In [None]:
# Вычисляем сумму элементов по оси 0, то есть вдоль строк для каждого столбца
np.sum(vec, axis=0)

Интерпретатор Python вернул нам массив `[9, 12]`. Давайте разберём, как получился такой результат:

1. Система взяла **первый столбец**, то есть элементы с индексами `[0,0]`, `[1,0]`, `[2,0]`, которым соответствуют значения `1`, `3`, `5`, и суммировала их: `1+3+5=9`.
2. Далее система взяла **второй столбец**, то есть элементы с индексами `[0,1]`, `[1,1]`, `[2,1]`, которым соответствуют значения `2`, `4`, `6`, и также суммировала их: `2+4+6=12`.

Исходная ось `0`, то есть строки, удалилась. **У нас остался одномерный массив с результами по каждому столбцу.**

Теперь давайте выполним то же суммирование, но по оси `1`. Другими словами мы попросим систему пройтись по каждой **строке** и посчитать сумму её элементов. 

In [None]:
# Вычисляем сумму элементов по оси 1, то есть вдоль столбцов для каждой строки
np.sum(vec, axis=1)

Интепретатор Python вернул нам массив `[3, 7, 11]`. Давайте снова разберём, как получился такой результат:
1. Система взяла **первую строку**, то есть элементы с индексами `[0,0]`,`[0,1]`, которым соответствуют значения `1`,`2`, и суммировала их: `1+2=3`.
2. Далее система взяла **вторую строку**, то есть элементы с индексами `[1,0]`,`[1,1]`, которым соответствуют значения `3`,`4`, и суммировала их: `3+4=7`.
3. Затем система взяла **третью строку**, то есть элементы с индексами `[2,0]`,`[2,1]`, которым соответствуют значения `5`,`6`, и суммировала их: `5+6=1`.

Исходная ось `1`, то есть столбцы, удалилась. **У нас остался одномерный массив с результатами по каждому столбцу.**

### Как транспонировать массив и изменять его размерность

Мы научились анализировать данные вдоль осей. Рассмотрели, как применять агрегирующие функции к столбцам и строкам матрицы с помощью параметра `axis`. Теперь рассмотрим операции, которые позволят нам менять структуру массива, но при этом не затрагивать данные. Это позволяет адаптировать данные под требования конкретных алгоритмов или операций. Начнём с транспонирования массива.

**Транспонирование** — это операция, которая позволяет менять местами строки и столбцы матрицы. Чтобы это сделать, в NumPy используют атрибут `.T` или метод `.transpose()`.

Давайте проверим исходный массв, с которым мы работали ранее:

In [None]:
# Выводим исходный массив, чтобы вспомнить его структуру
vec

Интерпретатор Python вернул нам знакомый массив, который состоит из трёх строк и двух столбцов.

Теперь применим транспонирование к этому массиву. Мы создадим новый объект, в котором строки станут столбцами, а столбцы — строками:

In [None]:
# Транспонируем массив с помощью атрибута `.T`
vec.T

Давайте теперь выполним ту же операцию, но с помощью метода `.transpose()`. Он делает то же самое, но может принимать параметры для многомерных массивов:

In [None]:
# Транспонируем массив с помощью метода `.transpose()`
vec.transpose()

Важно отметить, что операции `.T` и `.transpose()` возвращают новый объект массива, а не модифицируют исходный. Это подтверждает концепцию о том, что при многих операциях в NumPy исходные данные не изменяются. Давайте всё же проверим, изменился ли исходный массив?

In [None]:
# Проверяем, изменился ли исходный массив `vec`
vec

In [None]:
Интерпретатор Python вернул нам исходный массив с тремя строками и двумя столбцами.

### Как изменять форму массива с помощью метода `.reshape()`

Мы узнали, что транспонирование меняет расположение осей, но сохраняет общее количество строк и столбцов. Теперь давайте рассмотрим метод `.reshape()`, который позволяет полностью изменять структуру масива.

Важно отметить, что метод `.reshape()`, как `.T` и `.transpose()` создаёт новый объект массива, а не модифицируют исходный. Количество элементов до и после операций остаётся одинаковым.

Давайте проверим текущее нашего массива `vec`:

In [None]:
# Проверяем текущее состояние массива `vec`
vec

Интерпретатор Python вернул нам исходный массив с тремя строками и двумя столбцами.

Теперь давайте изменим форму массива. Преобразуем матрицу `3x2` в матрицу `2x3`. Метод `.reshape()` создаст новый массив, где шесть элементов перераспределяются в сетку `2x3`.

In [None]:
# Изменяем форму массива с `3x2` на `2x3`
vec.reshape(2, 3)

Система взяла все шесть элементов исходного массива `vec` и последовательно заполнила ими новую матрицу 2x3 построчно. Позиция первого элемента стала `[0,0]`, второго — `[0,1]`, и так далее.

Важно отметить, что NumPy предоставляет возможность использовать значение `-1` для одной из размерностей. В этом случае система автоматически вычисляет недостающий размер на основе общего количества элементов. Давайте проверим, как это работает:

In [None]:
# Указываем, что хотим получить массив с тремя столбцами
vec.reshape(-1, 3)

Интерпретатор Python вернул нам знакомый результат, такой же, какой был, когда мы ввели `vec.reshape(2, 3)`. Это произошло, потому что система проверила общее количество элементов в массиве, то есть 6, далее она поделила эти размерности, то есть 3 столбца, и получила недостающее значение — 2 строки.

Теперь проверим пограничные случаи. Если мы укажем другое отрицательное число, система попытается интерпретировать его как `-1`, но только если в результате будет возможно получить целое число.

In [None]:
# Указываем размер `-10` для второй оси
vec.reshape(2, -10)

Интепретатор Python вернул нам уже знакомый массив. Система интерпретировала `-10` как `-1` и вычислила `6/2=3`.

Теперь давайте попробуем другой вариант. Укажем `-2` для первой оси и `5` для второй:

In [None]:
# Указываем размер `-2` для первой оси и `5` для второй
vec.reshape(-2, 5)

Мы получили ошибку `ValueError: cannot reshape array of size 6 into shape 5`. Это произошло потому, что система интерпретировала `-2` как `-1`, но при вычислении получила десятичную дробь `1.2`. Размерность массива всегда должна быть целым числом, поэтому операция невозможна.

### Как индексировать массивы и использовать срезы

Мы узнали, как изменять форму массива с помощью `.reshape()`. Теперь рассмотрим, как работать с отдельными элементами, строками, стобцами и прозвольными сечениями массива. Это операция возможно благодаря гибкой системе индексации в NumPy. Давайте узнаем, что такое индексирование.

**Индексирование** — это операция, которая позволяет извлекать конкретные элементы или их подмножества из массива.

Давайте проверим текущее состояние массива, с которым будем работать:

In [None]:
# Выводим массив `vec`, чтобы увидеть его данные и структуру
vec

Интерпретатор Python вернул нам уже знакомый массив.

Индексирование в массивах работает так же, как и в списках, но с учётом многомерности. Для работы с индексами нужно использовать квадратные скобки `[]`. Давайте извлечем второй столбец, или индекс `1` из всех строк:

In [None]:
# Извлекаем второй столбец, или индекс `1` из всех строк
vec[:, 1]

Другими словами, мы попросили систему взять все строки c помощью двоеточия, а уже из них — элемент с индексом `1`, то есть второй столбец. 

Теперь давайте извлечём третью строку, или индекс `2` и все её столбцы:

In [None]:
# Извлекаем третью строку, или индекс `2` и все столбцы в ней
vec[2, :]

Другими словами, мы попросили систему взять строку с индексом `2` и все её столбцы с помощью двоеточия.

**Срезы, или slicing,** позволяют извлекать не отдельные элементы, а целые подмассивы. Синтаксис `start:stop:step` работает так же, как и в обычных списках Python.

**Напомним, что срезы работают следующим образом:**
- start — это начальный индекс, он включается;
- stop — это конечный индекс, он не включается;
- step — это шаг, по умолчанию `1`.

Давайте попробуем извлечь подмассив из второй строки и первого столбца:

In [None]:
# Извлекаем подмассив, то есть строки с `1` по `2` и столбцы с `0` по `1`. Элементы в последних индексах не включаются
vec[1:2, 0:1]

Интепретатор Python вернул нам массив `3`, так как это элемент, который имеет форму `(1, 1)`, и находится на одной строке и одном столбце.

Теперь давайте извлечём один конкретный элемент — значение во второй строке и первом столбце:

In [None]:
# Извлекаем конкретный элемент массива, который находится на строке `1` и столбце `0`
vec[1, 0]

Интепретатор Python вернул нам скалярное значение, а не массив, как в прошлой ячейке с кодом.

Теперь давайте используем шаг в срезе для выборки каждой второй строки:

In [None]:
# Извлекаем каждую вторую строку и все столбцы
vec[::2, :]

Другими словами, мы попросили систему взять все строки с шагом два и все их столбцы.

### Как выполнять арифметические операции с массивами

Мы узнали, как работает индексация, или способ извлекать части из массива. Теперь давайте перейдём к операциям, которые преобразуют сами данные. NumPy реализует векторизированные арифметические операции, которые применяются ко всем элементам массив а одновременно, без явных циклов. Это позволяет производить очень быстрые вычисления. Давай сначала узнаем, что такое векторизация.

**Векторизация** — это особенность NumPy, которая позволяет выполнять операции над целыми массивами вместо того, чтобы обрабатывать каждый элемент. Это помогает упростить код, а также ускорить вычисления, так как операции будут выполняться на уровне машинного кода. Функционал NumPy также расширяет и механизм трансляции.

Давайте проверим текущее состояние нашего массива `vec`:

In [None]:
# Выводим массив `vec`, чтобы проверить его исходные данные
vec

**Арифметические операции в NumPy можно условно разделить на два типа:**
1. **Поэлементные** — они применяют арифметическое действие к каждому элементу массива.
2. **Комбинированные** — они позволяют строить более сложные выражения. 

Давайте сначала рассмотрим **поэлементные** операции. Попробуем прибавить `1` ко всем элементам массива:

In [None]:
# Добавляем `1` к каждому элементу массива `vec`
vec + 1

Система применила операцию сложения ко всем элементам одновременно.

Теперь умножим все элементы массива на `2`:

In [None]:
# Умножаем каждый элемент массива `vec` на `2`
vec * 2

Мы увидели, как работает операция масштабирования данных.

Теперь давайте возведём все элементы массива в квадрат:

In [None]:
# Возводим каждый элемент массива `vec` во вторую степень
vec ** 2

In [None]:
Это полезно, когда нам нужно вычислить квадраты всех значений сразу.

Теперь давайте рассмотрим **комбинированные** операции. Попробуем сложить исходный массив с его квадратом:

In [None]:
# Складываем исходные массив `vec` с массивом его квадратов
vec + vec ** 2

Система сначала вычисляет результат операции `vec ** 2`, а затем поэлементно складывает его со значением массива `vec`.

Теперь умножим исходный массив на его квадрат:

In [None]:
# Умножаем исходный массив `vec` на массив его квадратов `vec ** 2`
vec * vec ** 2

В результате мы получаем кубы элементов.

Теперь давайте рассмотрим, как работают математические функции NumPy на примере функции синуса, или `np.sin()`.

Давайте вычислим синус каждого элемента массива `vec`:

In [None]:
# Вычисляем синуса каждого элемента массива `vec`
np.sin(vec)

### Как выполнять матричные операции с массивами

Мы изучили поэлементные и комбинированные арифметические операции, а также математическую фукцнию `np.sin()`, которые работают с каждым элементом массива независимо. Теперь перейдём к матричным операциями, которые учитывают структуру данных и выполняют линейно-алгебраические преобразования. Самая важная из них — матричное умножение.

**Матричное умножение** — это операция, в который мы перемножаем две матрицы по правилу "строка на столбец". Она выполняется с помощью метода `.dot()` или оператора `@`. В отличие от поэлементного умножения `*`, матричное умножение учитывает размерности матриц Чтобы умножить матрицу A на матрицу B, количество столбцов матрицы A должно равняться количеству столбцов матрицы B.

Давайте снова проверим текущее состояние массива:

In [None]:
# Проверяем исходный массив `vec`
vec

Теперь вычислим его квадрат. Это понадобится, чтобы выполнять операции далее:

In [None]:
# Вычисляем квадрат массива, чтобы использовать его в матричных операциях
vec ** 2

Теперь попробуем умножить матрицу `vec` на матрицу `vec ** 2` c помощью метода `.dot()`:

In [None]:
# Выполняем матричное умножение `vec` на (vec ** 2)
vec.dot(vec ** 2)

Эта операция вызовет ошибку `ValueError`, так как, чтобы выполнить матричное умножение, количество столбцов первой матрицы, или `2`, должно равняться количеству строк второй матрицы, или `3`. Наш случай это не предусматривает.

Чтобы операция стала возможной нужно согласовать размеры. Для этого транспонируем вторую матрицу:

In [None]:
# Умножаем матрицу `vec` на транспонированную матрицу (vec ** 2)
vec.dot((vec ** 2).T)

Так как размерности обеих матриц стали согласованными, в результате у нас получилась матрица `3x3`.

Вместо `.dot()` мы можем использовать `@` и получить тот же результат, но синтаксис будет более читаемым.

In [None]:
# Выполняем ту же операцию, умножаем матрицу `vec` на транспонированную матрицу (vec ** 2), но с помощью оператора `@`
vec @ (vec ** 2).T

### Как выполнять трансляцию массивов

Мы освоили матричные операции, которые требовали, чтобы размеры массивов были строго согласованы. Теперь рассмотрим механизм NumPy, который позволяет выполнять операции между массивами разных размеров, но явно не расширять их.

**Трансляция** — это механизм, который позволяет NumPy выполнять операции между массивами разных размеров. Например, если мы прибавим к массиву `vec` скаляр `1`, то он автоматически расширится до размеров массива `vec`. Это позволяет писать более лаконичный код, так как нам не придётся выполнять лишние циклы и копировать данные.

Сначала проверим наш текущий массив:

In [None]:
# Выводим массив `vec`, чтобы увидеть его текущую форму
vec

Теперь создадим вспомогательный массив с помощью `np.arange()` и изменим его форму:

In [None]:
# Создаем одномерный массив [0, 1, 2] и преобразуем его в столбец 3x1
np.arange(3).reshape(3, 1)

В результате мы получими массив с тремя строками и одним столбцом.

Теперь сложим два массива разных размеров:

In [None]:
# Складываем матрицу `vec (3x2)` с вектором-столбцом (3x1)
vec + np.arange(3).reshape(3, 1)

В результате мы успешно сложили два массива, несмотря на то, что они разной формы. NumPy автоматически растянул вектор-столбец с 3x1 до 3x2 и продублировал его значения по горизонтали.

### Что такое булев массив, и как использовать его для маскирования

Теперь перейдём к булевым массивам, которые позволяют выполнять условные операции и фильтровать данные. Для начала узнаем, что такое булев массив.

**Булев массив** — это массив, который содержит значение `True` или `False`. Он помогает отбирать записи по определённым критериям. Например, зарплата выше среднего или возраст в определённом диапазоне. Кроме того, он помогает находить и обрабатывать аномальные значения в данные и создавать метки для задач классификации.

Сначала проверим наш текущий массив:

In [None]:
# Выводим массив `vec`, чтобы увидеть его исходные данные
vec

Теперь создадим булев массив и проверим, какие из его элементов являются четными:

In [None]:
# Создаём булев массив и проверяем остаток от деления каждого элемента на `2`
is_even = vec % 2 == 0
is_even

Каждый элемент этого массива содержит `True`, если соответствующий элемент `vec` четный, и `False`, если нечётный. Если мы сложим эти булевы значения, NumPy будет интепретировать `True` как `1`, а `False` как `0`.

Теперь давайте подсчитаем количество чётных элементов в массиве:

In [None]:
# Суммируем все элементы булева массива
np.sum(is_even)

Мы посчитали количество элементов со значением `True` в массиве `is_even`. Тем самым мы узнали и количество чётных чисел в исходном массиве `vec`.

Также мы можем использовать булев массив, чтобы извлекать элементы, которые удовлетворяют определённым условиям. Иными словами, выполнять **маскирование**. Давайте извлечем только чётные элементы из массива `vec`.

In [None]:
# Извлекаем только чётные элементы из массива `vec`
vec[vec % 2 == 0]

Интерпретатор Python вернул нам одномерный массив со всеми элементами матрицы `vec`, которые соответсвуют позиция со значением `True`.

Давайте попробуем выполнить более сложную операцию. Извлечём элементы, для которых модуль синуса больше модуля косинуса:

In [None]:
# Извлекаем элементы, для которых модуль синуса больше модуля косинуса
vec[np.abs(np.sin(vec)) > np.abs(np.cos(vec))]

Система вычислила `np.sin(vec)` и `np.cos(vec)` для всех элементов, взяла модули значений с помощью `np.abs()`, сравнила модули синусов и косинусов для каждого элемента, создала булев массив с результатами сравнения и извлекла элементы `vec`, для которых условие истинно.

### Какие есть специальные массивы и операции объединения

Теперь мы узнаем, как создавать специализированные массивы и объединять их. NumPy позволяет нам генерировать массивы с уже заданными свойствами, что бывает удобнее, чем создавать их вручную

Начнём с массива, который состоит из нулей. Его, как и массив с единицами, используют, чтобы заполнить отсутствующие данные, а также, чтобы инициализировать параметры модели. Для того, чтобы создать такой массив, используем функцию `np.zeros()`. Кроме того, мы попросим явно задать целочисленный тип данных элементов в выводе.

In [None]:
# Создаём массив 2х3, который состоит из нулей
np.zeros((2, 3), dtype=int)

Интепретатор Python вернул нам матрицу `2x3`, где каждый элемент равен `0`. Параметр `dtype=int` задаёт тип данных `int64`, а не стандартный `float64`. Это позволяет сэкономить память, когда дробная часть не нужна.

Теперь давайте создадим массив, который состоит из единиц. Для этого используем функцию `np.ones()`, которая работает так же, как и `np.zeros()`:

In [None]:
# Создаём массив 3x2, который состоит из единиц
np.ones((3, 2))

Интерпретатор Python вернул нам матрицу `3x2`, в которой все элементы равны `1.0`. Такие массивы можно использовать в качестве начальных значения, чтобы накапливать сумму элементов, или как маски.

Теперь давайте создадим единичную матрицу. Это матрица, у которой единицы находятся на главной диагонали. Для это используем функцию `np.identity()`, которая генерирует квадратную матрицу.

In [None]:
# Создаём единичную матрицу 5x5
np.identity(5)

Интепретатор Python вернул на матрицу, где элементы на главной диагонали равны `1.`, а все остальные равны `0.` Такая матрица является аналогом единичной матрицы в линейной алгебре.

Теперь перейдём к объединению массивов. Сначала узнаем, как объединять их горизонтально, или по столбцам. Для этого мы используем функцию `np.hstack()`:

In [None]:
# Объединяем массив `vec` с массивом нулей той же формы по горизонтали
np.hstack((vec, np.zeros(vec.shape, dtype=int)))

Интерпретатор Python вернул нам матрицу `3x4`, где слева исходные данные, а справа — нули. Функция `np.hstack()` принимает кортеж массивов и объединяет их по горизонтали, то есть вдоль оси `1`. Сначала система создаёт массив нулей той же формы, что и `vec`, то есть `3x2`, а затем присоединяет его справа к `vec`.

Теперь объединить массивы горизонтально, или по столбцам. Для этого используем функцию `np.vstack()`:

In [None]:
# Объединяем массив `vec` с массивом нулей той же формы по вертикали
np.vstack((vec, np.zeros(vec.shape, dtype=int)))

Интепретатор Python вернул нам матрицу `6x2`, где сверху исходные данные, а снизу — нули. Функция `np.vstack()` объединяет массивы по вертикали, то есть вдоль оси `0`. Сначала система создаёт массив нулей формы `3x2`, а потом помещает его под исходным массивом `vec`.

### Как генерировать случайные числа

Мы изучили, как создавать массивы с фиксированными значениями и объединять их. Теперь научимся генерировать случайные числа. Они позволяют инициализировать веса моделей, разделять данные на выборки, создавать синтетические данные и проводить статистические тесты. NumPy позволяет генерировать числа из разных распределений с помощью модуля `np.random`.

Давайте сгенерируем массив `2х3` со случайными числами от `0` до `1`. Для этого мы используем функцию `np.random.rand()`:

In [None]:
# Генерируем массив `2x3` со случайными числами от `0` до `1`
np.random.rand(2, 3)

Каждое число в этом диапазоне имеет одинаковую вероятность появиться. Эту функцию используют, когда нужны случайные значения без предпочтения к каким-либо диапазонам. Например, чтобы создавать случайные доли или вероятности.

Для того, чтобы установить начальное состояние генератора случайных чисел используют функцию `np.random.seed()`. Далее применяют функцию `np.random.rand()`, которая генерирует массив. Давайте посмотрим, как это сделать:

In [None]:
# Устанавливаем начальное значение генератора случайных чисел
np.random.seed(2026)

# Генерируем массив
np.random.rand(3, 4)

При одинаковом начальное значении система генерирует одни и те же числа при каждом запуске. Это позволяет гарантировать воспроизводимость экспериментов в машинном обучение. Результаты не изменятся случайно, когда мы запустим код повторно.

Теперь мы узнаем, как генерировать числа из стандартного нормального распределения. Для этого используют функцию `np.random.randn()`:

In [None]:
# Генерируем массив `3x2` со случайными значения из N(0, 1)
np.random.randn(3, 2)

Мы сгенерировали числа, которые следуют стандартному нормальному распределению со средним `0` и стандартным отклонением `1`. Большинство значений будут близкими к `0`. Эту функцию используют, чтобы инициализировать веса нейронных сетей, потому что значения около нуля помогают нейросети учиться эффективнее.

Теперь давайте сгенерируем числа из нормального распределения с заданными параметрами. Для этого используем функцию `np.random.normal()`. Она позволяет задать конкретное среднее и стандартное отклонение:

In [None]:
# Генерируем массив `3x2` из N(300000, 50000)
np.random.normal(300000, 50000, size=(3, 2))

Мы сгенерировали числа из нормального распределения с указанными параметрами. Эти данные могут имитировать, нарпимер, распределение зарплат со средним значением `300000` и разбросом `50000`. Мы видим, что большинство значений попали в диапазон от `250000` до `350000`. Такие симуляции позволяют протестировать статистические методы на реалистичных данных.

Теперь давайте узнаем, как генерировать числа из равномерного распределения. Для этого используем функцию `np.random.randint()`, которая создаст целые числа в диапазоне, который мы зададим:

In [None]:
# Генерируем массив 5x3 со случайными целыми числами от 0 до 9
np.random.randint(0, 10, size=(5, 3))

Мы сгенерировали целые числа с равномерным распределением в указанном диапазоне. В примере каждое число от `0` до `9` имеет вероятность `1/10`. Такие массивы используют, чтобы создавать индексы при случайной выборке данных, категориальных признаков или синтетических меток, чтобы проводить тестирование.

### Сравним производительность операций в NumPy с циклами в ванильном Python

Мы изучили основные возможности NumPy для работы с массивами. Теперь рассмотрим ключевую причину, почему NumPy используют в научных вычислениях — производительность. NumPy выполняет операции намного быстрее, чем чистый Python с циклами, особенно для больших массивов.

Сначала генерируем (не надо) две большие (очень) квадратные матрицы, чтобы продемонстрировать разницу:

In [None]:
# Задаём размер матриц n = 3000
n = 3000

# Создаём первую случайную матрицу n×n
A = np.random.rand(n, n)

# Создаём вторую случайную матрицу n×n
B = np.random.rand(n, n)

In [None]:
# Импортируем tqdm для отображения прогресса выполнения циклов
from tqdm import tqdm

 Модуль `tqdm` добавляет индикатор выполнения, который показывает, сколько времени осталось до завершения длительных операций. Это помогает отслеживать прогресс при работе с большими данными.

Теперь выполним матричное умножение с помощью трёх вложенных циклов — стандартный способ на чистом Python:

In [None]:
# Создаём результирующую матрицу, заполненную нулями
C = np.zeros((n, n))

# Внешний цикл по строкам результата
for i in tqdm(range(n)):
    # Второй цикл по столбцам результата
    for j in range(n):
        # Внутренний цикл для вычисления скалярного произведения
        for k in range(n):
            # Накопление суммы произведений
            C[i, j] += A[i, k] * B[k, j]

Система выполняет 27 миллиардов операций умножения и сложения. Каждую операцию Python обрабатывает отдельно, с проверкой типов и накладными расходами интерпретатора. Индикатор `tqdm` показывает медленный прогресс — выполнение может занять десятки минут или даже часов.

Теперь выполним точно такую же операцию, используя встроенную функцию NumPy:

In [None]:
# Выполняем матричное умножение одной строкой
C = A @ B

Оператор @ выполняет матричное умножение за доли секунды. NumPy делает это значительно быстрее за счёт библиотек на C и Fortran, которые используют векторизацию процессора и эффективное кэширование данных.