# Лекция 2: Векторные вычисления в Python с библиотекой NumPy

**NumPy** (Numerical Python) - это фундаментальная библиотека для научных и инженерных вычислений в Python. Она является основой для большинства инструментов анализа данных и машинного обучения, таких как Pandas, Scikit-learn, SciPy и многих других.

### Почему NumPy, а не стандартные списки Python?

1.  **Скорость:** Ядро NumPy написано на языке C, что делает операции с массивами на порядки быстрее, чем с обычными списками Python, которые требуют интерпретации на каждом шаге.
2.  **Эффективность по памяти:** Массивы NumPy (`ndarray`) хранят данные одного типа и занимают значительно меньше места в памяти, чем списки, которые хранят указатели на разнотипные объекты.
3.  **Удобство:** NumPy предоставляет огромное количество встроенных функций для линейной алгебры, генерации случайных чисел, статистических операций и многого другого.

**Цели нашей лекции:**
*   Познакомиться с основным объектом NumPy — `ndarray`.
*   Научиться создавать массивы различными способами.
*   Освоить индексацию, срезы и изменение формы массивов.
*   Изучить векторные математические операции и механизм вещания (broadcasting).
*   Понять, как NumPy используется в контексте машинного обучения.

### Импорт библиотеки

По общепринятому соглашению, NumPy импортируется под псевдонимом `np`.

In [None]:
import numpy as np

## 1. Создание массивов NumPy

Существует множество способов создать массив. Рассмотрим самые популярные.

### 1.1. Из списков Python
Самый простой способ — передать список или вложенные списки в функцию `np.array()`.

**Используемые функции:**
*   `np.array()`: Преобразует входные данные (например, список) в массив `ndarray`.

In [None]:
my_list = [1, 2, 3, 4, 5]
arr_1d = np.array(my_list)
print("Одномерный массив:\n", arr_1d)

my_nested_list = [[1, 2, 3], [4, 5, 6]]
arr_2d = np.array(my_nested_list)
print("\nДвумерный массив (матрица):\n", arr_2d)

Одномерный массив:
[1 2 3 4 5]
Двумерный массив (матрица):
[[1 2 3]
 [4 5 6]]


### 1.2. С помощью встроенных функций для генерации
NumPy предоставляет функции для быстрой генерации массивов без необходимости сначала создавать список Python.

**Используемые функции:**
*   `np.arange(start, stop, step)`: Создает массив чисел в заданном диапазоне с определенным шагом. Аналог встроенной функции Python `range()`, но может работать с числами с плавающей точкой.
*   `np.linspace(start, stop, num)`: Создает массив из `num` чисел, равномерно распределенных в интервале `[start, stop]`. Важно, что `stop` включается в диапазон.

In [None]:
print(f"Массив от 0 до 9: {np.arange(10)}")
print(f"Массив от 5 до 15 с шагом 2: {np.arange(5, 16, 2)}")

Массив от 0 до 9: [0 1 2 3 4 5 6 7 8 9]
Массив от 5 до 15 с шагом 2: [ 5  7  9 11 13 15]


In [None]:
print(f"Массив из 10 чисел от 0 до 5: {np.linspace(0, 5, 10)}")

Массив из 10 чисел от 0 до 5: [0.         0.55555556 1.11111111 1.66666667 2.22222222 2.77777778
 3.33333333 3.88888889 4.44444444 5.        ]


Для создания стандартных матриц (нулевых, единичных) существуют специальные функции.

**Используемые функции:**
*   `np.zeros()`: Создает массив, заполненный нулями.
*   `np.ones()`: Создает массив, заполненный единицами.
*   `np.eye()`: Создает единичную матрицу (identity matrix).

In [None]:
# Матрица, заполненная нулями. Форма передается в виде кортежа (tuple)
print(f"Матрица 3x4 из нулей:\n{np.zeros((3, 4))}")

Матрица 3x4 из нулей:
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [None]:
# Матрица, заполненная единицами
print(f"Матрица 2x3 из единиц:\n{np.ones((2, 3))}")

Матрица 2x3 из единиц:
[[1. 1. 1.]
 [1. 1. 1.]]


In [None]:
# Единичная матрица (единицы на главной диагонали, остальные нули)
print(f"Единичная матрица 4x4:\n{np.eye(4)}")

Единичная матрица 4x4:
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


### 1.3. Генерация случайных данных

Модуль `np.random` — незаменимый инструмент для создания данных. Мы зафиксируем `seed` для того, чтобы наши "случайные" результаты были воспроизводимы, что важно для отладки кода.

**Используемые функции:**
*   `np.random.seed()`: Инициализирует генератор случайных чисел. 
*   `np.random.rand()`: Генерирует числа из равномерного распределения в диапазоне [0, 1).
*   `np.random.randn()`: Генерирует числа из стандартного нормального распределения (Гауссова) с математическим ожиданием 0 и стандартным отклонением 1.
*   `np.random.randint()`: Генерирует случайные целые числа в заданном диапазоне.

In [None]:
np.random.seed(42) # Фиксируем seed для воспроизводимости результатов

In [None]:
print(f"Матрица 3x3 из равномерного распределения [0, 1):\n{np.random.rand(3,3)}")

Матрица 3x3 из равномерного распределения [0, 1):
[[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]
 [0.05808361 0.86617615 0.60111501]]


In [None]:
print(f"Матрица 2x4 из стандартного нормального распределения:\n{np.random.randn(2,4)}")

Матрица 2x4 из стандартного нормального распределения:
[[ 0.70807258  0.02058449  0.96990985 -0.2021133 ]
 [-0.34791215  0.15634897  1.23029068  1.20237985]]


In [None]:
print(f"Матрица 4x5 случайных целых чисел от 10 до 50:\n{np.random.randint(10, 50, size=(4,5))}")

Матрица 4x5 случайных целых чисел от 10 до 50:
[[14 33 28 23 20]
 [49 24 19 14 34]
 [22 24 20 20 42]
 [30 31 10 39 12]]


## 2. Атрибуты, индексация и изменение формы

### 2.1. Атрибуты массива
Каждый массив NumPy имеет важные атрибуты, которые описывают его структуру.

**Используемые атрибуты:**
*   `.shape`: Кортеж, описывающий размер массива по каждой оси (измерению).
*   `.ndim`: Целое число, количество осей (измерений) массива.
*   `.dtype`: Тип данных элементов, хранящихся в массиве.

In [None]:
arr = np.arange(10).reshape(2, 5)

print(f"Форма (shape): {arr.shape}")
print(f"Размерность (ndim): {arr.ndim}")
print(f"Тип данных (dtype): {arr.dtype}")

# `len()` для массива NumPy возвращает размер по первой оси
print(f"Длина (len): {len(arr)}")

Форма (shape): (2, 5)
Размерность (ndim): 2
Тип данных (dtype): int64
Длина (len): 2


### 2.2. Индексация и срезы (Slicing)
Это один из самых мощных инструментов NumPy. Позволяет гибко получать доступ к элементам и частям массива.

In [None]:
matrix = np.arange(1, 13).reshape(3, 4)
print(f"Матрица:\n{matrix}")

Матрица:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [None]:
# Получение одного элемента [строка, столбец]
print(f"Элемент в строке 1, столбце 2: {matrix[1, 2]}")

Элемент в строке 1, столбце 2: 7


In [None]:
# Получение всей строки
print(f"Вся строка 0: {matrix[0, :]}") # : означает 'все элементы'

Вся строка 0: [1 2 3 4]


In [None]:
# Получение всего столбца
print(f"Весь столбец 1: {matrix[:, 1]}")

Весь столбец 1: [ 2  6 10]


In [None]:
# Получение подматрицы
# Строки с 1 по 2 (включительно), столбцы с 1 по 2 (включительно)
submatrix = matrix[1:3, 1:3]
print(f"Подматрица:\n{submatrix}")

Подматрица:
[[ 6  7]
 [10 11]]


### 2.3. Изменение формы (Reshape) и конкатенация

Часто возникает необходимость изменить структуру массива или объединить несколько массивов.

**Используемые функции и методы:**
*   `.reshape()`: Изменяет форму массива, не меняя его данные. Общее количество элементов должно сохраняться.
*   `np.vstack()`: Объединяет массивы по вертикали (vertical stack). Массивы ставятся друг на друга.
*   `np.hstack()`: Объединяет массивы по горизонтали (horizontal stack). Массивы ставятся рядом друг с другом.

In [None]:
arr = np.arange(9)
matrix = arr.reshape(3, 3)
print(f"Матрица 3x3:\n{matrix}")

Матрица 3x3:
[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [None]:
# Попытка изменить форму с неверным количеством элементов вызовет ошибку
try:
    arr.reshape(4, 4)
except ValueError as e:
    print(f"Ошибка: {e}")

ValueError: cannot reshape array of size 9 into shape (4,4)

In [None]:
# np.vstack (vertical stack)
v_stack = np.vstack((matrix, matrix))
print(f"Вертикальное объединение (vstack):\n{v_stack}")

Вертикальное объединение (vstack):
[[0 1 2]
 [3 4 5]
 [6 7 8]
 [0 1 2]
 [3 4 5]
 [6 7 8]]


In [None]:
# np.hstack (horizontal stack)
h_stack = np.hstack((matrix, matrix))
print(f"Горизонтальное объединение (hstack):\n{h_stack}")

Горизонтальное объединение (hstack):
[[0 1 2 0 1 2]
 [3 4 5 3 4 5]
 [6 7 8 6 7 8]]


## 3. Операции над массивами

Сила NumPy — в векторизации: операции применяются ко всему массиву сразу, без необходимости писать циклы.

### 3.1. Поэлементные операции
Стандартные арифметические операторы (`+`, `-`, `*`, `/`, `**`) работают поэлементно.

In [None]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[10, 20], [30, 40]])
print(f"A + B:\n{A + B}")
print(f"A * B:\n{A * B}")

A + B:
[[11 22]
 [33 44]]
A * B:
[[ 10  40]
 [ 90 160]]


### 3.2. Вещание (Broadcasting)
Broadcasting — это механизм, который позволяет NumPy выполнять операции над массивами разной формы. Меньший массив "растягивается" (без реального копирования в памяти), чтобы соответствовать форме большего.

In [None]:
matrix = np.arange(9).reshape(3, 3)
vector = np.array([10, 20, 30])
print(f"Матрица:\n{matrix}")
print(f"Вектор: {vector}")

# Вектор формы (3,) прибавляется к матрице формы (3, 3).
# NumPy 'растягивает' вектор, как если бы он был скопирован для каждой строки.
result = matrix + vector
print(f"Результат сложения:\n{result}")

Матрица:
[[0 1 2]
 [3 4 5]
 [6 7 8]]
Вектор: [10 20 30]
Результат сложения:
[[10 21 32]
 [13 24 35]
 [16 27 38]]


### 3.3. Матричное умножение
Не путайте поэлементное умножение (`*`) с матричным умножением, которое выполняется по правилам линейной алгебры. Для этого есть три основных способа.

**Используемые операторы и функции:**
*   `@` (оператор): Современный и предпочтительный способ.
*   `np.dot()`: Классическая функция для скалярного/матричного произведения.
*   `.dot()` (метод): Метод самого `ndarray` объекта.

In [None]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[10, 20], [30, 40]])

print(f"Способ 1 (@):\n{A @ B}\n")
print(f"Способ 2 (np.dot):\n{np.dot(A, B)}\n")
print(f"Способ 3 (.dot):\n{A.dot(B)}\n")

Способ 1 (@):
[[ 70  90]
 [150 200]]
Способ 2 (np.dot):
[[ 70  90]
 [150 200]]
Способ 3 (.dot):
[[ 70  90]
 [150 200]]


## 4. Условный выбор (Boolean Indexing)

Позволяет фильтровать массив на основе условия. Сначала создается "маска" — массив из `True`/`False`, которая затем используется для выбора элементов.

In [None]:
arr = np.arange(11)
print(f"Исходный массив: {arr}")

# Создаем булеву маску
mask = arr > 4
print(f"Условие (маска) > 4: {mask}")

# Применяем маску для фильтрации
print(f"Элементы > 4: {arr[mask]}")

# Комбинирование условий: & (логическое И), | (логическое ИЛИ)
combined_mask = (arr > 2) & (arr < 8)
print(f"Элементы, которые > 2 И < 8: {arr[combined_mask]}")

Исходный массив: [ 0  1  2  3  4  5  6  7  8  9 10]
Условие (маска) > 4: [False False False False False  True  True  True  True  True  True]
Элементы > 4: [ 5  6  7  8  9 10]
Элементы, которые > 2 И < 8: [3 4 5 6 7]


## 5. Агрегирующие функции

NumPy предоставляет множество функций для вычисления статистик по массиву. Ключевым является параметр `axis`.
*   `axis=0`: операция применяется к элементам каждого **столбца**.
*   `axis=1`: операция применяется к элементам каждой **строки**.

In [None]:
matrix = np.arange(1, 10).reshape(3, 3)
print(f"Матрица:\n{matrix}\n")

print(f"Сумма всех элементов: {matrix.sum()}")
print(f"Сумма по столбцам (axis=0): {matrix.sum(axis=0)}")
print(f"Сумма по строкам (axis=1): {matrix.sum(axis=1)}")
print(f"Среднее значение по столбцам (axis=0): {matrix.mean(axis=0)}")

Матрица:
[[1 2 3]
 [4 5 6]
 [7 8 9]]

Сумма всех элементов: 45
Сумма по столбцам (axis=0): [12 15 18]
Сумма по строкам (axis=1): [ 6 15 24]
Среднее значение по столбцам (axis=0): [4. 5. 6.]


## 6. NumPy в Машинном Обучении

Почему мы уделяем NumPy столько внимания? Потому что это "рабочая лошадка" всего машинного обучения на Python.

1.  **Представление данных:** Любой датасет, с которым мы будем работать, в конечном итоге будет представлен как массив NumPy. Матрица признаков `X` — это 2D массив, где строки — это объекты, а столбцы — признаки. Вектор целевой переменной `y` — это 1D массив.

2.  **Производительность:** Алгоритмы машинного обучения включают в себя огромное количество математических операций. Выполнение их в циклах Python было бы невыносимо медленным. Векторизованные операции NumPy позволяют выполнять эти расчеты практически с той же скоростью, как если бы код был написан на C или Fortran.

3.  **Математическая основа:** Линейная алгебра — это язык машинного обучения. Скалярные произведения, матричное умножение, нахождение обратных матриц — все эти операции, лежащие в основе линейной регрессии, метода главных компонент и многих других алгоритмов, эффективно реализованы в NumPy.

4.  **Интеграция с экосистемой:** Библиотеки, которые мы будем использовать дальше (Pandas, Scikit-learn), построены на основе NumPy и используют его массивы в качестве основного формата для обмена данными.