# Предисловие

Несмотря на то, что библиотеки для анализа данных мы изучали в рамках дисциплины "Python для анализа данных", дисциплина "Машинное обучение" началась с того, что мы вспомнили основы, а также освоили продвинутые методы работы с этими библиотеками. Я буду вести конспект по ноутбуку с самой первой лекции и дополнять его новыми примерами кода, определениями и пояснениями.

## NumPy

### Как создать массив и узнать его форму и размерность

**NumPy** — это библиотека в Python, которая позволяет анализировать данные и проводить научные вычисления. Она поддерживает многомерные массивы и матрицы, а также имеет набор математических функций. Центральным объектом библиотеки NumPy является `numpy.ndarray`, или массив. Этот массив представляет собой контейнер, который хранит элементы одного типа в многомерной регулярной сетке.

Давайте начнём с создания массива. Для этого мы используем функцию `np.array()`, которая преобразует вложенные последовательности в массив NumPy.

In [None]:
# Импортируем библиотеку NumPy под общепринятым псевдонимом np
import numpy as np

# Создаём двумерный массив, или матрицу, из вложенного списка
vec = np.array([[1, 2],
               [3, 4],
               [5, 6]])

# Выводим массив, чтобы увидеть его структуру
vec

Массив, который мы только что создали, хранится в переменной `vec`. Давайте теперь исследуем его структуру, чтобы понять, с какими данными мы работаем. Для этого мы определим **размерность массива**. Используем свойство `.ndim`, которое покажет, сколько измерений содержит массив. Вспомним, что вектор имеет одну ось, а матрица — две.

In [None]:
# Запрашиваем число осей, или измерений, у массива vec
vec.ndim

Интерпретатор Python вернул нам `2`. Это означает, что `vec` — это двумерный массив, то есть матрица. 

Теперь давайте определим **форму массива**. Используем свойство `.shape`, которое вернёт кортеж, где каждое число описывает длину масива вдоль соответствующей оси.

In [None]:
# Запрашиваем форму массива vec
vec.shape

Интерпретатор Python вернул нам `(3, 2)`. Это значит, что массив имеет **3 строки** и **2 столбца**. Первый элемент кортежа соответствует оси `0`, то есть строкам, а второй — оси `1`, то есть столбцам.

Мы определили структуру данных. Это первый обязательный шаг, который поможет нам в дальнейшем.

### Что такое агрегирующие операции и параметр `axis`, и как они работают

После того, как мы определили струкуры данных, перейдём к их анализу. Для этого нам понадобятся агрегирующие операции.

**Агрегирующая операция** — это функция, которая преобразует набор значений в одно значение. Такими значениями могут быть скаляр или массив меньшей размерности.

**Вот примеры таких функций:**
- `sum()` — вычисляет сумму;
- `mean()` — вычисляет среднее;
- `min()` — вычисляет минимум;
- `max()` — вычисляет максимум.

Ключевым параметром таких функций является `axis`, или **ось**. Этот параметр определяет, вдоль какого измерения массива система применяет операцию. Если мы укажем ось, то массив схлопнется вдоль этого измерения.

- **если `axis=0`**, то операция применяется вертикально, вдоль строк. Для матрицы это означает, что действие будет выполняться над каждым столбцом. C помощью этой операции мы **анализируем объекты**.

- **если `axis=1`**, то операция применяется горизонтально, вдоль столбцов. Для матрицы это означает, что действие будет выполняться над каждой строкой. С помощью этой операции мы **анализируем характеристики объектов**.

Давайте посмотрим, как работают агрегирующие операции на примере функции `np.sum()`, которая вычисляет сумму. Сначала проверим, как суммируются все элементы, но не будем указывать ось:

In [None]:
# Суммируем все элементы массива, без учёта строк и столбцов
np.sum(vec)

Интепретатор Python вернул нам скаляр `21`. Это сумма всех элементов: `1+2+3+4+5+6`.

Теперь давайте выполним то же суммирование, но по оси `0`. Другими словами, мы попросим систему пройтись по каждому **столбцу** и посчитать сумму его элементов:

In [None]:
# Вычисляем сумму элементов по оси 0, то есть вдоль строк для каждого столбца
np.sum(vec, axis=0)

Интерпретатор Python вернул нам массив `[9, 12]`. Давайте разберём, как получился такой результат:

1. Система взяла **первый столбец**, то есть элементы с индексами `[0,0]`, `[1,0]`, `[2,0]`, которым соответствуют значения `1`, `3`, `5`, и суммировала их: `1+3+5=9`.
2. Далее система взяла **второй столбец**, то есть элементы с индексами `[0,1]`, `[1,1]`, `[2,1]`, которым соответствуют значения `2`, `4`, `6`, и также суммировала их: `2+4+6=12`.

Исходная ось `0`, то есть строки, удалилась. **У нас остался одномерный массив с результами по каждому столбцу.**

Теперь давайте выполним то же суммирование, но по оси `1`. Другими словами мы попросим систему пройтись по каждой **строке** и посчитать сумму её элементов. 

In [None]:
# Вычисляем сумму элементов по оси 1, то есть вдоль столбцов для каждой строки
np.sum(vec, axis=1)

Интепретатор Python вернул нам массив `[3, 7, 11]`. Давайте снова разберём, как получился такой результат:
1. Система взяла **первую строку**, то есть элементы с индексами `[0,0]`,`[0,1]`, которым соответствуют значения `1`,`2`, и суммировала их: `1+2=3`.
2. Далее система взяла **вторую строку**, то есть элементы с индексами `[1,0]`,`[1,1]`, которым соответствуют значения `3`,`4`, и суммировала их: `3+4=7`.
3. Затем система взяла **третью строку**, то есть элементы с индексами `[2,0]`,`[2,1]`, которым соответствуют значения `5`,`6`, и суммировала их: `5+6=1`.

Исходная ось `1`, то есть столбцы, удалилась. **У нас остался одномерный массив с результатами по каждому столбцу.**