# Машинное обучение

Машинное обучение - метод решения задаче не через прямые инструкции и правила, а через нахождение зависимостей на множестве примеров.
Вы даете на вход алгоритму наблюдаемые примеры, он учится находить в них зависимости.


## Типы обучения

Мы будем рассматривать два класса:

**Обучение с учителем** - это обучение на парах набор признаков + правильный ответ.

Примеры:

1. Есть набор размеченных текстов, где есть пары оригинал текста + метка спам или не спам.
2. Определение части речи, где есть слова + метки части речи к каждому
3. Есть характеристики домов (кол-во комнат, квадратные метры) и цена, задача - научиться по параметрам предсказывать цену

**Обучение без учителя** - это обучение, когда нет правильного ответа, а просто есть набор признаков.

1. Есть много текстов, нужно найти, какие есть группы похожих между собой текстов в этом наборе


Обозначим данные (признаки) за **X**, а целевую переменную, которую будем предсказыва за **y**.


## Выборка

Выборка - это набор данных, то есть каких-либо описаний объектов.
Как правило весь набор данных бьют на три выборки:
- обучающая, на ней мы обучаем нашу модель
- тестовая, с помощью нее мы подбираем гиперпараметры модели
- валидационная, на ней проверяют итоговое качество модели

## Задачи и методы машинного обучения


### Регрессия

Регрессия - это задача предсказания некоторого числа: как из набора признаков (чисел) получить желаемое число.

Например, по площади квартиры и кол-ву комнат предсказать стоимость. Здесь площадь и число комнат - это признаки или независимые переменные, а цена - это целевая (независимая) переменная, которую мы бдет предсказывать. 


**Линейная регрессия**

Линейная регрессия - это метод, который стремится найти коэффициенты, с которыми можно сложить наши признаки, чтобы получить нашу целевую переменную (**y**). Ищем коэффициенты в линейном уравнении типа $$b0 + b1*x1 ... = y$$

**X** - числа, например, количество комнат, площадь, наличие кондиционера (0 - нет, 1 - да)
**y** - число, например, цена

Например, найти такие b0, b1, b2, чтобы на наших данных формула

$$b0 + b1 * nrooms + b2 * sqrm = price$$

b0 - свободный член в линейном уравнении

<img src="https://upload.wikimedia.org/wikipedia/commons/b/be/Normdist_regression.png">
Источник: Википедия


### Классификация

Классификация - это задача разделения на группы. Можно делить на две группы или на несколько.

Например:

- классификация спам / не-спам
- анализ тональности (негативный, нейтральный, позитивный)
- классификация новостей по рубрикам (политика, наука, культура)

**X** - числа или категории (зависит от метода)
**y** - категория


**Логистическая регрессия**

Логистическая регрессия в чем-то напоминает линейную, но она предсказывает не число, а вероятность наступления события. Обычно используется для бинарной классификации (на два класса), где вероятность - это вероятность принадлежать ко второму классу, а 1 - y = вероятность принадлежать к первому. Может быть использована с доработками и для многоклассовой классификации.

Например, классификация спама: получить вероятность того, что это спам

У нас есть результат работы TF-IDF и на основании этих признаков мы предсказываем вероятность того, что это спам.


**KNN - метод ближайших соседей**

KNN запоминает координаты каждого объекта, значения его признаков - это координаты точки в многомерном пространстве (если 3 признака, то трехмерное, если N, то N-мерное, как с векторами). Берем K ближайших точек (например, 5) и смотрим, какая метка класса самая частая - это и есть наше предсказание.

Например, мы находим тексты, где распределение слов похожее и предсказываем самую популярную для них рубрику. Допустим, что у текста ближайшие соседи [политика, искусство, искусство, искусство, наука], предсказываем искусство.

<img src="https://upload.wikimedia.org/wikipedia/commons/e/e7/KnnClassification.svg?uselang=ru">
Источник: Википедия


**Decision Tree - Деревья решений**

Пытаемся найти спооб создать набор простые правил да / нет, чтобы выделить достаточно однородные группы и для объектов, которые в них попадают, давать наиболее вероятный ответ.

Могут работать с категориальными переменными и могут быть использованы для построения регрессии.

<img src="https://miro.medium.com/max/690/1*xzF10JmR3K0rnZ8jtIHI_g.png">

Источник: towardsdatascience.com

**Random Forest - Случайный лес**

Метод, который использует набор деревьев, каждое из которых получает только часть данных, что делает алгоритм более устойчивым к изменениям и решает ряд проблем.


### Кластеризация

Кластеризация - это задача нахождения групп. У нас нет правильных ответов, только набор признаков. Мы стараемся анйти группы похожих друг на друга объектов.

**K-means - метод K средних**

Метод, в котором мы задаем, сколько групп хотим найти и он подбирает центры кластеров. Любая точка относится к той группе, к центру которой она ближе всего находится.

<img src="https://upload.wikimedia.org/wikipedia/commons/e/ea/K-means_convergence.gif">

## Оценка качества модели

Чтобы понять, хорошо ил инет работает модель, нужно использовать какие-то инструменты измерения качества - это метрики. Для разных методов есть разные способы измерять качество.


### Метрики качества

**MSE / RMSE** ([root] mean squared error) - среднеквадратическая (-ичная) ошибка (или корень из нее). Используется в регрессии, чтобы оценить, насколько наша прямая (для линейной регрессии) хорошо описывает данные, то есть как далеко от нее находятся точки данных.

$$\sqrt{\frac{1}{n}\Sigma_{i=1}^{n}{\Big(\frac{xpred_i - xtrue_i}{\sigma_i}\Big)^2}}$$

<img src="https://miro.medium.com/max/1222/1*jopCO2kMEI84s6fiGKdXqg.png">

Источник: Medium

**R2** - доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, мера того, насколько лучше модель описывает различия в данных по сравнению с модель, которая просто выдает среднее по всем (дисперсия общая). Используется в регрессии.

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/6b863cb70dd04b45984983cb6ed00801d5eddc94">

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/86/Coefficient_of_Determination.svg/1920px-Coefficient_of_Determination.svg.png">
Источник: Википедия


**Accuracy** - точность, доля правильных ответов, используется в классификации.

Например, есть 10 объектов, для 8 из них модель правильно поставила метку класса, получается качество 0.8.

Если у нас классы несбалансированные, например, 99% не спам, 1% спам, то эта метрика не подходит, так как даже если мы ничего как спам не пометим, у нас уже качество 99%. А вот если 50% + 50%, тогда ок использовать такую метрику.


Дальше мы работаем с матрицей ошибок (confusion matrix). Представим, что мы работаем с задачей, где спам - это положительный ответ, не спам - это отрицательный ответ.

<img src="https://miro.medium.com/max/625/1*fxiTNIgOyvAombPJx5KGeA.png">
Источник: towardsdatascience

TP - true positive - истинно положительные - спам и помечен как спам
TN - true negative - истинно ложные - не спам и помечен как не спам
FP - false positive - ложноположительные - не спам, но помечен как спам
FN - false negative - ложноотрицательные - спам, но помечен как не спам

**Precision** - тоже точность, но это сколько правильных ответов из тех, которые помечены как спам (сколько действительно спам).

Precision = TP / (TP + FP)

Если хорошие письма не попадают в спам, то у нас идеальныцй precision, даже если мы какой-то спам пропускаем и показываем в почте.

**Recall** - полнота, сколько из всех положительных мы помечаем как положительные. Сколько спама из всего реального спама мы помечаем как спам.

Если весь спам попадает в спам, то у нас идеальный recall, даже если хорошие письма тоже в спам попадают.


**F1 Score** - метрика, которая использует оба параметра, это дает более информативную метрику. Если у нас идет перекос по precision или recall это отразится в метрике и не будет случаев, когда все подряд помечается как спам или весь спам попадает во входящие.

$$F1 = 2 * \frac{precision * recall}{precision + recall}$$

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/26/Precisionrecall.svg/800px-Precisionrecall.svg.png" style="max-height: 600px">
Источник: Википедия


### На каких данных измерять

Модель может переобучаться, то есть слишком точно настраиваться на данные из обучающей выборки или недообучаться, когда мы недостаточно точно описываем данные.

<img src="https://miro.medium.com/max/3000/1*_7OPgojau8hkiPUiHoGK_w.png">
Источник: Medium

Чтобы понять, как модель себя ведет "в дикой природе" на новых данных, которые она еще не видела, нужно отложить некоторые данные, которые модель не видит в процессе обучения. Это можно сделать несоклькими способами.

**Отложенная выборка**

Делим выборку на 2 части: обучающая и тестовая. Тестовая никак не задействована в обучении. Обучаемся один раз на обучающей и проверяем на тестовой.

Обычно соотношение 80:20, 70:30, 90:10

**Кросс-валидация**

Делим выборку на N частей и по очереди каждую из этих частей откладываем и обучаем на остальных.

**Leave One Out**

То же самое, но делим на столько частей, сколько объектов в данных. Подходит для маленьких датасетов, где мы не можем позволить себе выкидывать 10-20% данных и можем позволить себе много раз обучать модель быстро.

<img src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png">
Источник: scikit-learn.org


# Святая троица - Модель, Функция потерь, Метод оптимизации
**Цель модели по входным данным выдать ответ, на поставленный перед ней вопрос/задачу.**  
Назовем модель буквой M, по сути это функция, которая принимает на вход аргументы - наши входные данные.  
При инициализации она "знает" какую задачу ей необходимо решать, но пока что не умеет правильно это делать. Для этого ей необходимо понять и запомнить разные зависимости и закономерности во входных данных. Всю ту информацию, что она запоминает из входной выборки, она кодирует в свои же параметры, которых может быть огромное количество. Обучение модели как раз и заключается в поиске оптимальных значений параметров. Что значит оптимальность в данном случае рассмотрим ниже.

Для понимания понятия оптимальности введем функцию потерь и стоимости.   
Возьмем из нашей большой выборки (X,Y) один пример (x,y).
Подадим наш х на вход модели М и получим ее ответ, назовем его z. Тип ответа модели не важен, это может быть скаляр, вектор, массив или какой-то другой тип данных, это никак не влиеяет на общую суть. Тепрь необходимо сформулировать в виде функции что будем считать хорошим ответом,а что плохим, это и будет нашей функцией потерь L.  То есть на вход она принимает ответ модели z и правильный ответ y и должна сосчитать на сколько они похожи/сходятся/соответствуют друг другу.   

$M(x) = z$  
$L(z,y) = loss\_value$  
$M(X) = Z = [z_1, z_2, ...,z_N]$  

Теперь допустим мы пропустили всю нашу выборку через модель M, получили множество ответов Z. Посчитаем функцию потерь для каждого ответа: 

$L(Z,Y) = Loss\_Values = [loss_1, loss_2, ..., loss_N]$

Зададим следующую функцию как усреднение потерь по всей выборке:  

$ С(M, X, Y) = \frac{1}{N} * \sum\limits _{i=1}^{N} loss_i = \frac{1}{N} * \sum\limits _{i=1}^{N} L(Z_i, Y_i) = \frac{1}{N} * \sum\limits _{i=1}^{N} L(M(X_i), Y_i)$  

**С(M, X, Y)** и будет нашей функцией стоимости. И так как по сути это стредняя ошибка алгоритма, цель обучения модели свести ее к минимуму.
Еще такой момент, что здесь мы просто усредняли по выборке, но можно делать любую агрегацию - к примеру взвешенное усреднеение. Но как правило вес учитывается в функции потерь, а не стоимости.

Смотрите. Во всех функциях что мы придумали, задали - M, L, C изменяемые параметры имеет только M, так как именно ее мы обучаем. Все остальное имеет конкртеный зафиксированный вид.

Остается последний вопрос.  
Вот мы придумали функцию потерь и функцию стоимости. Поняли какая средняя ошибка модели на выборке. Но как нам теперь обучать/оптимизировать модель? Для этого необходимо задать метод оптимизации, которой подбором оптимальный параметров модели M будет минимизаровать значение функции  **С** при заданных (X, Y).

$С(M, X=fix, Y=fix)\xrightarrow[\textbf{Opt}]{\text{}} min$  

**Opt** - метод оптимизации, который позволяет подобрать оптимальные значения параметров модели М.
Методы оптимизации это целый раздел математики, он не меньше чем сам ML. Поэтому ML в основном просто использует наработки из этой области.  
**Важные замечания:**
- Методы оптимизации как правило итеративные - мы шаг за шагом изменяем параметры и ищем их оптимальный набор, а не сразу находим точку минимума.
- Так как функция стоимости является суммой слагаемых можно свести задачу к минимизации ее слагаемых. Подробнее в алгоритме обучения модели.

# Алгоритм обучения модели
Так как выборка очень большая (как правило), алгоритм обучения итеративный. Ниже описан примерный псевдокод/алгоритм.
Еще
```python
for epoch in range(some_value):
    shuffle(X,Y) # перемешиваем выбору, сохраняя соответствие x_i -> y_i
    for x_batch, y_batch in (X,Y): # Достаем данные из выборки небольшими порциям = батчами
        z_batch = M.predict(x_batch) # Делаем предсказания с помощью модели
        losses = L(z_batch, y_batch) # Считаем потери на каждом примере из батча
        params_updates = [] # Сюда будем записывать те изменения параметров модели, которые предлагает сделать шаг Оптимизации
        for loss in losses: # Рассматриваем каждый лосс отдельно
            udpates = Opt.minimize(loss) # Оптимизируем лосс, получаем дельту на которую необходимо изменить параметры Модели
            params_updates.append(udpates) # Записываем их в список предложеных изменений параметров

        params_updates = sum(params_updates) / len(params_updates) # Усредняем предложенные изменения
        M.update_params(params_updates) # Изменяем параметры модели
    
```

## Цикл работы с моделями

**1. Постановка задачи**

Определяем, какую задачу мы решаем, например, классификация, кластеризация или регрессия.

**2. Сбор и подготовка данных**

Готовим данные:

- в зависимости от метода приводим в нужный вид (категории в числа, если нужно)
- нормализуем данные, приводим к нужной шкале
- создаем свои признаки (например, переводим минуты в часы, добавляем на основе страны метку Россия / другие)
- делим выборку или настраиваем кросс-валидацию

**3. Выбираем модели и обучаем**

- подбираем параметры модели, если есть такие
- выбираем комбинации признаков, которые можно исопльзовать

**4. Измеряем качество модели, выбираем лучшую**

- оцениваем качество с помощью метрик
- выбираем модель с наиболее высоким качеством
- визуализируем резльутаты

**6. Сохраняем модель и / или результаты**

- сохраняем модель
- сохраняем предсказания на тестовой выборке, если надо
