<p style="align: center;">
    <img align=center src="../img/dls_logo.jpg" width=500 height=500>
</p>

<h1 style="text-align: center;">
    <b>Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ</b>
</h1>

---

# 1. Основные понятия и пример

Машинное обучение - наука о восстановлении закономерностей по частным данным. Рассмотрим на примере, что под этим имеется в виду.

<img src="../img/ml_basics_farmer.jpg" width=400>

Предположим, что вы - начинающий фермер-любитель, и занимаетесь выращиванием картофеля. Ваш огород разделён на несколько участков, и уже прошёл месяц с того момента, как вы посадили картофель. К сожалению, в этом году особенно много колорадских жуков, а оставшегося у Вас средства от вредителей хватит только на один из этих участков. Жуки очень очень его боятся, и трогать обработанный участок не будут. Однако все остальные картофельные кусты они съедят подчистую. Поэтому Вы хотите узнать, какой из участков принесёт вам больше всего килограмм картофеля.

Иными словами, Вы хотите по каждому из участков научится определять, сколько картофеля он принесёт. Однако, к вашему сожалению, вы не имеете никакого понятия, от чего это может зависеть. Однако, к вашему счастью, в прошлом году вы, по какой-то причине, решили измерить площадь и число кустов картофеля на каждом из участков на соседнем огороде, а также записали, каков был урожай на каждом из них. Если бы вы могли, **используя эти данные, восстановить закон**, по которому площадь и число кустов на участке переходит в киллограмы картофеля, то ваш урожай был бы спасён!

## 1.1 Термины

Формулируя задачу в терминах машинного обучения, множество участков с картофелем (как наших, так и соседа) будет называться **пространством объектов**, и обозначаться через $\mathbb{X}$ (обратите внимание на шрифт). А величина, которую мы хотим научиться определять - в данном случае, количество килограмм картофеля при сборе урожая - **целевой переменной**. Множество значений целевой переменной - в данном случае, это вещественные неотрицательные числа - обозначается через $\mathbb{Y}$.

Множество объектов, для которых нам известно значение целевой переменной - в данном случае это множество участков на соседнем огороде - называются **обучающей выборкой**, для которой используется обозначение $X = \{ x_1, \ldots, x_n\}$, где $x_i$ - это участок $i$. Соответственно, значения целевой переменной $y_1, \ldots, y_n$ - объёмы урожая на каждом из этих участков.

Непонятно, как можно построить формальный закон, оперируя такими неясными с математической точки зрения объектами как участок с картофелем. Поэтому каждому объекту выборки соотносят набор параметров, который этот объект описывает, который называют **вектором признаков**. В нашем примере это площадь участка и число кустов на нём. Обычно объект отождествляют с его вектором признаков, поэтому будем считать, что $x_i$ - это набор признаков объекта $i$.

Цель задачи машинного обучения - найти такую функцию $f$, переводящую вектор признаков в целевую переменную - площадь и число кустов в число киллограммов - что её значения будут "наиболее близко" приближать истинные значения целевой переменной. Такая функция $f$ называется **моделью**. Конечно, в идеале нам хотелось бы, чтобы $f$ всегда давала точный ответ, но такой точности почти никогда не получается добиться.

Но что означает "наиболее близко"? Которая ошибается не больше, чем 1 киллограмм? Но таких функций может быть много. Какую из них выбрать?

Заметим, что судить о "точности" нашей модели мы можем только по обучающей выборке, так как только для неё мы знаем истинные ответы. Поэтому в машинном обучении используется подход, основанный на так называемой **функции потерь**.

Функция потерь $L(f, X, y)$ даёт нам численную оценку "точности" нашей модели на выборке $X$. То есть, формально говоря, она сопоставляет паре из модели и выборки число. Очень часто используется так называемая **среднеквадратичная ошибка**:

$$
    L(f, X, y) = \frac{1}{n}\sum\limits_{i=1}^{n} (f(x_i) - y_i)^2
$$

Весьма логично было бы взять такую функцию $f$, для которой значение функции потерь было бы минимальным. Но тут нас встречает ещё она проблема. В принципе, никто не мешает нам взять такую функцию $f$, что её значение на векторах из обучающей выборки будут в точности равны целевой переменной, а на всех остальных - $0$. Однако пользы от такой модели никакой, поскольку когда мы попытаемся предсказать с её помощью значение $y$ на новых данных, мы получим $0$.

Поэтому множество всех возможных моделей ограничивают каким-то семейством (множеством) $\mathcal{A}$, в котором потом и ищут наилучшую модель.

Таким образом, в общей форме задача машинного обучения звучит так: найти такую функцию $f$ из $\mathcal{A}$, что значение функции потерь $L$ на выборке $X, y$ было бы минимальным, или

$$
    f_* = \arg \min_{f \in \mathcal{A}} L(f, X, y)
$$

Задачи такого рода называются задачами оптимизации, или минимизации.

Обычно семейство $\mathcal{A}$ можно параметризовать, то есть поставить в соответствие каждой модели из $\mathcal{A}$ какое-то число или вектор из чисел $w$. Тогда соответствующая задача оптимизации будет выглядеть следующим образом:

$$
    w_* = \arg \min_{w \in \mathbb{W}} L(f_w, X, y)
$$

## 1.2 Пример

Разберём это на нашем примере. В нашем примере вектор признаков - это пара из площади и числа кустов, которые обозначим за $s_i$ и $k_i$. В качестве функции потерь будем рассматривать среднеквадратичную ошибку. Наконец, в качестве множества $\mathcal{A}$ будем использовать **линейные модели**, то есть функции вида:

$$
    f(s, k) = a + bs + ck
$$

где $a, b, c$ - произвольные вещественные числа.

Заметим, что на таком множестве можно ввести очень естественную параметризацию, а именно $w \in \mathbb{R}^3$:

$$
    f_w(s, k) = w_0 + w_1s + w_2k
$$

Отметим, что зачастую параметр $w$ записывают как аргумент для функции $f$:

$$
    f(w, s, k) = w_0 + w_1s + w_2k
$$

Пожалуйста, будте внимательны и не путайте параметры и аргументы функции.

Теперь запишем это в виде задачи оптимизации:

$$
    w_* = \arg \min_{w \in \mathbb{R}^3} L(f_w, X, y) = 
    \arg \min_{w \in \mathbb{R}^3}  \frac{1}{n} \sum\limits_{i=1}^{n}(f_w(x_i) - y_i)^2 =
    \arg \min_{w \in \mathbb{R}^3}  \frac{1}{n} \sum\limits_{i=1}^{n}(w_0 + w_1s + w_2k - y_i)^2
$$

### 1.2.1 А как найти минимум?

В самом деле, всё что нас отделяет от успеха - это, собственно, поиск минимума. К сожалению, в общем случае выписать явную формулу не удаётся, и приходится использовать приближённые методы - такие, как градиентный спуск. Вообще, методы оптимизации - это отдельная большая наука. Но, тем не менее, если достаточно сильно упростить задачу, решить её сможет любой школьник.

###  1.2.2 Очень простой пример

Упростим постановку задачи, упростив множество $\mathcal{A}$. В принципе, никто не запрещает нам игнорировать один из наших признаков - скажем, число кустов. Также избавимся от свободного члена $w_0$. Тогда наша функция приобретёт вид:

$$
f_w(s) = ws, w \in \mathbb{R}
$$

Подставим это в функцию потерь:

$$
L(w, X) = \frac{1}{n} \sum\limits_{i=1}^{n} (ws_i - y_i)^2
$$

Раскроем скобки:
$$
L(w, X) = \frac{1}{n} \sum\limits_{i=1}^{n} (s_i^2 w^2 - 2 y_i s_i w + y_i^2)
$$

Перегруппируем слагаемые:

$$
L(w, X) = \frac{1}{n}( \sum\limits_{i=1}^{n} (s_i^2) w^2 - \sum\limits_{i=1}^{n}(2 y_i s_i) w + \sum\limits_{i=1}^{n} (y_i^2))
$$

Теперь обозначим:
$$
a = \frac{1}{n} \sum\limits_{i=1}^{n} (s_i^2),
b = -\frac{1}{n} \sum\limits_{i=1}^{n}(2 y_i s_i),
c = \frac{1}{n} \sum\limits_{i=1}^{n} (y_i^2)
$$

Таким образом:

$$
L(w, X) = aw^2 + bw + c
$$

Как мы видим, мы получили обычный квадратный трёхчлен от $w$. Как всем известно, если $a > 0$ (что, как можно видеть, в данном случае выполняется), то его минимум достигается в точке:

$$
w_* = \frac{-b}{2a} = \frac{\frac{1}{n} \sum\limits_{i=1}^{n}2 y_i s_i}{\frac{2}{n} \sum\limits_{i=1}^{n} s_i^2} = 
\frac{\sum\limits_{i=1}^{n}y_i s_i}{\sum\limits_{i=1}^{n} s_i^2} 
$$

К сожалению, очевидно, что сколь-нибудь нетривиальную зависимость выразить таким способов не выдет, однако даже это хороший пример того, как нужно менять параметры модели, чтобы она предсказывала оптимально (с точки зрения выбранной функции потерь). 

То есть суть **обучения** состоит в том, чтобы **изменить параметры** модели из выбранного семейства таким образом, чтобы она предсказывала **оптимально** с точки зрения **выбранной функции потерь**, для этого используется определённый **алгоритм оптимизации**.

# 2. Заключение

Рассмотренная нами задача относится к **задаче регрессии** - то есть её целевая переменная принимает значения в $\mathbb{R}$. Кроме неё существует множество других задач, например задача классификации.

Кроме того, эта задача является примером задачи **обучения с учителем** - то есть, нам даны обучающие примеры с известными значениями целевой переменной. Задачи, в которых целевые переменные неизвестны, относятся к задачам **обучения без учителя**.

Мир машинного обучения чрезвычайно разнообразен, поэтому в нашем курсе мы сможем познакомить вас лишь с его небольшой частью, перед тем, как углубиться в нейронные сети.

# 3. Полезные ссылки

* [Больше о разных направлениях машинного обучения](http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение)

* [Лекции Евгения Соколова](https://github.com/esokolov/ml-course-msu/tree/master/ML15/lecture-notes)

# 4. Практическое занятие

[**Данные**](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps) - информация о приложениях из AppStore.

Поставим регрессионную задачу - предсказать рейтинг приложения.

## Анализ данных

Начнем с самой важной части - посмотрим на данные. 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# загрузим данные и посмотрим на небольшую часть
data = pd.read_csv('data/AppleStore.csv', index_col=0)
data.head()

Выделим фичи из датасета и поделим их на числовые и категориальные:

In [None]:
num_cols = [
    'size_bytes',
    'price',
    'rating_count_tot',
    'rating_count_ver',
    'sup_devices.num',
    'ipadSc_urls.num',
    'lang.num',
    'cont_rating', # эта фича - не числовая, а порядковая, но мы все равно возьмем ее как числовую для удобства
]

cat_cols = [
    'currency',
    'prime_genre'
]

target_col = 'user_rating'

cols = num_cols + cat_cols + [target_col]

In [None]:
data = data[cols]
# возраст записан не в виде числа, исправим это, вырезав последний символ и скастовав к числу
data['cont_rating'] = data['cont_rating'].str.slice(0, -1).astype(int)
data.head()

In [None]:
# посмотрим на пропущенные значения
data.isna().mean()

In [None]:
# посмотрим на распределение категориальных фичей
for col in cat_cols:
    print(f"{col} DISTRIBUTION")
    print(data[col].value_counts())
    print('-' * 25)

In [None]:
# как мы видим, в колонке currency только одно значение, можно колонку убрать
data = data.drop(columns=['currency'])
cat_cols.remove('currency')

In [None]:
# посмотрим на распредление величин
data.hist(column=num_cols+cat_cols+[target_col], figsize=(14, 10))
plt.show()

А теперь посмотрим на корреляции между фичами:

In [None]:
data.corr().style.background_gradient(cmap='coolwarm').set_precision(2)

И двойные графики:

In [None]:
pd.plotting.scatter_matrix(data, c=data[target_col], figsize=(15, 15), marker='o', hist_kwds={'bins': 20}, s=10, alpha=.8)
plt.show()

**Упражнение**: Мы только что посмотрели на данные, какой из посмотренных графиков говорит, что мы вряд ли сможем сделать хорошую модель?

**Ответ:** ???

В данном случае фичей мало, поэтому мы легко смогли посмотреть на них. Обычно фичей намного больше и построить такие графики для пар фичей не получится. Тогда в первую очередь можно посмотреть на корреляцию фичей с таргетом.

## Подготовка данных

### Очистка

Данные достаточно чистые, в них вряд ли есть какие-то ошибки и не получается с первого взгляда найти выбросы (**outliers**). Поэтому и очищать особо нечего. Но в реальной жизни, ваши данные скорее всего будут полны мусора.

Чаще всего нам пришлось бы убирать выбросы, исправлять очевидные ошибки и т.д.

### Создание фичей

Чем сложнее зависимость между фичей и таргетом, тем более сложная модель потребуется, чтобы эту зависимость использовать. Почему бы просто не выбрать семейство самых гибких моделей? Проблема в том, что без большого количества данных для обучения будет происходить **overfit**. Это значит, что модель выучит зависимости, которые случайно появились в обучающих данных из-за ограниченного размера выборки. Такая модель будет хорошо работать на обучающей выборке, но будет плохо справляться с реальной задачей.

Используя человеческие знания об устройстве мира, мы можем упростить такую зависимость, создав новые фичи. На самом деле, можно даже не использовать человеческие знания, а просто применить какой-нибудь алгоритм. Например, если у нас есть фичи $x_1, x_2, \ldots, x_n$, то мы можем добавить новые фичи вида:

$$
x_{newij} = x_i x_j, i \ne j
$$

и понадеяться, что это улучшит предсказания.

In [None]:
# добавим категориальную фичу, которая говорит, бесплатное приложение или нет
data['is_free'] = (data['price'] == 0)
cat_cols.append('is_free')
data.head()

### Работа с категориальными фичами

Большинство алгоритмов не принимает категориальные фичи в чистом виде и нужно из как-то закодировать.

Из популярных алгоритмов с категориальными фичами умеет работать **градиентный бустинг**. У этого алгоритма есть много реализаций и среди известных мне с категориальными фичами в виде строк/булевых значений/... умеет работать только `catboost` (библиотека от Яндекса, реализующая градиентный бустинг). Для `xgboost` и `lightgbm` же категориальные фичи нужно превратить в числа. Градиентный бустинг в `sklearn` вообще не умеет по-особенному обрабатывать категориальные фичи и их нужно кодировать как и для других алгоритмов.

#### One-hot-encoding

Самый простой способ закодировать категориальные фичи - **one hot encoding**. Представьте, что у нас есть категориальная фича `prime_genre` с возможными значениями

```python
['Games', 'Entertainment', 'Education', 'Photo & Video']
```

Мы можем создать 4 новые бинарные фичи для каждого из столбцов:

```python
'Entertaiment' -> [0, 1, 0, 0]
```

В `pandas` очень удобно использовать `get_dummies` для **one-hot-encoding**.

In [None]:
a = pd.DataFrame.from_dict({'categorical': ['a', 'b', 'a', 'c']})
a

In [None]:
pd.get_dummies(a)

Теперь добавьте в датафрейм колонки для всех категориальных фичей и обновите список категориальных фичей:

In [None]:
# put your code here

In [None]:
cat_cols_new = []
for col_name in cat_cols:
    cat_cols_new.extend(filter(lambda x: x.startswith(col_name), data.columns))
cat_cols = cat_cols_new

### Уменьшение размерности

Часто бывает ситуация, когда данные имеют слишком большую размерность, особенно после one-hot-encoding. В таком случае могут помочь алгоритмы для снижения размерности данных. Один из таких алгоритмов - PCA.

<img src="https://s3.amazonaws.com/files.dezyre.com/images/Tutorials/Principal+Component+Analysis.jpg">
Source: https://www.dezyre.com/data-science-in-python-tutorial/principal-component-analysis-tutorial

В этом алгоритме мы находим перпендикулярные направления, вдоль которых имеется наибольшая вариация данных (на картинке можно увидеть такие векторы), выбираем из таких направлений $k$ с самой большой вариацией и в качестве новых фичей берем проекции точек на эти направления.

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=20)
pca.fit(data[num_cols + cat_cols])
# Выход pca - numpy матрица, положим ее в новую переменную со всеми фичами
X = pca.transform(data[num_cols + cat_cols])
# Или есть более простой способ 
X = pca.fit_transform(data[num_cols + cat_cols])

## Разделение на train/test

После того, как мы обучили нашу модель нам нужно как-то понять, насколько она хорошо работает. Выше мы уже говорили про переобучение на данные, с которыми сеть обучалась. Из-за такого переобучения мы не сможем посчитать адекватно узнать точность предсказаний, если проверим точность на тех же данных, на которых обучались. Чтобы с этим бороться обучающую выборку обычно делят на две части train и test. На первой мы будем обучать модель, а на второй проверять, насколько хорошо модель работает. Размер тестовой выборки в 30-40% - неплохой выбор.

Иногда данных слишком мало, чтобы жертвовать ими на тестовую часть. Тогда применяется метод, который называет cross validation. Мы посмотрим на то, как он работает в секции про оценку модели.

**На самом деле, мы сделали не совсем правильно, потому что разделение на train/test нужно делать до добавления новых фичей/их кодирования итд. Иначе возможны лики из test части в train часть.** Например, при нормализации и PCA мы работаем со всем массивом данных, а значит информация из test попадет и в train. Но для упрощения кода и понимания того, что происходит мы не поделили выборку заранее. Если бы мы все-таки разделили выборку заранее, то нужно использовать fit на train части, а transform уже на обеих.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# Задание: Загуглите как работает эта функция и поделите выборку на две части


Хорошо, теперь можно обучить модели

## Обучение

Самый хороший способ - попробовать максимум разных алгоритмов, посмотреть, какой из них лучше справляется и уже по метрикам выбрать лучший (возможно, объединить предсказания с помощью стэкинга или блендинга, о которых будет на следующем занятии).

In [None]:
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.metrics import r2_score, mean_squared_error

Наш курс про нейронные сети, поэтому мы не будем фокусироваться на алгоритмах, которые здесь представлены. Все, что нужно знать Ridge - линейная регрессия с регуляризацией. GradientBoosting и RandmForest - алгоритмы, основанные на том, что у нас есть много решающих деревьев, результаты которых потом аггрегируются, чтобы получить финальное предсказание. Как выглядит решающее дерево:
<img src="https://46gyn61z4i0t1u1pnq2bbk2e-wpengine.netdna-ssl.com/wp-content/uploads/2018/07/what-is-a-decision-tree.png">
Source: https://www.displayr.com/what-is-a-decision-tree/

Лучше поговорим про метрики. В данном случае у нас задача регрессии, поэтому мы используем две метрики MSE и R_squared. 

$$R^2 = 1 - \frac{\sum_{i=1}^{n} (y^i - y_{pred}^i)^2}{\sum_{i=1}^{n} (y^i - y_{mean})^2}$$

Другими словами, это доля объясненной вариации. Максимальное значение = 1, когда у нас есть идеальный предсказатель. Значение меньше 0 означает, что наша модель хуже, чем константая модель, которая выдает просто среднее по таргету.

In [None]:
def print_metrics(y_preds, y):
    print(f'R^2: {r2_score(y_preds, y)}')
    print(f'MSE: {mean_squared_error(y_preds, y)}')

In [None]:
# Используем обычную линейную регрессию, минимизирующую сумму квадратов ошибки
lr = LinearRegression()
lr.fit(X_train, y_train)

print_metrics(lr.predict(X_test), y_test)

In [None]:
# Используем линейную регрессию с регуляризацией - в Loss добавляется сумма квадратов коэффициентов, умноженная
# на некоторый коэффициент. Это позволяет бороться с тем, что колонки в данных могут быть линейно зависимы
# А они у нас почти навреняка линейно зависимы из-за one hot encdoing
rlr = Ridge(alpha=1)
rlr.fit(X_train, y_train)

print_metrics(rlr.predict(X_test), y_test)

In [None]:
gbr = GradientBoostingRegressor()
gbr.fit(X_train, y_train)

print_metrics(gbr.predict(X_test), y_test)

In [None]:
rfr = RandomForestRegressor()
rfr.fit(X_train, y_train)

print_metrics(rfr.predict(X_test), y_test)

Как видим, методы, основанные на линейной регрессии дали результаты хуже, чем предсказание константы, а вот методы, основанные на лесах уже сработали лучше. 

**Задание:** поиграйтесь с гиперпараметрами и улучшите предсказания моделей.

## Cross Validation

До этого мы разбирали случай, когда выбоорка заранее делится на train/test, но часто данных итак не хватает и отдавать их часть на test слишком расточительно. В такой ситуации на помощью приходит кросс валидация:
1. Выберем $k$ - количество частей, на которые разобьется наш датасет
2. for $ i = 1..k$ 
    * Обучим модель на всех частях датасета, кроме i-ой.
    * Посчитаем метрики или предсказания для i-ой части
3. Саггрегируем все все предсказания или усредним метрики

Таким образом мы сможем получить более объективные предсказания нашей модели, использовав весь датасет как train и как test, при этом не создав утечек данных.

В sklearn существуют уже готовые классы моделей, которые за нас проводят все вышеописанные действия. Но у них есть один минус - выше мы уже писали, что лики могут произойти еще на этапе обработки данных. Избежать этого при ручной разбивке датасета легко, но в случае кросс валидации придется либо сдлеать специальный объект Pipeline, в котором будет скрыта вся обработка данных, и sklearn просто вызовет его $k$ раз, либо руками выбирать индексы объектов с помощью класса KFold и самостоятельно обрабатывать данные. Мы не будем делать ни то, ни другое, но покажем, как это может быть реализовано.

Получим из кроссвалидации метрики

In [None]:
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.metrics import r2_score, mean_squared_error, make_scorer
from sklearn.model_selection import cross_validate

In [None]:
cross_validate(LinearRegression(), X, data[target_col], cv=5, 
               scoring={'r2_score': make_scorer(r2_score), 
                        'mean_squared_error': make_scorer(mean_squared_error)})

In [None]:
cross_validate(Ridge(), X, data[target_col], cv=5, 
               scoring={'r2_score': make_scorer(r2_score, ), 
                        'mean_squared_error': make_scorer(mean_squared_error)})

In [None]:
cross_validate(GradientBoostingRegressor(), X, data[target_col], cv=5, 
               scoring={'r2_score': make_scorer(r2_score, ), 
                        'mean_squared_error': make_scorer(mean_squared_error)})

In [None]:
cross_validate(RandomForestRegressor(), X, data[target_col], cv=5, 
               scoring={'r2_score': make_scorer(r2_score, ), 
                        'mean_squared_error': make_scorer(mean_squared_error)})

А еще с помощью кросс валидации можно искать гиперпараметры.

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
gbr_grid_search = GridSearchCV(GradientBoostingRegressor(), 
                               [{'n_estimators': [100, 150, 440], 'learning_rate': [0.01, 0.05, 0.1, 0.15]}],
                               cv=5,
                               error_score=make_scorer(mean_squared_error),
                               verbose=10)
gbr_grid_search.fit(X_train, y_train)

In [None]:
print(gbr_grid_search.best_params_)
print(gbr_grid_search.best_score_)
print(gbr_grid_search.best_estimator_)

**Задание**: попробуйте поиск гиперпараметров для RandomForest, разберитесь как работает KFold по документации sklearn.

In [None]:
from sklearn.model_selection import KFold

In [None]:
kf = KFold(n_splits=5)

In [None]:
model = GradientBoostingRegressor()

In [None]:
metrics = []
for train_ind, test_ind in kf.split(X_train):
    model.fit(X_train[train_ind], y_train.values[train_ind])
    pred = model.predict(X_train[test_ind])
    metrics.append(mean_squared_error(y_train.values[test_ind], pred))

In [None]:
metrics