## Что такое ML

**Machine learning** - поиск связей с помощью машинных алгоритмов. Суть заключается в обучении математической модели с целью предсказать, классифировать, кластеризовать или уменьшить размерность данных.

Обучение может быть:

* **С учителем** - когда мы подаем на вход модели исторические данные, состоящие из набора признаков и целевой метрики. Обучение с учителем решает задачи:
  - Регрессии (предсказать значение по имеющимся признакам).
  - Классификации (определить класс объекта на основе признаков и целевой метрики)
* **Без учителя** - когда на выход подаются только признаки. Решает задачи:
  - Кластеризации (разбить набор данных на кластеры, которые содержать наиболее схожие данные)
  - Уменьшения размерности данных (можем использовать не миллионы данных, а например сотни тысячи - это сократит вычислительные затраты)
* **Обучение с подкреплением**.

**Модель** - система взаимосвязей между признаками и целевой переменной, или между наблюдениями, которая максимально близко отражает действительность.

Модель обучают на основе уже имеющихся наблюдений. Модели строятся на основе разных алгоритмов в зависимости от задачи, которую нужно решить.

Наблюдения (объекты) составляют матрицу объект-признак Х и вектор целевой переменной у. Они используются для обучения модели.

Для машинного обучения используют библиотеки: numpy, pandas, scikit-learn (sklearn)

In [None]:
# Пример использования модели DecisionTreeClassifier - структура данных для классификации деревом решений.

# import the library

from sklearn.tree import DecisionTreeClassifier

# initiation the model

model = DecisionTreeClassifier()

# Теперь надо обучить модель, запустив алгоритм обучения.
# На вход модели подаем набор значений признаков Х и целевую переменную У.

y = df['target_var'] # выбрали вектор значений целевой переменной
X = df.drop(['target_var'], axis=1) # дропнули из таблицы вектор и оставили только матрицу признаков

# Для запуска обучения модели вызываем метод fit()

model.fit(X, y)

# Для построения прогнозов на основе наших данных, вызываем метод predict()

predictions = model.predict(X)

### Еще пример

In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
import matplotlib.pyplot as plt
import seaborn as sns

# Читаем данные
fb = pd.read_csv('/datasets/dataset_facebook_cosmetics.csv', sep=';')

# Разделяем данные на признаки (матрица X) и целевую переменную (y)
X = fb.drop('Total Interactions', axis=1)
y = fb['Total Interactions']

# Задаём алгоритм для модели 
model = RandomForestRegressor()

# Обучаем модель
model.fit(X, y)

# Делаем прогноз обученной моделью
predictions = model.predict(X)

# Рисуем график прогноз-факт
sns.scatterplot(x=y, y=predictions, s=15, alpha=0.6)
plt.title('График Прогноз-Факт')
plt.ylabel('Прогноз')
plt.xlabel('Факт')
plt.show()


# Пример, конечно, синтетический, т.к. прогноз делали на тех же данных, на которых обучали модель. Должно быть так: обучаем модель на исторических данных, а затем делаем прогноз на основе текущих, где целевая переменная еще неизвестна. *Это про задачу регрессии.

**Как оценить качество модели?**

Прежде чем передавать на вход модели реальные данные, нужно понять, хорошо ли она работает. Можно обучить модель, а со следующего месяца сравнивать её прогнозы с действительными целевыми переменными. Реальные данные, которые попадают на вход модели после её разработки, называют **тестовая выборка** (англ. test data). Однако перед тем как оценивать качество модели в бою, аналитики проверяют её работу на **валидационной выборке** (англ. validation data). 

Возьмём 150 000 наблюдений. Разделим их на две неравные части — например, на 100 и 50 тысяч. Передадим первую порцию данных в модель и подождём, пока алгоритм обучится на них. Затем предложим модели предсказать ответы для второй порции и сравним, насколько прогнозы совпадают с реальными значениями целевой переменной. 

Часть данных (100 тысяч), которую подают на вход модели при обучении, называют **обучающая выборка** (англ. train data). Те данные, на которых модель проверяют (50 тысяч), называют **валидационная выборка** (англ. validation data), или **отложенная**.

## Недообучение и переобучение

Когда мы обучаем модель и «подгоняем» веса на обучающей выборке, на каждом шаге проверяем, насколько близок ответ с подобранными весами тому, что есть на самом деле.
    
Так, ещё на этапе обучения модели, можно оценить ошибку — говорят, **«оценить ошибку на обучении»**. 

Подобрать веса для линейной модели или другого алгоритма так, чтобы для каждого наблюдения был правильный ответ, почти никогда не выходит. На части наблюдений всё равно получим ошибку. Её называют **ошибка на обучающей выборке**. В процессе обучения мы стараемся эту ошибку минимизировать. Если сделать это не удаётся и, скажем, сколько бы ни подбирали алгоритм, он работает лишь для половины наблюдений, значит модель **недообучилась**. Возникающую в таких случаях ошибку называют **ошибка смещения (англ. bias, «смещение»)**: ответы функции смещены относительно данных, потому что она не улавливает всех взаимосвязей. Вот отчего так бывает: 

* Слишком мало примеров или признаков;
* Слишком простая функция;
* Неверный подход к подбору разных вариантов искомой зависимости;

Такая модель будет давать одинаково плохие результаты и на обучающей, и на тестовой выборке. 

В идеальном случае модель (функция, алгоритм) должна не только редко ошибаться на обучении, но и хорошо работать на новых данных, которые она не «видела» при подгонке весов или поиске оптимальной зависимости. Говорят, что модели нужно иметь хорошую **обобщающую способность**. Тогда от применения машинного обучения будет польза. 


Будем честны: вы не пытались найти зависимости в данных и всего лишь зазубрили значения. Можно сказать, что ваша модель «идеальна», но лишь до тех пор, пока ей на вход не передадут значения признаков для новых объектов. Когда на валидационных данных модель даёт результаты значительно хуже, чем на обучающих, говорят, что она **переобучилась (англ. overfitting)**. Такую ошибку называют **ошибка разброса (англ. variance)**. Это значит, что модель слишком сильно подстраивается под данные с учётом их шума: при переобучении она учитывает не только действительные связи в данных, но и избыточную информацию.

_Переобучение: если перед тестом по электродинамике вы вместо изучения законов и формул зазубрили все задачи с ответами из решебника._

_Недообучение: вы не стали заучивать решебник и сосредоточились на формулах, но перепутали числитель и знаменатель в законе Ома._

## Разделение выборки на обучающую и валидационную

В быту аналитики часто называют валидационную выборку тестовой.

Руководитель может спросить: «Как там качество на тестовой выборке? Улучшилось?». И библиотеки в Python не отстают — функция, разделяющая выборку, называется **train_test_split() (англ. «разделение на обучающую и тестовую выборки»)**. Это может вводить в заблуждение, но не поддавайтесь панике: постарайтесь понять, что имеют в виду в каждом случае.

Как бы вы ни называли разделённые выборки, фундаментальными остаются два вопроса: 
 * **В каких пропорциях делить?** Часто делят в соотношении 80 к 20 или 70 к 30. Общее правило: обучающая выборка должна быть больше отложенной, но так, чтобы проверка метрик на тесте осталась обоснованной.
 * **Каким способом делить?** Вы ещё узнаете, что есть два способа делить выборку на обучающую и валидационную: по времени и случайно. Первый годится, когда более ранние наблюдения влияют на более поздние. Второй — когда временная структура не так важна для обучения модели.

In [None]:
#  вызвать функцию train_test_split() из модуля model_selection библиотеки sklearn:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# По умолчанию train_test_split() делит выборку в этой пропорции случайным образом.
# random_state параметр устанавливет seed для random generator функции.

## Оценка качества модели

**Коэффициент детерминации, или R-квадрат**. Так называют часть дисперсии (изменчивости) целевой переменной, которую объясняет модель. Эта метрика принимает значения от 0 до 1 и показывает, насколько сделанный моделью прогноз отражает целевую переменную. Если модель объясняет идеально (делает максимально точный прогноз), значение коэффициента детерминации будет равно 1. А если модель прогнозирует из плохо, то R-квадрат = 0.

Формула R-квадрата:

![image.png](attachment:255d1190-7c34-464f-adce-66b1af631cb9.png)

Выглядит как всегда пугающе, но смысл довольно простой. В числителе дроби суммарная квадратичная ошибка, поэтому если вы почти всегда даёте близкий прогноз, дробь будет равна 0, а значение метрики — 1.  В знаменателе суммарная разница между значением и средним. Это нужно, чтобы нормировать вашу ошибку на фактический разброс целевой переменной. Если вы сильно ошибаетесь, да и сама величина очень изменчивая, это немного скомпенсирует разницу между прогнозом и фактом.

Синтаксис R-квадрата (r2_score) простой — в качестве параметров вы передаёте реальный и спрогнозированный векторы целевой переменной:

```metrics.r2_score(y_test, y_pred) # Функция возвращает значение r^2 score.```

Пример обучения и валидации с оценкой r^2:

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score

# прочитайте данные с атрибутами аккаунтов компаний и активностью на них
fb = pd.read_csv('/datasets/dataset_facebook_cosmetics.csv', sep = ';')

# разделите данные на признаки (матрица X) и целевую переменную (y)
X = fb.drop('Total Interactions', axis = 1)
y = fb['Total Interactions']

# разделяем модель на обучающую и валидационную выборку
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# зададим алгоритм для нашей модели 
model = RandomForestRegressor(random_state=0) # задайте модель как элемент класса RandomForestRegressor (random_state=0)

# обучим модель
model.fit(X_train, y_train) # обучите вашу модель на обучающей выборке

# воспользуемся уже обученной моделью, чтобы сделать прогнозы
predictions = model.predict(X_test) # сделайте прогноз для валидационной выборки с помощью вашей модели

# оценим метрику R-квадрат на валидационной выборке и напечатаем
r2 = r2_score(y_test, predictions)
print('Значение метрики R-квадрат: ', r2)