# Формулировка задачи

1. Supervised vs Unsupervised vs Reinforcement Learning

2. Unsupervised Learning: Clustering vs Dimentionality Reduction

3. Clustering: Soft vs Hard

4. Supervised Learning: Classification vs Regression

5. Discriminative vs Generative Models

6. Structured vs unstructured prediction

Рассмотрим только **задачу классификации и регрессии**.

Пусть $\{ (x_i, y_i) \}_{i=1}^N $ это датасет независимых одинаково распределённых случайных объектов

Или:  
$X \in R^{Nxd}$ - матрица признаков, где $d$ размерность признакового пространства и $N$ - количество объектов.  
$Y \in R^{N}$ - целевая переменная (вектор)

Решая задачу классификации $Y \in \{0,1, ... C-1\}^N$, где $C$ - это количество классов 

Мы хотим найти такой алгоритм $h \in H$ который для каждого объекта находит правильный класс

**Классификация**
<img src="https://miro.medium.com/max/1200/1*4vnglpUYwoluB9jxI845gQ.png" style="height:300px">

Решая задачу регрессии $Y \in R$,

Мы хотим найти такой алгоритм $h \in H$ который для каждого объекта минимизирует e.g. среднеквадратичную ошибку

**Регрессия**
<img src="https://miro.medium.com/max/1838/0*jCUlCrU9zAwvkqWt.png" style="height:300px">

# Функция потерь

$Потери (Loss): R x R \rightarrow R $ - функция потерь, которая оценивает насколько хорошим является наше предсказание для конкретных объектов.

Некоторые функции потерь:
* $Loss(\hat y, y) = (\hat y - y)^2$
* $Loss(\hat y, y) = |\hat y - y|$
* $Loss(\hat y, y) = \frac {|\hat y - y|} {y}$
* $Loss(\hat y, y) = I[\hat y \neq y]$


Для задачи бинарной классификации $y \in {-1,1}$ переменная $z = yh(x)$ называется **отступом**. 

Положительный отступ означает успешную классификацию, негативный означает ошибку.

$|yh(x)|$ это расстояние до границы принятия решения (decision boundary), которое может быть интерпретировано как уверенность модели в классификации объекта.

<img src="https://miro.medium.com/max/1200/1*4vnglpUYwoluB9jxI845gQ.png" style="height:300px">

Функции потерь могут быть выражены в терминах отступа:

* Hinge loss   $Loss(\hat y, y) = max(0, 1 - yf(x))$ 
* AdaBoost loss  $Loss(\hat y, y) = e^{-yh(x)}$ 
* Logistic loss  $Loss(\hat y, y) = \log(1 + e^{-yh(x)})$ 
* Classification error  $Loss(\hat y, y) = I[yh(x) < 0]$  

<img src="https://i.stack.imgur.com/0pREW.png" style="height:600px">

# Минимизация эмпирического риска


$$\hat R = \sum_{i=1}^{N}Loss(x_i, y_i) $$

# No free lunch theorem

<img src="https://miro.medium.com/proxy/1*0QP3OeK7BAOWGlUcDG6VSw.png" style="height:200px">

# Смещение и разброс

<img src="https://i.pinimg.com/originals/8a/5a/dc/8a5adc940e417046663b15e25960c5cd.png">

<img src="https://neerc.ifmo.ru/wiki/images/f/fe/High_bias_learning_curve.png">

# Переобучение и генерализация

Переобучение (overfitting) - ситуация, когда предсказания модели, обученной на трейн части, хуже на тестовой. 
Означает, что модель выучила данный датасет, и не достигла генерализации данных, которых она не видела, из того же распределения 

Все модели способны на переобучение
<img src="https://i.ytimg.com/vi/BRdQcZCCSYA/maxresdefault.jpg">

В ответ существуют техники для регуляризации

В основном, они соответствуют накладыванию ограничений на пространство гипотез, что позволяет упрощать генерализацию.

# Валидация



1. $\{x_i, y_i\}_{i=1}^N$ засемплированы из совместного распределения $P(x,y)$
1. разделены на непересекающиеся сабсеты (трейн и тест)  
1. модель h(x_i; w, \theta) задана обучаемыми весами $w$ и необучаемыми гиперпараметрами $\theta$  
1. выбираем гиперпараметр $\theta=\theta_0$ и обучаем модель $$\sum_{i \in train} Loss( h(x_i; w, \theta_0), y_i) \rightarrow \min_{w}$$
1. тестируем на тестовом датасете $$\hat R(\theta_0) = \sum_{i \in test} Loss( h(x_i; w, \theta_0), y_i)$$
1. ожидаем что получили достаточную аппроксимацию ошибки генерализации $$R(\theta_0) = E_{(x,y) \sim P(x,y)} [ Loss( h(x_i; w, \theta_0), y_i)]$$
1. Как выбрать $\theta$?

Обычно мы стремимся оптимизировать гиперпараметры, попробовав несколько by значений для $\theta$ на тестовом датасете и выбрав лучшее.

Но качество на тестовых данных - недетерменированная переменная  $\hat R(\theta)$, которая может "скакать" в зависимости от конкретного разбиения

Приходит на помощь валидация

# Hold Out

<img src="https://puikjes.net/files/python/train_test_split-method-of-scikit-learn.png">

# k-fold Кросс-валидация


k = количество разбиений
разбиение = непересекающиеся подмножества данных  

Имея датасет, состоящий из m объектов, создадим k экспериментов:  
1. создаем сплит k-1:1
1. обучаемся на k-1 разбиений
1. оцениваем по k-му разбиению
1. меняем сплит

Усредняем качество на всех сплитах


<img src="https://miro.medium.com/max/1146/1*53jLClCYRiSygwLs6Rrv_g.png" style="height:400px">

In [6]:
import sklearn

In [19]:
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=100, n_classes=2)

print(X.shape)
print(y.shape)
print(y[:3])

(100, 20)
(100,)
[0 0 1]


In [22]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

print(X_train.shape)
print(X_test.shape)

(67, 20)
(33, 20)


In [24]:
from sklearn.model_selection import KFold

kf = KFold(n_splits=2)
kf.get_n_splits(X_train)

kf.split(X_train)

<generator object _BaseKFold.split at 0x7f2133866430>

In [25]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(random_state=0)
clf.fit(X_train, y_train)

clf.predict(X_test)

array([1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1,
       0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1])

In [26]:
from sklearn.metrics import accuracy_score

y_pred = clf.predict(X_test)
accuracy_score(y_test, y_pred)

0.7575757575757576

[Sklearn k-fold viz](https://scikit-learn.org/stable/auto_examples/model_selection/plot_cv_indices.html "Standford") 
