In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Загальна постановка задач машинного навчання (навчання з учителем)

Найбільш поширений клас задач у машинному навчанні - supervised learning. Зокрема, розглянемо його детальніше постановку таких задач:

X - ознаки об'єктів, y - цільова змінна. В такому випадку, метою навчання є відновити відображення:

$ a: x \rightarrow y $, 

де $ y \in K $ (класифікація, де K - скінченна множина класів),

$ y \in R $ (регресія, цільова змінна із множини дійсних чисел)

Виникає природне питання - як оцінити розбіжність оригінального значення y та оціненого значення a(x)? Зокрема, це часто роблять функцією втрат.

Нехай (x,y) - об'єкт, взятий із вибірки даних (x - числовий вектор, y - відповідь на нього). а(x) - оцінка y за даними x.

$ L(a(x), y) $ - функція втрат (loss function), що оцінює розбіжність між a(x) та y. Наприклад, для задач регресії:

$ L(a(x), y) = (a(x) - y)^2 $ - squared error, квадратична похибка

$ L(a(x), y) = | a(x) - y | $ - absolute error, абсолютна похибка

### Метод мінімізації емпіричного ризику.

Зокрема, ідея полягає в тому, щоб підібрати таке відображення а, яке максимально відповідає навчальним даним (мінімізує сумарні втрати по всім об'єктам)

$$ \sum_{x_k \in X} L(a(x_k), y_k) \rightarrow min_{a} $$

### Лінійна регресія

В термінах, що згадані вище, можна конкретизувати задачу у випадку лінійної регресії:

$$ a(x) = (\beta, x) = \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n$$ 

або можна також, додати у формулу + $\beta_0$ - вільний член (в такому випадку, вважатимемо що $x_k = (1, x_{k1}, x_{k2},..., x_{kn})$

$$ a(x) = \beta_0 1+ \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n$$ 

Підставимо також квадратичну функцію втрат $ L(a(x), y) = (a(x) - y)^2 $

Тоді, загальна функція втрат набуває вигляд суми втрат по всім об'єктам у вибірці (отримали Метод Найменших Квадратів):

$$ L(X) = \sum_{x_k \in X} (y_k - (\beta, x_k))^2 \rightarrow min_{\beta} $$

Можемо також підставити функцію втрат "модуль" $ L(a(x), y) = | a(x)-y | $, тоді отримаємо Метод Найменших Модулів

$$ L(X) = \sum_{x_k \in X} |y_k - (\beta, x_k)| \rightarrow min_{\beta} $$

### Задача лінійної регресії має ймовірнісну природу!

Припустимо, що $y_k$ можна розділити на детерміновану та стохастичну складову:

$$ y_k = (\beta, x_k) + \epsilon_k = \beta_1 x_{k1} + \beta_2 x_{k2} + ... + \beta_n x_{kn} + \epsilon_k $$

де $\epsilon_k$ - випадкова величина, що описує відхилення від детермінованої частини.

Покладемо $ (\epsilon_1, ... \epsilon_k) $ - незалежні між собою, однаково розподілені, мають нульове математичне сподівання.

$$ \epsilon_i = y_i - (\beta, x_i) $$

### Припустимо, що відхилення мають нормальний розподіл

$$ \epsilon_i \sim N(0, \sigma^2) $$

Маємо також їх значення, що отримані із досліду  ( $ y_i - (\beta, x_i) $ ) . Оцінимо правдоподібність вибірки $(\epsilon_1, ..., \epsilon_k ) $

$$ p(\epsilon_i, \sigma^2) = \cfrac{1}{\sqrt{2\pi\sigma^2}} exp(-\cfrac{(y_i - (\beta, x_i))^2}{2\sigma^2}) $$

$$ log p (\epsilon_i, \sigma^2, \beta) = - \cfrac{log( 2\pi)}{2} - \cfrac{log( \sigma^2)}{2} -\cfrac{(y_i - (\beta, x_i))^2}{2\sigma^2} $$

Складемо логарифм правдоподібності (це сума логарифмів щільностей)

$$ logLikelihood(..., \sigma^2, \beta) = - k \cfrac{log( 2\pi)}{2} - k \cfrac{log( \sigma^2)}{2} - \sum_{i=1}^k \cfrac{(y_i - (\beta, x_i))^2}{2\sigma^2} \rightarrow max_{\sigma^2, \beta} $$

Домножимо функцію на -1 (max зміниться на min), також позбудемось від доданків $- k \cfrac{log( 2\pi)}{2}$ що не впливають на оптимізацію:

$$  k \cfrac{log( \sigma^2)}{2} + \sum_{i=1}^k \cfrac{(y_i - (\beta, x_i))^2}{2\sigma^2} \rightarrow min_{\sigma^2, \beta} $$

Отриманий вираз дуже схожий на той, що ми ставимо у задачі найменших квадратів, тому можна сказати що задачі майже еквівалентні

### Припустимо що відхилення мають розподіл Лапласа (вивести самостійно, провести всі ті ж самі дії)

$$ \epsilon_i \sim Laplas(0, \sigma)  (\sigma > 0) $$

$$ p(\epsilon_i, \sigma, \beta) = \cfrac{1}{2\sigma} exp(-\cfrac{|y_i - (\beta, x_i)|}{2\sigma}) $$

В цьому випадку ми маємо прийти в Метод найменших модулів