In [None]:
from regression_helper import * # Подгружаем функции для визуализации
import numpy as np              # Подгружаем библиотеку NumPy

X, y = get_data()               # Загружаем данные в X и y

In [None]:
def f(X, k):
    # Используем возможность ndarray и умножим массив X на скаляр k
    # Результат этой операции это ndarray
    return k*X

## Функция ошибки

Допустим мы выбрали два коэффициента $k_1$ и $k_2$ для линейной функции $y=kX$, которая описывает эти данные. Как нам понять какой из коэффициентов лучше?


Для это введем понятие **функции ошибки**, также известное как **функция потерь** или **loss function**.

Функция ошибки - численное значение того, насколько хорошо наша функция описывает данные. В данном случае это то, насколько предсказанные значения нашей функции отличаются от реальных.

Обозначается функция потерь как $Loss$, $L$ или $J$. Мы будем использовать $Loss$.

## Визуализируем функцию ошибки

Давайте визуализируем разницу между точками, которые предсказывает функция $f(X) = kX$ и реальными данными.

In [None]:
plot_data_and_linear_function_with_error(X, y, k=10)

In [None]:
plot_data_and_linear_function_with_error(X, y, k=30)

In [None]:
plot_data_and_linear_function_with_error(X, y, k=20)

## Функция ошибки

Пусть у нас есть функция:  

$\widetilde{y} = f(X) = kX$

Тогда $\widetilde{y}$ - это предсказанные нами значения для $X$. 

А настоящие значения будут равны $y$. 

Ошибку нашего предсказания на $i$-ом примере $\widetilde{y}_i$ можно посчитать как: 

$error = \widetilde{y}_i - y_i$

Ошибка $loss_i(k)$ на $i$-ом примере будет равна:

$loss_i(k) = (\widetilde{y}_i - y_i)^2$

$loss_i(k) = (kX_i - y_i)^2$

## Выведем функцию ошибок

$error = \widetilde{y}_i - y_i$

In [None]:
k = 25
error_on_sample(X, y, k)

Давайте посмотрим на квадрат разности между предсказанным значением и реальным для коэффициента $k = 25$.

$loss_i(k) = (kX_i - y_i)^2$

In [None]:
k = 25
quad_error_on_sample(X, y, k)

## Реализации функции ошибки в Python

In [None]:
k = 25
# f(X, k) возвращает массив ndarray
# y также массив ndarray
# И как мы помним из предыдущего урока, в NumPy реализована возможность поэлементной разности между массивами
errors = f(X, k) - y

print(errors)

В NumPy есть возможность поэлементного возведения в степень.

In [None]:
k = 25
quad_errors = (f(X, k) - y)**2
print(quad_errors)

## Функция ошибки на всех примерах

Мы можем посчитать среднюю ошибку $Loss(k)$ на всех примерах:

$Loss(k) = \dfrac{1}{N} \sum_{i=0}^{N}{(\widetilde{y}_i - y_i)^2}$ 

Где $N$ - это количество примеров.

Такая функция ошибки называется **среднеквадратичная ошибка (СКО)** или **mean squared error (MSE)**.

## Реализация функции ошибки в Python

Для массива $X$ и реального значения $y$ необходимо реализовать функцию ошибки. 

На входе:


* Массив входных значений $X$;

* Массив реальных выходных значений $y$;

* Коэффициент $k$ функции $f(X)=kX$;


На выходе:

* На выходе значение функции ошибки $Loss(k)$;

Формула функции ошибки:

$Loss(k) = \dfrac{1}{N} \sum_{i=0}^{N}{(kX_i - y_i)^2} $


Формула функции ошибки:

$Loss(k) = \dfrac{1}{N} \sum_{i=0}^{N}{(kX_i - y_i)^2} $

In [None]:
def loss_function(X, y, k):
    
    N = X.shape[0]                    # получаем размер вектора столбца
    # или N = len(X)
   
    # создаем массив ошибок для каждого примера
    loss_for_samples = (k*X - y)**2
    
    # берем среднее значение
    loss = np.sum(loss_for_samples) / N      
    
    # или если переписать проще 
    # loss = np.mean((k*X - y)**2)
    return loss

k = 25
print(loss_function(X, y, k))

## Ошибки для разных $k$

In [None]:
linear_function_and_loss(X, y, k=30)

In [None]:
linear_function_and_loss(X, y, k=25)

In [None]:
linear_function_and_loss(X, y, k=20)

# Ошибки для всех функция значений $k$

In [None]:
full_loss_function(X, y)

Наша задача: найти такое значение $k$, для которого функция ошибки принимает значение близкое к минимальному.