# __1. Введение__

# __Библиотеки и настройки сессии__

### Библиотеки

In [1]:
import pandas as pd
import numpy as np

from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

from IPython.core.interactiveshell import InteractiveShell

### Настройки сессии

In [2]:
InteractiveShell.ast_node_interactivity = "all"

# __Типы задач в ML__

## 1. Регрессия

####  Примеры:
- Курс валюты.
- Объём рынка.

#### Оценка качества: размер отклонения от истинного значения.

#### Основные модели:
- Линейная регрессия:
    - Lasso.
    - Ridge.
    - ElasticNet.
- Метод опорных векторов.
- k ближайших соседей.
- Дерево решений.
- Случайный лес.
- Градиентный бустинг.
- Нейронные сети.

## 2. Классификация

#### Примеры
- Отток клиентов.
- Детекция лиц.

#### Оценка качества: наличие отклонения от истинного значения.

#### Основные модели:
- Логистическая регрессия.
- Метод опорных векторов.
- k ближайших соседей.
- Дерево решений.
- Случайный лес.
- Градиентный бустинг.
- Нейронные сети.

## 3. Кластеризация

#### Примеры
- Сегментирование пользователей для акции.
- Разбиение регионов на группы.

#### Оценка качества: скучкованность данных по кластерам.

#### Основные модели:
- Иерархическая кластеризация.
- KMeans.
- DBSCAN.

## 4. Понижение размерности

#### Примеры
- Архиваторы (WinRAR).

#### Оценка качества: снижение "веса" данных при сохранении высокой информативности.

#### Основные модели:
- PCA.
- t-SNE.

## 5. Ранжирование

#### Примеры
- Поиск в браузере.

## ?. Временные ряды

#### Примеры
- Динамика рынков банковских продуктов.
- Определения уровня риска утечки газа по показаниям датчиков.

#### Оценка качества: зависит от таргета.

#### Основные модели:
- Экспоненциальное сглаживание.
- ARIMA, SARIMA, SARIMAX.
- Facebook Prophet.
- Нейронные сети.

# __Пример ML задачи__

In [3]:
X, y, coef = make_regression(n_samples=10000,
                             n_features=10,
                             n_informative=3,
                             coef=True,
                             random_state=42)
X = pd.DataFrame(X, columns=[f"x_{i}" for i in range(1, X.shape[1] + 1)])
y = pd.Series(y)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

X.head(2)

Unnamed: 0,x_1,x_2,x_3,x_4,x_5,x_6,x_7,x_8,x_9,x_10
0,1.097905,0.850497,-0.354811,0.238436,-0.73272,1.330078,0.095849,-0.118412,0.201241,0.352197
1,0.132415,0.070622,-2.395223,-1.434655,-0.89272,-0.037076,0.257399,-0.476469,-0.034899,0.054096


In [4]:
print(*zip(X.columns, coef.round(1)), sep="\n")

('x_1', 0.0)
('x_2', 68.3)
('x_3', 0.0)
('x_4', 0.0)
('x_5', 0.0)
('x_6', 0.0)
('x_7', 0.0)
('x_8', 19.4)
('x_9', 29.5)
('x_10', 0.0)


In [5]:
lr = LinearRegression().fit(X_train, y_train)
print(*zip(X.columns, lr.coef_.round(1)), sep="\n")

('x_1', 0.0)
('x_2', 68.3)
('x_3', 0.0)
('x_4', 0.0)
('x_5', -0.0)
('x_6', 0.0)
('x_7', 0.0)
('x_8', 19.4)
('x_9', 29.5)
('x_10', -0.0)


In [6]:
y_pred = lr.predict(X_test)

print(f"Отклонение от реальных данных: {np.sum(np.abs(y_pred - y_test)):.1f}")

Отклонение от реальных данных: 0.0


# __Как работает ML__

- Что машина пытается сделать? Найти взаимосвязи в данных, имеющие обобщающий эффект.
- Как машина делает прогноз? Берёт данные, веса и отправляет в математическую функцию.
- Как машина подбирает веса? За счёт оптимизации фукнции потерь.
- Что такое функция потерь? Функция численно отражающая качество прогнозов модели через сравнение реальных значений и прогнозных.

# __Функция потерь (loss function)__

Функция от весов модели, оптимизируемая во время обучения модели (обычно минимизуется).

Обычные требования:
- Определённость
- Дифференцируемость
- Наличие минимума

## 1. Случай для одного фактора
### $ \text{Mean Squared Error} = \frac { \sum_{i=1}^{n} ( y_{i} - \hat{y_{i}} ) ^ {2} } {n} = \frac { \sum_{i=1}^{n} ( y_{i} - (\beta + \sum_{j=1}^{m} (w_{j} \cdot x_{ij}) ) ) ^ {2} } {n} = f(w_{1...m}, \beta) $
### $ \text{MSE} = \frac { \sum_{i=1}^{n} ( y_{i} - \beta - w \cdot x_{i} ) ^ {2} } {n} $
### $ \text{MSE}'_{\beta} = \frac { \sum_{i=1}^{n} (-2 \cdot ( y_{i} - \beta - w \cdot x_{i} ) ) } {n} = \frac {2}{n} \cdot \sum_{i=1}^{n}  ( \beta + w \cdot x_{i} - y_{i} ) $
### $ \text{MSE}'_{w} = \frac { \sum_{i=1}^{n} (-2 x_{i} \cdot ( y_{i} - \beta - w \cdot x_{i} ) ) } {n} = \frac {2}{n} \cdot \sum_{i=1}^{n}  ( x_{i} \cdot ( \beta + w \cdot x_{i} - y_{i} ) ) $
### $ \overrightarrow{gradient} = \overrightarrow{( \text{MSE}'_{w} ; \text{MSE}'_{\beta} )} $

### "Простой" способ решения
### $ \overrightarrow{gradient} = 0 $
#### Система из 1 + ||w|| уравнений с 1 + ||w|| неизвестными.

### Градиентный спуск
### $ \overrightarrow{(w, \beta)} = \overrightarrow{(w, \beta)} - learning\_rate \cdot \overrightarrow{gradient} $

## 2. Популярные функции потерь для регрессии
#### $ \text{Mean Squared Error} = \frac { \sum_{i=1}^{n} ( y_{i} - \beta - w \cdot x_{i} ) ^ {2} } {n}$
#### $ \text{Root Mean Squared Error} = \sqrt{ \frac{ \sum_{i=1}^{n} ( y_{i} - \hat{y_{i}} ) ^ {2} }{n} }$
#### $ \text{Mean Absolute Error} = \frac{1}{n} \cdot \sum_{i=1}^{n} | y_{i} - \hat{y_{i}} |$
#### $ \text{Mean Absolute Percentage Error} = \frac{1}{n} \cdot \sum_{i=1}^{n} | \frac{ y_{i} - \hat{y_{i}} } {y_{i}} | $
#### $ \text{Root Mean Squared Log Error} = \sqrt{ \frac{ \sum_{i=1}^{n} ( \log{(y_{i}+1)} - \log{(\hat{y_{i}}+1)} ) ^ {2} }{n} } $

## 3. Плюсы и минусы некоторых функций потерь
- MAPE
    - "+":
        + Высокая интерпретируемость (на сколько процентов в среднем ошибается модель)
    - "-":
        - Склонность к нулевым значениям
- RMSE
    - "+":
        + Средняя интерпретируемость (на сколько в среднем ошибается модель)
    - "-":
        - Подверженность выбросам среди высоких значений
- RMSLE:
    - "+":
        - Сбалансированность относительно высоких и низких значений
    - "-":
        - Низкая интерпретируемость

# __Метрика качества__

Численно выраженное качество модели.

Требования:
- Определённость
- Интерпретируемость

## 1. Популярные метрики для регрессии
#### $ R^2 = 1 - \frac { \sum_{i=1}^{n} ( y_{i} - \hat{y_{i}} )^{2} } { \sum_{i=1}^{n} ( y_{i} - \overline{y} )^{2} }$
#### $ \text{Mean Absolute Percentage Error} = \frac{1}{n} \cdot \sum_{i=1}^{n} | \frac{ y_{i} - \hat{y_{i}} } {y_{i}} | $
#### $ \text{Median Absolute Percentage Error} = \text{median}_{i} ( | \frac{ y_{i} - \hat{y_{i}} } {y_{i}} | ) $

## 2. Плюсы и минусы некоторых метрик качества
- $R^{2}$
    - "+":
        - Позволяет очень странным спобом сравнить прогнозы моделью и средним
        - Дифференцируемость
    - "-":
        - Низкая интерпретируемость
        - Плохо отражает реальную точность
- MAPE
    - "+":
        - Высокая интерпретируемость
        - Дифференцируемость
    - "-":
        - Высокая подверженность выбросам
- MedAPE
    - "+":
        - Высокая интерпретируемость
        - Низкая подверженность выбросам
    - "-":
        - Не дифференцируемость

# __Практика__

## 1. Функция потерь

In [15]:
def MSE(y, X, w, bias):
    """
    Вычисляет значение функции потерь MSE для линейной регресиии.
    
    Параметры:
        y (np.array, dim=(n,)) - истинные значения.
        X (np.array, dim=(n,m)) - экзогенные факторы.
        w (np.array, dim=(m,)) - веса модели.
        bias (float) - смещение модели.
    
    Возвращает:
        mse_value (float) - значение функции потерь.
    """
    
    y_pred = X @ w + bias
    
    return np.sqrt(np.mean(np.power(y_true - y_pred, 2)))

In [None]:
def MSE_diff(y, X, w, bias):
    """
    Вычисляет значение вектор-градиент функции потерь RMSE для линейной регресиии.
    
    Параметры:
        y (np.array, dim=(n,)) - истинные значения.
        X (np.array, dim=(n,m)) - экзогенные факторы.
        w (np.array, dim=(m,)) - веса модели.
        bias (float) - смещение модели.
    
    Возвращает:
        mse_grad (np.array) - значение вектор-градиент функции потерь (bias, w_1, w_2,.., w_m).
    """
    
    # <your code>

## 2. Отчёт по качеству

In [14]:
def quality_report(y_true, y_pred):
    """
    Отчёт по метрикам качества.
    
    Параметры:
        y_true (pd.Series|np.array) - истинные значения.
        y_pred (pd.Series|np.array) - предсказанные значения.
    
    Возвращает:
        report (pd.DataFrame) - отчёт по качеству.
    
    Пример:
        $ quality_report(y_true, y_pred)
        >> ----------------------
        >> | Метрика | Значение |
        >> ----------------------
        >> | R_2     | 0.93     |
        >> ----------------------
        >> | MAPE    | 0.26     |
        >> ----------------------
        >> | MedAPE  | 0.21     |
        >> ----------------------
    """
    
    # <your code>

## 3. Модель (линейная регрессия)

In [33]:
class OwnLinearRegression:
    """
    Линейная регрессия собственной реализации.
    """
    
    def __init__(self, loss_fun_diff, learning_rate=0.1, max_iters=50):
        """
        Инициализация модели.
        
        Параметры:
            loss_fun_diff (function) - производная функции потерь.
            learning_rate (int>0) - шаг обучения.
            max_iters (int>0) - максимальное количество итераций модели.
        """
        
        self.__loss_fun_diff = loss_fun_diff
        self.__learning_rate = learning_rate
        self.__max_iters = max_iters
        
        self.bias = 0
        m = None # <your code>
        self.w = np.ones(shape=m)
    
    
    def __fit_iteration(self, X, y):
        """
        Итерация обучения. Обновляет веса модели на антиградиент функции потерь.
        
        Параметры:
            X (np.array, dim=(n,m)) - признаки.
            y (np.array, dim=(n,)) - таргет.
        """
        
        bias_antigrad, *w_antigrad = - self.__loss_fun_diff(y, X, self.w, self.bias)
        
        self.bias += None # <your code>
        self.w += None # <your code>
    
    
    def fit(self, X, y):
        """
        Обучение модели.
        
        Параметры:
            X (np.array, dim=(n,m)) - признаки.
            y (np.array, dim=(n,)) - таргет.
        """
        
        for _ in range(self.__max_iters):
            self.__fit_iteration(X, y)
        
        return self
    
    
    def predict(self, X):
        """
        Вычисление прогноза модели.
        
        Параметры:
            X (np.array, dim=(n,m)) - признаки.
        
        Возвращает:
            y (np.array, dim=(n,)) - прогноз.
        """
        
        # <your code>

In [None]:
LEARNING_RATE = 0.1
MAX_ITERS = 50

olr = OwnLinearRegression(LEARNING_RATE, MAX_ITERS).fit(X_train, y_train)
y_pred = olr.predict(X_test)

quality_report(y_test, y_pred)

## 4. Сравнение с готовой реализацией

In [None]:
lr = LinearRegression().fit(X_train, y_train)
y_pred_sklearn = lr.predict(X_test)
quality_report(y_test, y_pred_sklearn)