# Анализ линейных моделей для задач регрессии

**Цель:** Сравнительный анализ линейных моделей машинного обучения из библиотеки sklearn для решения задач регрессии.

**Рассматриваемые модели:**
- LinearRegression - базовая линейная регрессия
- Ridge - L2-регуляризация
- Lasso - L1-регуляризация
- ElasticNet - комбинированная регуляризация

# Подключение нужных библиотек

In [1]:
import pandas as pd 

import sklearn

In [2]:
# Заранее установим несколько констант
RANDOM_STATE = 42

# Подготока данных

In [3]:
def load_data():
    # загрузка данных
    data = pd.read_csv("data\\dataset\\classification\\Clean_Dataset.csv")
    # убираем не нужный столбик с индексами
    data = data.drop(data.columns[0], axis=1)
    return data

data = load_data()

In [4]:
# data.info()

Описание признаков нашего набора данных.

1) Авиакомпания (Airline): Название авиакомпании. Категориальный признак, содержащий 6 уникальных авиакомпаний.
2) Рейс (Flight): Код рейса самолета. Категориальный признак.
3) Город вылета (Source City):Город, из которого вылетает рейс. Категориальный признак с 6 уникальными городами.
4) Время вылета (Departure Time):Производный категориальный признак, созданный путем группировки временных интервалов в бины. Содержит информацию о времени вылета и имеет 6 уникальных меток времени.
5) Остановки (Stops):Категориальный признак с 3 уникальными значениями, указывающий количество остановок между городами вылета и назначения.
6) Время прибытия (Arrival Time):Производный категориальный признак, созданный группировкой временных интервалов в бины. Содержит 6 уникальных меток времени прибытия.
7) Город назначения (Destination City):Город, в который прилетает рейс. Категориальный признак с 6 уникальными городами.
8) Класс (Class):Категориальный признак, указывающий класс места. Имеет два значения: Бизнес (Business) и Эконом (Economy).
9) Длительность (Duration):Непрерывный признак, отображающий общее время путешествия между городами в часах.
10) Дней до вылета (Days Left):Производный признак, вычисляемый как разница между датой вылета и датой бронирования.
11) Цена (Price):Целевая переменная, содержащая информацию о стоимости билета.

Рассмотрим уникальные значения для категориальных признаков

In [5]:
from utils import get_info_unique

get_info_unique(data)

| airline         (count:  6)
| ['SpiceJet' 'AirAsia' 'Vistara' 'GO_FIRST' 'Indigo' 'Air_India']
| flight          (count:1561)
| ['SG-8709' 'SG-8157' 'I5-764' ... '6E-7127' '6E-7259' 'AI-433']
| source_city     (count:  6)
| ['Delhi' 'Mumbai' 'Bangalore' 'Kolkata' 'Hyderabad' 'Chennai']
| departure_time  (count:  6)
| ['Evening' 'Early_Morning' 'Morning' 'Afternoon' 'Night' 'Late_Night']
| stops           (count:  3)
| ['zero' 'one' 'two_or_more']
| arrival_time    (count:  6)
| ['Night' 'Morning' 'Early_Morning' 'Afternoon' 'Evening' 'Late_Night']
| destination_city (count:  6)
| ['Mumbai' 'Bangalore' 'Kolkata' 'Hyderabad' 'Chennai' 'Delhi']
| class           (count:  2)
| ['Economy' 'Business']


Реализуем пользовательский класс для предобработки данных без использования наследования. Его цель - преобразовать все категориальные признаки в числовые, чтобы линейные модели могли корректно работать с данными и предсказывать целевой признак.

Теперь рассмотрим, что будет представлять из себя созданный нами класс.
В классе идёт обработка по следующим шагам.

1) Первичная обработка.
    - Кодировка stops в формате ```{"zero":0, "one":1, "two_or_more":2}```
    - Разделение фичи flight на ```flight_value``` и ```flight_tag``` это нужно будет для дальнейших преобразований;
2) Теперь перейдём к трансформациям. Будем брать классы из sklearn.preprocessing.
    - ```OrdinalEncoder()``` - класс с помощью которого, мы кодируем фичи с ```object``` типом в цифровой. В нашем случае это фича ``` class```, которая имеет 2 уникальных значения *"Economy"* и *"Business"* и приводим мы их к значениям 1 и 0 соответственно. (```OrdinalEncoder()``` начинает отсчёт для кодировки по алфавиту "E" < "B");
    - ```OneHotEncoder()``` - класс создающий бинарные признаки для каждого уникального значения. Пример: Признак ```airline``` преобразуется в столбцы ```airline_Indigo, airline_SpiceJet, airline_Vistara...```
    - ```MinMaxScaler()``` - класс который нормализирует числовые значения на диапазоне [0,1];
3) Сохраняем обученные трансформеры с помощью метода ```.save()``` сохраняется по умолчанию по пути _data/preprocessing/_. А так же если вам не нужно обучать модель она сама загрузит сохранённые трансформеры из заданной директории. (Её можно изменить с помощью парметра ```path_dir_w``` при создании класса);
4) Изменённые данные можно получить с помощью метода ```get_data()```. Так же методы ```fit_transform()``` и ```transform()``` возвращают изменённые данные.

Краткое обоснование выбора методов:
- ```OrdinalEncoder``` выбран для бинарных признаков (class) с естественным порядком.
- ```OneHotEncoder``` применен к признакам, где нет иерархии между категориями.
- ```MinMaxScaler``` обеспечивает одинаковый масштаб для числовых признаков, что критично для линейных моделей.


In [6]:
# импортируем пользовательский класс, который изменяет входные данные данные
from utils import PreprocessingDataInNumber

#  Вариант если впервые проходите по блокноту
data = load_data()
prepoc = PreprocessingDataInNumber(data)

prepoc.fit_transform()
prepoc.save()
data_df = prepoc.get_data()

#  Вариант проходите по блокноту повторно
# data_df = prepoc.transform()

In [7]:
data_df

Unnamed: 0,stops,duration,days_left,price,flight_value,is_economy_class,route_Bangalore-Chennai,route_Bangalore-Delhi,route_Bangalore-Hyderabad,route_Bangalore-Kolkata,...,airline_GO_FIRST,airline_Indigo,airline_SpiceJet,airline_Vistara,flight_tag_6E,flight_tag_AI,flight_tag_G8,flight_tag_I5,flight_tag_SG,flight_tag_UK
0,0,0.027347,0.0,5953,0.870374,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
1,0,0.030612,0.0,5953,0.814560,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
2,0,0.027347,0.0,5956,0.067037,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
3,0,0.028980,0.0,5955,0.090394,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
4,0,0.030612,0.0,5955,0.087159,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
300148,1,0.188776,1.0,69265,0.072902,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
300149,1,0.195714,1.0,77105,0.073306,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
300150,1,0.265306,1.0,79099,0.073913,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
300151,1,0.187143,1.0,81585,0.073509,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0


## Разделение на тестовую и обучающую выборки
Для базового разделения данных используем метод `train_test_split` из библиотеки scikit-learn. 
Данные будут разделены на обучающую и тестовую выборки в соотношении **80:20**.

In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data_df.drop("price", axis=1), data_df["price"],
                                                    test_size=0.2, random_state=RANDOM_STATE) 

# Подготовка к разбору моделей 

## Метрики

Метрики - ключевой элемент машинного обучения, так как они позволяют оценить, насколько эффективна модель, и определить направление её улучшения

Для оценки качества регрессионной модели, предсказывающей цены, необходимо выбрать метрики, учитывающие специфику задачи. В отличие от классификации, регрессия требует измерения величины ошибки и объясненной дисперсии.

|Метрика|Плюсы|Минусы|Cсылка на функцию|
|-|-|-|-|
|MAE|Устойчивость к выбросам, интерпретируемость|Игнорирует крупные ошибки|[mean_absolute_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html#sklearn.metrics.mean_absolute_error)|
|MSE|Акцент на крупные ошибки, дифференцируемость|Чувствительность к выбросам|[mean_squared_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error)|
|R^2|Сравнение моделей, безразмерность|Не показывает абсолютные ошибки|[r2_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html#sklearn.metrics.r2_score)|
|MAPE|Процентная интерпретация|Проблемы с нулями и асимметрия|[mean_absolute_percentage_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_percentage_error.html#sklearn.metrics.mean_absolute_percentage_error)|
|MSLE|Учет относительных ошибок|Сложная интерпретация|[mean_squared_log_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html#sklearn.metrics.mean_squared_log_error)|

## Журнал истории(пользовательский класс для хранения моделей и их метрик)

Поскольку мы планируем тестировать различные модели, предлагаю создать класс для хранения обученных моделей, их параметров, дополнительной информации метрик. Получать данные мы сможем двумя способами:
- Метод ```to_dataframe``` - получаем информацию о всех наших моделях в формате ```pd.DataFrame```;
- Индексирование ```history[index]```, где ```history``` - объект нашего класса. На выходе мы получим обученную модель под заданным индексом. Принцип работы аналогичен методу ```DataFrame.iloc[index]```.

|Модель|Класс модели|Параметры модели|MAE|MSE|RMSE|R^2|MAPE|MSLE|RMSLE|Заметки|
|-|-|-|-|-|-|-|-|-|-|-|
|LinearRegression|linear_model|-|123|23|43|5|654|4|234|После предсказания все отрицательные значения стали 0-мя|
|SGDRegressor|linear_model|-|123|23|43|5|654|4|234|-|

Таким образом, мы сможем удобно анализировать результаты работы разных моделей, а также сравнивать их параметры. Это позволит выбрать модель с оптимальными метриками.

In [9]:
from utils import ModelsRegressionHistory

Давайте заранее создадим экземпляр класса. Для работы с ним

In [10]:
history_models = ModelsRegressionHistory()

# Создание моделей

## Линейные модели

In [11]:
from sklearn import linear_model

### ```LinearRegression()```

#### Описание метода

Линейная регрессия - модель, которая строит линейную зависимость между данными и предсказывает по этим зависиимостям целевой признак(*target*) в зависимости от числового значения признаков. Если разбирать линейную модель построенную для случая с двумя признаками, то предсказания будут строиться по формуле:
$$ 
    y = w_0 + w_1 \cdot x_1 + w_2 \cdot x_2 
$$
где:
- $y$ - целевая переменная
- $w_0$ - смещение
- $w_1$, $w_2$ - коэффициенты при признаках $x_1$ и $x_2$


На рисунке ниже представлена геометрическая интерпретация.

![Геометрический смысл линейной регрессии](./data/images/linearRegression/geometric_meaning.png)

Функцией потерь для линейной модели в ```sklearn``` это *SSE*, которая на практике часто используется как синоним MSE т.к. $MSE = \frac{1}{n}SSE$

Формула для рассчитывания потери
$$
Loss(SSE) = \sum^n_{i=2}(y_i-\overline{y}_i)^2
$$
где:
- y - истинное значение целевого переменной
- $\overline{y}$ - предсказанное значение переменной
- n - количество имеющихся обьектов

Теперь перейдём к тому, что отличает LinearRegression от остальных линейных регрессий из библиотеки ```sklearn```

Коэффициенты вычисляются аналитическим решением, которое вычисляет оптимальные коэффициенты за счёт вычисления псевдообратной матрицы. Псевдообратная матрица вычисляется в свою очередь через *SVD*(сингулярное разложение), что позволяет нам решить проблемы в случаях мультиколлинеарности и вырожденности данных.

Формула SVD([подробнее про SVD](http://machinelearning.ru/wiki/index.php?title=SVD)):
$$
X = VDU^T
$$
где: 

- V и U - ортогональные матрицы
- D - диагональная матрица сингулярных значений

Формула псевдообратной матрицы:
$$
X^+=VD^+U^T
$$
где:
- $D^+$ - диагональная матрица, где каждое сингулярное значение $σ_i$ заменяется на 1/$σ_i$, если $σ_i$ > 0, и на 0 иначе
- V и $U^T$ ортогональные матрицы, как и в SVG

После нахождения псевдообратной матрицы коэффициенты линейной регрессии рассчитываются по принципу перемножения псевдообратной матрицы $X^+$ на вектор $y$.
$$
w = X^+y
$$

#### Код и реализация

In [12]:
LR_standart = linear_model.LinearRegression()
LR_standart.fit(X_train, y_train)
y_pred = LR_standart.predict(X_test)

history_models.add_model(LR_standart, "linear_model", LR_standart.get_params(), "Линейная регрессия, с аналитическим оптимизатором", y_true=y_test, y_pred=y_pred)
history_models.to_dataframe()

Unnamed: 0,Модели,Класс модели,Параметры модели,MAE,MSE,RMSE,R^2,MAPE,MSLE,RMSLE,Заметки
0,LinearRegression,linear_model,"{'copy_X': True, 'fit_intercept': True, 'n_job...",4522.3302,44780720.0,6691.8395,0.9131,0.4528,,,"Линейная регрессия, с аналитическим оптимизатором"


### ```Ridge()```

Класс ```Ridge()``` отличается от класса ```LinearRegression``` наличием L2-регуляризации. Мы можем контролировать силу регуляризации с помощью параметра ```alpha```(стандартное значение 1.0). 

Давайте рассмотрим, что такое L2-регуляризация для понимания сути различия ```Ridge()``` с ```LinearRegression```

Зачем нужна регуляризация?
* Уменьшает переобучение
* Решает проблему колинеарности
* Задача оптимизации становится устойчивее

L2-регуляризация([гребневая регуляризация](https://deepmachinelearning.ru/docs/Machine-learning/Base-concepts/Regularization)) добавляется к оптимизационнной функции модели штрафную функцию вида:
$$ 
alpha*R(w) = alpha*∑^{D}_{d=1}w^2_d 
$$
где:
- alpha - гиперпараметр задаваемый нами
- D - количество признаков
- w - веса модели 

Также отметим, что в классе ```Ridge``` мы можем изменить метод решения. Задав значение для переменной ```solver:{"auto", "svd", "cholesky", "lsqr", "sparse_cg", "sag", "saga", "lbfgs"}, default="auto"```. Рассматривать подробно каждый вариант функции оптимизации мы не будем, так как ```Ridge()``` может автоматически подобрать наиболее походящий алгоритм в зависимости от данных.

In [13]:
LR_Ridge = linear_model.Ridge()
LR_Ridge.fit(X_train, y_train)
y_pred = LR_Ridge.predict(X_test)

history_models.add_model(LR_Ridge, "linear_model", LR_Ridge.get_params(), "Линейная регрессия, с регуляризацией", y_true=y_test, y_pred=y_pred)
history_models.to_dataframe()

Unnamed: 0,Модели,Класс модели,Параметры модели,MAE,MSE,RMSE,R^2,MAPE,MSLE,RMSLE,Заметки
0,LinearRegression,linear_model,"{'copy_X': True, 'fit_intercept': True, 'n_job...",4522.3302,44780720.0,6691.8395,0.9131,0.4528,,,"Линейная регрессия, с аналитическим оптимизатором"
1,Ridge,linear_model,"{'alpha': 1.0, 'copy_X': True, 'fit_intercept'...",4522.2636,44780700.0,6691.8387,0.9131,0.4528,,,"Линейная регрессия, с регуляризацией"


### ```RidgeCV()```

Рассмотрим ```RidgeCV()```. В отличие от класса ```Ridge()```, он  наличием кросс-валидации параметра ```alpha```, который отвечает за величину штрафа за большое значение коэффициента.

In [14]:
LR_RidgeCV = linear_model.RidgeCV(alphas=[0.2, 0.6, 1.0, 1.5, 3.8, 10.0, 14.0])
LR_RidgeCV.fit(X_train, y_train)
y_pred = LR_RidgeCV.predict(X_test)


In [15]:
history_models.add_model(LR_RidgeCV, "linear_model", LR_RidgeCV.get_params(), "Линейная регрессия, с регуляризацией и кросс-валидацией", y_true=y_test, y_pred=y_pred)
history_models.to_dataframe()

Unnamed: 0,Модели,Класс модели,Параметры модели,MAE,MSE,RMSE,R^2,MAPE,MSLE,RMSLE,Заметки
0,LinearRegression,linear_model,"{'copy_X': True, 'fit_intercept': True, 'n_job...",4522.3302,44780720.0,6691.8395,0.9131,0.4528,,,"Линейная регрессия, с аналитическим оптимизатором"
1,Ridge,linear_model,"{'alpha': 1.0, 'copy_X': True, 'fit_intercept'...",4522.2636,44780700.0,6691.8387,0.9131,0.4528,,,"Линейная регрессия, с регуляризацией"
2,RidgeCV,linear_model,"{'alpha_per_target': False, 'alphas': [0.2, 0....",4522.0803,44780690.0,6691.8373,0.9131,0.4527,,,"Линейная регрессия, с регуляризацией и кросс-в..."


### ```SGDRegressor()```

Давайте разберём по пунктам класс `SGDRegressor()`.
- Наша модель изменяется с помощью *SGD(стохастический [градиентный спуск](https://neurohive.io/ru/osnovy-data-science/gradient-descent/))* это один из ключевых методов в машинном обучении, особенно эффективно при работе с большими объёмами данных.
- С помощью параметра `penalty` можем назначить один из способов регуляризации `['l2', 'l1', 'elasticnet']`.
- Параметр `loss` определяеи тип функцию потерь, которую будет минимизировать модель `["squared_error", "huber", "epsilon_insensitive", "squared_epsilon_insensitive"]`:
    - `"squared_error"` — стандартная среднеквадратичная ошибка (по умолчанию),
    - `"huber"` — более устойчива к выбросам,
    - `"epsilon_insensitive"` и `"squared_epsilon_insensitive"` — используются в задачах поддержки вектора (аналогично `SVR`).

- С помощью параметра ```learning_rate``` можно изменять скорость обучения:
    - `"constant"` — постоянная скорость обучения,
    - `"optima"` — автоматически выбирает оптимальное значение,
    - `"invscaling"` - скорость уменьшается со временем по определённой формуле,
    - `"adaptive"` - скорость уменьшается только при отсутствии улучшения.

- Параметр `"max_iter"` определяет максимальное количество итераций(эпох) обучения. При работе с большим количеством данных важно установить это значение разумно.

- С помощью задания `"early_stopping=True"` можно включить механизм остановки обучения при прекращении улучшения функции потерь.


In [16]:
LR_SGDRegressor = linear_model.SGDRegressor()
LR_SGDRegressor.fit(X_train, y_train)
y_pred = LR_SGDRegressor.predict(X_test)

In [17]:
history_models.add_model(LR_SGDRegressor, "linear_model", LR_SGDRegressor.get_params(), "Линейная регрессия, с SGD", y_true=y_test, y_pred=y_pred)
history_models.to_dataframe()

Unnamed: 0,Модели,Класс модели,Параметры модели,MAE,MSE,RMSE,R^2,MAPE,MSLE,RMSLE,Заметки
0,LinearRegression,linear_model,"{'copy_X': True, 'fit_intercept': True, 'n_job...",4522.3302,44780720.0,6691.8395,0.9131,0.4528,,,"Линейная регрессия, с аналитическим оптимизатором"
1,Ridge,linear_model,"{'alpha': 1.0, 'copy_X': True, 'fit_intercept'...",4522.2636,44780700.0,6691.8387,0.9131,0.4528,,,"Линейная регрессия, с регуляризацией"
2,RidgeCV,linear_model,"{'alpha_per_target': False, 'alphas': [0.2, 0....",4522.0803,44780690.0,6691.8373,0.9131,0.4527,,,"Линейная регрессия, с регуляризацией и кросс-в..."
3,SGDRegressor,linear_model,"{'alpha': 0.0001, 'average': False, 'early_sto...",4527.1639,44791840.0,6692.6704,0.9131,0.4537,,,"Линейная регрессия, с SGD"


### `OrthogonalMatchingPursuit()`

Отличие данного класса от остальных заключается в его способности уменьшать количество признаков. Он находит самые влиятельные признаки из имеющихся и на их основе строит модель. (*жадно отбирает признаки*)

Алгоритм отбора признаков:
1) Инициализация:
    - Создаётся пустой список признаков.
    - Остаток r = y (это то, что модель ещё не обьяснила)
2) На каждом шаге:
    - Вычисляется корреляция между каждым признаком и текущим остстатком r
    - Признак с максимальной корреляцией добавляем в список выбранных
    - Строим модель по методу наименьших квадратов(используем только выбранные признаки)
    - обновляем остаток $r = y - X_{выбранные}*w$
3) Повторяем 2 пукт пока не удоврится одно из следующих вариантов:
    - не выбрано заданное количество признаков в гиперпараметре `n_nonzero_coefs`
    - r минимален
    - не закончились признаки 

In [18]:
LR_OrthogonalMatchingPursuit = linear_model.OrthogonalMatchingPursuit(
    # у нас есть больше 70 признков, давайте попробуем задать максисальное количество признаков равное 50
    n_nonzero_coefs=50
)
LR_OrthogonalMatchingPursuit.fit(X_train, y_train)
y_pred = LR_OrthogonalMatchingPursuit.predict(X_test)

In [19]:
history_models.add_model(LR_OrthogonalMatchingPursuit, "linear_model", LR_OrthogonalMatchingPursuit.get_params(), "Линейная регрессия, c использованием OMP", y_true=y_test, y_pred=y_pred)
print('Параметры:', LR_OrthogonalMatchingPursuit.get_params())
history_models.to_dataframe()

Параметры: {'fit_intercept': True, 'n_nonzero_coefs': 50, 'precompute': 'auto', 'tol': None}


Unnamed: 0,Модели,Класс модели,Параметры модели,MAE,MSE,RMSE,R^2,MAPE,MSLE,RMSLE,Заметки
0,LinearRegression,linear_model,"{'copy_X': True, 'fit_intercept': True, 'n_job...",4522.3302,44780720.0,6691.8395,0.9131,0.4528,,,"Линейная регрессия, с аналитическим оптимизатором"
1,Ridge,linear_model,"{'alpha': 1.0, 'copy_X': True, 'fit_intercept'...",4522.2636,44780700.0,6691.8387,0.9131,0.4528,,,"Линейная регрессия, с регуляризацией"
2,RidgeCV,linear_model,"{'alpha_per_target': False, 'alphas': [0.2, 0....",4522.0803,44780690.0,6691.8373,0.9131,0.4527,,,"Линейная регрессия, с регуляризацией и кросс-в..."
3,SGDRegressor,linear_model,"{'alpha': 0.0001, 'average': False, 'early_sto...",4527.1639,44791840.0,6692.6704,0.9131,0.4537,,,"Линейная регрессия, с SGD"
4,OrthogonalMatchingPursuit,linear_model,"{'fit_intercept': True, 'n_nonzero_coefs': 50,...",4520.2388,44880490.0,6699.2903,0.9129,0.4506,,,"Линейная регрессия, c использованием OMP"


### `ARDRegression()`

Байевский метод линейной регрессии, который автоматически определяет релевантные признаки. Он использует отдельную регуляризацию для каждого признака, постепенно обнуляя коэфициенты неинформативных признаков.

In [20]:
LR_ARDRegression = linear_model.ARDRegression()
LR_ARDRegression.fit(X_train, y_train)
y_pred = LR_ARDRegression.predict(X_test)

In [21]:
history_models.add_model(LR_ARDRegression, "linear_model", LR_ARDRegression.get_params(), "Линейная регрессия, c байевского метода", y_true=y_test, y_pred=y_pred)
history_models.to_dataframe()

Unnamed: 0,Модели,Класс модели,Параметры модели,MAE,MSE,RMSE,R^2,MAPE,MSLE,RMSLE,Заметки
0,LinearRegression,linear_model,"{'copy_X': True, 'fit_intercept': True, 'n_job...",4522.3302,44780720.0,6691.8395,0.9131,0.4528,,,"Линейная регрессия, с аналитическим оптимизатором"
1,Ridge,linear_model,"{'alpha': 1.0, 'copy_X': True, 'fit_intercept'...",4522.2636,44780700.0,6691.8387,0.9131,0.4528,,,"Линейная регрессия, с регуляризацией"
2,RidgeCV,linear_model,"{'alpha_per_target': False, 'alphas': [0.2, 0....",4522.0803,44780690.0,6691.8373,0.9131,0.4527,,,"Линейная регрессия, с регуляризацией и кросс-в..."
3,SGDRegressor,linear_model,"{'alpha': 0.0001, 'average': False, 'early_sto...",4527.1639,44791840.0,6692.6704,0.9131,0.4537,,,"Линейная регрессия, с SGD"
4,OrthogonalMatchingPursuit,linear_model,"{'fit_intercept': True, 'n_nonzero_coefs': 50,...",4520.2388,44880490.0,6699.2903,0.9129,0.4506,,,"Линейная регрессия, c использованием OMP"
5,ARDRegression,linear_model,"{'alpha_1': 1e-06, 'alpha_2': 1e-06, 'compute_...",4521.4472,44782650.0,6691.9837,0.9131,0.4526,,,"Линейная регрессия, c байевского метода"


### ```PolynomialFeatures()``` + ```LinearRegressor()```

Полиномиальная регрессия - это метод машинного обучения, который используется в моделировании нелинейных зависимостей между переменными. Этот метод позволит нам найти более сложные зависимости между имеющимися атрибутами.

Обозначим преимущества и недостатки этого метода

**Преимущества**
* Гибкость - может найти сложные зависимости
* Подходит для анализа данных с криволинейными трендами (к примеру: валюта начала скакать, то вверх, то вниз в зависимости от месяца года а наши авиакомпания при формировании цены ссылаются на курс валюты)

**Недостатки**
* Возможно переобучение
* Чувствительна к выбросам

In [22]:
X_train

Unnamed: 0,stops,duration,days_left,flight_value,is_economy_class,route_Bangalore-Chennai,route_Bangalore-Delhi,route_Bangalore-Hyderabad,route_Bangalore-Kolkata,route_Bangalore-Mumbai,...,airline_GO_FIRST,airline_Indigo,airline_SpiceJet,airline_Vistara,flight_tag_6E,flight_tag_AI,flight_tag_G8,flight_tag_I5,flight_tag_SG,flight_tag_UK
148417,1,0.379388,0.104167,0.032659,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
36879,2,0.125918,0.250000,0.211527,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
274531,1,0.415102,0.895833,0.067442,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
166397,1,0.192245,0.208333,0.078362,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
272722,1,0.523878,0.083333,0.068049,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
119879,1,0.401429,0.020833,0.068251,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
259178,1,0.501837,0.125000,0.077351,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
131932,1,0.262041,0.583333,0.067644,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
146867,1,0.153061,0.791667,0.000101,1.0,0.0,0.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0


In [23]:
# создадим полиномиальные признаки
poly = sklearn.preprocessing.PolynomialFeatures(degree=2) 
X_poly_train = poly.fit_transform(X_train)
X_poly_test = poly.transform(X_test)

Выше мы добавили полиномиальные признаки во второй степени.

Пример:
 1) У нас есть признаки *a* и *b*. 
 2) Обрабатываем с помощью класса ```PolynomialFeatures``` 
 3) На выходе мы получаем атрибуты вида *$1, a, b, a^2, b^2, ab$*

Мы имеем 83 признака.
 
Если мы будем далее использовать все имеющиеся признаки то мы получим 
$$\frac{83*84}{2} + 1 = 3486$$

Это займёт очень много оперативной памяти при обучении линейной регресси. Поэтому мы переведём полученную матрицу в разряженную матрицу с помощью метода из библиотеки `scipy`

In [24]:
from scipy.sparse import csr_matrix

X_poly_train = csr_matrix(X_poly_train)
X_poly_test = csr_matrix(X_poly_test)

Теперь когда мы преобразовали наши признаки к полиномиальному виду в разряженной матрице мы можем использовать любую из разобранных нами линейных регрессий. Возьмём стандартную линейную регрессию.

In [25]:
PLR_standart = linear_model.LinearRegression()
PLR_standart.fit(X_poly_train, y_train)
y_pred = PLR_standart.predict(X_poly_test)

In [26]:
history_models.add_model(PLR_standart, "poly_linear_model", PLR_standart.get_params(), "Полиномиальная линейная регрессия", y_true=y_test, y_pred=y_pred)

## Итоги

In [27]:
result_df = history_models.to_dataframe()
result_df

Unnamed: 0,Модели,Класс модели,Параметры модели,MAE,MSE,RMSE,R^2,MAPE,MSLE,RMSLE,Заметки
0,LinearRegression,linear_model,"{'copy_X': True, 'fit_intercept': True, 'n_job...",4522.3302,44780720.0,6691.8395,0.9131,0.4528,,,"Линейная регрессия, с аналитическим оптимизатором"
1,Ridge,linear_model,"{'alpha': 1.0, 'copy_X': True, 'fit_intercept'...",4522.2636,44780700.0,6691.8387,0.9131,0.4528,,,"Линейная регрессия, с регуляризацией"
2,RidgeCV,linear_model,"{'alpha_per_target': False, 'alphas': [0.2, 0....",4522.0803,44780690.0,6691.8373,0.9131,0.4527,,,"Линейная регрессия, с регуляризацией и кросс-в..."
3,SGDRegressor,linear_model,"{'alpha': 0.0001, 'average': False, 'early_sto...",4527.1639,44791840.0,6692.6704,0.9131,0.4537,,,"Линейная регрессия, с SGD"
4,OrthogonalMatchingPursuit,linear_model,"{'fit_intercept': True, 'n_nonzero_coefs': 50,...",4520.2388,44880490.0,6699.2903,0.9129,0.4506,,,"Линейная регрессия, c использованием OMP"
5,ARDRegression,linear_model,"{'alpha_1': 1e-06, 'alpha_2': 1e-06, 'compute_...",4521.4472,44782650.0,6691.9837,0.9131,0.4526,,,"Линейная регрессия, c байевского метода"
6,LinearRegression,poly_linear_model,"{'copy_X': True, 'fit_intercept': True, 'n_job...",3028.5591,22361030.0,4728.7446,0.9566,0.2663,,,Полиномиальная линейная регрессия


Подведём итог работы с линейными методами:
* линейные модели показывают не плохие результаты;
* значительное изменение метрик в лучшую сторону показала полиномиальная модель, что явно говорит нам о том что наши данные нелинейные;

Далее мы можем поэксперементировать подставляя разные линейные модели для наших полиномиальных параметров, но предлагаю пропустить эти дейтсвия момент и перейти к более сложным методам, а именно к деревьям;

In [29]:
result_df.to_csv('data\\result\\regression\\linear_model.csv')