# **Лабораторная работа №9** "Использование разработки пайплайна для многомерной регрессии"
# **Выполнил: Дякин Владимир; группа: ПИН-б-о-22-1**

## Ссылка на используемый датасет: https://www.kaggle.com/datasets/yasserh/advertising-sales-dataset

## **Первичный анализ**

### Общее описание набора данных "Advertising Sales Dataset"

Этот набор данных содержит информацию о продажах рекламы в различных источниках. Он включает 200 экземпляров с 4 признаками, все из которых являются численными.

### Описание признаков

1. **TV** - бюджет рекламы на телевидении, в тыс. долл.
2. **Radio** - бюджет рекламы на радио, в тыс. долл.  
3. **Newspaper** - бюджет рекламы в газетах, в тыс. долл.
4. **Sales** - объем продаж, в тыс. долл.

### Характеристики данных

- Количество элементов (Instances): 200
- Количество признаков (Features): 4
- Связанные задачи: Регрессия
- Характеристики набора данных: Многомерные (Multivariate)
- Тип признаков: Численные (Numeric)

### Распределение данных

Поскольку данный набор данных предназначен для задачи регрессии, в нем нет информации о распределении классов. Вместо этого нужно провести анализ статистических характеристик числовых признаков, таких как:

- Среднее значение
- Медиана
- Стандартное отклонение
- Минимальное и максимальное значения
- Гистограммы распределения

Это поможет понять характер и особенности данных, что в свою очередь позволит выбрать подходящие методы моделирования.

Таким образом, данный набор данных "Advertising Sales Dataset" представляет интерес для разработки и оценки моделей регрессии, прогнозирующих объем продаж на основе бюджетов рекламы в различных источниках.

## Задание

Импорт необходимых библиотек для работы с данными (Pandas, NumPy), визуализацией (Matplotlib).

In [9]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Чтение данных из файла "advertising_sales.csv" в Pandas DataFrame dataset и вывод первых 5 строк данных.

In [10]:
dataset = pd.read_csv('advertising_sales.csv')
dataset.head()

Unnamed: 0.1,Unnamed: 0,TV Ad Budget ($),Radio Ad Budget ($),Newspaper Ad Budget ($),Sales ($)
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


Разделение данных из DataFrame на матрицу признаков X и зависимую переменную y, с выводом их на экран.

In [11]:
X = dataset.iloc[:, 1:4].values
y = dataset.iloc[:, 4].values
print ("Матрица признаков"); print(X[:5])
print ("Зависимая переменная"); print(y[:5])

Матрица признаков
[[230.1  37.8  69.2]
 [ 44.5  39.3  45.1]
 [ 17.2  45.9  69.3]
 [151.5  41.3  58.5]
 [180.8  10.8  58.4]]
Зависимая переменная
[22.1 10.4  9.3 18.5 12.9]


Разделение выборки на тренировочную и тестовую части

In [12]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

Инициализация и обучение линейной регрессионной модели на наборе данных `X_train` и `y_train`.

In [13]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

Предсказание целевых значений на тестовых данных с помощью обученной линейной регрессионной модели и вывод результата.

In [14]:
y_pred = regressor.predict(X_test)
print(y_pred)

[10.05739563  7.4522807   7.0197076  24.08029725 12.01786259  6.53793858
 12.78286918 15.10974587 10.76974013 16.34357951 22.88297477  9.12924467
 10.46455672 15.48743552 11.58555633 12.17296914 18.76551502 10.78318566
 15.90515992 17.30651279 24.06692057  9.59834224 15.13512211 12.38591525
  5.71360885 15.24749314 12.29402334 20.9421167  13.40991558  9.04348832
 12.89239415 21.40272028 18.13802209 21.17320803  6.56974433  6.14114206
  7.89018394 13.01541434 14.68953791  6.18835143]


Добавление столбца единиц в матрицу X для включения свободного члена в модель.
Выбор оптимальных столбцов из X в новую матрицу X_opt.

In [15]:
import statsmodels.api as sm
X = np.append(arr = np.ones((200 , 1)).astype(int), values = X, axis = 1)
X_opt = X[:, [0, 1, 2, 3]]



Создание и обучение модели линейной регрессии OLS на y и X_opt.
Вывод сводки обученной модели.

In [17]:
regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.897
Model:,OLS,Adj. R-squared:,0.896
Method:,Least Squares,F-statistic:,570.3
Date:,"Wed, 22 May 2024",Prob (F-statistic):,1.58e-96
Time:,05:00:16,Log-Likelihood:,-386.18
No. Observations:,200,AIC:,780.4
Df Residuals:,196,BIC:,793.6
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.9389,0.312,9.422,0.000,2.324,3.554
x1,0.0458,0.001,32.809,0.000,0.043,0.049
x2,0.1885,0.009,21.893,0.000,0.172,0.206
x3,-0.0010,0.006,-0.177,0.860,-0.013,0.011

0,1,2,3
Omnibus:,60.414,Durbin-Watson:,2.084
Prob(Omnibus):,0.0,Jarque-Bera (JB):,151.241
Skew:,-1.327,Prob(JB):,1.44e-33
Kurtosis:,6.332,Cond. No.,454.0


Корректировка X_opt опираясь на метод backwards elimination

In [19]:
X_opt = X[:, [0, 1, 2]]
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.897
Model:,OLS,Adj. R-squared:,0.896
Method:,Least Squares,F-statistic:,859.6
Date:,"Wed, 22 May 2024",Prob (F-statistic):,4.83e-98
Time:,05:00:20,Log-Likelihood:,-386.2
No. Observations:,200,AIC:,778.4
Df Residuals:,197,BIC:,788.3
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.9211,0.294,9.919,0.000,2.340,3.502
x1,0.0458,0.001,32.909,0.000,0.043,0.048
x2,0.1880,0.008,23.382,0.000,0.172,0.204

0,1,2,3
Omnibus:,60.022,Durbin-Watson:,2.081
Prob(Omnibus):,0.0,Jarque-Bera (JB):,148.679
Skew:,-1.323,Prob(JB):,5.19e-33
Kurtosis:,6.292,Cond. No.,425.0


## Контрольные вопросы

### **1. Почему при реализации многомерной линейной регрессии необходимо добавить фиктивный признак с единственным значением 1.0?**

При реализации многомерной линейной регрессии необходимо добавить фиктивный признак с единственным значением 1.0 для того, чтобы учесть свободный член (intercept) в модели. Этот фиктивный признак обеспечивает моделирование константного члена уравнения регрессии, который представляет собой значение зависимой переменной, когда все независимые переменные равны нулю. Без этого фиктивного признака модель может быть неправильно интерпретирована и дать неверные результаты, поэтому его добавление является важным шагом при работе с многомерной линейной регрессией.

### **2. Что такое фиктивная переменная? Опишите причину удаления одной фиктивной переменной, возникающей при перекодировке категориального признака.**

Фиктивная переменная (dummy variable) - это бинарная переменная, которая используется для представления категориальных данных в регрессионных моделях. Она принимает значение 0 или 1, чтобы закодировать принадлежность к определенной категории.

При перекодировке категориального признака с \(k\) уровнями (категорий) в \(k\) фиктивных переменных, обычно удаляется одна из фиктивных переменных. Этот метод называется "One-Hot Encoding".

Причина удаления одной из фиктивных переменных заключается в избежании мультиколлинеарности в модели. Мультиколлинеарность возникает, когда две или более независимые переменные в модели сильно коррелируют друг с другом. При использовании \(k\) фиктивных переменных для кодирования категориального признака, удаление одной переменной позволяет избежать линейной зависимости между переменными и улучшает интерпретируемость и стабильность модели.

### **3. На основе какого критерия можно выбирать удаляемый признак в алгоритме back elimination?**

В алгоритме обратной элиминации (back elimination) для выбора удаляемого признака обычно используется статистический критерий, такой как p-значение (p-value). При каждой итерации алгоритма удаляется один признак, и модель переоценивается. Затем анализируется статистическая значимость коэффициента этого признака с помощью p-значения.

Если p-значение для коэффициента признака превышает установленный пороговый уровень значимости (обычно 0.05), то этот признак считается незначимым для модели и может быть удален из рассмотрения. Процесс продолжается до тех пор, пока все оставшиеся признаки остаются статистически значимыми или до достижения определенного критерия остановки.

Таким образом, выбор удаляемого признака в алгоритме обратной элиминации основывается на статистической значимости коэффициентов признаков, оцененных с использованием p-значений.

### **4. В чем заключается алгоритм all-in regression?**

Алгоритм "all-in regression" представляет собой подход в статистике и машинном обучении, при котором в модель включаются все доступные независимые переменные без какого-либо отбора или отсева. Этот метод предполагает включение всех признаков в модель и оценку их влияния на зависимую переменную без предварительного анализа значимости или важности каждого признака.

Основная идея "all-in regression" заключается в том, что все доступные признаки могут содержать полезную информацию для прогнозирования или анализа данных, и исключение какого-либо из них может привести к потере важной информации.

Этот метод может быть полезен в случаях, когда нет явных оснований для исключения каких-либо признаков, и когда цель состоит в создании модели, которая учитывает все доступные данные для достижения наилучшего прогноза или анализа. Однако необходимо помнить, что использование всех признаков может привести к переобучению модели, особенно если в данных присутствует избыточная информация или мультиколлинеарность между признаками.

### **5. В чем заключается алгоритм forward selection regression?**

Алгоритм forward selection regression - это метод отбора признаков в множественной линейной регрессии, который начинается с пустой модели и пошагово добавляет наиболее значимые признаки для улучшения качества модели.

Процесс алгоритма forward selection regression обычно выглядит следующим образом:

1. Начало с пустой модели без независимых переменных.
2. Добавление одного признака (независимой переменной), который имеет наибольшее статистическое влияние на зависимую переменную.
3. Последующее пошаговое добавление других признаков, которые улучшают качество модели, один за другим, на основе статистической значимости (например, p-значения).
4. Процесс продолжается до тех пор, пока добавление новых признаков не улучшает качество модели или пока не будет достигнуто заранее определенное условие остановки.

Этот метод позволяет пошагово строить модель, включая только наиболее важные признаки, что способствует созданию более интерпретируемой и эффективной модели. Однако следует помнить, что алгоритм forward selection может не всегда выбирать оптимальный набор признаков из-за последовательного добавления, и некоторые важные взаимосвязи между признаками могут быть упущены.

### **6. В чем заключается алгоритм Bidirectional Elimination?**

Алгоритм Bidirectional Elimination (двустороннее исключение) - это метод отбора признаков в множественной линейной регрессии, который объединяет два подхода: forward selection (последовательное добавление признаков) и backward elimination (последовательное исключение признаков).

Процесс алгоритма Bidirectional Elimination обычно выглядит следующим образом:

1. Начало с пустой модели без независимых переменных.
2. Последовательное добавление наиболее значимых признаков с использованием forward selection.
3. Последовательное исключение наименее значимых признаков с использованием backward elimination.
4. Процесс повторяется до тех пор, пока добавление новых признаков не улучшает качество модели, а удаление признаков не приводит к ухудшению модели, или пока не будет достигнут критерий остановки.

Этот метод позволяет исследовать как добавление, так и исключение признаков, что может привести к построению более оптимальной модели, учитывая как важность признаков, так и их взаимосвязи. Bidirectional Elimination является компромиссным подходом между forward selection и backward elimination, который пытается найти баланс между включением информативных признаков и исключением лишних для улучшения качества модели.

### **7. Стратегия Backward Elimination предполагает удаление признаков на основе анализа p-критерия. Как реализовать удаление признаков в автоматическом режиме?**

Для реализации удаления признаков в автоматическом режиме в стратегии Backward Elimination на основе анализа p-критерия можно использовать следующий алгоритм:

1. Создание модели линейной регрессии с полным набором независимых переменных.
2. Оценка статистической значимости каждого коэффициента признака с помощью p-значения (обычно используется уровень значимости 0.05).
3. Если p-значение для какого-либо признака превышает установленный порог, то этот признак считается незначимым и может быть удален из модели.
4. Повторение шагов 2-3 до тех пор, пока все оставшиеся признаки остаются статистически значимыми или пока не будет достигнут критерий остановки.
5. Конечный набор признаков после удаления незначимых признаков будет являться оптимальным для данной модели.

Этот процесс может быть автоматизирован с использованием программного кода, который будет выполнять оценку значимости признаков и удаление незначимых признаков на основе заданного уровня значимости. Такой код может быть написан на языках программирования, таких как Python, с использованием библиотек для статистического анализа данных, например, statsmodels или scikit-learn.

## Вывод

Был разработан пайплайн для тиражирования кода с целью решения широкого круга задач машинного обучения. Получены навыки рефакторинга кода в проектах машинного обучения. Получены навыки определения ключевых признаков в задачах машинного обучения. Получены навыки реализации ключевых стратегий оптимизации моделей регрессии.