# Лабораторная работа 9. Использование разработанного пайплайна для многомерной регрессии
## <a href="https://www.kaggle.com/datasets/winson13/heart-disease-dataset">Набор данных о сердечных заболеваниях</a>

### Описание набора данных:
Этот набор данных содержит медицинскую и поведенческую информацию, используемую для прогнозирования риска сердечно-сосудистых заболеваний. Он очень полезен для исследований и машинного обучения в области здравоохранения.

### Прилагающаяся информация:
Этот набор данных может быть использован для различных проектов по анализу данных и машинному обучению, таких как:
* Создание прогностических моделей для диагностики сердечно-сосудистых заболеваний.
* Определение основных факторов риска сердечно-сосудистых заболеваний.
* Понимание взаимосвязи между различными переменными и сердечно-сосудистыми заболеваниями.

### Назначение набора данных и возможные модели:
1) index - <b>Целое</b> - порядковый номер записи
2) age - <b>Целое</b> - возраст пациента
3) sex - <b>Категориальное</b> - пол пациента
4) chest pain type - <b>Целое</b> - тип боли в груди пациента
5) resting bps - <b>Целое</b> - давление пациента в покое при поступлении
6) cholesterol - <b>Дробное</b> - Холестерин сыворотки крови, (мг/дл)
7) fasting blood sugar - <b>Целое</b> - гликемия "натощак" (мг/дл)
8) resting ecg - <b>Целое</b> - результаты ЭКГ в покое
9) max heart rate - <b>Целое</b> - максимальная ЧУ сердца в минуту
10) exercise angina - <b>Целое</b> - нагрузочная стенокардия
11) oldpeak - <b>Дробное</b>
12) ST slope - <b>Целое</b>
13) target - <b>Целое</b>

Подключение библиотек

In [1]:
import numpy as np
import pandas as pd

Загрузка данных

In [2]:
dataset = pd.read_csv('Heart_Disease.csv')

dataset.head()

Unnamed: 0.1,Unnamed: 0,age,sex,chest pain type,resting bps,cholesterol,fasting blood sugar,resting ecg,max heart rate,exercise angina,oldpeak,ST slope,target
0,0,40,1,2,140,289.0,0,0,172,0,0.0,1,0
1,1,49,0,3,160,180.0,0,0,156,0,1.0,2,1
2,2,37,1,2,130,283.0,0,1,98,0,0.0,1,0
3,3,48,0,4,138,214.0,0,0,108,1,1.5,2,1
4,4,54,1,3,150,195.0,0,0,122,0,0.0,1,0


Разделение на матрицу признаков и зависимую переменную

In [3]:
X = dataset.iloc[:, 2:-7].values
y = dataset.iloc[:, 1].values

print ("Матрица признаков"); print(X[:5])
print ("Зависимая переменная"); print(y[:5])

Матрица признаков
[[  1.   2. 140. 289.]
 [  0.   3. 160. 180.]
 [  1.   2. 130. 283.]
 [  0.   4. 138. 214.]
 [  1.   3. 150. 195.]]
Зависимая переменная
[40 49 37 48 54]


Обработка пропущенных значений

In [6]:
from sklearn.impute import SimpleImputer


imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean').fit(X[:, 1:3])

X[:, 1:3] = imputer.transform(X[:, 1:3])

Замена категории кодом (LabelEncoder)

In [7]:
from sklearn.preprocessing import LabelEncoder


label_encoder_y = LabelEncoder()
y = label_encoder_y.fit_transform(y)

Преобразования категориальных меток в числовые значения (OneHotEncoder)

In [8]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder


label_encoder = LabelEncoder()
onehotencoder = OneHotEncoder()

X[:, 3] = label_encoder.fit_transform(X[:, 3])
X = onehotencoder.fit_transform(X).toarray()

print("Перекодировка категориального признака")
print(X[:4,:])

Перекодировка категориального признака
[[0. 1. 0. ... 0. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]]


Для предотвращения мультиколлениврности необходимо избавиться от одной из фиктивных переменных, добавленных в результате обработки категориальных признаков

In [9]:
X = X[:, 1:]

print(X[:4,:])

[[1. 0. 1. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [1. 0. 1. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


Разделение выборки на тестовую и тренировочную

In [10]:
from sklearn.model_selection import train_test_split


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

Обучение линейной модели регрессии

In [11]:
from sklearn.linear_model import LinearRegression


regressor = LinearRegression()
regressor.fit(X_train, y_train)

Предсказиние результатов

In [13]:
y_pred = regressor.predict(X_test)

print(y_pred)

[ 1.90625000e+01  4.65625000e+01  2.39375000e+01 -5.16904337e+13
  1.20625000e+01  2.51250000e+01  1.20625000e+01  3.01678126e+14
  1.97500000e+01  3.70000000e+01  2.90625000e+01  2.78125000e+01
  3.20625000e+01  3.46250000e+01  3.01250000e+01 -8.00765389e+13
  1.70625000e+01  2.04375000e+01  3.30625000e+01  3.35625000e+01
  3.16875000e+01  3.04375000e+01  3.05000000e+01  2.56875000e+01
  2.30625000e+01  1.72500000e+01  2.70000000e+01  1.99375000e+01
  3.71250000e+01  2.35625000e+01  2.58125000e+01  2.79375000e+01
  2.51250000e+01  1.81875000e+01  2.14375000e+01  3.03125000e+01
  2.08125000e+01  3.54375000e+01  3.34375000e+01  3.07500000e+01
 -4.17075724e+14  1.59375000e+01  2.40625000e+01  2.87500000e+01
  3.03750000e+01  2.79375000e+01  1.60000000e+01  2.68750000e+01
  3.06250000e+01  4.28750000e+01  1.23125000e+01  1.77500000e+01
  1.95625000e+01 -7.72341286e+14  4.41875000e+01  1.71250000e+01
  1.88750000e+01 -5.16904337e+13  3.50000000e+01  2.81250000e+01
  2.62500000e+01  2.20625

Оптимизация модели

In [46]:
import statsmodels.formula.api as sm

# добавляем столбец единиц к матрице признаков X, чтобы учесть свободный член в модели
X = np.append(arr = np.ones((1048, 1)).astype(int), values = X, axis = 1)

# выбираем оптимальные признаки для нашей модели
X_opt = X[:, [0, 1, 2, 3, 4, 5]]

# построение модели OLS методом наименьших квадратов
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()


regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.015
Model:,OLS,Adj. R-squared:,0.01
Method:,Least Squares,F-statistic:,3.079
Date:,"Sun, 24 Mar 2024",Prob (F-statistic):,0.00915
Time:,22:25:08,Log-Likelihood:,-3826.9
No. Observations:,1048,AIC:,7666.0
Df Residuals:,1042,BIC:,7695.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,53.2841,0.290,183.928,0.000,52.716,53.853
x1,0.7159,6.619,0.108,0.914,-12.272,13.704
x2,15.7159,9.356,1.680,0.093,-2.643,34.075
x3,22.7159,9.356,2.428,0.015,4.357,41.075
x4,-15.2841,9.356,-1.634,0.103,-33.643,3.075
x5,18.7159,9.356,2.000,0.046,0.357,37.075

0,1,2,3
Omnibus:,15.801,Durbin-Watson:,1.659
Prob(Omnibus):,0.0,Jarque-Bera (JB):,11.566
Skew:,-0.149,Prob(JB):,0.00308
Kurtosis:,2.58,Cond. No.,32.4


In [40]:
X_opt = X[:, [0, 1, 3, 4, 5]]

regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()


regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.009
Model:,OLS,Adj. R-squared:,0.004
Method:,Least Squares,F-statistic:,1.863
Date:,"Sun, 24 Mar 2024",Prob (F-statistic):,0.0982
Time:,22:23:44,Log-Likelihood:,-5665.7
No. Observations:,1048,AIC:,11340.0
Df Residuals:,1043,BIC:,11370.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
x1,54.0000,38.209,1.413,0.158,-20.975,128.975
x2,69.0000,54.035,1.277,0.202,-37.030,175.030
x3,38.0000,54.035,0.703,0.482,-68.030,144.030
x4,72.0000,54.035,1.332,0.183,-34.030,178.030
x5,57.6667,31.197,1.848,0.065,-3.550,118.883

0,1,2,3
Omnibus:,222.186,Durbin-Watson:,0.065
Prob(Omnibus):,0.0,Jarque-Bera (JB):,774.857
Skew:,-1.0,Prob(JB):,5.52e-169
Kurtosis:,6.708,Cond. No.,1.73


In [41]:
X_opt = X[:, [0, 3, 4, 5]]

regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()


regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.007
Model:,OLS,Adj. R-squared:,0.003
Method:,Least Squares,F-statistic:,1.92
Date:,"Sun, 24 Mar 2024",Prob (F-statistic):,0.105
Time:,22:23:46,Log-Likelihood:,-5666.5
No. Observations:,1048,AIC:,11340.0
Df Residuals:,1044,BIC:,11360.0
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
x1,54.0000,38.220,1.413,0.158,-20.997,128.997
x2,38.0000,54.052,0.703,0.482,-68.062,144.062
x3,72.0000,54.052,1.332,0.183,-34.062,178.062
x4,57.6667,31.207,1.848,0.065,-3.568,118.902

0,1,2,3
Omnibus:,199.881,Durbin-Watson:,0.062
Prob(Omnibus):,0.0,Jarque-Bera (JB):,649.217
Skew:,-0.921,Prob(JB):,1.06e-141
Kurtosis:,6.387,Cond. No.,1.73


In [42]:
X_opt = X[:, [0, 3, 5]]

regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()


regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.006
Model:,OLS,Adj. R-squared:,0.003
Method:,Least Squares,F-statistic:,1.967
Date:,"Sun, 24 Mar 2024",Prob (F-statistic):,0.117
Time:,22:23:48,Log-Likelihood:,-5667.4
No. Observations:,1048,AIC:,11340.0
Df Residuals:,1045,BIC:,11360.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
x1,54.0000,38.234,1.412,0.158,-21.025,129.025
x2,38.0000,54.072,0.703,0.482,-68.101,144.101
x3,57.6667,31.218,1.847,0.065,-3.591,118.924

0,1,2,3
Omnibus:,174.545,Durbin-Watson:,0.059
Prob(Omnibus):,0.0,Jarque-Bera (JB):,519.134
Skew:,-0.833,Prob(JB):,1.87e-113
Kurtosis:,6.019,Cond. No.,1.73


In [43]:
X_opt = X[:, [0, 3]]

regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()


regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.002
Model:,OLS,Adj. R-squared:,0.0
Method:,Least Squares,F-statistic:,1.241
Date:,"Sun, 24 Mar 2024",Prob (F-statistic):,0.289
Time:,22:23:51,Log-Likelihood:,-5669.1
No. Observations:,1048,AIC:,11340.0
Df Residuals:,1046,BIC:,11350.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
x1,54.0000,38.278,1.411,0.159,-21.111,129.111
x2,38.0000,54.134,0.702,0.483,-68.223,144.223

0,1,2,3
Omnibus:,86.552,Durbin-Watson:,0.054
Prob(Omnibus):,0.0,Jarque-Bera (JB):,168.525
Skew:,-0.536,Prob(JB):,2.5400000000000002e-37
Kurtosis:,4.646,Cond. No.,1.41


### Вывод: 
Многомерная регрессия, также известная как многомерная линейная регрессия, используется для моделирования влияния нескольких независимых переменных на зависимую переменную. Пайплайн для многомерной регрессии может включать в себя шаги по обработке данных, исключению мультиколлинеарности, выбору оптимальной модели и интерпретации результатов.
<br/>
<br/>Пайплайн для многомерной регрессии  помогает в подготовке данных, выборе оптимальных признаков, построении модели и оценке ее качества. Это позволяет исследователям и аналитикам более точно моделировать сложные взаимосвязи между несколькими независимыми переменными и зависимой переменной. Пайплайн также способствует систематизации процесса анализа данных и повышению воспроизводимости результатов исследования.