## Шаг 1. Подключение библиотек

In [None]:
import numpy as np # работа с массивами и матрицами
import pandas as pd # работа с таблицами данных
import matplotlib.pyplot as plt # базовая визуализация данных
from google.colab import files


## Шаг 1.2 Загрузка данных и разделение на матрицу признаков и зависимую переменную

In [None]:
dataset = pd.read_csv('50_Startups.csv')
dataset.head()

Unnamed: 0,R&D Spend,Administration,Marketing Spend,State,Profit
0,165349.2,136897.8,471784.1,New York,192261.83
1,162597.7,151377.59,443898.53,California,191792.06
2,153441.51,101145.55,407934.54,Florida,191050.39
3,144372.41,118671.85,383199.62,New York,182901.99
4,142107.34,91391.77,366168.42,Florida,166187.94


In [None]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values
print("Матрица признаков"); print(X[:5]) # первые пять строк в виде матриц
print("Зависимая переменная"); print(y[:5]) # первые пять строк в виде матриц

Матрица признаков
[[165349.2 136897.8 471784.1 'New York']
 [162597.7 151377.59 443898.53 'California']
 [153441.51 101145.55 407934.54 'Florida']
 [144372.41 118671.85 383199.62 'New York']
 [142107.34 91391.77 366168.42 'Florida']]
Зависимая переменная
[192261.83 191792.06 191050.39 182901.99 166187.94]


## Шаг 1.3 Обработка пропущенных значений

In [None]:
from sklearn.impute import SimpleImputer
# Создание объекта SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
# Применение SimpleImputer для заполнения пропусков
X[:, 1:3] = imputer.fit_transform(X[:, 1:3])
# Печать обработанного массива X
print(X)


[[165349.2 136897.8 471784.1 'New York']
 [162597.7 151377.59 443898.53 'California']
 [153441.51 101145.55 407934.54 'Florida']
 [144372.41 118671.85 383199.62 'New York']
 [142107.34 91391.77 366168.42 'Florida']
 [131876.9 99814.71 362861.36 'New York']
 [134615.46 147198.87 127716.82 'California']
 [130298.13 145530.06 323876.68 'Florida']
 [120542.52 148718.95 311613.29 'New York']
 [123334.88 108679.17 304981.62 'California']
 [101913.08 110594.11 229160.95 'Florida']
 [100671.96 91790.61 249744.55 'California']
 [93863.75 127320.38 249839.44 'Florida']
 [91992.39 135495.07 252664.93 'California']
 [119943.24 156547.42 256512.92 'Florida']
 [114523.61 122616.84 261776.23 'New York']
 [78013.11 121597.55 264346.06 'California']
 [94657.16 145077.58 282574.31 'New York']
 [91749.16 114175.79 294919.57 'Florida']
 [86419.7 153514.11 0.0 'New York']
 [76253.86 113867.3 298664.47 'California']
 [78389.47 153773.43 299737.29 'New York']
 [73994.56 122782.75 303319.26 'Florida']
 [67532

## Шаг 1.4 Обработка категориальных данных

1.4.1 Замена категории кодом (LabelEncoder)

In [None]:
from sklearn.preprocessing import LabelEncoder
Labelencoder_y = LabelEncoder()
print("Зависимая переменная до обработки")
print(y)
y = Labelencoder_y.fit_transform(y)
print("Зависимая переменная после обработки")

Зависимая переменная до обработки
[192261.83 191792.06 191050.39 182901.99 166187.94 156991.12 156122.51
 155752.6  152211.77 149759.96 146121.95 144259.4  141585.52 134307.35
 132602.65 129917.04 126992.93 125370.37 124266.9  122776.86 118474.03
 111313.02 110352.25 108733.99 108552.04 107404.34 105733.54 105008.31
 103282.38 101004.64  99937.59  97483.56  97427.84  96778.92  96712.8
  96479.51  90708.19  89949.14  81229.06  81005.76  78239.91  77798.83
  71498.49  69758.98  65200.33  64926.08  49490.75  42559.73  35673.41
  14681.4 ]
[192261.83 191792.06 191050.39 182901.99 166187.94 156991.12 156122.51
 155752.6  152211.77 149759.96 146121.95 144259.4  141585.52 134307.35
 132602.65 129917.04 126992.93 125370.37 124266.9  122776.86 118474.03
 111313.02 110352.25 108733.99 108552.04 107404.34 105733.54 105008.31
 103282.38 101004.64  99937.59  97483.56  97427.84  96778.92  96712.8
  96479.51  90708.19  89949.14  81229.06  81005.76  78239.91  77798.83
  71498.49  69758.98  65200.33  6

1.4.2 Применение OneHotEncoder

In [None]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
# Преобразование столбца с помощью LabelEncoder
labelencoder = LabelEncoder()
X[:, 3] = labelencoder.fit_transform(X[:, 3])
# Преобразование категориального признака с помощью OneHotEncoder
column_transformer = ColumnTransformer(
    transformers=[
        ('encoder', OneHotEncoder(), [3])  # Указываем индекс столбца для кодирования
    ],
    remainder='passthrough'  # Остальные столбцы оставляем без изменений
)
# Применение преобразования
X = column_transformer.fit_transform(X)
# Преобразование в массив
X = np.array(X)
# Вывод результата
print("Перекодировка категориального признака")
print(X[:4, :])

Перекодировка категориального признака
[[0.0 0.0 1.0 165349.2 136897.8 471784.1]
 [1.0 0.0 0.0 162597.7 151377.59 443898.53]
 [0.0 1.0 0.0 153441.51 101145.55 407934.54]
 [0.0 0.0 1.0 144372.41 118671.85 383199.62]]


In [None]:
X = X[:, 1:]
print(X[:4,:])

[[0.0 1.0 165349.2 136897.8 471784.1]
 [0.0 0.0 162597.7 151377.59 443898.53]
 [1.0 0.0 153441.51 101145.55 407934.54]
 [0.0 1.0 144372.41 118671.85 383199.62]]


## Шаг 1.5 Разделение выборки на тестовую и тренировочную

In [None]:
#from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

## Шаг 1.6 Обучение линейной модели регрессии

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

## Шаг 1.7 Обработка результатов, тюнинг модели

1.7.1 Предсказание

In [None]:
y_pred = regressor.predict(X_test)
print(y_pred)

[22.73971792 31.79851398 32.76702713 10.17872713 48.95244293 25.07783798
  7.62074212 20.43498693 25.32328448 45.16861644]


1.7.2 Оптимизация модели

In [None]:
import statsmodels.api as sm
# Преобразование данных в тип float
X = X.astype(float)
# Добавляем единичный столбец для константы
X = np.append(arr=np.ones((50, 1)).astype(int), values=X, axis=1)
# Указание доступных индексов
X_opt = X[:, [0, 1, 2, 3, 4, 5]]  # Обновите индексы, чтобы они находились в пределах диапазона
regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.96
Model:,OLS,Adj. R-squared:,0.956
Method:,Least Squares,F-statistic:,212.6
Date:,"Tue, 10 Dec 2024",Prob (F-statistic):,1.2200000000000001e-29
Time:,16:27:04,Log-Likelihood:,-123.78
No. Observations:,50,AIC:,259.6
Df Residuals:,44,BIC:,271.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.2027,2.237,0.538,0.594,-3.306,5.711
x1,0.1929,1.095,0.176,0.861,-2.015,2.400
x2,-0.2364,1.058,-0.223,0.824,-2.369,1.896
x3,0.0003,1.51e-05,19.988,0.000,0.000,0.000
x4,5.233e-07,1.7e-05,0.031,0.976,-3.37e-05,3.47e-05
x5,4.897e-06,5.57e-06,0.879,0.384,-6.33e-06,1.61e-05

0,1,2,3
Omnibus:,3.294,Durbin-Watson:,1.285
Prob(Omnibus):,0.193,Jarque-Bera (JB):,3.155
Skew:,0.582,Prob(JB):,0.206
Kurtosis:,2.602,Cond. No.,1450000.0


In [None]:
X_opt = X[:, [0, 1, 3, 4, 5]]
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.96
Model:,OLS,Adj. R-squared:,0.957
Method:,Least Squares,F-statistic:,271.5
Date:,"Tue, 10 Dec 2024",Prob (F-statistic):,7.070000000000001e-31
Time:,16:27:06,Log-Likelihood:,-123.81
No. Observations:,50,AIC:,257.6
Df Residuals:,45,BIC:,267.2
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.0949,2.161,0.507,0.615,-3.258,5.448
x1,0.3135,0.943,0.332,0.741,-1.586,2.213
x2,0.0003,1.49e-05,20.236,0.000,0.000,0.000
x3,5.737e-07,1.68e-05,0.034,0.973,-3.32e-05,3.44e-05
x4,4.897e-06,5.51e-06,0.889,0.379,-6.2e-06,1.6e-05

0,1,2,3
Omnibus:,3.623,Durbin-Watson:,1.273
Prob(Omnibus):,0.163,Jarque-Bera (JB):,3.46
Skew:,0.623,Prob(JB):,0.177
Kurtosis:,2.669,Cond. No.,1400000.0


In [None]:
X_opt = X[:, [0, 3, 4, 5]]
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.96
Model:,OLS,Adj. R-squared:,0.958
Method:,Least Squares,F-statistic:,369.1
Date:,"Tue, 10 Dec 2024",Prob (F-statistic):,3.56e-32
Time:,16:27:08,Log-Likelihood:,-123.87
No. Observations:,50,AIC:,255.7
Df Residuals:,46,BIC:,263.4
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.1176,2.139,0.522,0.604,-3.188,5.423
x1,0.0003,1.47e-05,20.469,0.000,0.000,0.000
x2,8.292e-07,1.66e-05,0.050,0.960,-3.26e-05,3.43e-05
x3,5.25e-06,5.35e-06,0.981,0.332,-5.53e-06,1.6e-05

0,1,2,3
Omnibus:,3.506,Durbin-Watson:,1.263
Prob(Omnibus):,0.173,Jarque-Bera (JB):,3.33
Skew:,0.613,Prob(JB):,0.189
Kurtosis:,2.692,Cond. No.,1400000.0


In [None]:
X_opt = X[:, [0, 3]]
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.959
Model:,OLS,Adj. R-squared:,0.958
Method:,Least Squares,F-statistic:,1129.0
Date:,"Tue, 10 Dec 2024",Prob (F-statistic):,5.25e-35
Time:,16:27:10,Log-Likelihood:,-124.43
No. Observations:,50,AIC:,252.9
Df Residuals:,48,BIC:,256.7
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.5703,0.802,1.959,0.056,-0.042,3.182
x1,0.0003,9.26e-06,33.599,0.000,0.000,0.000

0,1,2,3
Omnibus:,3.75,Durbin-Watson:,1.294
Prob(Omnibus):,0.153,Jarque-Bera (JB):,3.598
Skew:,0.633,Prob(JB):,0.165
Kurtosis:,2.648,Cond. No.,165000.0


## Индвидуальное задание
Постройте модель многомерной регрессии с использованием
стратегии backward elimination

## Шаг 1. Загрузка библиотек

In [6]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm

data = pd.read_csv('diabetes.csv')  # Замените на ваш путь к файлу
print("Данные:")
data.head()

Данные:


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


## Шаг 2. Подготовка данных, определение целевой переменной и признаков

In [7]:

# Удаляем пропущенные значения
data = data.dropna()

# Определяем матрицу признаков (X) и целевую переменную (y)
# Признаки: 'Glucose', 'BloodPressure', 'BMI', 'Age'
# Целевая переменная: 'Outcome'
X = data[['Glucose', 'BloodPressure', 'BMI', 'Age']].values
y = data['Outcome'].values

## Шаг 3. Разделение данных на обучающую и тестовую выборки

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

## Шаг 4. Обучение линейной регрессии

In [9]:
regressor = LinearRegression()
regressor.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = regressor.predict(X_test)
print("Предсказания:")
print(y_pred[:5])

Предсказания:
[0.86920585 0.22484961 0.09635468 0.62256762 0.18720026]


## Шаг 5. Оптимизация модели с помощью backward elimination

In [10]:
# Добавляем столбец единиц для константы
X = np.append(arr=np.ones((X.shape[0], 1)).astype(int), values=X, axis=1)

In [12]:
# 5.1 Начальная модель со всеми признаками
X_opt = X[:, [0, 1, 2, 3, 4]]  # Индексы признаков
regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
print("Модель с полным набором признаков:")
print(regressor_OLS.summary())

Модель с полным набором признаков:
                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.279
Model:                            OLS   Adj. R-squared:                  0.275
Method:                 Least Squares   F-statistic:                     73.69
Date:                Wed, 11 Dec 2024   Prob (F-statistic):           8.17e-53
Time:                        11:28:01   Log-Likelihood:                -395.23
No. Observations:                 768   AIC:                             800.5
Df Residuals:                     763   BIC:                             823.7
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.

In [11]:
# 5.2 Удаляем признак с наибольшим p-значением и повторяем
X_opt = X[:, [0, 1, 2, 3]]  # Пример: Удален Age
regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
print("Модель после первого шага:")
print(regressor_OLS.summary())



Модель после первого шага:
                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.259
Model:                            OLS   Adj. R-squared:                  0.256
Method:                 Least Squares   F-statistic:                     88.95
Date:                Wed, 11 Dec 2024   Prob (F-statistic):           2.26e-49
Time:                        11:27:59   Log-Likelihood:                -405.63
No. Observations:                 768   AIC:                             819.3
Df Residuals:                     764   BIC:                             837.8
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.7362    

In [13]:
# 5.3 Еще одно удаление (по необходимости)
X_opt = X[:, [0, 1, 2]]  # Пример: Удален BloodPressure
regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
print("Модель после второго шага:")
print(regressor_OLS.summary())

Модель после второго шага:
                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.218
Model:                            OLS   Adj. R-squared:                  0.216
Method:                 Least Squares   F-statistic:                     106.5
Date:                Wed, 11 Dec 2024   Prob (F-statistic):           1.61e-41
Time:                        11:28:03   Log-Likelihood:                -426.37
No. Observations:                 768   AIC:                             858.7
Df Residuals:                     765   BIC:                             872.7
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.4835    

## Вывод

1. Полная модель с четырьмя признаками (Glucose, BloodPressure, BMI, Age) продемонстрировала коэффициент детерминации R^2=0.279, что свидетельствует о достаточно низком уровне объяснённой дисперсии целевой переменной (Outcome). 
2. В процессе оптимизации (backward elimination) были поочередно удалены признаки Age и BloodPressure, что привело к снижению R^2 до 0.259 и 0.218 соответственно. Итоговая модель с двумя признаками (Glucose, BMI) показала лучший баланс между объяснением целевой переменной и упрощением модели, где показатель R^2 снизился, но основные признаки (Glucose и BMI) остались статистически значимыми (P<0.05). Это подтверждает их вклад в предсказание вероятности заболевания диабетом.