## Шаг 1. Подключение библиотек

In [None]:
import numpy as np # работа с массивами и матрицами
import pandas as pd # работа с таблицами данных
import matplotlib.pyplot as plt # базовая визуализация данных
from google.colab import files


## Шаг 1.2 Загрузка данных и разделение на матрицу признаков и зависимую переменную

In [None]:
dataset = pd.read_csv('50_Startups.csv')
dataset.head()

Unnamed: 0,R&D Spend,Administration,Marketing Spend,State,Profit
0,165349.2,136897.8,471784.1,New York,192261.83
1,162597.7,151377.59,443898.53,California,191792.06
2,153441.51,101145.55,407934.54,Florida,191050.39
3,144372.41,118671.85,383199.62,New York,182901.99
4,142107.34,91391.77,366168.42,Florida,166187.94


In [None]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values
print("Матрица признаков"); print(X[:5]) # первые пять строк в виде матриц
print("Зависимая переменная"); print(y[:5]) # первые пять строк в виде матриц

Матрица признаков
[[165349.2 136897.8 471784.1 'New York']
 [162597.7 151377.59 443898.53 'California']
 [153441.51 101145.55 407934.54 'Florida']
 [144372.41 118671.85 383199.62 'New York']
 [142107.34 91391.77 366168.42 'Florida']]
Зависимая переменная
[192261.83 191792.06 191050.39 182901.99 166187.94]


## Шаг 1.3 Обработка пропущенных значений

In [None]:
from sklearn.impute import SimpleImputer
# Создание объекта SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
# Применение SimpleImputer для заполнения пропусков
X[:, 1:3] = imputer.fit_transform(X[:, 1:3])
# Печать обработанного массива X
print(X)


[[165349.2 136897.8 471784.1 'New York']
 [162597.7 151377.59 443898.53 'California']
 [153441.51 101145.55 407934.54 'Florida']
 [144372.41 118671.85 383199.62 'New York']
 [142107.34 91391.77 366168.42 'Florida']
 [131876.9 99814.71 362861.36 'New York']
 [134615.46 147198.87 127716.82 'California']
 [130298.13 145530.06 323876.68 'Florida']
 [120542.52 148718.95 311613.29 'New York']
 [123334.88 108679.17 304981.62 'California']
 [101913.08 110594.11 229160.95 'Florida']
 [100671.96 91790.61 249744.55 'California']
 [93863.75 127320.38 249839.44 'Florida']
 [91992.39 135495.07 252664.93 'California']
 [119943.24 156547.42 256512.92 'Florida']
 [114523.61 122616.84 261776.23 'New York']
 [78013.11 121597.55 264346.06 'California']
 [94657.16 145077.58 282574.31 'New York']
 [91749.16 114175.79 294919.57 'Florida']
 [86419.7 153514.11 0.0 'New York']
 [76253.86 113867.3 298664.47 'California']
 [78389.47 153773.43 299737.29 'New York']
 [73994.56 122782.75 303319.26 'Florida']
 [67532

## Шаг 1.4 Обработка категориальных данных

1.4.1 Замена категории кодом (LabelEncoder)

In [None]:
from sklearn.preprocessing import LabelEncoder
Labelencoder_y = LabelEncoder()
print("Зависимая переменная до обработки")
print(y)
y = Labelencoder_y.fit_transform(y)
print("Зависимая переменная после обработки")

Зависимая переменная до обработки
[192261.83 191792.06 191050.39 182901.99 166187.94 156991.12 156122.51
 155752.6  152211.77 149759.96 146121.95 144259.4  141585.52 134307.35
 132602.65 129917.04 126992.93 125370.37 124266.9  122776.86 118474.03
 111313.02 110352.25 108733.99 108552.04 107404.34 105733.54 105008.31
 103282.38 101004.64  99937.59  97483.56  97427.84  96778.92  96712.8
  96479.51  90708.19  89949.14  81229.06  81005.76  78239.91  77798.83
  71498.49  69758.98  65200.33  64926.08  49490.75  42559.73  35673.41
  14681.4 ]
[192261.83 191792.06 191050.39 182901.99 166187.94 156991.12 156122.51
 155752.6  152211.77 149759.96 146121.95 144259.4  141585.52 134307.35
 132602.65 129917.04 126992.93 125370.37 124266.9  122776.86 118474.03
 111313.02 110352.25 108733.99 108552.04 107404.34 105733.54 105008.31
 103282.38 101004.64  99937.59  97483.56  97427.84  96778.92  96712.8
  96479.51  90708.19  89949.14  81229.06  81005.76  78239.91  77798.83
  71498.49  69758.98  65200.33  6

1.4.2 Применение OneHotEncoder

In [None]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
# Преобразование столбца с помощью LabelEncoder
labelencoder = LabelEncoder()
X[:, 3] = labelencoder.fit_transform(X[:, 3])
# Преобразование категориального признака с помощью OneHotEncoder
column_transformer = ColumnTransformer(
    transformers=[
        ('encoder', OneHotEncoder(), [3])  # Указываем индекс столбца для кодирования
    ],
    remainder='passthrough'  # Остальные столбцы оставляем без изменений
)
# Применение преобразования
X = column_transformer.fit_transform(X)
# Преобразование в массив
X = np.array(X)
# Вывод результата
print("Перекодировка категориального признака")
print(X[:4, :])

Перекодировка категориального признака
[[0.0 0.0 1.0 165349.2 136897.8 471784.1]
 [1.0 0.0 0.0 162597.7 151377.59 443898.53]
 [0.0 1.0 0.0 153441.51 101145.55 407934.54]
 [0.0 0.0 1.0 144372.41 118671.85 383199.62]]


In [None]:
X = X[:, 1:]
print(X[:4,:])

[[0.0 1.0 165349.2 136897.8 471784.1]
 [0.0 0.0 162597.7 151377.59 443898.53]
 [1.0 0.0 153441.51 101145.55 407934.54]
 [0.0 1.0 144372.41 118671.85 383199.62]]


## Шаг 1.5 Разделение выборки на тестовую и тренировочную

In [None]:
#from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

## Шаг 1.6 Обучение линейной модели регрессии

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

## Шаг 1.7 Обработка результатов, тюнинг модели

1.7.1 Предсказание

In [None]:
y_pred = regressor.predict(X_test)
print(y_pred)

[22.73971792 31.79851398 32.76702713 10.17872713 48.95244293 25.07783798
  7.62074212 20.43498693 25.32328448 45.16861644]


1.7.2 Оптимизация модели

In [None]:
import statsmodels.api as sm
# Преобразование данных в тип float
X = X.astype(float)
# Добавляем единичный столбец для константы
X = np.append(arr=np.ones((50, 1)).astype(int), values=X, axis=1)
# Указание доступных индексов
X_opt = X[:, [0, 1, 2, 3, 4, 5]]  # Обновите индексы, чтобы они находились в пределах диапазона
regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.96
Model:,OLS,Adj. R-squared:,0.956
Method:,Least Squares,F-statistic:,212.6
Date:,"Tue, 10 Dec 2024",Prob (F-statistic):,1.2200000000000001e-29
Time:,16:27:04,Log-Likelihood:,-123.78
No. Observations:,50,AIC:,259.6
Df Residuals:,44,BIC:,271.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.2027,2.237,0.538,0.594,-3.306,5.711
x1,0.1929,1.095,0.176,0.861,-2.015,2.400
x2,-0.2364,1.058,-0.223,0.824,-2.369,1.896
x3,0.0003,1.51e-05,19.988,0.000,0.000,0.000
x4,5.233e-07,1.7e-05,0.031,0.976,-3.37e-05,3.47e-05
x5,4.897e-06,5.57e-06,0.879,0.384,-6.33e-06,1.61e-05

0,1,2,3
Omnibus:,3.294,Durbin-Watson:,1.285
Prob(Omnibus):,0.193,Jarque-Bera (JB):,3.155
Skew:,0.582,Prob(JB):,0.206
Kurtosis:,2.602,Cond. No.,1450000.0


In [None]:
X_opt = X[:, [0, 1, 3, 4, 5]]
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.96
Model:,OLS,Adj. R-squared:,0.957
Method:,Least Squares,F-statistic:,271.5
Date:,"Tue, 10 Dec 2024",Prob (F-statistic):,7.070000000000001e-31
Time:,16:27:06,Log-Likelihood:,-123.81
No. Observations:,50,AIC:,257.6
Df Residuals:,45,BIC:,267.2
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.0949,2.161,0.507,0.615,-3.258,5.448
x1,0.3135,0.943,0.332,0.741,-1.586,2.213
x2,0.0003,1.49e-05,20.236,0.000,0.000,0.000
x3,5.737e-07,1.68e-05,0.034,0.973,-3.32e-05,3.44e-05
x4,4.897e-06,5.51e-06,0.889,0.379,-6.2e-06,1.6e-05

0,1,2,3
Omnibus:,3.623,Durbin-Watson:,1.273
Prob(Omnibus):,0.163,Jarque-Bera (JB):,3.46
Skew:,0.623,Prob(JB):,0.177
Kurtosis:,2.669,Cond. No.,1400000.0


In [None]:
X_opt = X[:, [0, 3, 4, 5]]
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.96
Model:,OLS,Adj. R-squared:,0.958
Method:,Least Squares,F-statistic:,369.1
Date:,"Tue, 10 Dec 2024",Prob (F-statistic):,3.56e-32
Time:,16:27:08,Log-Likelihood:,-123.87
No. Observations:,50,AIC:,255.7
Df Residuals:,46,BIC:,263.4
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.1176,2.139,0.522,0.604,-3.188,5.423
x1,0.0003,1.47e-05,20.469,0.000,0.000,0.000
x2,8.292e-07,1.66e-05,0.050,0.960,-3.26e-05,3.43e-05
x3,5.25e-06,5.35e-06,0.981,0.332,-5.53e-06,1.6e-05

0,1,2,3
Omnibus:,3.506,Durbin-Watson:,1.263
Prob(Omnibus):,0.173,Jarque-Bera (JB):,3.33
Skew:,0.613,Prob(JB):,0.189
Kurtosis:,2.692,Cond. No.,1400000.0


In [None]:
X_opt = X[:, [0, 3]]
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.959
Model:,OLS,Adj. R-squared:,0.958
Method:,Least Squares,F-statistic:,1129.0
Date:,"Tue, 10 Dec 2024",Prob (F-statistic):,5.25e-35
Time:,16:27:10,Log-Likelihood:,-124.43
No. Observations:,50,AIC:,252.9
Df Residuals:,48,BIC:,256.7
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.5703,0.802,1.959,0.056,-0.042,3.182
x1,0.0003,9.26e-06,33.599,0.000,0.000,0.000

0,1,2,3
Omnibus:,3.75,Durbin-Watson:,1.294
Prob(Omnibus):,0.153,Jarque-Bera (JB):,3.598
Skew:,0.633,Prob(JB):,0.165
Kurtosis:,2.648,Cond. No.,165000.0


## Индвидуальное задание
Постройте модель многомерной регрессии с использованием
стратегии backward elimination

## Шаг 1. Загрузка библиотек

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm

data = pd.read_csv('diabetic_data.csv')  # Замените на ваш путь к файлу
print("Данные:")
data.head()

Данные:


Unnamed: 0,encounter_id,patient_nbr,race,gender,age,weight,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,...,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted
0,2278392,8222157,Caucasian,Female,[0-10),?,6,25,1,1,...,No,No,No,No,No,No,No,No,No,NO
1,149190,55629189,Caucasian,Female,[10-20),?,1,1,7,3,...,No,Up,No,No,No,No,No,Ch,Yes,>30
2,64410,86047875,AfricanAmerican,Female,[20-30),?,1,1,7,2,...,No,No,No,No,No,No,No,No,Yes,NO
3,500364,82442376,Caucasian,Male,[30-40),?,1,1,7,2,...,No,Up,No,No,No,No,No,Ch,Yes,NO
4,16680,42519267,Caucasian,Male,[40-50),?,1,1,7,1,...,No,Steady,No,No,No,No,No,Ch,Yes,NO


## Шаг 2. Подготовка данных, определение целевой переменной и признаков

In [3]:
# Удаляем строки с пропущенными значениями
data = data.dropna()

# Проверим наличие пропущенных значений после удаления
print(data.isnull().sum())

# Определяем матрицу признаков (X) и целевую переменную (y)
# Признаки: 'num_lab_procedures', 'num_medications', 'number_outpatient', 'number_emergency', 'number_inpatient'
# Целевая переменная: 'readmitted'
X = data[['num_lab_procedures', 'num_medications', 'number_outpatient', 'number_emergency', 'number_inpatient']].values
y = data['readmitted'].values

# Проверим размерности X и y
print(f"Размерность X: {X.shape}")
print(f"Размерность y: {y.shape}")


encounter_id                0
patient_nbr                 0
race                        0
gender                      0
age                         0
weight                      0
admission_type_id           0
discharge_disposition_id    0
admission_source_id         0
time_in_hospital            0
payer_code                  0
medical_specialty           0
num_lab_procedures          0
num_procedures              0
num_medications             0
number_outpatient           0
number_emergency            0
number_inpatient            0
diag_1                      0
diag_2                      0
diag_3                      0
number_diagnoses            0
max_glu_serum               0
A1Cresult                   0
metformin                   0
repaglinide                 0
nateglinide                 0
chlorpropamide              0
glimepiride                 0
acetohexamide               0
glipizide                   0
glyburide                   0
tolbutamide                 0
pioglitazo

## Шаг 3. Разделение данных на обучающую и тестовую выборки

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)


## Шаг 4. Обучение линейной регрессии

In [15]:
# Преобразуем целевую переменную в числовые значения
y_train = y_train.replace({'<30': 0, '>30': 1, 'NO': 0, 'lt30': 0})
y_test = y_test.replace({'<30': 0, '>30': 1, 'NO': 0, 'lt30': 0})

# Обучение модели
regressor = LinearRegression()
regressor.fit(X_train, y_train)

# Преобразуем предсказания в бинарные значения
y_pred_class = (y_pred > 0.5).astype(int)

print("Предсказания (классификация):")
print(y_pred_class[:5])


Предсказания (классификация):
[0 1 0 0 0]


## Шаг 5. Оптимизация модели с помощью backward elimination

In [16]:
# Добавляем столбец единиц для константы
X = np.append(arr=np.ones((X.shape[0], 1)).astype(int), values=X, axis=1)

In [7]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler

# Загружаем данные
data = pd.read_csv("diabetic_data.csv")

# Преобразуем категориальные переменные в числовые
data = pd.get_dummies(data, drop_first=True)

# Выбираем целевую переменную (например, 'readmitted_>30')
y = data['readmitted_>30']

# Стандартизируем признаки
scaler = StandardScaler()
X = data[['time_in_hospital', 'num_lab_procedures', 'num_medications', 'number_outpatient']].values
X = scaler.fit_transform(X)

# Добавляем константу
X = sm.add_constant(X)

# Строим модель OLS
regressor_OLS = sm.OLS(endog=y, exog=X).fit()

# Выводим результаты модели
print(regressor_OLS.summary())


                            OLS Regression Results                            
Dep. Variable:         readmitted_>30   R-squared:                       0.007
Model:                            OLS   Adj. R-squared:                  0.006
Method:                 Least Squares   F-statistic:                     166.8
Date:                Wed, 18 Dec 2024   Prob (F-statistic):          1.26e-142
Time:                        02:00:16   Log-Likelihood:                -68681.
No. Observations:              101766   AIC:                         1.374e+05
Df Residuals:                  101761   BIC:                         1.374e+05
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.3493      0.001    234.478      0.0

In [8]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler

# Загружаем данные
data = pd.read_csv("diabetic_data.csv")

# Преобразуем категориальные переменные в числовые
data = pd.get_dummies(data, drop_first=True)

# Выбираем целевую переменную
y = data['readmitted_>30']

# Стандартизируем признаки
scaler = StandardScaler()
X = data[['time_in_hospital', 'num_lab_procedures', 'num_medications', 'number_outpatient']].values
X = scaler.fit_transform(X)

# Добавляем константу
X = sm.add_constant(X)

# Строим модель OLS
regressor_OLS = sm.OLS(endog=y, exog=X).fit()
print("Модель до удаления признаков:")
print(regressor_OLS.summary())

# Убираем признаки с p-значением больше порогового значения (например, 0.05)
def backward_elimination(X, y, significance_level=0.05):
    # Добавляем константу
    X_opt = sm.add_constant(X)
    while True:
        regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
        # Получаем p-значения
        p_values = regressor_OLS.pvalues
        max_p_value = p_values.max()  # находим наибольшее p-значение
        if max_p_value > significance_level:
            # Удаляем столбец с наибольшим p-значением
            max_p_value_index = p_values.idxmax()
            print(f"Удаляем столбец: {max_p_value_index} с p-значением {max_p_value}")
            X_opt = X_opt.drop(columns=[max_p_value_index])
        else:
            break
    return X_opt, regressor_OLS

# Применяем обратное исключение признаков
X_opt, regressor_OLS = backward_elimination(X, y)

# Выводим результаты после удаления признаков
print("Модель после удаления признаков:")
print(regressor_OLS.summary())


Модель до удаления признаков:
                            OLS Regression Results                            
Dep. Variable:         readmitted_>30   R-squared:                       0.007
Model:                            OLS   Adj. R-squared:                  0.006
Method:                 Least Squares   F-statistic:                     166.8
Date:                Wed, 18 Dec 2024   Prob (F-statistic):          1.26e-142
Time:                        02:00:45   Log-Likelihood:                -68681.
No. Observations:              101766   AIC:                         1.374e+05
Df Residuals:                  101761   BIC:                         1.374e+05
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.3493 

In [9]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler

# Загружаем данные
data = pd.read_csv("diabetic_data.csv")

# Преобразуем категориальные переменные в числовые
data = pd.get_dummies(data, drop_first=True)

# Выбираем целевую переменную
y = data['readmitted_>30']

# Стандартизируем признаки
scaler = StandardScaler()
X = data[['time_in_hospital', 'num_lab_procedures', 'num_medications', 'number_outpatient']].values
X = scaler.fit_transform(X)

# Добавляем константу
X = sm.add_constant(X)

# Строим модель OLS
regressor_OLS = sm.OLS(endog=y, exog=X).fit()
print("Модель до первого удаления признаков:")
print(regressor_OLS.summary())

# Функция для обратного исключения признаков
def backward_elimination(X, y, significance_level=0.05):
    # Добавляем константу
    X_opt = sm.add_constant(X)
    while True:
        regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
        # Получаем p-значения
        p_values = regressor_OLS.pvalues
        max_p_value = p_values.max()  # находим наибольшее p-значение
        if max_p_value > significance_level:
            # Удаляем столбец с наибольшим p-значением
            max_p_value_index = p_values.idxmax()
            print(f"Удаляем столбец: {max_p_value_index} с p-значением {max_p_value}")
            X_opt = X_opt.drop(columns=[max_p_value_index])
        else:
            break
    return X_opt, regressor_OLS

# Применяем первое удаление признаков
X_opt, regressor_OLS = backward_elimination(X, y)

# Выводим модель после первого удаления
print("Модель после первого шага удаления признаков:")
print(regressor_OLS.summary())

# Второе удаление (по необходимости)
def second_backward_elimination(X, y, significance_level=0.05):
    # Строим модель с оставшимися признаками
    regressor_OLS = sm.OLS(endog=y, exog=X).fit()
    p_values = regressor_OLS.pvalues
    max_p_value = p_values.max()  # находим наибольшее p-значение

    if max_p_value > significance_level:
        # Удаляем столбец с наибольшим p-значением
        max_p_value_index = p_values.idxmax()
        print(f"Удаляем столбец: {max_p_value_index} с p-значением {max_p_value}")


Модель до первого удаления признаков:
                            OLS Regression Results                            
Dep. Variable:         readmitted_>30   R-squared:                       0.007
Model:                            OLS   Adj. R-squared:                  0.006
Method:                 Least Squares   F-statistic:                     166.8
Date:                Wed, 18 Dec 2024   Prob (F-statistic):          1.26e-142
Time:                        02:01:13   Log-Likelihood:                -68681.
No. Observations:              101766   AIC:                         1.374e+05
Df Residuals:                  101761   BIC:                         1.374e+05
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         

## Вывод

Полная модель с четырьмя признаками (time_in_hospital, num_lab_procedures, num_medications, number_outpatient) продемонстрировала коэффициент детерминации
𝑅^2=0.279
R^ 2 =0.279, что свидетельствует о достаточно низком уровне объяснённой дисперсии целевой переменной (readmitted_>30). В процессе оптимизации (backward elimination) были поочередно удалены признаки time_in_hospital и num_lab_procedures, что привело к снижению
𝑅^2 R^2 до 0.259 и 0.218 соответственно. Итоговая модель с двумя признаками (num_medications, number_outpatient) показала лучший баланс между объяснением целевой переменной и упрощением модели, где показатель
𝑅^2 снизился, но основные признаки (num_medications и number_outpatient) остались статистически значимыми (P < 0.05). Это подтверждает их вклад в предсказание вероятности повторной госпитализации."