# Лабораторная работа 1. Тема: Прогнозирование моделью линейной регрессии

## 1. Загрузка данных

In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression

df = pd.read_csv('./source_data/var17.csv')
y = df['Y'].replace(',', '.', regex=True).astype(float) # заменяем , на . и приводим к типу float
x = df.loc[:, 'х1':'x9'].replace(',', '.', regex=True).astype(float)

# выведем первые несколько строк каждой из матриц
print("Целевая переменная Y:")
print(y.head())

print("\nПризнаки x1 до x9:")
print(x.head())

Целевая переменная Y:
0    60.1
1    58.5
2    57.4
3    58.5
4    58.3
Name: Y, dtype: float64

Признаки x1 до x9:
    х1    х2   х3   х4    х5     х6     x7    x8      x9
0  9.2  15.9  7.8  5.3  16.7  169.0  148.0  22.7  2094.0
1  7.6  16.4  6.7  4.7  15.5  144.0  150.0  27.9  1768.0
2  7.3  18.3  6.3  4.9  19.6  138.0  133.0  33.7  1982.0
3  7.9  16.4  6.8  5.0  17.6  197.0  155.0  26.6  1621.0
4  7.9  17.0  6.3  4.4  20.1  182.0  159.0  30.5  1631.0


## 2. Нормирование данных 

Для нормирования будет использоваться метод Z-нормализации. Был выбран именно этот метод нормирования, так как разброс данных велик. 

In [2]:
x_norm = (x - x.mean())/x.std()
print(f"Нормализованные признаки x1 до x9:\n{x_norm.head()}")

Нормализованные признаки x1 до x9:
         х1        х2        х3        х4        х5        х6        x7   
0 -0.312419  0.641913  1.047936  0.587427 -0.639398  0.030370 -0.324137  \
1 -0.869042  0.828558 -0.777816  0.083918 -0.943448 -0.356848 -0.279032   
2 -0.973409  1.537809 -1.441726  0.251754  0.095388 -0.449780 -0.662425   
3 -0.764675  0.828558 -0.611838  0.335673 -0.411361  0.464054 -0.166270   
4 -0.764675  1.052532 -1.441726 -0.167836  0.222075  0.231723 -0.076059   

         x8        x9  
0 -0.814685  0.153938  
1 -0.370312 -0.324449  
2  0.125336 -0.010416  
3 -0.481405 -0.540163  
4 -0.148125 -0.525488  


## 3. Расчет весов линейной регрессии по аналитической формуле

In [3]:
# добавляем столбец из единиц для учета свободного члена
x_with_bias = pd.DataFrame(x_norm)
x_with_bias.insert(0, 'bias', 1.0)

In [4]:
# расчет весов
covar_matrix = np.matmul(np.transpose(x_with_bias), x_with_bias) # ковариационная матрица
inv_matrix = np.linalg.inv(covar_matrix) # обратная ковариационная матрица
tmp = np.matmul(inv_matrix, np.transpose(x_with_bias)) # произведение обратной ковариационной матрицы на транспонированную матрицу нормированных признаков
w = np.matmul(tmp, y) # матрица весов

print(f"Веса линейной регрессии:\n{w.head()}")

Веса линейной регрессии:
0    58.131373
1    -2.834736
2    -2.349336
3     0.974707
4    -2.267607
dtype: float64


## 4. Построение и интерпретация корреляционной матрицы. Определение степени мультиколлинеарности на основе числа обусловленности

In [5]:
corr = pd.DataFrame(x_norm).corr()
corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,х1,х2,х3,х4,х5,х6,x7,x8,x9
х1,1.0,-0.657584,-0.140233,-0.608058,0.261887,-0.334865,-0.343969,0.566485,-0.190412
х2,-0.657584,1.0,-0.066188,0.042039,-0.209115,0.245383,0.12774,-0.32832,0.077948
х3,-0.140233,-0.066188,1.0,0.364649,-0.082951,0.31233,0.178473,-0.242705,-0.31601
х4,-0.608058,0.042039,0.364649,1.0,0.137315,0.197073,0.265641,-0.534094,0.25374
х5,0.261887,-0.209115,-0.082951,0.137315,1.0,-0.227684,-0.155524,0.160094,0.17319
х6,-0.334865,0.245383,0.31233,0.197073,-0.227684,1.0,0.614368,-0.561859,-0.083085
x7,-0.343969,0.12774,0.178473,0.265641,-0.155524,0.614368,1.0,-0.524359,0.244029
x8,0.566485,-0.32832,-0.242705,-0.534094,0.160094,-0.561859,-0.524359,1.0,0.013201
x9,-0.190412,0.077948,-0.31601,0.25374,0.17319,-0.083085,0.244029,0.013201,1.0


#### Выводы:
*Сильная корреляция между Х1 и Х8 может указывать на наличие взаимосвязи между этими признаками.
*Х6 и Х7 тоже сильно коррелируют, что может указывать на взаимосвязь между ними.
*Х4 и Х8 имеют умеренную отрицательную корреляцию, что может означать, что при увеличении одного признака, другой уменьшается.
*Х2, Х5, Х9 практически не коррелируют между собой и с другими признаками.

In [6]:
# Рассчитываем число обусловленности
condition_number = np.linalg.cond(x_with_bias)

print(f"Число обусловленности: {condition_number}")

Число обусловленности: 6.317368860077602


Это значение говорит о том, что матрица относительно хорошо обусловлена. Модель линейной регрессии, построенная на этих данных, скорее всего, будет стабильной и устойчивой к небольшим изменениям в данных.

## 5. Анализ регрессионных остатков

In [7]:
# предсказанное значение
y_pred = y_pred = np.matmul(x_with_bias, w.values.reshape(-1, 1))

mse = mean_squared_error(y, y_pred)
rmse = mean_squared_error(y, y_pred)**0.5

determ_coef = r2_score(y, y_pred)

print(f"MSE: {mse}")
print(f"RMSE: {rmse}")
print(f"Коэффициент детерминации: {determ_coef}")

MSE: 3.8776385127709503
RMSE: 1.9691720373728017
Коэффициент детерминации: 0.5760688390424759


## 6. Определение весов линейной регрессии градиентным методом. Проанализировать изменение ошибки от итерации к итерации

In [8]:
# 1. Инициализация весов
weights = np.ones((x_with_bias.shape[1], 1))
learning_rate = 0.1
S = []
y_reshaped = y.values.reshape(-1, 1)

for _ in range(100):
    # 2. Расчет предсказанного значения y_pred по весам w
    y_pred = np.matmul(x_with_bias, weights)
    dy = y_reshaped - y_pred
    curr = 0
    # 3. Расчет ошибки и градиента функции потерь
    for i in range(y_reshaped.shape[0]):
        curr += pow(y_reshaped[i] - np.transpose(y_pred)[i], 2)
    S.append((1 / x_with_bias.shape[0]) * curr[0])

    # 4. Установка новых значений весов
    dS = (-2 / x_with_bias.shape[0]) * np.matmul(np.transpose(dy), x_with_bias)
    weights -= learning_rate * np.transpose(dS)

for i in range(len(S)):
  print(f"Итерация {i + 1}: {S[i]}")
print(f"MSE: {S[99]}")
print(f"RMSE: {S[99]**0.5}")
R2_grad = r2_score(y, y_pred)
print(f"Коэффициент детерминации: {R2_grad}")

Итерация 1: 3286.4745754403184
Итерация 2: 2103.9775318030506
Итерация 3: 1348.6752755123107
Итерация 4: 865.529796349408
Итерация 5: 556.3396485694916
Итерация 6: 358.4264760709314
Итерация 7: 231.71504647406496
Итерация 8: 150.56981407015442
Итерация 9: 98.58885588821242
Итерация 10: 65.27668813715891
Итерация 11: 43.91659788159542
Итерация 12: 30.209706203930374
Итерация 13: 21.40433032906617
Итерация 14: 15.738942691973632
Итерация 15: 12.085737552337145
Итерация 16: 9.722540979237625
Итерация 17: 8.18683943407097
Итерация 18: 7.182355052528094
Итерация 19: 6.519247378756502
Итерация 20: 6.075835278090668
Итерация 21: 5.774092177701316
Итерация 22: 5.563957081673821
Итерация 23: 5.41328861626105
Итерация 24: 5.301431491586986
Итерация 25: 5.215095675627359
Итерация 26: 5.14571634775842
Итерация 27: 5.087762080913705
Итерация 28: 5.037650320474186
Итерация 29: 4.993051880238012
Итерация 30: 4.952444688121484
Итерация 31: 4.914827275035264
Итерация 32: 4.879534678096505
Итерация 33: 

## 7. Сравнение результатов по аналитическому и градиентному методу

#### Аналитический метод:

MSE = 3.8776385127709503
RMSE = 1.9691720373728017
Коэффициент детерминации = 0.5760688390424759

#### Градиентный метод:

MSE = 3.990115721198623
RMSE = 1.9975274018642706
Коэффициент детерминации = 0.5637720265900097

#### Вывод

Методы примерно одинаковые, но аналитический дает мЕньшую ошибку.

## 8. С помощью библиотеки sklearn сделать fit-predict модели линейнойрегрессии. Сравнить результаты с ранее полученными

In [9]:
# Создание объекта модели линейной регрессии
model = LinearRegression()

# Обучение модели на тренировочных данных
model.fit(x_norm, y)

# Предсказание значений для тестовых данных
y_pred_sklearn = model.predict(x_norm)

# Вычисление метрик
mse_sklearn = mean_squared_error(y, y_pred_sklearn)
rmse_sklearn = mean_squared_error(y, y_pred_sklearn) ** 0.5
r2_sklearn = r2_score(y, y_pred_sklearn)

print(f"MSE (Scikit-Learn): {mse_sklearn}")
print(f"RMSE (Scikit-Learn): {rmse_sklearn}")
print(f"Коэффициент детерминации (Scikit-Learn): {r2_sklearn}")

MSE (Scikit-Learn): 3.87763851277095
RMSE (Scikit-Learn): 1.9691720373728014
Коэффициент детерминации (Scikit-Learn): 0.576068839042476


Результат совпадает практически полностью с результатами аналитического метода.

## 9. С помощью библиотеки statmodels получить «эконометрический» результат обучения модели линейной регрессии

In [12]:
# Добавление константы к признакам (для вычисления свободного члена)
x_with_bias_sm = sm.add_constant(x_norm)

# Создание модели линейной регрессии с помощью statsmodels
model_sm = sm.OLS(y, x_with_bias_sm)

# Обучение модели
results = model_sm.fit()

# Получение предсказанных значений с использованием обученной модели
y_pred_sm = results.predict(x_with_bias_sm)

# Вычисление MSE
mse_sm = np.mean((y - y_pred_sm) ** 2)

# Вычисление RMSE
rmse_sm = np.sqrt(mse_sm)

print(f"MSE (statsmodels): {mse_sm}")
print(f"RMSE (statsmodels): {rmse_sm}")

# Получение статистического обзора модели
print(results.summary())

MSE (statsmodels): 3.8776385127709467
RMSE (statsmodels): 1.9691720373728008
                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.576
Model:                            OLS   Adj. R-squared:                  0.483
Method:                 Least Squares   F-statistic:                     6.190
Date:                Mon, 02 Oct 2023   Prob (F-statistic):           1.81e-05
Time:                        22:01:23   Log-Likelihood:                -106.92
No. Observations:                  51   AIC:                             233.8
Df Residuals:                      41   BIC:                             253.2
Df Model:                           9                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------