In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

import warnings
warnings.filterwarnings("ignore")

In [None]:
X = pd.read_csv("https://raw.githubusercontent.com/koroteevmv/ML_course/main/ML1.2_regression/data/1_x.csv",
                header=None)
y = pd.read_csv("https://raw.githubusercontent.com/koroteevmv/ML_course/main/ML1.2_regression/data/1_y.csv",
                header=None)

X.head()

Unnamed: 0,0,1,2,3,4,5,6
0,1.599865,0.340598,-0.6034,0.150586,-0.209677,0.955045,0.347682
1,1.472656,0.466832,-1.94713,0.625906,0.589354,0.753521,-2.138552
2,0.279378,-1.717121,0.251069,0.730013,0.301801,-0.206711,0.894811
3,0.450771,1.133196,-0.294028,-2.595338,0.313911,1.953527,0.359938
4,1.507042,0.932115,-0.789549,1.043712,-1.404,-0.124354,-0.921117


In [None]:
y.head()

Unnamed: 0,0
0,101.507602
1,-65.30568
2,152.189336
3,-109.702103
4,-11.188624


In [None]:
# 1 Самостоятельно постройте парные регрессии от каждого атрибута с целевой переменной.

model = LinearRegression()

for column in X.columns:
  X_col = X[[column]]

  model.fit(X_col, y)

  print(f'Данные о модели для атрибута {column} в X: ')
  print(f'Угловой коэффициент: {model.coef_[0][0]}')
  print(f'Свободный коэффициент: {model.intercept_[0]}')
  print(f'Коэффициент детерминации (r^2): {model.score(X_col, y)}')
  print('\n\n')

Данные о модели для атрибута 0 в X: 
Угловой коэффициент: 36.94769533811004
Свободный коэффициент: -9.179678773440036
Коэффициент детерминации (r^2): 0.06464546167876395



Данные о модели для атрибута 1 в X: 
Угловой коэффициент: 0.827143949773985
Свободный коэффициент: -11.048305903666606
Коэффициент детерминации (r^2): 3.209495844658239e-05



Данные о модели для атрибута 2 в X: 
Угловой коэффициент: 21.68958278050653
Свободный коэффициент: -11.968302453503687
Коэффициент детерминации (r^2): 0.024796338766982395



Данные о модели для атрибута 3 в X: 
Угловой коэффициент: 62.90365514362525
Свободный коэффициент: -10.573594173355776
Коэффициент детерминации (r^2): 0.21553940046532494



Данные о модели для атрибута 4 в X: 
Угловой коэффициент: 54.416689560273646
Свободный коэффициент: -5.682198521894837
Коэффициент детерминации (r^2): 0.19034008707910655



Данные о модели для атрибута 5 в X: 
Угловой коэффициент: -6.862692591105077
Свободный коэффициент: -11.642590323811941
Коэффици

In [None]:
# 3. Для целевой переменной и каждого из признаков постройте полиномиальную регрессию второго, третьего и десятого порядков. Сделайте вывод о значимости регрессии.

degrees = [2, 3, 10]

for column in X.columns:
    X_column = X[[column]]

    for degree in degrees:
        polynomial_features = PolynomialFeatures(degree=degree)
        X_poly = polynomial_features.fit_transform(X_column)

        model = LinearRegression()
        model.fit(X_poly, y)

        y_pred = model.predict(X_poly)

        r2 = r2_score(y, y_pred)

        print(f'Полиномиальная регрессия порядка ({degree}) для атрибута {column}:')
        print(f'r^2: {r2}')
        print('\n\n')

Полиномиальная регрессия порядка (2) для атрибута 0:
r^2: 0.08536070009400365



Полиномиальная регрессия порядка (3) для атрибута 0:
r^2: 0.08994048270918997



Полиномиальная регрессия порядка (10) для атрибута 0:
r^2: 0.14149483723519962



Полиномиальная регрессия порядка (2) для атрибута 1:
r^2: 0.0038703587011718055



Полиномиальная регрессия порядка (3) для атрибута 1:
r^2: 0.004366049291171681



Полиномиальная регрессия порядка (10) для атрибута 1:
r^2: 0.1657446137568288



Полиномиальная регрессия порядка (2) для атрибута 2:
r^2: 0.02479787906944564



Полиномиальная регрессия порядка (3) для атрибута 2:
r^2: 0.027208700374955264



Полиномиальная регрессия порядка (10) для атрибута 2:
r^2: 0.07955611841688626



Полиномиальная регрессия порядка (2) для атрибута 3:
r^2: 0.22939208389043575



Полиномиальная регрессия порядка (3) для атрибута 3:
r^2: 0.24361173033822425



Полиномиальная регрессия порядка (10) для атрибута 3:
r^2: 0.28694364175670883



Полиномиальная регрес

In [None]:
# 4. Постройте сводную таблицу показателей точности всех построенных моделей. Сделайте вывод, какие модели переобученнные, какие - недообученные.

results = pd.DataFrame(columns=['Атрибут', 'Порядок', 'R^2'])

for column in X.columns:
    X_column = X[[column]]

    for degree in degrees:
        polynomial_features = PolynomialFeatures(degree=degree)
        X_poly = polynomial_features.fit_transform(X_column)

        model = LinearRegression()
        model.fit(X_poly, y)

        y_pred = model.predict(X_poly)

        r2 = r2_score(y, y_pred)

        results = results.append({'Атрибут': column, 'Порядок': degree, 'R^2': r2}, ignore_index=True)

print(results)

for column in X.columns:
    for degree in degrees:
        subset = results[(results['Атрибут'] == column) & (results['Порядок'] == degree)]
        max_r2 = subset['R^2'].max()
        min_r2 = subset['R^2'].min()

        if max_r2 > 0.9:
            print(f"Модель для атрибута {column} с порядком ({degree}) переобучена (R^2 > 0.9).")
        elif min_r2 < 0.3:
            print(f"Модель для атрибута {column} с порядком ({degree}) недообучена (R^2 < 0.3).")
        else:
            print(f"Модель для атрибута {column} с порядком ({degree}) обучена нормально.")

    Атрибут  Порядок       R^2
0       0.0      2.0  0.085361
1       0.0      3.0  0.089940
2       0.0     10.0  0.141495
3       1.0      2.0  0.003870
4       1.0      3.0  0.004366
5       1.0     10.0  0.165745
6       2.0      2.0  0.024798
7       2.0      3.0  0.027209
8       2.0     10.0  0.079556
9       3.0      2.0  0.229392
10      3.0      3.0  0.243612
11      3.0     10.0  0.286944
12      4.0      2.0  0.191143
13      4.0      3.0  0.191213
14      4.0     10.0  0.252420
15      5.0      2.0  0.004960
16      5.0      3.0  0.007832
17      5.0     10.0  0.027240
18      6.0      2.0  0.467099
19      6.0      3.0  0.469023
20      6.0     10.0  0.505907
Модель для атрибута 0 с порядком (2) недообучена (R^2 < 0.3).
Модель для атрибута 0 с порядком (3) недообучена (R^2 < 0.3).
Модель для атрибута 0 с порядком (10) недообучена (R^2 < 0.3).
Модель для атрибута 1 с порядком (2) недообучена (R^2 < 0.3).
Модель для атрибута 1 с порядком (3) недообучена (R^2 < 0.3).
Модель 

In [None]:
# 5. Используйте другие метрики качества регрессионной модели в дополнение к коэффициенту детерминации.

degrees = [2, 3, 10]
results = pd.DataFrame(columns=['Атрибут', 'Порядок', 'MSE', 'MAE', 'RMSE'])

# Построение полиномиальных регрессий и вычисление метрик
for column in X.columns:
    X_column = X[[column]]

    for degree in degrees:
        polynomial_features = PolynomialFeatures(degree=degree)
        X_poly = polynomial_features.fit_transform(X_column)

        model = LinearRegression()
        model.fit(X_poly, y)

        y_pred = model.predict(X_poly)

        mse = mean_squared_error(y, y_pred)
        mae = mean_absolute_error(y, y_pred)
        rmse = np.sqrt(mse)

        results = results.append({'Атрибут': column, 'Порядок': degree, 'MSE': mse, 'MAE': mae, 'RMSE': rmse}, ignore_index=True)

# Вывод сводной таблицы
print(results)

    Атрибут  Порядок           MSE         MAE        RMSE
0       0.0      2.0  16688.726794  107.098834  129.184855
1       0.0      3.0  16605.162988  107.171090  128.861022
2       0.0     10.0  15664.489940  101.639570  125.157860
3       1.0      2.0  18175.618997  113.909496  134.816983
4       1.0      3.0  18166.574508  113.989064  134.783436
5       1.0     10.0  15222.022735  102.128734  123.377562
6       2.0      2.0  17793.770469  110.893425  133.393292
7       2.0      3.0  17749.782049  110.770293  133.228308
8       2.0     10.0  16794.638575  107.335029  129.594130
9       3.0      2.0  14060.695816   99.804986  118.577805
10      3.0      3.0  13801.240755   99.542302  117.478682
11      3.0     10.0  13010.596366   96.810142  114.064001
12      4.0      2.0  14758.590832   99.713874  121.484941
13      4.0      3.0  14757.315421   99.689180  121.479691
14      4.0     10.0  13640.524688   93.975432  116.792657
15      5.0      2.0  18155.731534  113.270566  134.7432

In [None]:
# 6. (*) Замерьте время обучения полиномиальных моделей с разной степенью полинома. Сделайте вывод.
import time

for degree in degrees:
    polynomial_features = PolynomialFeatures(degree=degree)
    X_poly = polynomial_features.fit_transform(X)

    model = LinearRegression()

    start_time = time.time()
    model.fit(X_poly, y)
    end_time = time.time()

    training_time = end_time - start_time

    print(f"Полиномиальная регрессия порядка ({degree}) обучалась {training_time} секунд")

Полиномиальная регрессия порядка (2) обучалась 0.010531902313232422 секунд
Полиномиальная регрессия порядка (3) обучалась 0.029793262481689453 секунд
Полиномиальная регрессия порядка (10) обучалась 1.4841289520263672 секунд
