In [None]:
import scipy.stats as st
import numpy as np
import pandas as pd
import plotly.express as px
import random
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error, mean_absolute_percentage_error
from sklearn.model_selection import train_test_split
import plotly.graph_objects as go

In [None]:
import plotly.io as pio
pio.renderers.default = "colab"

In [None]:
rst = 46

# Данные

Мой номер 32, максимальный номер датасета 25, поэтому беру 7 номер

In [None]:
df = pd.read_csv('ftp://sebulbaass.ml/07.csv')
df

Unnamed: 0.1,Unnamed: 0,y,lag.quarterly.revenue,price.index,income.level,market.potential
0,1962.25,8.79236,8.79636,4.70997,5.8211,12.9699
1,1962.5,8.79137,8.79236,4.70217,5.82558,12.9733
2,1962.75,8.81486,8.79137,4.68944,5.83112,12.9774
3,1963.0,8.81301,8.81486,4.68558,5.84046,12.9806
4,1963.25,8.90751,8.81301,4.64019,5.85036,12.9831
5,1963.5,8.93673,8.90751,4.62553,5.86464,12.9854
6,1963.75,8.96161,8.93673,4.61991,5.87769,12.99
7,1964.0,8.96044,8.96161,4.61654,5.89763,12.9943
8,1964.25,9.00868,8.96044,4.61407,5.92574,12.9992
9,1964.5,9.03049,9.00868,4.60766,5.94232,13.0033


In [None]:
px.scatter_matrix(df)

Как видим, данные вообще без шума чуть ли не прямыми линиями расположены, так что предсказывать мы безусловно будем хорошо. 

# Попробуем построить модель 

Построем сразу модель, чтобы понять какая точность и что можно улучшить

In [None]:
X = df.loc[:, df.columns != 'y']
y = df[['y']]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=rst) 

In [None]:
model = LinearRegression().fit(X_train, y_train)
y_pred = model.predict(X_test)

print(r2_score(y_test, y_pred))
print(mean_absolute_error(y_test, y_pred))
print(mean_absolute_percentage_error(y_test, y_pred))

0.9969274811339698
0.014070487735686976
0.0015489126884911015


In [None]:
px.imshow(df.corr(), text_auto=True)

На самом деле, на этом можно и закончить, собственно, корреляция просто фантастическая, модель получается невероятная. И смысла в Ridge и Lasso на этих данных нет, в связи с отсутсвием шума и фич, которые сбивают модель. Поэтому сделаю что-нибудь своё для полного понимания работы Ridge и Lasso.

# Генерация данных

### Линейные

In [None]:
X = np.linspace(0, 6)
y = np.linspace(0, 3)

noise_factor = 0.2

def noise(k):
   return k+((random.random()*2)-1)*noise_factor

X_1 = np.vectorize(noise)(X)
y_1 = np.vectorize(noise)(y)

In [None]:
px.scatter(x=X_1, y=y_1)

Сделали обычные линейные данные с шумом

### Полиномиальные

In [None]:
X_2 = 2 - 3 * np.random.normal(0, 1, 100)
y_2 = X_2 - 2 * (X_2 ** 2) + 0.5 * (X_2 ** 3) + np.random.normal(-3, 3, 100)

In [None]:
px.scatter(x=X_2, y=y_2)

Тут данные без особого шума 

### Полиномиальные с большим шумом

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def func(x, c): 
    return sum([c[i] * x**i for i in range(len(c))])

num_data_points = 300
degree = 3

X_3 = np.random.uniform(-10, 10, num_data_points)
c = [np.random.uniform(-3, 3) for _ in range(degree + 1)]
y_3 = np.array( [func(X_3[i], c) for i in range(num_data_points)] )

mu, sigma = 0, 100
noise = np.random.normal(mu, sigma, num_data_points)

y_3 = np.add(y_3, noise)

In [None]:
px.scatter(x=X_3, y=y_3)

Здесь данные уже с большим шумом, сделали даные по формуле, далее добавили нормально распределённый шум, чтобы оценки минимальных квадратов были оценками максимального правдоподобия

# Train test split

In [None]:
X_train_1, X_test_1, y_train_1, y_test_1 = train_test_split(X_1.reshape(-1, 1), y_1.reshape(-1, 1), test_size=0.2)

In [None]:
X_train_2, X_test_2, y_train_2, y_test_2 = train_test_split(X_2.reshape(-1, 1), y_2.reshape(-1, 1), test_size=0.2)

In [None]:
X_train_3, X_test_3, y_train_3, y_test_3 = train_test_split(X_3.reshape(-1, 1), y_3.reshape(-1, 1), test_size=0.2)

# Проверка моделей

## 1 датасет

### Линейная регрессия

In [None]:
model_lr_1 = LinearRegression().fit(X_train_1, y_train_1)

y_pred_lr_1 = model_lr_1.predict(X_test_1)

print(f'R2 score: {r2_score(y_test_1, y_pred_lr_1)}')
print(f'MAE: {mean_absolute_error(y_test_1, y_pred_lr_1)}')
print(f'MSE: {mean_squared_error(y_test_1, y_pred_lr_1)}')

R2 score: 0.9925667969026459
MAE: 0.05595649289892975
MSE: 0.00533883679752826


Логика оценки R2 такова, что она очень хорошо оценивает степень обучения модели получая долю сумм отклонений предсказаний от сумм отклонений самих тестовых данных.

Оценка 

In [None]:
def plot_test(X_train, X_test, y_train, y_test, y_pred):
  df_train = pd.DataFrame()
  df_test = pd.DataFrame()

  df_test['X_test'] = [s[0] for s in X_test.tolist()]
  df_test['y_test'] = y_test
  df_test['y_pred'] = y_pred

  df_train['X_train'] = [s[0] for s in X_train.tolist()]
  df_train['y_train'] = y_train


  fig = go.Figure(
    px.scatter(df_train, x='X_train', y='y_train', labels={'X_train': 'train'}).data +
    px.scatter(df_test, x='X_test', y='y_test', color_discrete_sequence=['red']).data +
    px.scatter(df_test, x='X_test', y='y_pred', color_discrete_sequence=['lime'], trendline="lowess", trendline_options=dict(frac=0.1)).data
  )

  fig.data[0].name="train"
  fig.data[1].name="test"
  fig.data[2].name="predictions"
  fig.update_traces(showlegend=True)


  return fig

In [None]:
plot_test(X_train_1, X_test_1, y_train_1, y_test_1, y_pred_lr_1)

Точность довольно высокая, оно и видно на графике, красные точки тренировочных данных недалеко от линии регрессии. Шума не так много.

### Ridge регуляризация

Напишем функцию для вывода визуализации весов, они будут в том же порядке как и расположены фичи в датасете

In [None]:
def plot_weights(coefs, columns=None, show_cols=False):
  df_plot = pd.DataFrame()

  df_plot['y'] = coefs.squeeze()
  if show_cols:
    df_plot['x'] = columns
  else:
    df_plot['x'] = ['w' + str(s) for s in range(len(coefs.squeeze()))]
  df_plot['c'] = df_plot.y.apply(lambda x: '>=0' if x >= 0 else '<0')


  return px.bar(df_plot, y='y', x='x', color='c', color_discrete_map={'>=0': 'blue', '<0': 'red'}).update_xaxes(categoryorder='array', categoryarray=df_plot['x'])

Регуляризация работает посредством уменьшения весов, для корректной работы их должно быть несколько, применим функцию для создания новых фич

In [None]:
poly = PolynomialFeatures(degree=5, include_bias=False)

X_train_1_ = poly.fit_transform(X_train_1)
X_test_1_ = poly.fit_transform(X_test_1)

pd.DataFrame(X_train_1_).head()

Unnamed: 0,0,1,2,3,4
0,3.871449,14.988121,58.025751,224.643763,869.696967
1,1.245865,1.55218,1.933807,2.409263,3.001617
2,0.703691,0.495181,0.348455,0.245205,0.172548
3,1.859569,3.457995,6.430379,11.957731,22.236222
4,1.602281,2.567304,4.113541,6.591047,10.560708


In [None]:
model_r_1 = Ridge().fit(X_train_1_, y_train_1)

y_pred_1 = model_r_1.predict(X_test_1_)

print(f'R2 score: {r2_score(y_test_1, y_pred_1)}')
print(f'MAE: {mean_absolute_error(y_test_1, y_pred_1)}')
print(f'MSE: {mean_squared_error(y_test_1, y_pred_1)}')

R2 score: 0.9841795004457524
MAE: 0.06766672308470614
MSE: 0.01136294327886208


Метрика R2 score увеличилась, значит новые фичи помогли

In [None]:
model_r_1 = Ridge(alpha=2).fit(X_train_1_, y_train_1)

y_pred_1 = model_r_1.predict(X_test_1_)

print(f'R2 score: {r2_score(y_test_1, y_pred_1)}')
print(f'MAE: {mean_absolute_error(y_test_1, y_pred_1)}')
print(f'MSE: {mean_squared_error(y_test_1, y_pred_1)}')

R2 score: 0.9812764223983708
MAE: 0.07555311428114739
MSE: 0.013448055134742173


С новым коэффициентом снижения весов мы получили ещё большую производительность, что показывает работу с весами в действии

In [None]:
plot_weights(model_r_1.coef_)

Если поиграться с параметром, так называемого, сужения, то можно увидеть, что веса стремятся к 0, но не достигают его

### Lasso регуляризация

In [None]:
model_l_1 = Lasso(tol=0.015).fit(X_train_1_, y_train_1)

y_pred_l_1 = model_l_1.predict(X_test_1_)

print(f'R2 score: {r2_score(y_test_1, y_pred_l_1)}')
print(f'MAE: {mean_absolute_error(y_test_1, y_pred_l_1)}')
print(f'MSE: {mean_squared_error(y_test_1, y_pred_l_1)}')

R2 score: 0.8920799235098659
MAE: 0.20879156990937578
MSE: 0.0775127045516469


Пришлось задать допустимое отклонение для оптимизации побольше, так как модель просто не достигала такого маленького, как дефолтное: 0.0001

In [None]:
model_l_1 = Lasso(alpha=0.03, tol=0.015).fit(X_train_1_, y_train_1)

y_pred_1 = model_l_1.predict(X_test_1_)

print(f'R2 score: {r2_score(y_test_1, y_pred_1)}')
print(f'MAE: {mean_absolute_error(y_test_1, y_pred_1)}')
print(f'MSE: {mean_squared_error(y_test_1, y_pred_1)}')

R2 score: 0.9787655902671205
MAE: 0.08770112386989493
MSE: 0.015251439597559705


In [None]:
plot_weights(model_l_1.coef_)

Здесь же видим другую ситуацию, веса легко становятся незначимыми, поэтому Lasso можно использовать и как feature selection

## 2 датасет

### Линейная регрессия

In [None]:
model_lr_2 = LinearRegression().fit(X_train_2, y_train_2)

y_pred_lr_2 = model_lr_2.predict(X_test_2)

print(f'R2 score: {r2_score(y_test_2, y_pred_lr_2)}')
print(f'MAE: {mean_absolute_error(y_test_2, y_pred_lr_2)}')
print(f'MSE: {mean_squared_error(y_test_2, y_pred_lr_2)}')

R2 score: 0.6284452858156906
MAE: 13.839191220395222
MSE: 243.6532036089167


Видим очень плохие результаты, оно и понятно, сейчас посмотрим на графике

In [None]:
plot_test(X_train_2, X_test_2, y_train_2, y_test_2, y_pred_lr_2)

Для того, чтобы линия была более кривой, нужно добавить полиномиальные фичи

In [None]:
poly = PolynomialFeatures(degree=5, include_bias=False)

X_train_2_ = poly.fit_transform(X_train_2)
X_test_2_ = poly.fit_transform(X_test_2)

pd.DataFrame(X_train_2_).head()

Unnamed: 0,0,1,2,3,4
0,-0.790749,0.625284,-0.494443,0.390981,-0.309168
1,-1.944963,3.782882,-7.357565,14.310193,-27.832798
2,-0.951005,0.90441,-0.860098,0.817957,-0.777881
3,1.256,1.577536,1.981385,2.488619,3.125706
4,-0.919422,0.845337,-0.777221,0.714594,-0.657013


In [None]:
model_lr_2 = LinearRegression().fit(X_train_2_, y_train_2)

y_pred_2 = model_lr_2.predict(X_test_2_)

print(f'R2 score: {r2_score(y_test_2, y_pred_2)}')
print(f'MAE: {mean_absolute_error(y_test_2, y_pred_2)}')
print(f'MSE: {mean_squared_error(y_test_2, y_pred_2)}')

R2 score: 0.9884761809782425
MAE: 2.1138534406914777
MSE: 7.5569366106004


In [None]:
plot_test(X_train_2, X_test_2, y_train_2, y_test_2, y_pred_2)

In [None]:
plot_weights(model_lr_2.coef_)

Как видно, сработала только одна дополнительная фича, но вполне неплохо

Теперь видим эффект приминения полиномиальных фич

### Ridge регуляризация

In [None]:
model_r_2 = Ridge().fit(X_train_2_, y_train_2)

y_pred_r_2 = model_r_2.predict(X_test_2_)

print(f'R2 score: {r2_score(y_test_2, y_pred_r_2)}')
print(f'MAE: {mean_absolute_error(y_test_2, y_pred_r_2)}')
print(f'MSE: {mean_squared_error(y_test_2, y_pred_r_2)}')

R2 score: 0.9885057101550612
MAE: 2.110931859326434
MSE: 7.5375723601760996


In [None]:
plot_test(X_train_2, X_test_2, y_train_2, y_test_2, y_pred_r_2)

Паттерн степенной функции повторяется

Видим, что тут дефолтный параметр альфа 1 сжатия, сделал всё прекрасно, лучше чем обычная регрессия, посмотрим на веса

In [None]:
model_r_2.coef_

array([[ 1.09382575e+00, -2.09947620e+00,  5.12184013e-01,
         1.51050167e-03, -1.91529032e-04]])

In [None]:
plot_weights(model_r_2.coef_)

Как видно чуть выше, веса не нулевые  и отличаются от обычной регресии, чего мы и добивались

### Lasso регуляризация

In [None]:
model_l_2 = Lasso().fit(X_train_2_, y_train_2)

y_pred_l_2 = model_l_2.predict(X_test_2_)

print(f'R2 score: {r2_score(y_test_2, y_pred_l_2)}')
print(f'MAE: {mean_absolute_error(y_test_2, y_pred_l_2)}')
print(f'MSE: {mean_squared_error(y_test_2, y_pred_l_2)}')

R2 score: 0.9891935700662424
MAE: 2.269077473631924
MSE: 7.086496745750383


Хорошие результаты лучше чем у Ridge, посмотрим на график

In [None]:
plot_test(X_train_2, X_test_2, y_train_2, y_test_2, y_pred_l_2)

Также видим практически точное попадание в тестовые точки

In [None]:
model_l_2.coef_

array([ 4.34815620e-01, -1.96644714e+00,  5.35743794e-01, -1.98701240e-03,
       -2.46033150e-04])

In [None]:
plot_weights(model_l_2.coef_)

Для таких данных на уровне сжатия 1 не должно быть ухода какого-нибудь веса в 0, так что тут всё логично

## 3 датасет

### Линейная регрессия

In [None]:
model_lr_3 = LinearRegression().fit(X_train_3, y_train_3)

y_pred_lr_3 = model_lr_3.predict(X_test_3)

print(f'R2 score: {r2_score(y_test_3, y_pred_lr_3)}')
print(f'MAE: {mean_absolute_error(y_test_3, y_pred_lr_3)}')
print(f'MSE: {mean_squared_error(y_test_3, y_pred_lr_3)}')

R2 score: 0.6602198796622915
MAE: 108.2982921881781
MSE: 20728.40656075496


Неплохая точность, но это обычная линейная регрессия, посмотрим на график

In [None]:
plot_test(X_train_3, X_test_3, y_train_3, y_test_3, y_pred_lr_3)

Видим попадания и большую точность исключительно потому, что линия касается изначальной функции до применения шума во многих местах, сделаем полиномиальную регрессию. 

In [None]:
poly = PolynomialFeatures(degree=5, include_bias=False)

X_train_3_ = poly.fit_transform(X_train_3)
X_test_3_ = poly.fit_transform(X_test_3)

pd.DataFrame(X_train_3_).head()

Unnamed: 0,0,1,2,3,4
0,4.463936,19.926728,88.951649,397.074504,1772.51534
1,-4.763531,22.691226,-108.090352,514.891722,-2452.702573
2,-8.410201,70.731473,-594.865877,5002.941327,-42075.739926
3,1.720354,2.959618,5.091591,8.75934,15.069166
4,-1.388617,1.928257,-2.67761,3.718175,-5.16312


In [None]:
model_lr_3 = LinearRegression().fit(X_train_3_, y_train_3)

y_pred_lr_3 = model_lr_3.predict(X_test_3_)

print(f'R2 score: {r2_score(y_test_3, y_pred_lr_3)}')
print(f'MAE: {mean_absolute_error(y_test_3, y_pred_lr_3)}')
print(f'MSE: {mean_squared_error(y_test_3, y_pred_lr_3)}')

R2 score: 0.8726005177012481
MAE: 71.57930247517943
MSE: 7772.0505310715225


In [None]:
plot_test(X_train_3, X_test_3, y_train_3, y_test_3, y_pred_lr_3)

Другое дело, прослеживается практически точное попадание

In [None]:
plot_weights(model_lr_3.coef_)

Если приблизить два последних веса на графике, то будет видно, что они не нулевые, а главный вес у одной фичи, так как она описывает функцию, которая была в основе генерации данных

### Ridge регуляризация

In [None]:
model_r_3 = Ridge().fit(X_train_3_, y_train_3)

y_pred_r_3 = model_r_3.predict(X_test_3_)

print(f'R2 score: {r2_score(y_test_3, y_pred_r_3)}')
print(f'MAE: {mean_absolute_error(y_test_3, y_pred_r_3)}')
print(f'MSE: {mean_squared_error(y_test_3, y_pred_r_3)}')

R2 score: 0.8726011914818962
MAE: 71.57934965689
MSE: 7772.009426844497


Видим, что совсем чутка лучше, попробуем задать параметр alpha побольше

In [None]:
model_r_3 = Ridge(alpha=5).fit(X_train_3_, y_train_3)

y_pred_r_3 = model_r_3.predict(X_test_3_)

print(f'R2 score: {r2_score(y_test_3, y_pred_r_3)}')
print(f'MAE: {mean_absolute_error(y_test_3, y_pred_r_3)}')
print(f'MSE: {mean_squared_error(y_test_3, y_pred_r_3)}')

R2 score: 0.8726037116900817
MAE: 71.57953492926474
MSE: 7771.855680651707


Другое дело, посмотрим на график и веса

In [None]:
plot_test(X_train_3, X_test_3, y_train_3, y_test_3, y_pred_r_3)

Тут как видно, попадания прям замечательные

In [None]:
plot_weights(model_r_3.coef_)

Вероятно регуляризация уже больше приближает к нулю те два последних веса и первые два, по идее с хорошим альфа у лассо, мы можем обнулить эти веса

### Lasso регуляризация

In [None]:
model_l_3 = Lasso().fit(X_train_3_, y_train_3)

y_pred_l_3 = model_l_3.predict(X_test_3_)

print(f'R2 score: {r2_score(y_test_3, y_pred_l_3)}')
print(f'MAE: {mean_absolute_error(y_test_3, y_pred_l_3)}')
print(f'MSE: {mean_squared_error(y_test_3, y_pred_l_3)}')

R2 score: 0.8726502044105723
MAE: 71.57918876149596
MSE: 7769.019375774637


Как и ожидалось, обнуление дало о себе знать, точность поднялась на одну десятитысячную, вместо статысячной как на Ridge

In [None]:
plot_test(X_train_3, X_test_3, y_train_3, y_test_3, y_pred_l_3)

Ещё ближе попадания

Но стоит сделать большое alpha, чтобы увидеть прям практически нулевые веса

In [None]:
model_l_3 = Lasso(alpha=4).fit(X_train_3_, y_train_3)

y_pred_l_3 = model_l_3.predict(X_test_3_)

print(f'R2 score: {r2_score(y_test_3, y_pred_l_3)}')
print(f'MAE: {mean_absolute_error(y_test_3, y_pred_l_3)}')
print(f'MSE: {mean_squared_error(y_test_3, y_pred_l_3)}')

R2 score: 0.872667354103094
MAE: 71.57884687387649
MSE: 7767.973152709469


In [None]:
model_l_3.coef_

array([-4.95691462e+00,  2.49993253e+00,  7.34422328e-01, -1.71855357e-02,
       -1.04118753e-03])

In [None]:
plot_weights(model_l_3.coef_)

Что и ожидалось, первый вес улетел в ноль

# Вывод

Я понял как устроены Ridge и Lasso регрессии, удалось понять влияние регуляризации на веса фич в формуле, и чем именно отличается Ridge от Lasso.