# Семинар # 3 – Линейные модели

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as st
import warnings
warnings.simplefilter('ignore')

%matplotlib inline

# 1. Постановка задачи

Линейная модель - это: $$ \hat{y} = f(x) = \theta_0*1 + \theta_1*x_1 + ... + \theta_n*x_n = \theta^T*X$$

Сгенерируем исскуственные данные, на основе функции:
$$f(x) = 4x+5$$

In [None]:
def lin_function(x):
    return 4*x+5

x_true = np.array([-2,2])
y_true = lin_function(x_true)


In [None]:
plt.plot(x_true, y_true, linewidth=1)
plt.show()

In [None]:
n = 100
x = np.random.rand(n, 1) * 4 - 2
e = np.random.rand(n, 1) * 4 - 2
y = lin_function(x) + e


In [None]:
plt.scatter(x, y, color='g')
plt.plot(x_true, y_true, linewidth=1)
plt.show()

# 2. Метрики

Mean Absoulte Error:
$$MAE = \frac1N \sum_{i = 1}^N|f(x_i) - y_i| = \frac1N \sum_{i = 1}^N|\hat y_i - y_i| = \frac1N || \hat Y - Y||_1$$

Mean Sqared Error:
$$MSE = \frac1N \sum_{i = 1}^N(f(x_i) - y_i)^2 = \frac1N \sum_{i = 1}^N(\hat y_i - y_i)^2 = \frac1N ||\hat Y - Y||_2$$


Почему работаем с MSE?

# 3. Аналитический метод поиска минимума по МНК

$$MSE -> min $$

$$MSE = \frac1N \sum_{i = 1}^N(\hat y_i - y_i)^2 = \frac1N \sum_{i = 1}^N(\theta_i * x_i - y_i)^2 = \frac1N ||X \theta - Y||_2 = \frac1N (X\theta - Y)^T*(X\theta - Y) $$



$$ \frac{d}{d\theta}[\frac1N (X\theta - Y)^T*(X\theta - Y)] =  \frac1N \frac{d}{d\theta}[Y^TY - 2Y^TX\theta+\theta^TX^TX\theta]  $$

$$\hat \theta = \bigl(X^T \cdot X  \bigr)^{-1} \cdot X^T \cdot y $$

In [None]:
x_matrix = np.c_[np.ones((n, 1)), x]

In [None]:
%%time
thetha_matrix = None # <Ваш код>

Обратите внимание на время работы

In [None]:
thetha_matrix.T[0].tolist()

In [None]:
print("Свободный член: {[0][0]:.7}".format(thetha_matrix.T))
print("Коэфициент: {[0][1]:.7}".format(thetha_matrix.T))

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression

параметры

In [None]:
%%time
lr = LinearRegression()
lr.fit(x,y);

In [None]:
print("Свободный член: {:.7}".format(lr.intercept_[0]))
print("Коэфициент: {:.7}".format(lr.coef_[0][0]))

In [None]:
plt.scatter(x, y, color='g')
plt.scatter(x, lr.predict(x), color='r')
plt.plot(x_true, y_true, linewidth=1)
plt.show()

 # 4. Градиентный спуск

$$\theta^{(t+1)} = \theta^{(t)} - lr\cdot \nabla MSE(\theta^{(t)}),$$
где $lr$ — длина шага градиентного спуска (learning rate).

$$\nabla MSE(\theta)= \frac{2}{N} X^T \cdot \bigl(X \cdot \theta - Y \bigr) $$

In [None]:
def linear_backward(x, y, theta):
    gradients = 0 # <Ваш код>
    
    return gradients


def update_theta(theta, gradient, lr):
    theta = 0 # <Ваш код>
    
    return theta 

In [None]:
x_matrix.shape

In [None]:
%%time
lr = 0.1  # learning rate
n_iterations = 150


theta = np.random.randn(2,1)  # random initialization

plt.scatter(x, y, color='g')

for iteration in range(n_iterations):
    if iteration < 10:
        plt.plot(x_true, x_true*theta[1]+theta[0], linewidth=1, color='r')
        
    gradients = linear_backward(x_matrix, y, theta)
    theta = update_theta(theta, gradients, lr)

plt.plot(x_true, y_true, linewidth=1)
plt.show()

print(theta)

## Слишком маленький шаг обучения (learning rate)

In [None]:
lr = 0.01  # learning rate
n_iterations = 100


theta = np.random.randn(2,1)  # random initialization

plt.scatter(x, y, color='g')

for iteration in range(n_iterations):
    if iteration < 10:
        plt.plot(x_true, x_true*theta[1]+theta[0], linewidth=1, color='r')
        
    gradients = linear_backward(x_matrix, theta)
    theta = update_theta(theta, gradients, lr)

plt.plot(x_true, y_true, linewidth=1)
plt.show()

## Слишком большой шаг обучения (learning rate)

In [None]:
lr = 1.01  # learning rate
n_iterations = 100


theta = np.random.randn(2,1)  # random initialization

plt.scatter(x, y, color='g')

for iteration in range(n_iterations):
    if iteration < 10:
        plt.plot(x_true, x_true*theta[1]+theta[0], linewidth=1, color='r')
        
    gradients = linear_backward(x_matrix, y, theta)
    theta = update_theta(theta, gradients, lr)

plt.plot(x_true, y_true, linewidth=1)
plt.show()

## Уменьшение шага на каждой итерации

Предложите стратегию уменьшения шага обучения.

In [None]:
def dynamic_lr(iter_num, base_lr):
    # <Ваш код>
    return base_lr

In [None]:
lr = 1  # learning rate
n_iterations = 1000

theta = np.random.randn(2,1)  # random initialization

for iteration in range(n_iterations):
    gradients = linear_backward(x_matrix, y, theta)
    
    cur_lr = dynamic_lr(iteration, lr)
    theta = update_theta(theta, gradients, cur_lr)

print(theta)



Learning rate - гипперпараметр, и можно воспользоваться GridSearchCV, однако чтобы не учить каждый раз такое кол-во итераций, мы можем измерять норму градиента, и прекращать спуск, когда он "затух"

In [None]:
gradients

In [None]:
lr = 1  # learning rate
n_iterations = 1000
tol = 0.0001

theta = np.random.randn(2,1)  # random initialization

for iteration in range(n_iterations):
    gradients = linear_backward(x_matrix, y, theta)
    
    # Проверка нормы градиента для критерия останова
    # <Ваш код>
        
    cur_lr = dynamic_lr(iteration, lr)
    theta = update_theta(theta, gradients, cur_lr)

print('Градиент затух на {} итерации '.format(iteration))
print(theta)

__Реализация в Scikit-Learn отсутствует__
  
  

# 5. Cтохастический градиентный спуск  

у среднего случайных подвыборок то же что и у всех данных

In [None]:
!pip install tqdm
from tqdm import auto

In [None]:
n_epochs = 100

theta = np.random.randn(2,1)  # random initialization

for epoch in auto.tqdm(range(n_epochs)):
    for i in range(n):
        # Случайная подвыборка
        # <Ваш код>
        xi = None
        yi = None
        gradients = linear_backward(xi, yi, theta)
    
        # Проверка нормы градиента для критерия останова
        # <Ваш код>

        cur_lr = dynamic_lr(iteration, lr)
        theta = update_theta(theta, gradients, cur_lr)
        
print(theta)

In [None]:
gradients

# 6. Пакетный градиентный спуск  

In [None]:
n_epochs = 100
theta = np.random.randn(2,1)  # random initialization

for epoch in auto.tqdm(range(n_epochs)):
    for i in range(n):        
        # Пакет (батч)
        # <Ваш код>
        xi = None
        yi = None
        gradients = linear_backward(xi, yi, theta)
    
        # Проверка нормы градиента для критерия останова
        # <Ваш код>

        cur_lr = dynamic_lr(iteration, lr)
        theta = update_theta(theta, gradients, cur_lr)
        
print(theta)

In [None]:
from sklearn.linear_model import SGDRegressor

In [None]:
sgd = SGDRegressor(tol=0.0001)
sgd.fit(x,y)
sgd.intercept_, sgd.coef_

# 7. Функции потерь в регрессии

In [None]:
with open('data_preprocessed.json') as file:
    X = pd.read_json(file)

In [None]:
X_subset = X[[7, 15]].values
X_subset_modified = np.vstack((X_subset, [[1, 90], [2, 50]]))

In [None]:
def scatter_points_and_plot_line_MSE(X_subset):
    plt.scatter(X_subset[:, 0], X_subset[:, 1])
    lr = LinearRegression()
    lr.fit(X_subset[:, 0][:, None], X_subset[:, 1])
    grid = np.linspace(0, 2, 100)
    line = lr.predict(grid[:, None])
    plt.plot(grid, line)

In [None]:
plt.figure(figsize=(20, 5))
plt.subplot(1, 2, 1)
scatter_points_and_plot_line_MSE(X_subset)
plt.ylim(-20, 100)
plt.xlabel("x")
plt.ylabel("y")
plt.subplot(1, 2, 2)
scatter_points_and_plot_line_MSE(X_subset_modified)
plt.ylim(-20, 100)
plt.xlabel("x")

Из-за шумовых объектов прямая достаточно сильно изменила наклон. Поэтому вместо MSE часто используют Mean Absoulte Error:
$$L(y_i, a(x_i)) = |y_i - a(x_i)|$$

Теперь обучим регрессию, оптимизируя MAE. В sklearn такая регрессия не реализована, но можно использовать модуль statsmodels

In [None]:
!pip install statsmodels==0.11.1
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [None]:
plt.figure(figsize=(20, 5))
plt.ylabel("y")
mod = smf.quantreg('f15 ~ f7', pd.DataFrame(data=X_subset_modified, columns=["f7", "f15"])) # задаеем зависимость и передаем данные
res = mod.fit(q=0.5)
plt.scatter(X_subset_modified[:, 0], X_subset_modified[:, 1])   # визуализируем точки
grid = np.linspace(0, 2, 100)
plt.plot(grid, grid * res.params["f7"] + res.params["Intercept"])   # визуализируем прямую
plt.ylim(-20, 100)
plt.xlabel("x")

Прямая не изменила направление из-за выбросов.

Попробуем добавить больше шумовых объектов:

In [None]:
X_subset_modified_twice = np.vstack((
    X_subset_modified, 
    np.random.randint(5, size=60).reshape(-1, 2) * [1, 30],
))

In [None]:
plt.figure(figsize=(20, 5))
plt.ylabel("y")
mod = smf.quantreg('f15 ~ f7', pd.DataFrame(data=X_subset_modified_twice, columns=["f7", "f15"])) # задаеем зависимость и передаем данные
res = mod.fit(q=0.5)
plt.scatter(X_subset_modified_twice[:, 0], X_subset_modified_twice[:, 1])   # визуализируем точки
grid = np.linspace(0, 4, 200)
plt.plot(grid, grid * res.params["f7"] + res.params["Intercept"])   # визуализируем прямую
plt.ylim(-20, 100)
plt.xlabel("x")

Прямая изменила наклон, когда мы добавили 30 (почти 15%) шумовых точек.

# 7. Мультиколлинеарность и регуляризация

In [None]:
# !pip install seaborn
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

Для оценка качества работы наших алгоритмов будем использовать коэфициент детерминации:

$$R^2 = 1 - \frac{\sum_i (y_i - a(x_i))^2}{\sum_i (y_i - \overline{y}_i)^2}$$


## Решение задачи МНК

In [None]:
def my_linear_regression(X_train, Y_train):
    return np.linalg.inv(X_train.T.dot(X_train)).dot(X_train.T).dot(y_train)

In [None]:
def predict(X, w):
    return np.dot(X, w)

## Загрузим датасет

https://habrahabr.ru/post/206306/

In [None]:
data = pd.read_csv('energy_efficiency.csv')

Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI.   

В нем $X_1 ... X_8$ — характеристики помещения на основании которых будет проводиться анализ, а $y_1,y_2$ — значения нагрузки, которые надо спрогнозировать.
- $X_1$	Относительная компактность
- $X_2$	Площадь
- $X_3$	Площадь стен
- $X_4$	Площадь потолка	
- $X_5$	Общая высота	
- $X_6$	Ориентация
- $X_7$	Площадь остекления	
- $X_8$	Распределенная площадь остекления	
- $y_1$	Нагрузка при обогреве
- $y_2$	Нагрузка при охлаждении

In [None]:
data.head()

## Посмотрим на скоррелированность данных

In [None]:
data.corr()

In [None]:
f, ax = plt.subplots(figsize=(10, 8))
corr = data.corr()
sns.heatmap(corr, square=True, ax=ax, cmap=sns.diverging_palette(220, 10, as_cmap=True))

In [None]:
f, ax = plt.subplots(figsize=(10, 8))
corr = data.drop(['Y1','Y2'], axis=1).corr()
sns.heatmap(corr, square=True, ax=ax, cmap=sns.diverging_palette(220, 10, as_cmap=True))

Видим, что x1 скоррелирован с x2, а x4 с x5. Из-за этого матрица $X^{T}*X$ необратима.

## Посмотрим как на таких данных отработает наша линейная регрессия

Разобьем выборку на train и test

In [None]:
X = data.drop(['Y1','Y2'], axis=1)
y = data['Y1']

In [None]:
X.shape, y.shape

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Обучим регрессию и посмотрим на качество

In [None]:
w = my_linear_regression(X_train, y_train)

In [None]:
y_train_pred = predict(X_train, w)
print("Train MSE: ", mean_squared_error(y_train, y_train_pred))
print("Train R2: ", r2_score(y_train, y_train_pred))

In [None]:
def mse(y_train, y_train_pred):
    return sum((y_train-y_train_pred)**2)/len(y_train)

In [None]:
y_test_pred = predict(X_test, w)
print("Test MSE: ", mean_squared_error(y_test, y_test_pred))
print("Test R2: ", r2_score(y_test, y_test_pred))

Как-то не очень

## Попробуем убрать скоррелированные признаки

In [None]:
# Выделите данные для обучения без скорредированных признаков
X = None  # <Ваш код>
y = data['Y1']

In [None]:
X.shape, y.shape

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Обучим регрессию и посмотрим на качество

In [None]:
w = my_linear_regression(X_train, y_train)

In [None]:
y_train_pred = predict(X_train, w)
print("Train MSE: ", mean_squared_error(y_train, y_train_pred))
print("Train R2: ", r2_score(y_train, y_train_pred))

In [None]:
y_test_pred = predict(X_test, w)
print("Test MSE: ", mean_squared_error(y_test, y_test_pred))
print("Test R2: ", r2_score(y_test, y_test_pred))

Юху! Получили алгоритм с хорошим качеством

## Реализуем линейную регрессию с L2 регуляризацией

In [None]:
def my_linear_regression(X_train, Y_train, l2=0):
    # <Ваш код>
    return 0.

Обучим регрессию с регуляризацией и посмотрим на качество

In [None]:
X = data.drop(['Y1','Y2'], axis=1)
y = data['Y1']

In [None]:
X.shape, y.shape

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
w = my_linear_regression(X_train, y_train, l2=0.001)

In [None]:
y_train_pred = predict(X_train, w)
print("Train MSE: ", mean_squared_error(y_train, y_train_pred))
print("Train R2: ", r2_score(y_train, y_train_pred))

In [None]:
y_test_pred = predict(X_test, w)
print("Test MSE: ", mean_squared_error(y_test, y_test_pred))
print("Test R2: ", r2_score(y_test, y_test_pred))

Этого же эффекта (отсутствие переобучения) мы добились, добавив регуляризацию.