# Семинар 5

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

sns.set()

%matplotlib inline

In [2]:
plt.rcParams['figure.figsize'] = (15, 6)

## Линейная регрессия: напоминание

В задаче линейной регрессии мы предполагаем, что ответ является линейной функцией от данных, то есть

$$y = w_1 x_1 + \ldots + w_m x_m = \langle x, w\rangle,$$

* Здесь $\langle\cdot, \cdot\rangle$ — скалярное произведение.
* $w_i$ — вес i-ого признака в модели линейной регрессии. 
    * $w=(w_1, \ldots, w_m)$ — вектор весов признаков.
* $x_i$ — значение i-ого признака во входном $x$ 

Распространенным способом обучения линейной регрессионной модели является метод наименьших квадратов. При использовании этого метода минимизируется *квадратичная функция потерь*:

$$Q(w) = \sum_{j=1}^n Q_j(w) = \sum_{j=1}^n ( \langle x^j, w\rangle - y^j)^2$$

Здесь $n$ — число элементов в обучающей выборке.

Явная формула для вектора весов, решающая минимизационную задачу:

$$w = (X^T X)^{-1} X^T y,$$

где $X$ — матрица объект-признак (по строкам объекты, по столбцам признаки), $y$ — вектор правильных ответов.

Эта формула очень полезна для теоретического анализа, но имеет некоторые ограничения:

1. В ней используется «дорогая» операция — обращение матрицы размером $d\times d$, где $d$ — количество признаков. Она занимает $O(d^3)$ операций, и если $d$ большое, может быть довольно медленной.
2. Эта формула выведена в предположении именно квадратичной функции потерь. Если мы захотим использовать другую формулу потерь, она не работает (и не всегда можно вывести такую явную формулу, которая бы работала). 

Вместо использования явной формулы можно предложить другой подход — минимизация $Q$ с помощью итеративных методов. Простейшим из них является метод градиентного спуска. 

# Градиентный спуск

Рассмотрим функцию $f(x, y)=x^2 + 10 y^2$. Её градиент равен $\nabla f(x, y)=\frac{\partial f(x, y)}{\partial(x, y)}=(2x, 20y)$. Он показывает направление наискорейшего роста функции, то есть отвечает на вопрос «куда нам идти, если мы находимся в точке $(x, y)$ и хотим увеличивать значение функции как можно быстрее». Чтобы уменьшать значение функции, нужно идти в противоположном направлении. В связи с этим, напрашивается такой алгоритм нахождения минимума функции $f$:

1. Возьмём любую точку $(x_0, y_0)$. Посчитаем градиент в этой точке.

2. Для каждого $i=1, \ldots$, положим: $(x_{i+1}, y_{i+1})=(x_i, y_i) - \eta \nabla f(x_i, y_i)$, где $\eta$ — какое-то число (небольшое).

3. Будем продолжать вычислять очередную точку $(x_i, y_i)$ до тех пор, пока мы не окажемся достаточно близко к минимуму — например, до тех пор, пока градиент не слишком маленький.

In [3]:
def f(u):
    return u[0] ** 2 + 10 * u[1] ** 2
def Df(u):
    return np.array([2*u[0], 20 * u[1]])

### Задания для самостоятельного решения

1. Допишите код для функции градиентного спуска.
2. Попробуйте поизменять основные параметры функции (`eta`, `initial_point`, `precision`). Что вы наблюдаете?

In [None]:
def gradient_descent(f, Df, eta=0.01, steps=20000, initial_point=(-3, 3), precision=1e-10,
                            xmin=-4, xmax=4, ymin=-3, ymax=3):
    
    u_prev = np.array(initial_point)

    X = np.linspace(xmin, xmax, 100)
    Y = np.linspace(ymin, ymax, 100)
    plt.figure(figsize=(6, 6))
    plt.contour(X, Y, [[f(np.array([x, y])) for x in X] for y in Y], 100)
    # нарисуем линии уровня функции $f$

    points = []
    for i in range(steps):
        # ( ͡° ͜ʖ ͡°)

    plt.plot([p[0] for p in points], [p[1] for p in points], 'o-')
    
    return points[-1]

In [None]:
gradient_descent(f=f, Df=Df)

## Градиентный спуск и линейная регрессия

Пусть идеальная зависимость задается следующим образом: $y = kx + b$, где $k = 4$ и $b = 3$. Добавим к данным немного шума из нормального распределения и постараемся восстановить параметры $w = (k, b)$.

In [None]:
n = 100

# сгенерировали n примеров x из нормального распределения
x = np.random.normal(size=n)

# генерируем зависимость с добавлением шума
y = 4 * x + 3 + 1.5 * np.random.normal(size=n)

In [None]:
# посмотрим, что у нас за данные
plt.plot(x, y, 'o')
plt.show()

### Задания для самостоятельного решения

Решите задачу по восстановлению параметров с помощью линейной регрессии. В качестве метода оптимизации используйте написанный выше градиентный спуск. Для этого:

1. Подготовьте выборку для решения задачи.
2. Реализуйте функцию потерь в векторном виде.
3. Реализуйте градиент функции потерь в векторном виде.
4. Примените метод градиентного спуска к полученным функциям и получите ответ. Сравните его с исходными параметрами.

Матрично-векторное дифференцирование: https://yadi.sk/i/SSWQ8b3x3RGuPr

In [None]:
# ( ͡°( ͡° ͜ʖ( ͡° ͜ʖ ͡°)ʖ ͡°) ͡°)

## Линейная регрессия на реальных данных

In [None]:
# http://archive.ics.uci.edu/ml/datasets/communities+and+crime

data = pd.read_csv('communities (2).csv')
data.head()

In [None]:
X = data.drop(['ViolentCrimesPerPop'], axis=1)
y = data['ViolentCrimesPerPop']

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [None]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)

In [None]:
w = pd.DataFrame(data=np.array([X.columns, lr.coef_]).T, columns=['feature', 'weight'])
w[:10]

In [None]:
train_pred = lr.predict(X_train)
test_pred = lr.predict(X_test)

In [None]:
from sklearn.metrics import mean_squared_error
print('Train MSE:', mean_squared_error(y_train, train_pred))
print('Test MSE:', mean_squared_error(y_test, test_pred))

В чем же дело?

In [None]:
w.sort_values(by='weight')[:5]

In [None]:
w.sort_values(by='weight', ascending=False)[:5]

In [None]:
X_train['PolicPerPop'].corr(X_train['LemasSwFTPerPop'])

Как решить эту проблему?

### Drop

In [None]:
X_train_new = X_train.drop('LemasSwFTPerPop', axis=1)
X_test_new = X_test.drop('LemasSwFTPerPop', axis=1)
lr.fit(X_train_new, y_train)

train_pred = lr.predict(X_train_new)
test_pred = lr.predict(X_test_new)
print('Train MSE:', mean_squared_error(y_train, train_pred))
print('Test MSE:', mean_squared_error(y_test, test_pred))

In [None]:
w_new = pd.DataFrame(data=np.array([X_train_new.columns, lr.coef_]).T, columns=['feature', 'weight'])
w_new.sort_values(by='weight')[:5]

In [None]:
w_new.sort_values(by='weight', ascending=False)[:5]

### L1-регуляризация

In [None]:
from sklearn.linear_model import Lasso

las = Lasso(alpha=0.01)
las.fit(X_train, y_train)

In [None]:
train_pred = las.predict(X_train)
test_pred = las.predict(X_test)
print('Train MSE:', mean_squared_error(y_train, train_pred))
print('Test MSE:', mean_squared_error(y_test, test_pred))

In [None]:
w_las = pd.DataFrame(data = np.array([X.columns, las.coef_]).T, columns= ['feature', 'weight'])
w_las.sort_values(by='weight')[:5]

In [None]:
w_las.sort_values(by='weight', ascending=False)[:5]

### L2-регуляризация

In [None]:
from sklearn.linear_model import Ridge

rid = Ridge(alpha=0.01)
rid.fit(X_train, y_train)

In [None]:
train_pred = rid.predict(X_train)
test_pred = rid.predict(X_test)
print('Train MSE:', mean_squared_error(y_train, train_pred))
print('Test MSE:', mean_squared_error(y_test, test_pred))

In [None]:
w_rid = pd.DataFrame(data = np.array([X.columns, rid.coef_]).T, columns= ['feature', 'weight'])
w_rid.sort_values(by='weight')[:5]

In [None]:
w_rid.sort_values(by='weight', ascending=False)[:5]