# Линейная регрессия

Сегодня мы попытаемся смоделировать задачу линейной регрессии на датасете boston.csv. Этот датасет представляет собой таблицу, в которой в каждой строке находится информация о стоимости дома в Бостоне, а также численные признаки, которые на эту стоимость могут влиять. Эти признаки на английском объясняются так:

  1. crim:     per capita crime rate by town
  2. zn:       proportion of residential land zoned for lots over 25,000 sq.ft.
  3. indus:    proportion of non-retail business acres per town
  4. chas:     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
  5. nox:      nitric oxides concentration (parts per 10 million)
  6. rm:       average number of rooms per dwelling
  7. age:      proportion of owner-occupied units built prior to 1940
  8. dis:      weighted distances to five Boston employment centres
  9. rad:      index of accessibility to radial highways
  10. tax:      full-value property-tax rate per 10,000 dollars
  11. ptratio:  pupil-teacher ratio by town
  12. b:        1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
  13. lstat:    % lower status of the population

И последним признаком в таблице идет стоимость дома:

  14. medv:     median value of owner-occupied homes in $'s

Их необязательно полностью понимать, но если интересно - можно пользоваться google переводчиком или подзывать меня :)


Мы формулируем задачу линейной регрессии так: мы хотим построить зависимость  $Y = w_1 X_1 + w_2 X_2 + ... + w_{14} X_{14}$, где $Y$ - это стоимость дома, $X_i$ - это переменные соответствующие признакам, а $W_i$ - коэффициенты, на которые эти признаки умножаются. Мы хотим найти коэффициенты $W_i$ так, чтобы получаемое по формуле значение Y было максимально близко к истинной цене дома. Интуитивно это понимается так: рассмотрим первый признак с названием crim. В нем хранится число - вероятность совершения преступления в районе, в котором находится дом. Логично, что цена дома если это показатель высок, будет низкой - никто не хочет жить в криминальном районе. Таким образом, вероятнее всего после построения модели линейной регрессии мы получим коэффициент w_1 как отрицательное число (т.е. первый признак влияет на цену с обратной зависимостью: чем больше значение переменной, тем меньше значение Y (таргета)).

In [None]:
from sklearn.datasets import make_blobs, make_moons
import numpy as np
import random
import matplotlib.pyplot as plt # библиотеки для построения графиков
import matplotlib
import copy

In [None]:
from google.colab import drive
drive.mount("/content/gdrive") # чтобы загружать файлы с гугл диска

path = "/content/gdrive/My Drive/boston.csv" # здесь укажите свой путь до boston.csv
                                             # (датасет должен лежать на гугл диске)

Сперва реализуем функцию для считывания датасета boston.csv. Мне нужно чтобы вы самостоятельно изучили датасет (я кинула его в тг), считали его с помощью метода np.genfromtxt (при этом нужно пропустить первые 15 строк); затем его нужно перемешать (вспомните методы из модуля random cо вчера).
Метод должен возвращать два np.ndarray: один со всеми признаками (цена дома - НЕ признак, это таргет который мы будем предсказывать), второй ndarray должен как раз содержать стоимости домов.

In [None]:
def read_data(path_to_csv=path):
    """
     
    Parameters
    ----------
    path_to_csv : str
        Путь к cancer датасету.

    Returns
    -------
    X : np.array
        Матрица признаков (её размер должен быть: (количество домов)x(количество признаков)).
    y : np.array
        Вектор цен домов (размер: (количество домов)).

    
    return X, y
    """
    pass

Начиная работать с данными, нам необходимо их предобработать и подготовить. В частности, нам необходимо разделить выборку на две: тренировочную и тестовую. Тренировочная выборка необходима для обучения алгоритма, а тестовая для проверки результатов обучения. Обычно используют коэффициент разделения `0.9`.

Необходимо вернуть кортеж из `X_train`, `y_train`, `X_test` и `y_test`

In [None]:
def train_test_split(X: np.array, y: np.array, ratio: float):
    """

    Parameters
    ----------
    X : np.array
        Матрица признаков.
    y : np.array
        Вектор меток.
    ratio : float
        Коэффициент разделения.

    Returns
    -------
    X_train : np.array
        Матрица признаков для train выборки.
    y_train : np.array
        Вектор меток для train выборки.
    X_test : np.array
        Матрица признаков для test выборки.
    y_test : np.array
        Вектор меток для test выборки.

    """
    pass

Метод для заполнения весов модели рандомными значениями.

In [None]:
def generate_synthetic(size:int, dim=6, noise=0.1):
    X = np.random.randn(size, dim)
    w = np.random.randn(dim + 1)
    noise = noise * np.random.randn(size)
    y = X.dot(w[1:]) + w[0] + noise
    return X, y

Давайте поймем, какую метрику для ошибки будем использовать. В нашем случае нам подойдет стандартная метрика MSE. Также чтобы оценить качество модели нам понадобится метрика $R^2$. Реализуйте обе эти метрики.

In [None]:
def mse(y_true:np.ndarray, y_predicted:np.ndarray):
    return 0.0

def r2(y_true:np.ndarray, y_predicted:np.ndarray):
    return 0.0

Теперь реализуем линейную регрессию при помощи явного решения задачи минимизации. 

#### Методы
`fit(X, y)` - решает задачу минимизации $\arg\min_{w, b}\sum ((w\cdot x + b) - y)^2$. 

`predict(X)` - строит предсказание `y` для объектов из `X`.

In [None]:
class NormalLR:
    def __init__(self):
        pass
    
    def fit(self, X:np.ndarray, y:np.ndarray):
        pass
    
    def predict(self, X:np.ndarray) -> np.ndarray:
        pass

In [None]:
X, y = generate_synthetic(1024)
X_train, y_train, X_test, y_test = train_test_split(X, y, ratio=0.8)

In [None]:
regr = NormalLR()
regr.fit(X_train, y_train)
y_pred = regr.predict(X_test)
print(f"MSE: {mse(y_test, y_pred)}, R2: {r2(y_test, y_pred)}")

### Если вы чувствуете в себе уверенность (или не знаете чем заняться)
Реализуем линейную регрессию с использованием градиентного спуска с larning rate `alpha` в течении `iterations` итераций. В задании необходимо использовать регуляризацию Лассо с коэффициентом `l`.

#### Методы
`fit(X, y)` - приближает решение задачи минимизации $\arg\min_{w, b}\sum ((w\cdot x + b) - y)^2$ при помощи градиентного спуска. 


`predict(X)` - строит предсказание `y` для объектов из `X`.

In [None]:
class GradientLR:
    def __init__(self, alpha:float, iterations=10000, l=0.):
        pass
    
    def fit(self, X:np.ndarray, y:np.ndarray):
        pass

    def predict(self, X:np.ndarray):
        pass

In [None]:
def build_plot(X_train, y_train, X_test, y_test):
    xs = np.arange(0.0, 0.002, 0.00002)
    errors = []
    for x in xs:
        regr = GradientLR(0.1, iterations=10000, l=x)
        regr.fit(X_train, y_train)
        errors.append(mse(y_test, regr.predict(X_test)))
    plt.figure(figsize=(9, 4))
    plt.xlim(xs[0], xs[-1])
    plt.grid()
    plt.plot(xs, errors)
    plt.show()

In [None]:
X, y = generate_synthetic(1024)
X, X_val, y, y_val = train_test_split(X, y, ratio=0.9, shuffle=True)
X_train, y_train, X_test, y_test = train_test_split(X, y, ratio=0.8, shuffle=True)

In [None]:
build_plot(X_train, y_train, X_val, y_val)

In [None]:
regr = GradientLR(0.1, iterations=10000)
regr.fit(X_train, y_train)
y_pred = regr.predict(X_test)
print(f"MSE: {mse(y_test, y_pred)}, R2: {r2(y_test, y_pred)}")


Протесируйте оба метода на данных `boston.csv`, для градиентного спуска постройте график зависимости ошибки от коэффициента регуляризации. 

In [None]:
X, y = read_data()
X_train, y_train, X_val, y_val = train_test_split(X, y, train_size=0.8, shuffle=False)

In [None]:
regr = NormalLR()
regr.fit(X_train, y_train)
y_pred = regr.predict(X_val)
w=regr.w

print(f"MSE: {mse(y_val, y_pred)}, R2: {r2(y_test, y_val)}")

In [None]:
build_plot(X_train, y_train, X_val, y_val)

In [None]:
regr = GradientLR(0.1, iterations=10000)
regr.fit(X_train, y_train)
y_pred = regr.predict(X_val)

print(f"MSE: {mse(y_val, y_pred)}, R2: {r2(y_test, y_val)}")


Проинтерпритируйте полученные результаты. Опишите влияние каждого признака на результат предсказания.

In [None]:
with open(path) as myfile:
    head = [next(myfile) for x in range(14)]
for i in range(13):
    print('{} : {}'.format(w[i+1],head[i]),end='')

пишем тут