# Линейная регрессия
__Суммарное количество баллов: 10__


In [None]:
from sklearn.datasets import make_blobs, make_moons
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt
import matplotlib
import copy
import math

In [None]:
def generate_synthetic(size, dim=6, noise=0.1):
    X = np.random.randn(size, dim)
    w = np.random.randn(dim + 1)
    noise = noise * np.random.randn(size)
    y = X.dot(w[1:]) + w[0] + noise
    return X, y

#### Метрика
Для начала нужно понять, какую метрику для ошибки будем использовать. В нашем случае нам подойдет стандартная метрика RMSE. Ее и нужно реализовать.

In [None]:
def rmse(y_true, y_predicted):
    return math.sqrt(sum((y_predicted - y_true)**2)/len(y_predicted))


Теперь реализуем линейную регрессию при помощи явного решения задачи минимизации. 

#### Методы
`fit(X, y)` - решает задачу минимизации $\arg\min_{w, b}\sum ((w\cdot x + b) - y)^2$. 

`predict(X)` - строит предсказание `y` для объектов из `X`.

In [None]:
class NormalLR:
    def __init__(self):
        pass
    
    def fit(self, X, y):
        data = np.hstack((X, np.ones((X.shape[0], 1))))
        self.w = np.matmul(np.matmul(np.linalg.inv(np.matmul(np.transpose(data), data)), np.transpose(data)), y)
    
    def predict(self, X):
        data = np.hstack((X, np.ones((X.shape[0], 1))))
        return np.matmul(data, self.w)

In [None]:
X, y = generate_synthetic(1024)
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8)

In [None]:
regr = NormalLR()
regr.fit(X_train, y_train)
print(rmse(y_test, regr.predict(X_test)))

1. Выполните загрузку и предобработку файлов x_boston_train и y_boston_train.
2. Разбейте x_boston_train и y_boston_train на x_train, y_train, x_test и y_test для оценки точности работы алгоритма.
3. Посчитайте метрику RMSE для моделей LR. Если необходимо, попробуйте разные наборы параметров для получения лучшего результата.
4. Постройте график зависимости ошибки от коэффициента регуляризации. 

In [None]:
from sklearn.preprocessing import minmax_scale


def read_data():
    X, y= pd.read_csv('../input/homework-linear-regression/x_boston_train.csv', index_col='Id').to_numpy(), pd.read_csv('../input/homework-linear-regression/y_boston_train.csv', index_col='Id').to_numpy()
    
    return minmax_scale(X), y

In [None]:
X, y = read_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, shuffle=False)

In [None]:
regr = NormalLR()
regr.fit(X_train, y_train)
print(rmse(y_test, regr.predict(X_test)))

Обучите модель на всех данных из x_boston_train и y_boston_train.
Сделайте submit своего решения и получите значение RMSE_score не более 5000

In [None]:
nlr = NormalLR()
nlr.fit(X, y)
test = pd.read_csv('../input/homework-linear-regression/x_boston_test.csv')
submission = pd.DataFrame(columns = ["Id", "Expected"])
submission["Id"] = test["Id"]
submission["Expected"] = nlr.predict(minmax_scale(test.drop('Id', axis=1 )))
submission.to_csv('submission.csv', index=False)