# Неделя 2. Четверг

## Линейная регрессия

* Ваша задача сегодня для лучшего понимания алгоритмов машинного обучения, реализовать свой класс Линейной регрессии на Python и `numpy` в частности.  

* на _train_ выборке алгоритму необходиму оубчиться, на _test_ выборке проверить свой результат. Метрика для проверки результата для линейной регрессии - _MSE_, метрики реализовать внутри класса.

* В качестве функции потерь, необходимо выбрать _MSE_ - для линейной регрессии. 

* Также необходиму пользователю Вашей модели предоставить возможность указать регуляризирующие коэффициенты и вид регуляризации('Ridge', 'Lasso', 'ElasticNet').  

* При инициализации класса пользователь указывает вид регуляризации, и коэффициенты регуляризации. Если вид не указан регуляризация отсутствует  


* После вы можете сравнить свой результат со стандартной Линейной регрессией, реализованной в _sklearn_

In [538]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_percentage_error as mape
from sklearn.preprocessing import StandardScaler

In [539]:
#Подгрузите необходимые библиотеки
import pandas as pd

In [540]:
train = pd.read_csv('aux/train_flats.csv')
test = pd.read_csv('aux/test_flats.csv')

* __m2__ - площадь объекта (фича)
* __dist__ - удаленность объекта от центра города(фича)
* __price__ - цена (таргет)

In [541]:
train.head(5)

Unnamed: 0,m2,dist,price
0,49,12.836686,40000
1,96,6.287217,190000
2,32,6.034125,55000
3,50,18.111389,45000
4,144,8.385961,205000


In [542]:
test.head(5)

Unnamed: 0,m2,dist,price
0,53,13.141329,40000
1,45,14.456541,35000
2,40,24.251715,36000
3,75,2.885177,115000
4,100,6.023688,85000


0. Отнормируйте свои данные, используя [StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html). Для линейных алгоритмов это очень важно  

In [543]:
from sklearn.preprocessing import StandardScaler

std = StandardScaler()

X_train = train[['m2', 'dist']]
y_train = train['price']
X_train_std = std.fit_transform(X_train)

X_test = test[['m2', 'dist']]
y_test = test['price']
X_test_std = std.transform(X_test)

MSELoss = $\dfrac{1}{N} \sum_{i=1}^{N}(y_{act} - y_{pred})^2 = \dfrac{1}{N} \sum_{i=1}^{N}(y_{act} - (\omega_0 + x_{i1} \cdot \omega_1 + x_{i2} \cdot \omega_2 + ... + x_{in} \cdot \omega_n))^2$ 

*  Возьмем функцию потерь на одном объекте

$L = (y_{act} - y_{pred})^2$  
  
$y_{act} - $ реальное значение, которое принимает наша величина

$y_{pred} - $ значение, которое будет предсказывать наша модель


Наше желание, чтобы модель, на каждом элементе выборки предсказывала значение как можно ближе к реальному

* Как это сделать?

Мы знаем, что в случае линейной регрессии наше предсказание строится как  

$y_{pred} = (\omega_0 + x_{1} \cdot \omega_1 + x_{2} \cdot \omega_2 + ... + x_{n} \cdot \omega_n)$  

$w_0, w_1, w_2, ..., w_n$ - Параметры, которые мы могли бы настроить!  

Итоговая функция потерь на одном объекте:

$L(\vec{w}) = (y_{act} - (\omega_0 + x_{i1} \cdot \omega_1 + x_{i2} \cdot \omega_2 + ... + x_{in} \cdot \omega_n))^2$

$L(\vec{w})$ - сложная функция, которая состоит из следующих функциональных преобразований:  
* возведения в квадрат
* домножения наших $\omega$ на константу - входные данные $x_1, x_2, ..., x_n$. Да да, именно они являются константами

(_Смотреть выше расписанную формулу_)



1. Посчитать для $L(\vec{w}) = (y_{act} - (\omega_0 + x_{i1} \cdot \omega_1 + x_{i2} \cdot \omega_2 + ... + x_{in} \cdot \omega_n))^2$ сложную частную производную по $w_1$.

Как будет отличаться частная производная для $w_2, w_3, ..., w_n$?

2. Посчитать частную производную для $w_0$. (Свободного члена)

Математически градиент готов, останется обернуть его в алгоритм градиентного спуска и на реальных данных, где у нас ни один объект, а много сразу.
Единственной разницей того, что объектов много сразу, мы будем минимизировать функцию потерь в среднем на всех элементах.

Формула для одного объекта была бы такой:
    
$\vec{w_{new}} = \vec{w_{old}} - lr * grad L(\vec{w_{old}})$  

Для всех объектов: 

1. Высчитывается градиент на каждом из ваших объектов(везде получаются разные $grad L(\vec{w_{old}})$ - так как у каждого объекта свои $y, x_1, x_2, ...$).
2. Берется средний $\vec{\omega_{old}}$ - по нему вычисляется новый $\vec{w_{new}}$ у модели

Итого:

$\vec{w_{new}} = \vec{w_{old}} - lr * mean(grad L(\vec{w_{old}}))$

3. Создать класс LinReg. При инициализации дать возможность указать learning_rate, кол-во входных фичей(n). Записать эту информацию в атрибуты класса

In [544]:
class LinReg:
    def __init__(self, learning_rate, n_inputs):
        self.learning_rate = learning_rate
        self.n_inputs = n_inputs

4. Создать случайную инициализцию необходимых $\omega$ (Их будет n+1). Инициализируйте их равномерным распределением w1, w2, ..., wn = положите в атрибут - coef_, w0(свободный член) положите в атрибут intercept_

In [545]:
class LinReg:
    def __init__(self, learning_rate, n_inputs):
        self.learning_rate = learning_rate
        self.n_inputs = n_inputs
        self.coef_ = np.random.uniform(-1, 1, size=n_inputs)
        self.intercept_ = np.random.uniform(-1, 1)

5. Опишите метод fit, который будет принимать на вход X, y (X - данные x1, x2, ..., xn, y - это $y_{act})$ и высчитывать с помощью градиентного спуска самые оптимальные параметры w0, w1, w2, ..., wn. Которые будут хранится в атрибутах coef_ и intercept_

In [546]:
class LinReg:
    def __init__(self, learning_rate, n_inputs):
        self.learning_rate = learning_rate
        self.n_inputs = n_inputs
        self.coef_ = np.random.uniform(-1, 1, size=n_inputs)
        self.intercept_ = np.random.uniform(-1, 1)

def fit(self, X, y):
    m = len(y)  # количество объектов в выборке

    for _ in range(1000):
        # Вычисляем предсказания (y_pred = w0 + w1*x1 + w2*x2 + ...)
        y_pred = X @ self.coef_ + self.intercept_

        # Вычисляем ошибку (разницу между предсказанием и реальным значением)
        error = y_pred - y

        # Вычисляем градиент для коэффициентов (dL/dw = 2/m * X^T * (y_pred - y))
        grad_coef = (2/m) * (X.T @ error)

        # Вычисляем градиент для свободного члена (dL/dw0 = 2/m * sum(y_pred - y))
        grad_intercept = (2/m) * np.sum(error)

        # Обновляем коэффициенты и свободный член
        self.coef_ -= self.learning_rate * grad_coef
        self.intercept_ -= self.learning_rate * grad_intercept

    return self

6. Опишите метод predict, который будет предсказывать для новых точек в дальнейшем их y_pred

In [547]:
class LinReg:
    def __init__(self, learning_rate, n_inputs):
        self.learning_rate = learning_rate
        self.n_inputs = n_inputs
        self.coef_ = np.random.uniform(-1, 1, size=n_inputs)
        self.intercept_ = np.random.uniform(-1, 1)

    def fit(self, X, y):
        m = len(y)  # количество объектов в выборке

        for _ in range(1000):
            # Вычисляем предсказания (y_pred = w0 + w1*x1 + w2*x2 + ...)
            y_pred = X @ self.coef_ + self.intercept_

            # Вычисляем ошибку (разницу между предсказанием и реальным значением)
            error = y_pred - y

            # Вычисляем градиент для коэффициентов (dL/dw = 2/m * X^T * (y_pred - y))
            grad_coef = (2/m) * (X.T @ error)

            # Вычисляем градиент для свободного члена (dL/dw0 = 2/m * sum(y_pred - y))
            grad_intercept = (2/m) * np.sum(error)

            # Обновляем коэффициенты и свободный член
            self.coef_ -= self.learning_rate * grad_coef
            self.intercept_ -= self.learning_rate * grad_intercept

        return self

    def predict(self, X):
    # Предсказание по формуле: y = w0 + w1*x1 + w2*x2 + ... + wn*xn
    # Используем матричное умножение для вычисления w1*x1 + w2*x2 + ... + wn*xn
        return X @ self.coef_ + self.intercept_

7. Сравните результат с линейной регрессией в sklearn. 

In [548]:
import numpy as np
from sklearn.linear_model import LinearRegression

# Обучаем нашу модель
our_model = LinReg(learning_rate=0.01, n_inputs=X_train_std.shape[1])
our_model.fit(X_train_std, y_train)

# Обучаем модель из sklearn
sklearn_model = LinearRegression()
sklearn_model.fit(X_train_std, y_train)

# Выводим коэффициенты и свободные члены
print("Наша модель:")
print(f"Коэффициенты: {our_model.coef_}")
print(f"Свободный член: {our_model.intercept_}")

print("\nМодель из sklearn:")
print(f"Коэффициенты: {sklearn_model.coef_}")
print(f"Свободный член: {sklearn_model.intercept_}")

# Делаем предсказания
our_predictions = our_model.predict(X_test_std)
sklearn_predictions = sklearn_model.predict(X_test_std)

# Вычисляем MSE
our_mse = np.mean((y_test - our_predictions) ** 2)
sklearn_mse = np.mean((y_test - sklearn_predictions) ** 2)

print(f"\nMSE нашей модели: {our_mse}")
print(f"MSE модели из sklearn: {sklearn_mse}")

Наша модель:
Коэффициенты: [ 57459.36777206 -20265.12445575]
Свободный член: 80658.63566672205

Модель из sklearn:
Коэффициенты: [ 57459.36885842 -20265.12337312]
Свободный член: 80658.63580246911

MSE нашей модели: 4158134122.1967573
MSE модели из sklearn: 4158134073.790217


In [549]:
# Обучаем нашу модель
our_model = LinReg(learning_rate=0.01, n_inputs=X_train_std.shape[1])
our_model.fit(X_train_std, y_train)

# Обучаем модель из sklearn
sklearn_model = LinearRegression()
sklearn_model.fit(X_train_std, y_train)

# Выводим коэффициенты и свободные члены
print("Наша модель:")
print(f"Коэффициенты: {our_model.coef_}")
print(f"Свободный член: {our_model.intercept_}")

print("\nМодель из sklearn:")
print(f"Коэффициенты: {sklearn_model.coef_}")
print(f"Свободный член: {sklearn_model.intercept_}")

# Делаем предсказания
our_predictions = our_model.predict(X_test_std)
sklearn_predictions = sklearn_model.predict(X_test_std)

# Вычисляем MSE
our_mse = np.mean((y_test - our_predictions))
sklearn_mse = np.mean((y_test - sklearn_predictions))

print(f"\nMSE нашей модели: {our_mse}")
print(f"MSE модели из sklearn: {sklearn_mse}")

# Вычисляем MAPE в процентах
our_mape = mape(y_test, our_predictions) * 100
sklearn_mape = mape(y_test, sklearn_predictions) * 100

print(f"\nMAPE нашей модели: {our_mape:.2f}%")
print(f"MAPE модели из sklearn: {sklearn_mape:.2f}%")

Наша модель:
Коэффициенты: [ 57459.36777208 -20265.12445573]
Свободный член: 80658.63566672243

Модель из sklearn:
Коэффициенты: [ 57459.36885842 -20265.12337312]
Свободный член: 80658.63580246911

MSE нашей модели: 5105.943096707641
MSE модели из sklearn: 5105.942761075232

MAPE нашей модели: 39.59%
MAPE модели из sklearn: 39.59%


In [550]:
# Импортируем необходимые библиотеки (если еще не импортированы)
import numpy as np
from sklearn.metrics import mean_squared_error, r2_score

# Используем нашу модель и модель из sklearn, которые мы уже обучили
our_model = LinReg(learning_rate=0.01, n_inputs=X_train_std.shape[1])
our_model.fit(X_train_std, y_train)

sklearn_model = LinearRegression()
sklearn_model.fit(X_train_std, y_train)

# Делаем предсказания
our_predictions = our_model.predict(X_test_std)
sklearn_predictions = sklearn_model.predict(X_test_std)

# Вычисляем MSE
our_mse = mean_squared_error(y_test, our_predictions)
sklearn_mse = mean_squared_error(y_test, sklearn_predictions)

# Вычисляем R²
our_r2 = r2_score(y_test, our_predictions)
sklearn_r2 = r2_score(y_test, sklearn_predictions)

# Выводим результаты
print("Сравнение метрик на тестовом наборе данных:")
print(f"MSE нашей модели: {our_mse:.2f}")
print(f"MSE модели из sklearn: {sklearn_mse:.2f}")
print(f"R² нашей модели: {our_r2:.4f}")
print(f"R² модели из sklearn: {sklearn_r2:.4f}")
print(f"score нашей модели (отрицательный MSE): {-our_mse:.2f}")
print(f"score модели из sklearn (R²): {sklearn_model.score(X_test_std, y_test):.4f}")

Сравнение метрик на тестовом наборе данных:
MSE нашей модели: 4158134122.19
MSE модели из sklearn: 4158134073.79
R² нашей модели: 0.6389
R² модели из sklearn: 0.6389
score нашей модели (отрицательный MSE): -4158134122.19
score модели из sklearn (R²): 0.6389


In [551]:
X_train, X_test, y_train, y_test = train_test_split(
    X_train, y_train, test_size=0.25, random_state=42)

In [552]:
LR = LinearRegression()

In [553]:
LR.fit(X_train, y_train)

In [554]:
y_pred = LR.predict(X_test)

In [555]:
mape_score = mape(y_test, y_pred) * 100
mape_score

31.85553158792277

In [556]:
LR.coef_

array([ 1656.81342857, -2797.00047623])

In [557]:
# from sklearn.linear_model import LinearRegression

# lr = LinearRegression()
# lr.fit(X, y)
# lr.coef_, lr.intercept_

8. Напшите метод _score_. Который принимает данные _X_ и _y_  и высчитывает функционал качества, можно оставить тот же [MSE](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error). Он нам понадобится для оценки качества работы алгоритмы на тестовых данных

In [558]:
class LinReg:
    def __init__(self, learning_rate, n_inputs):
        self.learning_rate = learning_rate
        self.n_inputs = n_inputs
        self.coef_ = np.random.uniform(-1, 1, size=n_inputs)
        self.intercept_ = np.random.uniform(-1, 1)

    def fit(self, X, y):
        m = len(y)  # количество объектов в выборке

        for _ in range(1000):
            # Вычисляем предсказания (y_pred = w0 + w1*x1 + w2*x2 + ...)
            y_pred = X @ self.coef_ + self.intercept_

            # Вычисляем ошибку (разницу между предсказанием и реальным значением)
            error = y_pred - y

            # Вычисляем градиент для коэффициентов (dL/dw = 2/m * X^T * (y_pred - y))
            grad_coef = (2/m) * (X.T @ error)

            # Вычисляем градиент для свободного члена (dL/dw0 = 2/m * sum(y_pred - y))
            grad_intercept = (2/m) * np.sum(error)

            # Обновляем коэффициенты и свободный член
            self.coef_ -= self.learning_rate * grad_coef
            self.intercept_ -= self.learning_rate * grad_intercept

        return self

    def predict(self, X):
    # Предсказание по формуле: y = w0 + w1*x1 + w2*x2 + ... + wn*xn
    # Используем матричное умножение для вычисления w1*x1 + w2*x2 + ... + wn*xn
        return X @ self.coef_ + self.intercept_

    def score(self, X, y):
        y_pred = self.predict(X)
        return np.mean((y - y_pred) ** 2)

9. Посчитайте ваш _score_ и линейной регрессии из sklearn для тестового набора данных

10. Нарисуйте 3D график, на котором будет следующее:

* ось X и Y - [['m2', 'dist']]
* ось Z -  price
* через scatter все элементы выборки. Красными точками train, Синими test
* Линейную плоскость предсказания

10*. Добавьте возможность пользователю добавлять реугляризацию модели. Это не привносит больших изменений. Немного пмоеняется функция потерь и как следствие градиент

In [514]:
# class LinReg:
#     def __init__(self, learning_rate, n_inputs, reg_type='Ridge', alpha=0.2):
#         self.learning_rate = ...
#         self.n_inputs = ...
#         self.coef_ = ...
#         self.intercept_ = ...

#     def fit(self, X, y):
#         pass

#     def predict(self, X):
#         pass