# 4.1 Линейная регрессия

Вам предложен шаблон класса LinearRegression. Реализуйте методы  .fit() и .predict() соответствующие изложенной выше модели. В рамках выполнения этого задания можно пользоваться только библиотекой numpy. Использование любых других библиотек приведёт к ошибке при проверке задания автоматизированной системой. Также мы просим Вас не менять название класса и обозначенных методов, это также приведёт к ошибке. Добавлять свои методы в класс можно.

Полученные коэффициенты модели должны храниться в поле .coef_


Шаблон класса LinearRegression приведён ниже. Заполните все необходимые пропуски и отправьте получившийся файл в яндекс.контест. Не забудьте про все необходимые импорты.

In [6]:
import numpy as np

class LinearRegression:
    def __init__(self, **kwargs):
        self.coef_: np.array
        
    @staticmethod
    def _add_intercept(x: np.array) -> np.array:
        if len(x.shape) == 1:
            x = x[:, np.newaxis]
        return np.hstack([x, np.ones((x.shape[0], 1))])

    def fit(self, x: np.array, y: np.array) -> None:
        x = self._add_intercept(x)
        self.coef_ = np.matmul(np.matmul(np.linalg.inv(np.matmul(x.T, x)), x.T), y)

    def predict(self, x: np.array):
        x = self._add_intercept(x)
        return np.dot(x, self.coef_)

# 4.2. R-квадрат

Одна из метрик оценки качества регрессии - это коэффициент детерминации, или, т.н. R-квадрат. $R^2$ вычисляется по следующей формуле:

$$R^2 = 1 - \frac{D\epsilon}{Dy}$$

где $D\epsilon$ - это дисперсия ошибки модели, а $Dy$ - это дисперсия зависимой величины y, которую мы пытаемся предсказать.

Подробнее об этой метрике можно прочитать в [лекции](https://colab.research.google.com/drive/1MhWrDx0RsNrt4DWsk583Xb-CAm6z27s8#scrollTo=sLSOa0Y49LEz).

Вам предлагается написать функцию r2(y_true, y_pred) для подсчета коэффициента детерминации.

In [7]:
import numpy as np

def r2(y_true: np.array, y_pred: np.array) -> float:
    TSS = sum((y_true - y_true.mean()) ** 2)
    ESS = sum((y_true - y_pred) ** 2)
    return 1 - ESS / TSS

# 4.3. Оценка выборки

Метрику $R^2$ можно применять также для оценки свойств выборки. Способность линейной модели предсказывать значения с большой долей объясненной дисперсии (что соответствует большому значению $R^2$) говорит о достаточности предложенных нами признаков для моделирования метки. В каком-то смысле, можно рассмотреть 3 случая:
1) Предложенные нами признаки x (факторы) позволяют достаточно хорошо обосновать (предсказать) то или иное значение зависимой переменной (метки y), эта зависимость линейная.
2) Предложенные нами признаки x позволяют достаточно хорошо обосновать то или иное значение зависимой переменной, но эта зависимость нелинейная.
3) Предложенные нами признаки x не позволяют достаточно хорошо обосновать наблюдаемое значение зависимой переменной.

Во 2 и 3 случаях, при попытке моделирования выборки линейной моделью мы получим плохое (маленькое) значение $R^2$, хотя причины этого будут немного отличаться. А вот в 1 случае значение $R^2$ будет достаточно большим.

Ваша задача среди предложенных Вам 5 выборок найти наилучшую и наихудшую с точки зрения моделирования линейной регрессией (то есть необходимо построить линейную регрессию, посчитать её $R^2$, и найти лучшую и худшую с точки зрения $R^2$ выборки). В ответе в Яндекс.Контест необходимо указать двузначное число, где первая цифра отвечает номеру наилучшей, а вторая - наихудшей из предложенных выборок. Файл имеет следующую структуру: в нем записан массив размером N x 2. Первый столбец представляет признаковое описание объектов, а второй - это значение метки.

Например, ответ 32 будет интерпретирован следующим образом: 3 - наилучшая выборка, а 2 - наихудшая.
Загрузить данные можно по [ссылке](https://drive.google.com/drive/folders/1uh-2EfVLugYMxUTcB_pDWVbSI5gngRA0?usp=sharing).

In [8]:
import os
import numpy as np


os.chdir('/Users/goshaletov/Documents/Study/Master/Trimester1/MachineLearning/Homeworks')


class LinearRegression:
    def __init__(self, **kwargs):
        self.coef_: np.array
        
    @staticmethod
    def _add_intercept(x: np.array) -> np.array:
        if len(x.shape) == 1:
            x = x[:, np.newaxis]
        return np.hstack([x, np.ones((x.shape[0], 1))])

    def fit(self, x: np.array, y: np.array) -> None:
        x = self._add_intercept(x)
        self.coef_ = np.matmul(np.matmul(np.linalg.inv(np.matmul(x.T, x)), x.T), y)

    def predict(self, x: np.array):
        x = self._add_intercept(x)
        return np.dot(x, self.coef_)


def r2(y_true: np.array, y_pred: np.array) -> float:
    TSS = sum((y_true - y_true.mean()) ** 2)
    ESS = sum((y_true - y_pred) ** 2)
    return 1 - ESS / TSS    


def main():
    container = []

    reg = LinearRegression()

    for dirpath, _, filenames in os.walk('data/Homework 3'):
        for idx, filename in enumerate(sorted(filenames)):
            data = np.load(os.path.join(dirpath, filename))
            x, y = data[:, 0], data[:, 1]
            reg.fit(x, y)
            R2 = r2(y, reg.predict(x))
            container.append(R2)

    container = np.array(container)

    print(np.argmax(container) + 1, np.argmin(container) + 1, sep='')
    
if __name__ == '__main__':
    main()

34
