# Курс "Практикум по математической статистике"
# 3 курс ФПМИ МФТИ, осень 2022
## Линейная регрессия

Мы предлагаем выполнять задания прямо в этом ноутбуке. Пожалуйста, не стирайте условия задач.

Настоятельно рекомендуемая форма оформления домашних заданий — это Jupyter Notebook с:

* условием задачи,
* решением (если требуется некоторый теоретический вывод),
* описанием плана решения, который потом реализуется в коде, 
* собственно кодом, 
* построенными графиками (если это требуется) и **выводом**, который как правило должен заключаться в объяснении практических результатов с использованием теоретических фактов. ***Вывод требуется даже в том случае, если в условии об этом явно не сказано!***
* некоторыми другими вещами, если об этом будет указано в задании.

Оценка за каждую задачу складывается из правильного выполнения всех этих пунктов. Закрывая на них глаза, вы сознательно понижаете свою оценку.

Каждая задача оценивается **в 10 баллов**.

In [None]:
import numpy as np
from scipy import stats as sps
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.model_selection import train_test_split

sns.set(font_scale=1.4, style='whitegrid')

В учебных целях в данном задании запрещено использовать готовые реализации линейной регрессии (например, из пакета *scikit-learn*).

Но вы все равно можете показать свои скиллы в машинке, анализе временных рядов или продвинутой визуализации. Нам будет интересно посмотреть. Задача глубже, чем кажется, и в ней можно придумать крутые хаки и графики. Ваша инициатива и любые дополнения к обязательной части задачи пойдут будут только плюсом (может даже не только в карму). Включите своего внутреннего аналитика, удачи!

# Линейная регрессионная модель

Для начала реализуем класс, описывающий гауссовскую линейную модель. Этот класс будет использоваться в решении обоих задач.

In [None]:
from sklea


class LinearModel:
    '''
        Класс линейной модели, реализующий
        построение, предсказание и вычисление 
        среднеквадратичной ошибки
    '''
    def fit(self, Z, X):
        '''
            Построение модели с помощью МНК
            Z - матрица признаков
            X - вектор предсказываемой переменной
        '''
        self.theta = #YOUR CODE GOES HERE
        return self
        
    def predict(self, Z):
        '''
            Прогноз зачений зависимой переменной
            на основе матрицы признаков Z
        '''
        return #YOUR CODE GOES HERE
    
    def mse(self, Z, X):
        '''
            Вычисление среднеквадратичной ошибки
            для матрицы Z и заданного вектора
            ответов X
        '''
        return #YOUR CODE GOES HERE

# Задача 1

Загрузите данные из набора *Forest Fires* (файл *forestfires.csv*) о лесных пожарах в Португалии. Задача состоит в том, чтобы с помощью линейной регрессии научиться предсказывать координату *area* (площадь пожара) в виде линейной комбинации других данных.

Чтобы работать с числовыми координатами, нечисловые координаты (*month, day*) нужно перевести в числовые. Для простоты можно заменить координату *month* на индикатор летнего сезона, а координату *day* не использовать вообще. По желанию можно сделать преобразование другим способом. Также добавьте координату, тождественно равную единице (вес при этой координате  интерпретируется как сдвиг).

Разбейте выборку на две части в соотношении *7:3* (перемешав её с помощью *random.shuffle*). По первой части постройте регрессионную модель. Примените модель ко второй части выборки и посчитайте по ней среднеквадратичную ошибку.

Для переменной *area* выполните преобразование $f(x) = ln(x+c)$ и постройте для нее новую регрессионную модель. Посчитайте среднеквадратичную ошибку для преобразованных значений. При каком $c$ предсказания получаются лучше всего? 

При выбранном $c$ сделайте разбиение выборки в соотношении 7:3 разными способами (перемешивая каждый раз). Найдите способ оценить разброс качества от разбиения. Сильно ли меняется качество? Сделайте выводы.

## Решение

Загрузим датасет. Подробнее с ним можно ознакомиться [тут](https://www.kaggle.com/elikplim/forest-fires-data-set).

In [None]:
!pip install -q gdown
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/forest-fires/forestfires.csv

In [None]:
df = pd.read_csv("forestfires.csv")

#### 1. Подготовка данных

Разделим выборку на матрицу признаков $Z$ и вектор со значениями предсказываемой переменной $X$. 

Чтобы работать с числовыми координатами, нечисловые координаты (*month, day*) нужно перевести в числовые. Для простоты можно заменить координату *month* на индикатор летнего сезона, а координату *day* не использовать вообще. По желанию можно сделать преобразование другим способом. Также добавьте координату, тождественно равную единице (вес при этой координате  интерпретируется как сдвиг).

In [None]:
#YOUR CODE GOES HERE

Составим новую матрицу Z, объединив преобразованный столбец категоримальной переменной, числовые переменные и добавим столбец из единиц, как сказано в условии. С помощью функции ```traint_test_split``` разобьём выборку в соотношении 7:3 на две части.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
#YOUR CODE GOES HERE

#### 2. Регрессионная модель

Постройте регрессионную модель по первой части выборки. Определите значение вектора параметров. По второй части оцените качество модели с помощью MSE.

In [None]:
estimator = LinearModel()

#YOUR CODE GOES HERE

#### 3. Преобразование $\ln (x+c)$

Сделаем преобразование предсказываемой переменной по условию. Это требуется для того чтобы линеризовать таргет, изначально зависимость была степенной. Определим функцию, которая будет зависеть от $c$ и для заранее заданных матрицы признаков и вектора ответов строить регрессионную модель и вычислять значение среднеквадратичной ошибки. Воспользуемся функцией ```minimize_scalar``` из ```scipy.optimization``` чтобы найти минимум этой функции.

In [None]:
def min_mse_trampline(Z, X):
    def test_mse(c):
        estimator = LinearModel()
        X_c = np.log(X + c)
        estimator.fit(Z, X_c)
        return estimator.mse(Z, X_c)
    return test_mse

In [None]:
test_mse = min_mse_trampline(Z, X)
min_res = minimize_scalar(test_mse, bounds=(1, np.inf))

optimal_c = #YOUR CODE GOES HERE
min_mse = #YOUR CODE GOES HERE
print("Оптимальное значение параметра c равно", optimal_c)
print("При нём среднеквадратичная ошибка равна", min_mse)

Осмысленным ли получилось оптимальное значение параметра $c$? Если нет, напишите почему и предложите способ решения пробелмы. Посчитайте новое значение параметра $c$, после изменений.

Ваше объяснение:

In [None]:
#YOUR CODE GOES HERE

Оптимальное значение параметра $c$:

### 4. График ошибки

Построим график ошибки, чтобы визуально убедиться, что функция ```test_mse``` действительно имеет минимум.

In [None]:
#YOUR CODE GOES HERE

### 5. Разброс среднеквадратичной ошибки в зависимости от разбиения выборки.

Оцените разброс среднеквадратичной ошибки в зависимости от разбиения выборки.

In [None]:
#YOUR CODE GOES HERE

Построим гистограмму полученной выборки ошибок.

In [None]:
#YOUR CODE GOES HERE

Вывод по гистограмме:

## Вывод:


# Задача 2

На полигоне испытывается новая модель трамвая. В одном из испытании работы двигателя проверяется, что движение трамвая равномерно. Для проведения теста на трамвай установлен датчик, посекундно измеряющий пройденное расстояние. 

Записи датчика можно описать такой моделью:

 $$X_i = \beta_1+i\beta_2+\varepsilon_0+\ldots+\varepsilon_i,\, i= 0, 1, \ldots, n$$ 
 
где $X_i$ --- расстояние, которое проехал трамвай за $i$ секунд. В модели $\beta_1$ --- начальное расстояние, $\beta_2$ --- скорость трамвая, $\varepsilon_0$ --- ошибка начального показания датчика. Отсчет времени идет от предыдущего замера, причем отсчет происходит с ошибкой. Для $i = 1, \ldots, n$ величина $\varepsilon_i$ есть ошибка приращения расстояния, то есть $\varepsilon_i = \varepsilon_i^t \beta_2,$ где $\varepsilon_i^t$ --- ошибка отсчета времени. Все ошибки $\varepsilon_i$ независимы и распределены по закону $N(0, \sigma^2)$. 

Сведите задачу к линейной модели и найдите оценки наименьших квадратов для начального расстояния $\beta_1$ и скорости $\beta_2,$ а также несмещенную оценку для $\sigma^2,$ из которой выразите оценку дисперсии отсчета времени. 

Данные возьмите из файла Regression.csv. Сделайте выводы.

## Решение

Загрузим датасет, содержащий показания датчика.

In [None]:
!pip install -q gdown
!gdown https://drive.google.com/uc?id=1gmSof1yxWt009QoBiKjwkLMlcpn3r61W

In [None]:
X = np.genfromtxt('regression.csv')
print('Размер датасета:', X.shape)
print('Средняя скорость:', X[-1] / X.shape[0])

Датасет состоит из 1000 измерений. По смыслу средняя скорость имеет размерность метры в секунду.

Построим график показаний датчика:

In [None]:
#YOUR CODE GOES HERE

#### 1. Сведем задачу к гауссовской линейной модели

Каким образом свести изначальную задачу к гауссовской линейной модели? Останется ли распредление вектора ошибок тем же? Новый вектор наблюдений назовите $Y$.

In [None]:
Y = #YOUR CODE GOES HERE

#### 2. Требования к гауссовской линейной модели

Напомним, что в гауссовской линейной модели наблюдение -- вектор $X \in \mathbb{R}^n$, представимо в виде $X = l + \varepsilon$, где $l$ --- неизвестный случайный вектор (измеряемая величина), $\varepsilon$ --- случайный вектор (ошибка измерения), имеющий распредление $\mathcal{N}(\vec{0}, \sigma^2 I)$. То есть среднее значение ошибки измерения должно быть равно нулю и в нашей модели для всех измерений ошибки должны иметь одинаковую дисперсию (гомоскедастичность).

Проверим, что дисперсия ошибки не меняется со временем.

In [None]:
#YOUR CODE GOES HERE

Проверим, что ошибка имеет нормальное распределение. Для этого сравним распредление ошибок и теоретическое нормальное распредление с помощбю графика QQ-plot:

In [None]:
#YOUR CODE GOES HERE

Для проверки нормальности воспользуемся  [критерием Шапиро-Уилка](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html). На практике этот метод обычно является самым мощным критерием для проверки нормальности.

In [None]:
from scipy.stats import shapiro

Найдем значение статистики и уровень значимости (p-value) критерия. Напишите вывод.

In [None]:
#YOUR CODE GOES HERE

Вывод по всей проверке требований модели:

#### 3. Оценка параметров

Воспользуйтесь реализованным в начале задания классом `LinearModel`. Как выглядит ваша матрица признаков $Z$? Какие значения параметров $\beta_1$ и $\beta_2$?

In [None]:
Z = #YOUR CODE GOES HERE

In [None]:
estimator = LinearModel()

#YOUR CODE GOES HERE

Итого, получаем,  значения $\beta_1$ и $\beta_2$ -- начальное расстояние и скорость: 
$$\beta_1 = $$
$$\beta_2 = $$


#### 4. Оценка дисперсии ошибки показаний датчика.

Найдите оценку дисперсии $\sigma^2$ показаний датчика $\varepsilon$. После того, как она найдена, найдите оценку дисперсии $\sigma_t^2$ ошибки отсчёта времени $\varepsilon^t$.

In [None]:
#YOUR CODE GOES HERE

In [None]:
#YOUR CODE GOES HERE

#### 5. Измерим качество модели

В качестве метрики качества модели, эксперты предложили использовать [коэффициент детерминанции](https://ru.wikipedia.org/wiki/Коэффициент_детерминации). Он показывает какую долю дисперсии выборки объясняет линейная регрессия. В нашем случае, значение $R^2 > 0.98$ будет означать, что трамвай прошел испытание.

In [None]:
#YOUR CODE GOES HERE

Ответ в задаче:

$\beta_1 =\ \ $ -- начальное расстояние,

$\beta_2 =\ \ $ -- скорость движения,

$\sigma^2 =\ \ $ -- дисперсия отсчета расстояния,

$\sigma_t^2 =\ \ $ -- дисперсия отсчета времени.

## Вывод