# Семинар 3. Линейная регрессия

Подключение библиотек. 
$
\newcommand{\R}{\mathbb{R}}
\newcommand{\X}{\mathbb{X}}
\newcommand{\norm}[1]{\lVert #1 \rVert}
\newcommand{\abs}[1]{\left| #1 \right|}
\newcommand{\E}{\mathbb{E}}
\newcommand{\D}{\mathbb{D}}
\renewcommand{\Prob}{\mathbb{P}}
\renewcommand{\le}{\leqslant}
\renewcommand{\ge}{\geqslant}
$

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
import ipywidgets as wg

plt.style.use('ggplot')

# 1. Линейная регрессия из библиотеки sklearn

Для демонстрации воспользуемся датасетом __вес-рост__ ([ссылка](https://www.kaggle.com/mustafaali96/weight-height)):
* 10000 наблюдений, 5000 мужчин и 5000 женщин. Признаки:
    * Рост в дюймах.
    * Вес в фунтах.
    * Пол (Male/ Female).

In [None]:
# прочитать файл weight-height.csv

__Задача 1:__ Переведем вес и рост в привычные единицы измерения по формулам:
* 1 фунт = 0.453592 кг.
* 1 дюйм = 2.54 см.

In [None]:
# перевести в кг и см

Совместное распределение данных:

In [None]:
# график совместного распределения

In [None]:
# приготовить X и y

## Классическая линейная регрессия

Пусть объект описывается $d$ признаками $(x_1, \ldots, x_d)$ и нужно предсказать ответ $y$.

__Линейная регрессия:__ $$ \hat{y} \sim \theta_0 + \sum\limits_{k=1}^d \theta_k x_k, $$

* $\hat{y}$ -- прогнозное значение.
* $x_k, k=\overline{1,n}$ -- значения признаков объекта.
* $\theta_k, k=\overline{1,n}$ -- параметры модели.

Векторная запись: $$\hat{y} = x^T \theta. $$

__Примечание:__ В этой записи считаем, что $x_0 = 1$.

### Обучение: 
Пусть имеется матрица признаков $X \in \R^{n x d}$ и вектор ответов $Y \in \R^n$. 

__Метод наименьших квадратов:__ $$Q(\theta) = ||Y - X\theta|| = \sum\limits_{k=1}^n (Y_k - X_k^T \theta)^2 \to \min\limits_\theta.$$

Оптимизация:
* Аналитическое решение: $$\hat{\theta} = (X^T X)^{-1} X^T Y.$$
* Итерационные методы: 
    * _градиентный спуск (GD):_ $$\theta^{(k+1)} = \theta^{(k)} - \alpha \cdot \nabla Q(\theta^{(k)}).$$
    * _стохастический градиентный спуск (SGD):_ $$\theta^{(k+1)} = \theta^{(k)} - \alpha \cdot \nabla_i Q(\theta^{(k)}), $$ где градиент берется $\nabla_i$ берется по наблюдению со случайным индексом $i$.
    * _mini-batch стохастический градиентный спуск (Mini-batch SGD)._

In [None]:
# обучим линейную модель

In [None]:
# построим график

# 2. Работа с категориальными признаками.

Заметим, что в наших данных имеется категориальный признак _Gender_.

In [None]:
# количество значений признака

In [None]:
# совместное распределение по гендеру

__Задача:__ Занумеруем и превратим текстовые признаки в числовые значения:

In [None]:
# текстовый в числовой

__Задача:__ Обученить линейную модель с двумя признаками.

In [None]:
# линейная модель с 2 признаками

In [None]:
x_plt = np.linspace(130, 210, 1024)

male_pred = model.predict(np.column_stack([x_plt, np.zeros_like(x_plt)]))
female_pred = model.predict(np.column_stack([x_plt, np.ones_like(x_plt)]))

plt.figure(figsize=(12, 8))
plt.scatter(data=df[df.GenderCode==0], x='Height', y='Weight', color='orange', alpha=0.5, label='Male')
plt.scatter(data=df[df.GenderCode==1], x='Height', y='Weight', color='green', alpha=0.5, label='Female')

plt.plot(x_plt, male_pred, color='purple', label='Male')
plt.plot(x_plt, female_pred, color='blue', label='Female')
plt.legend()
plt.show()

### Интерпретация модели

In [None]:
# посмотрим на коэффициенты модели

In [None]:
# демонстрация
out = wg.Output()

def demo(height, gender):
    gender = 0 if gender == 'Male' else 1
    with out:
        out.clear_output(wait=True)
        pred = model.predict([[height, gender]])
        print('Прогноз Вашего веса при заданных параметрах:', pred)
    return

wg.interact(demo,
    height=wg.FloatSlider(min=120, max=220, value=170, step=1),
    gender=wg.SelectionSlider(options=['Male', 'Female'], value='Male'),
    continuous_update=True
)
display(out)

# 3. Нелинейная линейная регрессия

Как добавить нелинейности в линейную модель?

In [None]:
# задать функцию func = sin x

In [None]:
# сгенерируем выборку с шумом из функции sin x

__Полиномиальная регрессия:__ $$ y \sim \theta_0 + \sum\limits_{k=1}^p \theta_k x^k.$$

__Задача:__ По входному вектору $x$ выдать матрицу, где в столбцах стоят степени $x$: $$ x \to (x, x^2, \ldots, x^p).$$

In [None]:
# def polynom(x):

In [None]:
# преобразовать X

### Работа с числовыми признаками

Преобразования числовых признаков:
* нормализация: $$\tilde{x}_k = \frac{x_k - \E x_k}{\sqrt{\D x_k}}.$$
* минмакс-преобразование: $$\tilde{x}_k = \frac{x_k - \min{x_k}}{\max{x_k} - \min{x_k}}.$$

In [None]:
# исходные средние

In [None]:
# нормализация признаков

In [None]:
# новые средние

## Пример: полиномиальная регрессия

In [None]:
# учим модель

In [None]:
# предсказываем новые данные

In [None]:
plt.figure(0, figsize=(12, 5))
plt.scatter(X, y, color='blue')
plt.plot(x_new, y_new, color='green', label='Polynomial Regression')
plt.legend()
plt.title('y ~ sin(x)')
plt.show()

# Демонстрация переобучения

In [None]:
out = wg.Output()

def demo(p, fix_ylim):
    # прогнать модель с новым p
    
    with out:
        out.clear_output(wait=True)
        plt.figure(0, figsize=(12, 5))
        plt.scatter(X, y, color='blue')
        plt.plot(x_new, y_new, color='green', label=f'p={p}')
        plt.legend()
        plt.title('y ~ sin(x)')
        if fix_ylim:
            plt.ylim(-2, 2)
        plt.show()
    
wg.interact(demo,
    p=wg.IntSlider(min=1, max=X.shape[0], value=1),
    fix_ylim=wg.Checkbox(description='Fix ylim', value=False),
    continuous_update=True
)
display(out)