# Задание по байесовской линейной регрессии

__Предупреждение про списывание.__ Строго запрещается использовать код других студентов в своем решении. Код из открытых источников разрешается брать только фрагментами по одной строке (например, скопировать пример использования какой-то функции), нельзя копировать код по несколько строк. В случае обнаружения похожих решений выставляется 0 за __все__ задание __обоим__ студентам, чьи работы являются похожими, и подается служебная записка в деканат.

В этом задании вам предстоит реализовать байесовскую линейную регрессию и применить ее к синтетическим и текстовым данным, чтобы удостовериться в способности модели оценивать уверенность в предсказаниях.

Мы будем работать с (упрощенными) данными [Mercari Price Suggestion Challenge](https://www.kaggle.com/c/mercari-price-suggestion-challenge), скрипт базовой предобработки данных частично заимствован в [этом ноутбуке](https://www.kaggle.com/jkkphys/category-tf-idf-linear-regression).

Скачайте и распакуйте архив train.tsv.7z [здесь](https://www.kaggle.com/c/mercari-price-suggestion-challenge/data).

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_log_error
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline

import pandas as pd
import numpy as np
import time
import re

seed = 101

from matplotlib import pyplot as plt
%matplotlib inline

In [None]:
def tokenizer(text):
    if text:
        result = re.findall('[a-z]{2,}', text.lower())
    else:
        result = []
    return result

In [None]:
df = pd.read_csv('train.tsv', sep='\t')
df.head()

In [None]:
df.shape

Данные представляют собой описания товаров, целевая переменная - стоимость товара (столбец price). Чтобы избежать больших словарей, мы будем предсказывать стоимость товара по столбцу category_name, предобработанному методом построения мешка слов. Кроме того, чтобы ускорить работу алгоритма, мы  составим выборку из 1/100 данных, этого будет достаточно для наших образовательных целей. Предобработка данных также включает логарифмирование стоимости.

In [None]:
# Заполняем пропуски, логарифмируем price, делим данные на обучение и контроль,
# удаляем выбросы (объекты с price=0)
step = 100
df['item_description'].fillna(value='Missing', inplace=True)
df['category_name'].fillna(value='Missing', inplace=True)
X = (df['category_name']).values[::step]
y = np.log1p(df['price'].values[::step])
X = X[y>0]
y = y[y>0]

X_train, X_test, y_train, y_test = \
                train_test_split(X, y, test_size=0.3, random_state=seed)

In [None]:
# число различных значений столбца category_name
len(set(df['category_name']))

In [None]:
# Применяем мешок слов к столбцу category_name, нормируем данные и конвертируем в dense матрицу
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import Normalizer
vect = CountVectorizer(tokenizer=tokenizer, stop_words='english')
X_train_vect = vect.fit_transform(X_train)
X_test_vect = vect.transform(X_test)
normer = Normalizer()
X_train_vect = normer.fit_transform(X_train_vect)
X_test_vect = normer.transform(X_test_vect)
X_train_vect = np.array(X_train_vect.todense())
X_test_vect = np.array(X_test_vect.todense())

In [None]:
# Итоговый размер выборок
X_train_vect.shape, X_test_vect.shape

In [None]:
# Примеры слов из словаря
list(vect.vocabulary_)[:10]

В итоге мы получили переменные X_train_vect, X_test_vect, y_train, y_test.

__Задание (1 балл).__ Примените регуляризованную линейную регрессию (ridge regression) из sklearn к предобработанным данным: обучите модель, выполните предсказания для test и посчитайте mean_absolute_error. Сравните качество с использованием и без использования свободного коэффициента.

Используйте коэффициент регуляризации alpha=0.0001, он нужен только для того, чтобы избежать "бесконечных" по модулю весов.

In [None]:
from sklearn.linear_model import Ridge




In [None]:
# пример вычисления ошибки с обратной конвертацией целевых переменных
from sklearn.metrics import mean_absolute_error
mean_absolute_error(np.exp(y_test)-1, np.exp(y_pred)-1)

Использование свободного коэффициента практически не влияет на ошибку, поэтому в последующих экспериментах мы его использовать не будем.

__Задание (4 балла).__ Реализуйте байесовскую линейную регрессию с интерфейсом, аналогичным интерфейсу sklearn. 

Алгоритм приведен на слайде 52 [в лекции](https://github.com/ftad/BM2020/blob/master/materials/presentation_linear_FTAD.pdf).

Рекомендуется печатать формы промежуточных тензоров, чтобы следить за правильностью проводимых вычислений.

__В реализации класса запрещено использовать циклы и подобные конструкции, только векторизованные операции numpy!__

In [None]:
from sklearn.base import BaseEstimator
class BayesianLinearRegression(BaseEstimator):
    def __init__(self, alpha=1, beta=1):
        """
        alpha: variance of the prior distribution: p(w) = N(w|0, alpha I)
        beta: variance of the likelihood distribution:
               p(y|x, w) = N(y|x^T w, beta)
        """
        self.alpha = alpha
        self.beta = beta
        
    def fit(self, X, y):
        """
        returns nothing
        """
        
    
    def predict(self, X):
        """
        returns two arrays of shape (num_objects,): 
                                     predicted mean and variance
        """
        

__Задание (0.5 балла).__ Примените реализованную байесовскую линейную регрессию к предобработанным текстовым данным, оцените ошибку mean_absolute_error (ошибка оценивается по предсказаниям среднего (mu)).

В этом и следующем заданиях используйте гиперпараметры байесовской линейной регрессии по умолчанию. Ошибка может получиться немного выше (разница в сотых), чем у реализации sklearn, из-за численной неустойчивости.

__Задание (1.5 балла).__ Посмотрим, какие дисперсии будет предсказывать байесовская линейная регрессия для _нестандартных_ объектов. Составим такие объекты, комбинируя несочетающиеся категории товаров, а также повторяя слова неестесственное число раз.
Вычислите предсказания байесовской линейной (средние и дисперсии) регрессии для составленных нестандартных объектов. Сравните величины дисперсий для нестандартных объектов и для объектов из тестовой выборки, проанализируйте результат.

Не забудьте выполнить все шаги предобработки новых данных, включая построение мешка слов, нормализацию, конвертацию матрицы из разреженного формата в формат dense.

In [None]:
# Смотрим, какие бывают категории
list(set(df["category_name"]))[:10]

In [None]:
# составляем неестественные объекты, комбинируя плохо сочетающиеся категории
my_data = [
    "Sports & Outdoors/Art"+"/Art"*1000,\
    "Sports & Outdoors/Art",\
    "Books/Coats/Garage Storage"
]

__Ваш комментарий к результату:__
    
    (пишите тут)

Пришло время протестировать реализованный алгоритм на синтетических данных.

__Задание (1.5 балла).__ Используя вашу реализацию байесовской линейной регрессии, нарисуйте картинку, аналогичную следующей:
![правая картинка слайда 49 из лекции](https://github.com/ftad/BM2020/raw/master/materials/blr_illustrate.png)

Для генерации синтетических данных воспользуемся функцией [make_regression](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html) из sklearn. Сетка по оси абсцисс для визуализации предсказаний уже дана. Не забудьте подписать оси! Для заливки можно воспользоваться функцией plt.fill_between

In [None]:
from sklearn.datasets import make_regression
noise = 30
xs, ys, coef = make_regression(n_samples=100, n_features=1, \
                               bias=0, coef=True, noise=noise)
ys = ys.ravel() / noise

In [None]:
# сетка для визуализации предсказаний
grid = np.linspace(-10, 10, 1000)



__Задание (1.5 балла).__ Посмотроим аналогичную иллюстрацию для линейной регрессии на полиномиальных признаках. Пример такой иллюстрации был дан в лекции:
![правая иллюстрация, слайд 51](https://github.com/ftad/BM2020/raw/master/materials/blr_illustrate_poly.png)

Используем xs из предыдущего задания и зададим ys, используя кубическую функцию. Будем обучать линейную регрессию на признаках $x, x^2, x^3, x^4$. "Загаданная" функция кубическая, поэтому веса при первом, втором и четвертом признаках должны получиться близкими к 0 - проверьте это! Не забудьте подписать оси!

Чтобы увидеть большие дисперсии по краям, может потребоваться немного подвинуть левую и правую границы сетки grid.

In [None]:
# Используем xs из предыдущего задания, а ys задаем, используя кубическюу фунцкию
ys = (xs**3).ravel()
plt.scatter(xs, ys)

In [None]:
grid = np.linspace(-5, 4, 1000)


В задании мы визуализировали дисперсии, предсказываемые байесовской линейной регрессией, и увидели, что они могут быть полезны для оценивания, принадлежит ли тестовый объект к общей совокупности данных или является out-of-distribution объектом.