In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [None]:
# вместо обычной LinearRegression будем использовать Ridge - более устойчивая модификация линейной регрессии
# для нормализации признаков используйте Ridge с параметром normalize=True
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error

In [None]:
# визуализация коэффициентов линейной регрессии
def visualize_coefficients(coefs, feature_names, top_n):
    """
    Функция для визуализации коэффициентов линейной регрессии.

    Параметры:
    -----------
        coefs: коэффициенты модели (model.coef_)
        feature_names: названия признаков (X_train.columns)
        top_n: вывести top_n самых положительных и top_n самых отрицательных признаков
    """
    feature_names = np.array(feature_names)
    if top_n * 2 > len(coefs):
        n_pos = len(coefs) // 2
        n_neg = len(coefs) - n_pos
    else:
        n_pos, n_neg = top_n, top_n
    # нам нужно найти индексы top_n наибольших и top_n наименьших коэффициентов
    min_coef_idxs = np.argsort(coefs)[:n_neg]
    max_coef_idxs = np.argsort(coefs)[len(coefs) - n_pos:]
    # соответствующие имена фичей
    top_feature_names = np.concatenate((feature_names[min_coef_idxs], feature_names[max_coef_idxs])) 
    # отобразим на bar-графике
    fig, ax = plt.subplots(figsize=(16, 9))
    ax.bar(np.arange(n_neg), coefs[min_coef_idxs], color=sns.xkcd_rgb['mauve'], hatch='/')
    ax.bar(np.arange(n_neg, n_neg + n_pos), coefs[max_coef_idxs], color=sns.xkcd_rgb['teal'], hatch='\\')
    ax.set_xticks(np.arange(0, n_neg + n_pos))
    ax.set_xticklabels(top_feature_names, rotation=45, ha="right", fontsize=14)
    plt.show()

In [None]:
df = pd.read_csv('indian-metro.csv', parse_dates=['date_time'], index_col='date_time')

In [None]:
df.info()

In [None]:
# вы можете проверить, что признак dew_point - это копия признака visibility_in_miles
# поэтому его нужно удалить - линейные модели болеют от наличия абсолютно одинаковых признаков в датасете
df = df.drop('dew_point', axis=1)

In [None]:
# выделим последний год в тестовую выборку, и еще один год в валидационную
test_start = df.index.max() - pd.Timedelta('1y')
val_start = test_start - pd.Timedelta('1y')

print(f'Test start date: {test_start}')
print(f'Validation start date: {val_start}')

In [None]:
# в дальшейшем вы можете разбить свою выборку, выполнив
# train = df[df.index < val_start]
# val = df[(df.index >= val_start) & (df.index < test_start)]
# test = df[df.index >= test_start]

## Elementary level: 35%

*Задание*

*1. Удалите все нечисловные признаки из датасета*

*2. Выделите из выборки трейн и валидацию, не забудьте о масштабировании (нормализации) признаков*

*3. Обучите линейную регрессию на трейне, посчитайте MSE на валидации*

*4. Визуализируйте коэффициенты и предсказания. Для визуализации прогнозов возьмите, например, две последние недели в валидации*

*Замечание: после того, как вы разделите выборку может оказаться так, что в трейне некоторые признаки принимают константное значение. Их нужно удалить*

*Подсказка: для проверки количества уникальных значений в столбцах можно использовать df.nunique().sort_values()*

In [None]:
?pd.DataFrame.nunique

## Pre-intermediate: 25%

*Если вы построите график целевой переменной, то увидите ее сильную зависимость от даты*

*Создайте новые признаки года, месяца, дня и часа с помощью df.index.year, df.index.month и.т.п и проверьте качество на валидации*

*Не забудьте визуализировать предсказания и коэффициенты*

## Intermediate: 20%

*Попробуйте закодировать отброшенные ранее категориальные признаки с помощью pd.get_dummies*

*Посмотрите на скор на валидации, визуализируйте результаты*

*Замечание: применять pd.get_dummies нужно до разделения на трейн/вал/тест, чтобы функция видела все значения категорий*

*Подсказка: к колонке weather_description лучше сначала применить .str.lower() - подумайте почему :)*

In [None]:
?pd.get_dummies

In [None]:
?pd.Series.str.lower

## Upper-intermediate: 20%

*На семинаре мы обсудили, что предыдущее значение целевой переменной может сильно помочь в предсказании временного ряда*

*Добавьте с помощью метода .shift() к колонкам сколько-то предыдущих значений целевой переменной, сколько конкретно - подберите на валидации*

*Визуализируйте прогнозы и коэффициенты модели*

In [None]:
?pd.Series.shift