In [None]:
import numpy as np # для матричных вычислений
import pandas as pd # для анализа и предобработки данных
import matplotlib.pyplot as plt # для визуализации
import seaborn as sns # для визуализации

from sklearn import linear_model # линейные модели
from sklearn import metrics # метрики

from sklearn.model_selection import train_test_split # сплитование выборки
from sklearn import preprocessing # предобработка
%matplotlib inline
plt.style.use('seaborn')

In [None]:
# Загрузим данные для образца
from sklearn.datasets import load_boston 

boston = load_boston()
# создаём DataFrame из загруженных numpy-матриц
boston_data = pd.DataFrame(
    data=boston.data, #данные
    columns=boston.feature_names #наименования столбцов
)
# добавляем в таблицу столбец с целевой переменной
boston_data['MEDV'] = boston.target
boston_data.head()

In [None]:
X = boston_data.drop('MEDV', axis=1) #матрица наблюдений
y = boston_data['MEDV'] #вектор правильных ответов

# РАЗДЕЛЕНИЕ выборки

In [None]:

from sklearn.model_selection import train_test_split
# Разделяем выборку на тренировочную и тестовую в соотношении 70/30

# Устанавливаем random_state для воспроизводимости результатов 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=False, stratify=y, random_state=40)
# X - матрица признаков (наблюдений)
# y - вектор правильных ответов
# test_size=0.3 - 30% данных идут в тестовую выборку
# shuffle=False - По умолчанию True. Параметр перемешивания данных в выборке.
# stratify=y - Стратифицированное разбиение - Одинаковое соотношение целевого признака 
# в тренировочной и тестовой выборке, не допускающее перекоса в обучении модели.
# random_state=40 - гарантирует выдачу генератором одних и тех же случайных значений
# 


# Выводим результирующие размеры таблиц
print('Train:', X_train.shape, y_train.shape)
print('Test:', X_test.shape, y_test.shape)

# МЕТРИКИ РЕГРЕССИИ
см ML2.ipynb

In [None]:
from sklearn import metrics

# Делаем предсказание по всем признакам
y_predict_full = lr_full.predict(boston_data[features])
# Рассчитываем MAE - Средняя абсолютная ошибка
print('MAE score: {:.3f} thou. $'.format(metrics.mean_absolute_error(y, y_predict_full)))
# Рассчитываем RMSE - Корень из средней квадратической ошибки
print('RMSE score: {:.3f} thou. $'.format(np.sqrt(metrics.mean_squared_error(y, y_predict_full))))
# Рассчитываем MAPE - Средняя абсолютная ошибка в процентах
print('MAPE score: {:.3f} %'.format(metrics.mean_absolute_percentage_error(y, y_predict_full) * 100))
# Рассчитываем коэффициент детерминации Коэффициент детерминации (R2)
print('R2 score: {:.3f}'.format(metrics.r2_score(y, y_predict_full)))

# АНАЛИТИЧЕСКОЕ РЕШЕНИЕ "РЕГРЕССИИ" С ПОМОЩЬЮ NUMPY
см ML2.ipynb

In [None]:
def linear_regression(X, y):
    # Создаём вектор из единиц
    ones = np.ones(X.shape[0])
    # Добавляем вектор к таблице первым столбцом
    X = np.column_stack([ones, X])
    # Вычисляем обратную матрицу Q
    Q = np.linalg.inv(X.T @ X)
    # Вычисляем вектор коэффициентов
    w = Q @ X.T @ y
    return w
# Вычисляем параметры линейной регрессии
w = linear_regression(X, y)
# Выводим вычисленные значения параметров в виде вектора
print('Vector w: {}'.format(w))
# Выводим параметры с точностью до двух знаков после запятой
print('w0 = {:.2f}'.format(w[0]))
print('w1 = {:.2f}'.format(w[1]))

# НАЛИТИЧЕСКОЕ РЕШЕНИЕ "РЕГРЕССИИ" С ПОМОЩЬЮ SKLEARN
см ML2.ipynb

In [None]:
# Создаём объект класса LinearRegression
lr_full = linear_model.LinearRegression()

# Обучаем модель — ищем параметры по МНК
lr_full.fit(X, y) 

# Выводим полученные параметры
print('w0 = {}'.format(lr_full.intercept_)) #свободный член w0
print('w1 = {}'.format(lr_full.coef_)) #остальные параметры модели w1, w2, ..., wm

# Предсказываем медианную цену для всех участков из набора данных
y_predict = lr_full.predict(X)

# Выводим предсказание
# Составляем таблицу из признаков и их коэффициентов
w_df = pd.DataFrame({'Features': X.columns, 'Coefficients': lr_full.coef_})
# Составляем строку таблицы со свободным членом
intercept_df =pd.DataFrame({'Features': ['INTERCEPT'], 'Coefficients': lr_full.intercept_})
coef_df = pd.concat([w_df, intercept_df], ignore_index=True)
display(coef_df)

# ЧИСЛЕННОЕ РЕШЕНИЕ "РЕГРЕССИИ" С ПОМОЩЬЮ SKLEARN (SGD - градиентный спуск)
см ML2.ipynb

In [None]:
# Создаём объект класса линейной регрессии с SGD
sgd_lr_full = linear_model.SGDRegressor(random_state=42)
# У класса SGDRegressor, помимо random_state, есть ещё множество различных внешних параметров, 
# которые можно настраивать. Со всем списком вы можете ознакомиться в документации. 
# А мы приведём несколько самых важных:

# loss — функция потерь. По умолчанию используется squared_loss — уже привычная нам MSE. 
# Но могут использоваться и несколько других. Например, значение "huber" определяет функцию потерь Хьюбера. 
# Эта функция менее чувствительна к наличию выбросов, чем MSE.

# max_iter — максимальное количество итераций, выделенное на сходимость. Значение по умолчанию — 1000.

# learning_rate — режим управления темпом обучения. Значение по умолчанию — 'invscaling'. 
# Этот режим уменьшает темп обучения по формуле, которую мы рассматривали ранее: etat=eta0/t^p.
# Есть ещё несколько режимов управления, о которых вы можете прочитать в документации.
# Если вы не хотите, чтобы темп обучения менялся на протяжении всего обучения, 
# то можете выставить значение параметра на "constant".

# eta0 — начальное значение темпа обучения . Значение по умолчанию — 0.01.
# Если параметр learning_rate="constant", то значение этого параметра 
# будет темпом обучения на протяжении всех итераций.

# power_t — значение мощности уменьшения  в формуле etat=eta0/t^p . Значение по умолчанию — 0.25.


# Обучаем модель — ищем параметры по методу SGD
sgd_lr_full.fit(X, y)

# Выводим полученные параметры
print('w0: {}'.format(sgd_lr_full.intercept_)) #свободный член w0
print('w1: {}'.format(sgd_lr_full.coef_)) #остальные параметры модели w1, w2, ..., wm

#Предсказываем медианную цену для всех участков из набора данных
y_predict = sgd_lr_full.predict(X)

# Выводим предсказание
# Составляем таблицу из признаков и их коэффициентов
w_df = pd.DataFrame({'Features': X.columns, 'Coefficients': lr_full.coef_})
# Составляем строку таблицы со свободным членом
intercept_df =pd.DataFrame({'Features': ['INTERCEPT'], 'Coefficients': lr_full.intercept_})
coef_df = pd.concat([w_df, intercept_df], ignore_index=True)
display(coef_df)

# СМЕЩЕНИЕ (НЕДООБУЧЕНИЕ) И РАЗБРОС (ПЕРЕОБУЧЕНИЕ)
см ML2.ipynb