## Линейная регрессия при помощи библиотеки sklearn

In [2]:
# Импортируем модель линейной регрессии
from sklearn.linear_model import LinearRegression

Для обучения возьмем данные о ценах на дома в Бостоне. https://scikit-learn.org/stable/datasets/toy_dataset.html#boston-dataset

In [3]:
# Функция для загрузки встроенного датасета
from sklearn.datasets import load_boston

# Сразу делим данные на матрицу признаков X и вектор с целевой переменно y
X, y = load_boston(return_X_y=True)

# Посмотрим на размер матрицы признаков
print(X.shape)

(506, 13)



    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

В нашей матрице признаков 506 строк и 13 столбцов, сколько признаков имеет наш датасет?

## Создание и обучение модели
Модель sklearn создается так: `model = LinearRegression()`

Обучение модели в sklearn происходит при помощи метода `fit()` этому методу на вход подаются матрица признаков и значения целевой переменной.

Для того, чтобы построить предсказания, для оценки качества модели, обучим линейную регрессию на первых 500 наблюдениях, а затем предскажем оставшиеся 6

In [5]:
# Создаем модель линейной регрессии
model = LinearRegression()

# Обучаем модель
model.fit(X[:500], y[:500])

LinearRegression()

## Предсказание

Для предсказания при помощи обученой модели в sklearn используется метод `predict()` ему на вход подается матрица признаков и он возвращает вектор(или матрицу) с предсказанными значениями целевой переменной

In [6]:
preds = model.predict(X[500:])

print(preds)

[20.67313667 23.99202547 22.86600965 28.17894777 26.65926677 22.84943851]


## Оценка качества модели

Для того, чтобы понять хорошо или плохо модель справляется с задачей смотрят на различные метрики. Давайте сначала импортируем среднеквадратичную ошибку и посмотрим на результат.

В sklearn метрики находятся в модуле `metrics`

In [7]:
# Импортируем MSE
from sklearn.metrics import mean_squared_error

# На вход функция принимает вектор предсказанных и настоящих значений целевой переменной
mse = mean_squared_error(preds, y[500:])

print(mse)

30.429816161816785


Среднеквадратичная ошибка составила 30.4 - но по одному такому значению тяжело судить о качестве модели, поэтому сравним ее корень (RMSE) со средним значением целевой переменной

In [8]:
# Корень из среднеквадратичной ошибки
rmse = mse ** .5

print("Среднее значение целевой переменной:", y.mean())
print("RMSE:", rmse)

Среднее значение целевой переменной: 22.532806324110677
RMSE: 5.516322702835358


Как видно наша модель ошибается в среднем на 20%