In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

Регрессия
==========
В регрессии мы пытаемся предсказать непрерывную выходную переменную. Это проще всего визуализировать в одном измерении.
Начнем с очень простого игрушечного примера. Создадим набор данных из синусоидальной кривой с некоторым шумом:

In [None]:
x = np.linspace(-3, 3, 100)
print(x)

In [None]:
rng = np.random.RandomState(42)
y = np.sin(4 * x) + x + rng.uniform(size=len(x))

In [None]:
plt.plot(x, y, 'o')
plt.show()

Линейная регрессия
=================
Одной из самых простых моделей снова является линейная регрессия, которая просто пытается предсказать данные, как лежащие на линии. Один из способов найти такую линию — LinearRegression (также известный как обычный метод наименьших квадратов).
Интерфейс для LinearRegression точно такой же, как и для классификаторов ранее, только ``y`` теперь содержит значения с плавающей точкой вместо классов.

Чтобы применить модель scikit-learn, нам нужно сделать X двумерным массивом:

In [None]:
print(x.shape)
X = x[:, np.newaxis]
print(X.shape)

Мы снова разделяем наши данные на обучающий и тестовый наборы:

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Затем мы можем построить нашу регрессионную модель:

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

И предсказать. Сначала давайте попробуем обучающий набор:

In [None]:
y_pred_train = regressor.predict(X_train)

In [None]:
plt.plot(X_train, y_train, 'o', label="data")
plt.plot(X_train, y_pred_train, 'o', label="prediction")
plt.legend(loc='best')
plt.show()

Линия, в целом, отражает общий наклон данных, но не учитывает многие детали.

Давайте попробуем тестовый набор:

In [None]:
y_pred_test = regressor.predict(X_test)

In [None]:
plt.plot(X_test, y_test, 'o', label="data")
plt.plot(X_test, y_pred_test, 'o', label="prediction")
plt.legend(loc='best')
plt.show()

Опять же, scikit-learn предоставляет простой способ количественной оценки прогноза с помощью метода ``score``.

Для задач регрессии это оценка R2. Другим популярным способом будет среднеквадратическая ошибка.

In [None]:
regressor.score(X_test, y_test)

KNeighborsRegression
========================
Как и для классификации, мы также можем использовать для регрессии метод на основе К-ближайших соседей. Просто берём выход ближайшей точки или усредняем несколько ближайших точек. Этот метод менее популярен для регрессии, чем для классификации, но все равно является хорошей базой.

In [None]:
from sklearn.neighbors import KNeighborsRegressor
kneighbor_regression = KNeighborsRegressor(n_neighbors=1)
kneighbor_regression.fit(X_train, y_train)

И еще раз посмотрим на поведение на обучающем и тестовом наборах:

In [None]:
y_pred_train = kneighbor_regression.predict(X_train)

plt.plot(X_train, y_train, 'o', label="data")
plt.plot(X_train, y_pred_train, 'o', label="prediction")
plt.legend(loc='best')
plt.show()

На обучающем наборе метод справляется идеально: каждая точка является своим собственным ближайшим соседом!

(Для проверки этого поменяйте местами строки 3 и 4 в коде ячейки выше)

In [None]:
y_pred_test = kneighbor_regression.predict(X_test)

plt.plot(X_test, y_test, 'o', label="data")
plt.plot(X_test, y_pred_test, 'o', label="prediction")
plt.legend(loc='best')
plt.show()


На тестовом наборе мы также лучше справляемся с приближением к отклонениям в данных, но наши оценки выглядят гораздо более беспорядочными, чем раньше. Давайте посмотрим на оценку R2:

In [None]:
kneighbor_regression.score(X_test, y_test)

Намного лучше, чем раньше! Здесь линейная модель не очень хорошо подошла для нашей проблемы.