## На каких данных обучать модель

### Разделение на обучающую и тестовую выборки в Scikit-learn

In [1]:
# возьмем данные роста (X) и обхвата шеи (y)
X = [1.48, 1.49, 1.49, 1.50, 1.51, 1.52, 1.52, 1.53, 1.53, 1.54, 1.55, 1.56, 1.57, 1.57, 1.58, 1.58, 1.59, 1.60, 1.61, 1.62, 1.63, 1.64, 1.65, 1.65, 1.66, 1.67, 1.67, 1.68, 1.68,  1.69, 1.70, 1.70, 1.71, 1.71, 1.71, 1.74, 1.75, 1.76, 1.77, 1.77, 1.78]
y = [29.1, 30.0, 30.1, 30.2, 30.4, 30.6, 30.8, 30.9, 31.0, 30.6, 30.7, 30.9, 31.0, 31.2, 31.3, 32.0, 31.4, 31.9, 32.4, 32.8, 32.8, 33.3, 33.6, 33.0, 33.9, 33.8, 35.0, 34.5, 34.7, 34.6, 34.2, 34.8, 35.5, 36.0, 36.2, 36.3, 36.6, 36.8, 36.8, 37.0, 38.5]

In [2]:
# импортируем библиотеку Numpy
import numpy as np

# преобразуем наш список X сначала в одномерный массив Numpy, а затем добавим второе измерение
X = np.array(X).reshape(-1, 1)

# список y достаточно преобразовать в одномерный массив Numpy
y = np.array(y)

In [3]:
# из модуля model_selection библиотеки sklearn импортируем функцию train_test_split
from sklearn.model_selection import train_test_split

# разбиваем данные на четыре части
# названия переменных могут быть любыми, но обычно используют именно их
# также задаем размер тестовой выборки (30%) и точку отсчета для воспроизводимости
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size = 0.3,
                                                    random_state = 42)

In [4]:
# посмотрим на размер массива признаков (X)
X.shape

(41, 1)

In [5]:
# теперь посмотрим, что сделала функция train_test_split
print(X_train.shape, X_test.shape)

(28, 1) (13, 1)


In [6]:
# то же самое для данных окружности шеи (целевой переменной y)
print(y.shape, y_train.shape, y_test.shape)

(41,) (28,) (13,)


### Построение модели линейной регрессии

In [7]:
# из набора линейных моделей библиотеки sklearn импортируем линейную регрессию
from sklearn.linear_model import LinearRegression

# создадим объект этого класса и запишем в переменную model
model = LinearRegression()

# обучим нашу модель
# т.е. найдем те самые веса или наклон и сдвиг прямой с помощью функции потерь
# только теперь используем только обучающую выборку
model.fit(X_train, y_train)

In [8]:
# выведем наклон и сдвиг с помощью атрибутов coef_ и intercept_ соответственно
print(model.coef_, model.intercept_)

[26.37316095] -9.809957964460885


In [9]:
# на основе значений роста (Х) предскажем значения обхвата шеи
y_pred = model.predict(X_test)

# выведем первые пять значений с помощью диапазона индексов
print(y_pred[:5])

[33.9694892  31.59590472 30.54097828 34.23322081 30.01351506]


In [10]:
# импортируем модуль метрик
from sklearn import metrics

# выведем корень среднеквадратической ошибки
# в этот раз сравним тестовые и прогнозные значения окружности шеи
print('Root Mean Squared Error (RMSE):', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Root Mean Squared Error (RMSE): 0.5604831734149255


### Упражнения

Снова используем кривую спроса из предыдущих упражнений.

In [22]:
prices = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190]
demand = [180, 170, 150, 140, 135, 128, 120, 115, 114, 108, 100, 97, 96, 95, 90, 85, 80, 80, 80]

#### Обучающая и тестовая выборки

**Задание 1**. Преобразуйте данные в массивы Numpy (двумерный для X и одномерный для y).

In [23]:
# преобразуем наш список X сначала в одномерный массив Numpy, а затем добавим второе измерение
X = np.array(prices).reshape(-1, 1)

# список y достаточно преобразовать в одномерный массив Numpy
y = np.array(demand)

**Задание 2**. Разбейте данные на обучающую и тестовую выборки.

In [24]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size = 0.3,
                                                    random_state = 42)

**Задание 3**. Посмотрите на получившуюся размерность.

In [25]:
print(X_train.shape, X_test.shape)

(13, 1) (6, 1)


In [26]:
print(y.shape, y_train.shape, y_test.shape)

(19,) (13,) (6,)


#### Модель линейной регрессии

**Задание 4**. Создайте объект класса LinearRegression().

In [27]:
# создадим объект этого класса и запишем в переменную model
model = LinearRegression()


**Задание 5**. Обучите модель.

Подсказка: используйте метод **.fit()**.

In [28]:
model.fit(X_train, y_train)

**Задание 6**. Выведите коэффициенты (наклон и сдвиг).

In [29]:
print(model.coef_, model.intercept_)

[-0.42719298] 154.22199730094468


**Задание 7**. Сделайте прогноз и выведите первые три прогнозных значения.

Подсказка: используйте метод **.predict()**.

In [30]:
y_pred = model.predict(X_test)

print(y_pred[:3])

[149.95006748 128.59041835 102.95883941]


**Задание 8**. Посчитайте корень среднеквадратической ошибки (RMSE).

In [31]:
# в этот раз сравним тестовые и прогнозные значения окружности шеи
print('Root Mean Squared Error (RMSE):', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Root Mean Squared Error (RMSE): 16.000596399732142
