In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# Корреляция 

![](https://idatassist.com/wp-content/uploads/2017/04/dreamstime_m_37904189-610x461.jpg)

Напомним определение коэффициента корреляции между векторами $x = (x_1, \ldots, x_n)$ и $y = (y_1, \ldots, y_n)$:

$$
  \rho = \frac{\sum_{i=1}^n (x_i - \overline x)(y_i - \overline y)}{\sqrt{\sum_{i=1}^n (x_i - \overline x)^2} \sqrt{\sum_{i=1}^n (y_i - \overline y)^2}}
$$

Более подробное описание есть в лекционных [слайдах](https://drive.google.com/file/d/1pM1NKSXlIj47EM2w5LK_9lX-f6kIK2q_/view).


In [None]:
X = np.random.rand(50)
Y = X + np.random.normal(0, 0.1, 50)

print("Коэффициент корреляции: ", np.corrcoef(X, Y)[0, 1])

Можно наблюдать положительную корреляцию между векторами:

In [None]:
plt.scatter(X,Y)
plt.grid()
plt.xlabel('X Value')
plt.ylabel('Y Value')
plt.title('Correlation of X and Y: %.2f'%np.corrcoef(X, Y)[0, 1])
plt.show()

Можно наблюдать отрицательную корреляцию между векторами:

In [None]:
X = np.random.rand(50)
Y = -X + np.random.normal(0, .1, 50)

plt.scatter(X,Y)
plt.xlabel('X Value')
plt.ylabel('Y Value')
plt.grid()
plt.title('Correlation of X and Y: %.2f'%np.corrcoef(X, Y)[0, 1])
plt.show()

Если корреляция близка к нулю, то между векторами либо нет зависимости, либо она очень слабая:

In [None]:
X = np.random.rand(50)
Y = np.random.normal(0, 0.1, 50)

plt.scatter(X,Y)
plt.grid()
plt.xlabel('X Value')
plt.ylabel('Y Value')
plt.title('Correlation of X and Y: %.2f'%np.corrcoef(X, Y)[0, 1])
plt.show()

___
## Задание 

Рассмотрим Boston Housing Dataset, в котором содержатся цены на жилье в разных районах Бостона. Кроме того, в датасете представлены признаки, от которых может зависеть цена:

In [None]:
from sklearn.datasets import load_boston
boston = load_boston()
print(boston.DESCR)

In [None]:
boston = load_boston()
data = pd.DataFrame(boston.data, columns = boston.feature_names)
data['PRICE'] = boston.target
data.head()

В задании необходимо найти коэффициент корреляции между двумя различными парами признаков и изобразить эти признаки на графике (как мы делали выше).

In [None]:
x = # YOUR CODE
y = # YOUR CODE

# YOUR CODE

# Линейная регрессия 

Подробное описание можно найти в лекционных [слайдах](https://drive.google.com/file/d/1Eyedj7ELliNHYVYzZSYvAj8j8YTlrhHE/view).


**TL;DR**

Попытаемся предсказать (объяснить) величину $y$ через набор характеристик $x_1, \ldots, x_n$.
Предположение модели заключается в том, что величина $y$ выражается следующим образом:
$$y = \beta + \alpha_1x_1 + \alpha_2x_2+...+\alpha_nx_n + \varepsilon,$$
где $\varepsilon$ -- нормально распределённый шум.

Будем пытаться оценить реальные коэффициенты:
$$\hat{y} = b + a_1x_1 + a_2x_2+...+a_nx_n$$

Подбор параметров $b \approx \beta, a_1 \approx \alpha_1, \ldots, a_n \approx \alpha_n$ происходит за счёт минимизации суммарной ошибки по всем известным объектам:
$$MSE = \sum (y_i - \hat{y}_i)^2$$

___


Начнем с самого простого вида линейной регрессии, когда есть только зависимость от одного признака
$$y=\beta + \alpha x+ \varepsilon,$$
где $\alpha$ -- это коэффициент наклона прямой, $\beta$ -- коэффициент смещения, $\varepsilon$ -- нормально распределённый шум.

Рассмотрим данные с коэффициентами $\alpha=2$ и $\beta=-5$:

In [None]:
number_of_samples = 50
np.random.seed(41)
x = 10 * np.random.rand(number_of_samples)
y = 2 * x - 5 + np.random.randn(number_of_samples)
plt.grid()
plt.plot(x, y, 'o')

Можем использовать модель `LinearRegression` из библиотеки `sklearn`, чтобы найти наилучший вариант прямой, описывающей наши данные:

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)

# np.newaxis нужен, чтобы добавить размерность
model.fit(x[:, np.newaxis], y)

x_predict = np.linspace(0, 10, 1000)
y_predict = model.predict(x_predict[:, np.newaxis])

plt.plot(x, y, 'o')
plt.grid()
plt.plot(x_predict, y_predict)

In [None]:
print("Коэффициент уклона:    ", model.coef_[0])
print("Коэффициент смещения: ", model.intercept_)

Видим, что полученные коэффициенты близки к тем, что мы задали изначально $\alpha=2$ и $\beta=-5$

___
___

![](https://theneural.files.wordpress.com/2011/07/valid2.jpeg)

В анализе данных есть два эпата: обучение модели и валидация. На этапе обучения модель видит и объекты, и целевую переменную. На этих данных настраиваются веса. На этапе валидации в модель подаются объекты, которых не было на эпате обучения, без целевой переменной, и модель уже самостоятельно получает решение.

Метрика `mean_squared_error` или `MSE` оценивает величину ошибки. Она вычисляется отдельно для предсказаний на обучении и на валидации.

In [None]:
from sklearn.metrics import mean_squared_error
np.random.seed(67)

number_of_samples = 1000
X1 = np.random.normal(loc=0.0, scale=1, size=number_of_samples)
noise = np.random.normal(loc=0.0, scale=0.1, size=number_of_samples)
Y = 1 + X1 + noise

variables_list = [X1]
for i in range(100):
    variables_list.append(np.random.normal(loc=0.0, scale=0.1, size=number_of_samples))

X = np.column_stack(variables_list)
ntr = int(0.5 * X.shape[0])

model = LinearRegression()
model.fit(X[:ntr,:], Y[:ntr])

Y_predicted = model.predict(X)
train_error = mean_squared_error(Y_predicted[:ntr], Y[:ntr])
val_error = mean_squared_error(Y_predicted[ntr:], Y[ntr:])
print('Ошибка на обучении:  \t',train_error)
print('Ошибка на валидации:\t',mean_squared_error(Y_predicted[ntr:], Y[ntr:]))
print('Разница:\t\t', val_error - train_error)

___
___


![](https://i.stack.imgur.com/t0zit.png)

Модель может недообучаться, обучаться хорошо и переобучаться.

Визуализируем эффект переобучения. Сгенерируем данные:

In [None]:
number_of_samples = 1000
X1 = normal(loc=0.0, scale=1, size=number_of_samples)
noise = normal(loc=0.0, scale=1.2, size=number_of_samples)
Y = 1 + X1 + noise
plt.grid()
plt.plot(X1, Y, 'o')

Попробуем приближать данные разными степенями полинома:
$$
  y(x) = a_0 + a_1x + \ldots + a_nx^n
$$

Поэкспериментируйте с разными значениями степени и проанализируйте результаты:

In [None]:
number_of_samples = 1000
X1 = normal(loc=0.0, scale=1, size=number_of_samples)
noise = normal(loc=0.0, scale=1.2, size=number_of_samples)
Y = 1 + X1 + noise


max_power = # YOUR CODE HERE

variables_list = []
for i in range(max_power):
    variables_list.append(X1 ** i)

X = np.column_stack(variables_list)
ntr = int(0.5 * X.shape[0])

# определение линейной модели
model = # YOUR CODE HERE

# обучение заданной модели на обучающей (первые ntr строк) выборке
# YOUR CODE HERE

# предсказание ответов для всей выборки
Y_predicted = # YOUR CODE HERE

train_error = mean_squared_error(Y_predicted[:ntr], Y[:ntr])
val_error = mean_squared_error(Y_predicted[ntr:], Y[ntr:])
print('Ошибка на обучении:  \t',train_error)
print('Ошибка на валидации:\t',mean_squared_error(Y_predicted[ntr:], Y[ntr:]))
print('Разница:\t\t', val_error - train_error)


f, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 8))

ax1.plot(X1, Y, 'o')
ax1.set_ylim(Y.min(), Y.max())

ax2.plot(X1[:ntr], Y[:ntr], 'o')
ax2.plot(X1[ntr:], Y_predicted[ntr:], 'o')
# comment the line below to see all dots
ax2.set_ylim(Y.min(), Y.max())

___
___
## Задание

В данном задании будем строить модель линейной регрессии, используя Boston Housing Dataset.

In [None]:
data.head()

Предсказываем на основе всех признаков цену на жилье (PRICE).

In [None]:
X = #YOUR CODE
Y = #YOUR CODE
ntr = #YOUR CODE

# определение линейной модели
model = # YOUR CODE HERE

# обучение заданной модели на обучающей (первые ntr строк) выборке
# YOUR CODE HERE

# предсказание ответов для всей выборки
Y_predicted = # YOUR CODE HERE

train_error = # YOUR CODE HERE
val_error = # YOUR CODE HERE
print('Ошибка на обучении:  \t',train_error)
print('Ошибка на валидации:\t',mean_squared_error(Y_predicted[ntr:], Y[ntr:]))
print('Разница:\t\t', val_error - train_error)