In [None]:
from sklearn.datasets import load_boston
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
data = load_boston()

In [None]:
data['data']

In [None]:
data['target']

In [None]:
df = pd.DataFrame(data['data'], columns=data['feature_names'])
df['MEDV'] = data['target']
df.head()

Содержит информацию о жилье в Бостоне, собранную бюро переписи населения США. Она была получена из архива StatLib и широко использовалась в литературе для оценки алгоритмов.

- CRIM - уровень преступности на душу населения
- ZN - доля земли под жилую застройку,
- INDUS - доля акров, не относящихся к розничной торговле.
- CHAS - фиктивная переменная реки Чарльз (1, если участок ограничивает реку; 0 в противном случае)
- NOX - концентрация оксидов азота 
- RM - среднее количество комнат в доме
- AGE - доля занимаемых владельцами единиц, построенных до 1940 г.
- DIS - взвешенное расстояние до пяти бостонских центров занятости
- RAD - индекс доступности радиальных автомобильных дорог
- TAX - полная ставка налога на имущество за 10 000 долларов США.
- PTRATIO - соотношение учеников и учителей по городам
- B - 1000 (Bk - 0,63) ^ 2, где Bk - доля афроамериканцев по городам
- LSTAT - % более населения низкого соц статуса
- MEDV - Средняя стоимость домов в 1000 долларов

## Корреляция

In [None]:
df.plot(kind='scatter', x='CRIM', y='MEDV')

In [None]:
sns.pairplot(df)

In [None]:
df.plot(kind='scatter', x='LSTAT', y='RM')

In [None]:
df.plot(kind='scatter', x='RM', y='MEDV')

In [None]:
df[['RM', 'MEDV']].corr()

In [None]:
df[['RM', 'MEDV']].corr(method='spearman')

In [None]:
df[['RM', 'MEDV']].corr(method='kendall')

In [None]:
df.corr()

In [None]:
sns.heatmap(df.corr())

## Регрессия

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [None]:
X = df[['RM']]
y = df['MEDV']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

In [None]:
X_train.shape

In [None]:
y_train.shape

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)  # метод обучается на данных и подбирает оптимальные коэффициенты

In [None]:
model.coef_

In [None]:
model.intercept_

In [None]:
y_pred = model.predict(X_test)
y_pred

In [None]:
model.score(X_test, y_test) # метод возвращает значение коэффициента детерминации

In [None]:
plt.scatter(X_test, y_test)
plt.plot(X_test, y_pred, c='r')

In [None]:
# Альтернативный способ из statsmodel

In [None]:
import statsmodels.api as sm
from statsmodels.sandbox.regression.predstd import wls_prediction_std

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

In [None]:
X_const = sm.add_constant(X_train) # техническая особенность библиотек, надо руками добавить константу

In [None]:
X_const.shape

In [None]:
X[:5]

In [None]:
model = sm.OLS(y_train, X_const)
results = model.fit()
print(results.summary())

In [None]:
print('Parameters: ', results.params)
print('R2: ', results.rsquared)

In [None]:
prstd, iv_l, iv_u = wls_prediction_std(results) 
# для каждой точки получаем не просто сам прогноз, но и доверительный интервал
# с увеличением количества факторов, этот интервал будет уменьшаться
fig, ax = plt.subplots(figsize=(8,6))

ax.plot(X_const.iloc[:, 1], y_train, 'o', label="data")
ax.plot(X_const.iloc[:, 1], results.fittedvalues, 'r--.', label="OLS")
ax.plot(X_const.iloc[:, 1], iv_u, 'g--')
ax.plot(X_const.iloc[:, 1], iv_l, 'g--')
ax.legend(loc='best');

In [None]:
# посмотрим на остатки
plt.scatter(X_const.iloc[:, 1], results.resid)

In [None]:
plt.hist(results.resid)

Пример [многофакторной модели](https://medium.com/@amitg0161/sklearn-linear-regression-tutorial-with-boston-house-dataset-cde74afd460a)