In [None]:
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
plt.rcParams['figure.figsize'] = [12, 12]

import statsmodels.api as sm
import seaborn as sns

Документация statsmodels https://www.statsmodels.org/stable/index.html

## Цены на недвижимость в Бостоне (набор данных)

Набор данных https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

Плейбук: http://www.science.smith.edu/~jcrouser/SDS293/labs/lab2-py.html

In [None]:
!wget http://www.science.smith.edu/~jcrouser/SDS293/data/Boston.csv

In [None]:
!head Boston.csv

In [None]:
df = pd.read_csv('http://www.science.smith.edu/~jcrouser/SDS293/data/Boston.csv', index_col=0)
df.head()

In [None]:
df.describe()

In [None]:
plt.rcParams['figure.figsize'] = [12, 12]
df.hist()

In [None]:
df[['crim','medv']]

**Sample mean:**

$$E[X] = \bar{X_n}=\frac{1}{n}\Sigma_{i=1}^n X_i$$

**Sample variance:**

$$Var[X] = s^2_{n-1}= E(X-E[X])^2= \frac{1}{n-1}\Sigma (X_i-\bar{X_n})^2$$

In [None]:
N=df['crim'].size
mean_crim = df['crim'].sum()/N
mean_crim

In [None]:
df['crim'].mean()

In [None]:
var_crim = 1/(N-1)*((df['crim'] - mean_crim)**2).sum()
var_crim

In [None]:
df['crim'].var()

**Sample correlation:**

$$\rho = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} = \frac{E[(X-E[X])(Y-E[Y])]}{s_X s_Y} = \frac{\frac{1}{n-1}\Sigma_{n=1}^n((X-\bar{X_n})(Y-\bar{Y_n}))}{s_X s_Y} $$

In [None]:
mean_medv=df['medv'].mean()
var_medv=df['medv'].var()

In [None]:
1/(N-1)*((df['crim'] - mean_crim)*(df['medv'] - mean_medv)).sum()*1/(np.sqrt(var_crim*var_medv))

In [None]:
df[['crim','medv']].corr()

In [None]:
df.corr()

In [None]:
import seaborn as sns
sns.heatmap(df.corr(),
        xticklabels=df.corr().columns,
        yticklabels=df.corr().columns)

## Простая линейная регрессия (Simple Linear Regression)

Функция регрессии (regression function):

$$r(x)=E[Y|X=x]=\int y f_{Y|X}(y|x)dx$$

Простая линейная регрессия предполагает, что $X_i$ одномерный, а функция регрессии имеет линейный вид:

$$r(x)=\beta_0+\beta_1 x$$

Тогда модель простой линейной регрессии будет иметь вид:

$$Y_i=\beta_0 + \beta_1 X_i + \epsilon_i$$

где $Y_i$ - это "зависимая переменная" _(predictor variable, regressor, covariate, manipulated variable, "explanatory variable", exposure variable)_, $X_i$ - "независимая переменная" _(Explanatory variable, independent variable, exogenous)_, $\epsilon_i$ - "переменная ошибки" _(error term, disturbance term, noise)_ неизуветсная случайная величина с математическим ожиданием $E[\epsilon_i|X_i] = 0$ и константной дисперсией $Var(\epsilon_i|X_i)=\sigma^2$. Кроме этого, все $\epsilon_i$ независимо распределены (имеют $Cov(\epsilon_i,\epsilon_j)=0$ для всех $i$,$j$ таких что $i\neq j$).

Допустим, что $\hat{\beta_0}$ и $\hat{\beta_1}$ это оценка неизвестных параметров функции регрессии $\beta_0$ и $\beta_1$, тогда подобранная прямая будет иметь вид:

$$\hat{r}(x)=\hat{\beta_0} + \hat{\beta_1}x$$

Подобранные (прогнозные) значения будут выражены $\hat{Y_i}=\hat{r}(X_i)$, а остаточная ошибка имеет вид:

$$\hat{\epsilon_i}=Y_i-\hat{Y_i}=Y_i-(\hat{\beta_0} + \hat{\beta_1}X_i)$$


Остаточная сумма квадтратов (Residual sum of squares, **RSS**) определяется как:

$$RSS= \Sigma_{i=1}^n \hat{\epsilon_i}^2$$

Метод наименьших квадратов (least squares estimates) это такие знаяения $\hat{\beta_0}$ и $\hat{\beta_1}$ который минимизирует $RSS= \Sigma_{i=1}^n \hat{\epsilon_i}$. Оценка методом наменьших квадратов иммет токчную аналитическую форму:

$$\hat{\beta_1}=\frac{\Sigma_{i=1}^n (X_i-\bar{X_n})(Y_i-\bar{Y_i})}{\Sigma_{i=1}^n(X_i-\bar{X_n})^2}=\frac{Cov(X,Y)}{Var(X)}=\rho_{X,Y} \frac{\sigma_Y}{\sigma_X}$$

$$\hat{\beta_0}=\bar{Y_n}-\hat{\beta_1} \bar{X_n}$$

И несмещённая оценка дисперсии:

$$\hat{\sigma}^2=\frac{1}{n-2} \Sigma_{i=1}^n \hat{\epsilon_i}^2$$





Простая линейная регрессия на примере $$medv_i=\hat{\beta_0}+\hat{\beta_1}crim_i + \epsilon_i$$

In [None]:
plt.rcParams['figure.figsize'] = [12, 8]

In [None]:
df[['crim','medv']].plot.scatter(x='crim',
...                              y='medv',
...                              c='DarkBlue')

In [None]:
lm = sm.OLS.from_formula('medv ~ crim', df)
result = lm.fit()
result.summary()

$$R^2 = 1 - \frac{\Sigma_{i=1}^n (Y_i - \hat{Y}_i)^2}{\Sigma_{i=1}^n (Y_i - \bar{Y}_i)^2}=1 - \frac{RSS}{TSS}$$



$$\hat{\beta_1}=\frac{\Sigma_{i=1}^n (X_i-\bar{X_n})(Y_i-\bar{Y_i})}{\Sigma_{i=1}^n(X_i-\bar{X_n})^2}=\frac{Cov(X,Y)}{Var(X)}=\rho_{X,Y} \frac{\sigma_Y}{\sigma_X}$$

In [None]:
df[['crim','medv']].corr().iloc[0,1]*(df['medv'].std()/df['crim'].std())

In [None]:
sns.regplot(x='crim',y='medv',data=df)

In [None]:
df[['lstat','medv']].plot.scatter(x='lstat',
...                              y='medv',
...                              c='DarkBlue')

In [None]:
lm = sm.OLS.from_formula('medv ~ lstat', df)
result = lm.fit()
result.summary()

In [None]:
sns.regplot(x='lstat',y='medv',data=df)

## Линейная регрессия в общем виде (Multiple linear regression)

Предположем, что одно наблюдение это не одномерное значение, а вектор $X_i \in R^k$.

Выразим все наши наши данные наблюдений в матричной форме:

$$\bf{X}=\left[ \begin{matrix} 1 & X_{11} & X_{12} & ... & X_{1k}\\ 1& X_{21} & X_{22} & ... & X_{2k} \\ ... & ... & ... & ... & ... \\ 1 & X_{n1} & X_{n2} & ... & X_{nk} \end{matrix} \right]$$

Запишем зависимую переменную, коэффициенты регрессии и остаточной ошибки в виде векторов:

$$\bf{Y}=\left[ \begin{matrix} Y_1 \\ Y_2 \\ ... \\ Y_n \end{matrix} \right], \bf{\beta}=\left[ \begin{matrix} \beta_0 \\ \beta_1 \\ ... \\ \beta_k \end{matrix} \right], \bf{\epsilon}=\left[ \begin{matrix} \epsilon_1 \\ \epsilon_2 \\ ... \\ \epsilon_n \end{matrix} \right]$$

Тогда модель линейной регрессии для многомерного случая будет иметь вид:

$$Y = \bf{X \beta + \epsilon}$$

где $E[\bf{\epsilon}]=\bf{0}$, $Var(\epsilon_i|X_i)=\sigma^2$, $Cov(\epsilon_i,\epsilon_j)=0$ для всех $i$,$j$ таких что $i\neq j$

Если матрица $\bf{X^TX}$ размерностью $kxk$ имеет обратную матрицу, то оценка коэффициентов регрессии методом наименьших квадратов имеет вид:

$$\bf{\hat{\beta}=(X^TX)^{-1}X^TY}$$


$$\bf{\hat{\beta}} \approx N(\bf{\beta,\sigma^2(X^TX)^{-1}})$$

$$\hat{\sigma}^2=\frac{1}{n-k} \Sigma_{i=1}^n \hat{\epsilon_i}^2$$



In [None]:
X = df.drop(columns='medv')
X

In [None]:
X = X.to_numpy()
X = np.c_[np.ones(506), X]
X

In [None]:
Y = df['medv'].to_numpy()

In [None]:
Betta = np.linalg.inv(X.T@X)@X.T@Y
Betta

In [None]:
lm = sm.OLS.from_formula('medv ~ crim + zn + indus + chas + nox + rm + age + dis + rad + tax + ptratio + black + lstat', df)
result = lm.fit()
result.summary()

In [None]:
df_new_data = pd.DataFrame(np.array([[0, 0, 0 , 1, 0.4, 10, 0, 2, 20, 400, 15, 0, 0]]),
                                    columns=['crim', 'zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax', 'ptratio', 'black', 'lstat'])
df_new_data

In [None]:
result.predict(df_new_data)

In [None]:
df['medv'].hist(bins=40)