In [322]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [323]:
data = pd.read_csv('cities.txt', sep='\t', comment='#', decimal=',')

data.head()

Unnamed: 0.1,Unnamed: 0,CITY,STATE,OLD,BLACK%,ASIAN%,HISP%,DEATH,POP_CH,POPDEN,...,SCHOOL,DEGREE,ASSIST,GROSS,CONDOM,LAB_F,MANLAB,TRANSP,TEMPER,PRECEP
0,1,NEW_YORK,NY,13.0,28.7,7.0,24.4,13.2,3.4,23671,...,79.1,23.0,13.1,496,7.2,53.7,11.4,53.4,76.8,47.3
1,2,LOS_ANGE,CA,10.0,14.0,9.8,39.9,10.1,17.6,7436,...,86.8,23.0,10.7,600,7.5,58.0,18.4,10.5,74.3,14.8
2,3,CHICAGO,IL,11.9,39.1,3.7,19.6,15.2,-7.9,12185,...,79.5,19.5,14.4,445,7.0,56.2,18.7,29.7,75.1,37.4
3,4,HOUSTON,TX,8.3,28.1,4.1,27.6,11.3,6.0,3131,...,92.3,25.1,7.1,390,8.7,60.4,11.7,6.5,83.5,50.8
4,5,PHILADEL,PA,15.2,39.9,2.7,5.6,17.5,-8.0,11492,...,70.8,15.2,14.0,452,2.4,51.5,13.6,28.7,76.7,41.4


# Задача
Зависимой переменной в задаче регрессии будет **CRIME** -- уровень преступности.
Независимыми переменными будут:

**INCOME** -- средний доход семье <br>
**POPDEN** -- население (на квадратную милю) <br>
**DEGREE** -- процент взрослого населения со степенью бакалавра <br>
**TRANSP** -- процент людей, использующих общественный транспорт <br>
**UNEMP** -- процент безработных.

In [324]:
data = data[['INCOME', 'POPDEN', 'DEGREE', 'TRANSP', 'UNEMP', 'CRIME']]
data.corr()

Unnamed: 0,INCOME,POPDEN,DEGREE,TRANSP,UNEMP,CRIME
INCOME,1.0,0.00138,0.024942,0.096271,0.063159,0.260044
POPDEN,0.00138,1.0,-0.125364,0.877349,0.389142,0.00748
DEGREE,0.024942,-0.125364,1.0,0.051818,-0.574455,-0.114871
TRANSP,0.096271,0.877349,0.051818,1.0,0.270928,0.088788
UNEMP,0.063159,0.389142,-0.574455,0.270928,1.0,0.368505
CRIME,0.260044,0.00748,-0.114871,0.088788,0.368505,1.0


In [325]:
data.insert(0, 'intercept', 1)
data.head()

Unnamed: 0,intercept,INCOME,POPDEN,DEGREE,TRANSP,UNEMP,CRIME
0,1,29823,23671,23.0,53.4,8.6,9236
1,1,30925,7436,23.0,10.5,9.0,9730
2,1,26301,12185,19.5,29.7,8.4,10000
3,1,26261,3131,25.1,6.5,6.1,10824
4,1,24603,11492,15.2,28.7,8.0,6835


Разделим зависимые и независимые переменные.

In [326]:
X = data[data.columns[:-1]]
y = data['CRIME']

Найдем коэффициенты регрессии:

$\beta = (X^T X)^{-}X^TY$

In [327]:
beta = np.linalg.pinv(X.T.dot(X)).dot(X.T).dot(y)
for i, j in zip(data.columns, beta):
    print(i, round(j, 3))

intercept 4580.712
INCOME 0.056
POPDEN -0.35
DEGREE 36.213
TRANSP 99.555
UNEMP 650.04


Убедимся, что коэффициенты совпадают, для этого воспользуемся библиотекой statsmodels. 

In [328]:
import statsmodels.api as sm

model = sm.OLS(y, X).fit()
model.summary()

0,1,2,3
Dep. Variable:,CRIME,R-squared:,0.254
Model:,OLS,Adj. R-squared:,0.201
Method:,Least Squares,F-statistic:,4.824
Date:,"Thu, 09 Apr 2020",Prob (F-statistic):,0.000746
Time:,00:06:42,Log-Likelihood:,-708.18
No. Observations:,77,AIC:,1428.0
Df Residuals:,71,BIC:,1442.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
intercept,4580.7123,2210.154,2.073,0.042,173.791,8987.634
INCOME,0.0557,0.031,1.818,0.073,-0.005,0.117
POPDEN,-0.3499,0.164,-2.133,0.036,-0.677,-0.023
DEGREE,36.2126,56.077,0.646,0.521,-75.602,148.027
TRANSP,99.5549,62.243,1.599,0.114,-24.554,223.664
UNEMP,650.0395,177.636,3.659,0.000,295.844,1004.235

0,1,2,3
Omnibus:,15.803,Durbin-Watson:,1.927
Prob(Omnibus):,0.0,Jarque-Bera (JB):,18.484
Skew:,1.005,Prob(JB):,9.69e-05
Kurtosis:,4.313,Cond. No.,188000.0


Проверим регрессию на значимость с помощью **F** статистики.

$F = MS_r / MS_e \sim F(p, n - p - 1)$,  где: <br>
$MS_r = \frac{1}{p} \sum_{i = 1}^n ( \hat y_i - \bar y)^2$ <br>
$MS_e = \frac{1}{n - p - 1} \sum_{i = 1}^n ( y_i - \hat y_i)^2$

$H_0: \beta_0 = \ldots = \beta_p = 0 $

In [329]:
p = 5
n = X.shape[0]

y_pred = model.predict(X)
MS_r = sum((y_pred - y.mean())**2) / p
MS_e = sum((y - y_pred)**2) / (n - p - 1)
F_stat = MS_r / MS_e

F_stat

4.824056578560172

Видно, что посчитанное значение статистики совпадает со значение посчитанным функцией.

In [330]:
from scipy.stats import f, t

p_value = f.sf(F_stat, p, n - p - 1)
p_value

0.0007459840651666042

*p-value < 0.05*, отклоняем нулевую гипотезу.

Проверим значимость частных коэффициентов регрессии.<br>
$H_0: \beta_i = 0$ <br>

Для проверки гипотезы воспользуемся статистикой:<br>
$$\frac{\hat \rho_{0i\cdot2...p}}{\sqrt{1 - \hat \rho_{0i\cdot2...p}^2}} \sqrt{n - p - 1} \sim T(n - p - 1),$$
где $\rho_{01\cdot2...p} = \frac{- \Lambda_{01}}{\sqrt{\Lambda_{00}\Lambda_{11}}}$


In [331]:
import math

#функции для получения минора матрицы и вычисления частных коэффициентов корреляции
def get_minor(lmbd, i, j):
    return lmbd[np.array(list(range(i)) + list(range(i + 1, lmbd.shape[0])))[:, np.newaxis],
               np.array(list(range(j)) + list(range(j + 1, lmbd.shape[1])))]

def rho(lmbd):
    rho = list()
    lmbd_00 = np.linalg.det(get_minor(lmbd, 0, 0))
    for i in range(1, p + 1):
        rho.append(-(-1)**(0 + i) * np.linalg.det(get_minor(lmbd, 0, i)) / math.sqrt(lmbd_00 * np.linalg.det(get_minor(lmbd, i, i))))
    return np.array(rho)

Построим матрицу $\Lambda$.

In [332]:
from sklearn.preprocessing import scale

ksi = data.iloc[:, 1:]
ksi = ksi[['CRIME', 'INCOME', 'POPDEN', 'DEGREE', 'TRANSP', 'UNEMP']].to_numpy()
ksi = scale(ksi, with_std=False)

lmbd = np.zeros((p + 1, p + 1))

for i in range(p + 1):
    for j in range(p + 1):
        lmbd[i, j] = sum(ksi[:, i] * ksi[:, j]) / ksi.shape[0]

In [333]:
rhos = rho(lmbd)
tt = np.array([r * math.sqrt(n - p - 1) / math.sqrt(1 - r**2) for r in rhos])
p_values = np.array([t.sf(i, n - p - 1)*2 for i in tt])

Значение частных коэффициентов корреляции:

In [334]:
print(*[round(r, 5) for r in rhos])

0.21094 -0.2454 0.07641 0.18649 0.39835


Значение искомой статистики и соответсвующие *p-value*, также выведем значения полученные функцией из statsmodels:

In [335]:
for name, i, j in zip(['INCOME', 'POPDEN', 'DEGREE', 'TRANSP', 'UNEMP'], tt, p_values):
    print(name, round(i, 5), round(j, 5))

print('\n')
print(model.tvalues)

INCOME 1.81834 0.07323
POPDEN -2.133 1.96362
DEGREE 0.64576 0.52051
TRANSP 1.59946 0.11416
UNEMP 3.6594 0.00048


intercept    2.072576
INCOME       1.818344
POPDEN      -2.132997
DEGREE       0.645764
TRANSP       1.599460
UNEMP        3.659399
dtype: float64


Значения совпали, так же на основании полученных результатов можно сделать следующие выводы о значимости частных коэффициентов: <br>
У нас нет оснований отклонять гипотезу о равенстве 0 всех коэффициентов, кроме коэффициента для признака **UNEMP**, для него мы отклоняем гипотезу о равенстве 0.

Теперь посчитаем коэффициент множественной корреляции.<br>
Будем считать его, как корень из коэффициента детерминации, который находится как:
$$R^2 = \frac{SS_r}{SS_t}$$

In [336]:
SSr = sum((y_pred - y.mean())**2)
SSt = sum((y - y.mean())**2)
R2 = SSr / SSt
print('Полученное значение {}, значение полученное функцией {}'.format(str(R2**0.5), str(model.rsquared**0.5)))

Полученное значение 0.503563950462645, значение полученное функцией 0.5035639504626458
