In [1]:
import numpy as np
import pandas as pd
import io
import statsmodels.formula.api as smf

In [21]:
# определяем данные
data_string ='''log(output) log(capital) log(labour) y.hat
2.22            0.96        5.21     2.19 
1.30            0.28        4.51     1.47 
3.36            3.10        6.05     3.23 
1.42            2.37        4.28     1.56 
1.06            0.15        3.83     0.85 
6.17            5.62        8.94     6.15 
0.77            0.52        3.87     0.94 
1.42            0.15        4.68     1.61 
0.90           -0.13        3.56     0.57 
1.35            1.25        4.28     1.40 '''

In [22]:
# создаём DataFrame
df = pd.read_csv(io.StringIO(data_string), sep='\s+')
df

Unnamed: 0,log(output),log(capital),log(labour),y.hat
0,2.22,0.96,5.21,2.19
1,1.3,0.28,4.51,1.47
2,3.36,3.1,6.05,3.23
3,1.42,2.37,4.28,1.56
4,1.06,0.15,3.83,0.85
5,6.17,5.62,8.94,6.15
6,0.77,0.52,3.87,0.94
7,1.42,0.15,4.68,1.61
8,0.9,-0.13,3.56,0.57
9,1.35,1.25,4.28,1.4


In [23]:
# Переименуем столбцы, так как log(output) интерпреитуется как функция логарифма от outpu
df =df.rename(columns={"log(output)": "LOGoutput", "log(capital)": "LOGcapital", "log(labour)":'LOGlabour'})
df

Unnamed: 0,LOGoutput,LOGcapital,LOGlabour,y.hat
0,2.22,0.96,5.21,2.19
1,1.3,0.28,4.51,1.47
2,3.36,3.1,6.05,3.23
3,1.42,2.37,4.28,1.56
4,1.06,0.15,3.83,0.85
5,6.17,5.62,8.94,6.15
6,0.77,0.52,3.87,0.94
7,1.42,0.15,4.68,1.61
8,0.9,-0.13,3.56,0.57
9,1.35,1.25,4.28,1.4


In [24]:
# Построем регрессионную модель. Обратите внимание, что так как в таблице даны значения логарифмом, то функция
# np.log() мы не применяем
fitted_line = smf.ols(formula='LOGoutput~LOGcapital+LOGlabour', data=df).fit()

In [25]:
# Предсказанные значения регрессии 
fitted_line.predict().round(2)

array([2.19, 1.47, 3.23, 1.56, 0.85, 6.14, 0.94, 1.61, 0.57, 1.4 ])

In [27]:
# Предсказанные значения регрессии в исходной таблице
np.array(df['y.hat'])

array([2.19, 1.47, 3.23, 1.56, 0.85, 6.15, 0.94, 1.61, 0.57, 1.4 ])

In [26]:
# Параметры регрессии
fitted_line.params

Intercept    -2.568462
LOGcapital    0.138515
LOGlabour     0.887584
dtype: float64

In [8]:
# Вычислим объяснённую сумму квадратов
ESS = ((fitted_line.predict() - np.mean(df['LOGoutput']))**2).sum()
ESS

24.195037061253572

In [9]:
# Сравним полученное нами значение с тем, что выдано моделью
fitted_line.ess

24.19503706125352

In [10]:
# Вычислим общую сумму квадратов
TSS = ((df['LOGoutput'] - np.mean(df['LOGoutput']))**2).sum()
TSS

24.47861

In [11]:
# Сравним с значением, которое получено моделью
fitted_line.centered_tss

24.47861

In [12]:
# Коэффициент детерминации равен
R2 = ESS/TSS
R2

0.9884154803419627

In [13]:
#Сравним с значением модели
fitted_line.rsquared

0.9884154803419606

In [14]:
# Вычисли остаточную сумму квадртов
RSS = TSS - ESS
RSS

0.28357293874642764

In [17]:
# Сравним с значением нашей модели
fitted_line.ssr

0.28357293874647954