In [None]:
import numpy as np
import pandas as pd
import io
import statsmodels.formula.api as smf

In [None]:
# определяем данные
data_string ='''log(output) log(capital) log(labour) y.hat
2.22            0.96        5.21     2.19 
1.30            0.28        4.51     1.47 
3.36            3.10        6.05     3.23 
1.42            2.37        4.28     1.56 
1.06            0.15        3.83     0.85 
6.17            5.62        8.94     6.15 
0.77            0.52        3.87     0.94 
1.42            0.15        4.68     1.61 
0.90           -0.13        3.56     0.57 
1.35            1.25        4.28     1.40 '''

In [None]:
# создаём DataFrame
df = pd.read_csv(io.StringIO(data_string), sep='\s+')
df

In [None]:
# Переименуем столбцы, так как log(output) интерпреитуется как функция логарифма от outpu
df =df.rename(columns={"log(output)": "LOGoutput", "log(capital)": "LOGcapital", "log(labour)":'LOGlabour'})
df

In [None]:
# Построем регрессионную модель. Обратите внимание, что так как в таблице даны значения логарифмом, то функция
# np.log() мы не применяем
fitted_line = smf.ols(formula='LOGoutput~LOGcapital+LOGlabour', data=df).fit()

In [None]:
# Предсказанные значения регрессии 
fitted_line.predict().round(2)

In [None]:
# Параметры регрессии
fitted_line.params

In [None]:
# Вычислим объяснённую сумму квадратов
ESS = ((fitted_line.predict() - np.mean(df['LOGoutput']))**2).sum()
ESS

In [None]:
# Сравним полученное нами значение с тем, что выдано моделью
fitted_line.ess

In [None]:
# Вычислим общую сумму квадратов
TSS = ((df['LOGoutput'] - np.mean(df['LOGoutput']))**2).sum()
TSS

In [None]:
# Сравним с значением, которое получено моделью
fitted_line.centered_tss

In [None]:
# Коэффициент детерминации равен
R2 = ESS/TSS
R2

In [None]:
#Сравним с значением модели
fitted_line.rsquared

Сформированная нами модель не обладает атрибутом, который бы расчитывал остаточную сумму квадратов. Вместо этого она содержит атрибут, который вычисляет функцию потерь MSE, связанную с RSS формулой
$$
MSE = \frac{RSS}{n-k}
$$
где $n$ –– количество измерений(в нашем примере их 10) , $k$ –– количество регрессоров(в нашем примере их 3).

In [None]:
# Вычисли остаточную сумму квадртов
RSS = TSS - ESS
RSS

In [None]:
fitted_line.mse_resid*(10 - 3)