1. Introduction

statsmodels supports specifying models using R-style formulas and pandas DataFrames. Here is a simple example using ordinary least squares:

In [1]:
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [19]:
# Load data set American National Election Studies of 1996
# full list of datasets - https://github.com/statsmodels/statsmodels/tree/main/statsmodels/datasets
all_data= sm.datasets.__all__
print(all_data)
datA = sm.datasets.anes96.load_pandas().data
print(datA.head())

['anes96', 'cancer', 'committee', 'ccard', 'copper', 'cpunish', 'elnino', 'engel', 'grunfeld', 'interest_inflation', 'longley', 'macrodata', 'modechoice', 'nile', 'randhie', 'scotland', 'spector', 'stackloss', 'star98', 'strikes', 'sunspots', 'fair', 'heart', 'statecrime', 'co2', 'fertility', 'china_smoking', 'get_rdataset', 'get_data_home', 'clear_data_home', 'webuse', 'check_internet', 'test', 'danish_data']
   popul  TVnews  selfLR  ClinLR  DoleLR  PID   age  educ  income  vote  \
0    0.0     7.0     7.0     1.0     6.0  6.0  36.0   3.0     1.0   1.0   
1  190.0     1.0     3.0     3.0     5.0  1.0  20.0   4.0     1.0   0.0   
2   31.0     7.0     2.0     2.0     6.0  1.0  24.0   6.0     1.0   0.0   
3   83.0     4.0     3.0     4.0     5.0  1.0  28.0   6.0     1.0   0.0   
4  640.0     7.0     5.0     6.0     4.0  0.0  68.0   6.0     1.0   0.0   

   logpopul  
0 -2.302585  
1  5.247550  
2  3.437208  
3  4.420045  
4  6.461624  


In [2]:
# Load data
dat = sm.datasets.get_rdataset("Guerry", "HistData").data

In [3]:
# Fit regression model (using the natural log of one of the regressors)
results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                Lottery   R-squared:                       0.348
Model:                            OLS   Adj. R-squared:                  0.333
Method:                 Least Squares   F-statistic:                     22.20
Date:                Sun, 13 Feb 2022   Prob (F-statistic):           1.90e-08
Time:                        17:05:58   Log-Likelihood:                -379.82
No. Observations:                  86   AIC:                             765.6
Df Residuals:                      83   BIC:                             773.0
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
Intercept         246.4341     35.233     

R-squared - Коэффициент детерминации (R^2— R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными.
Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:
![%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5.png](attachment:%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5.png)

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации): 

![%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-2.png](attachment:%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-2.png)

где ![%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-3.png](attachment:%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-3.png) 
 — сумма квадратов остатков регрессии, ![%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-4.png](attachment:%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-4.png) — фактические и расчётные значения объясняемой переменной.
 
 ![%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-5.png](attachment:%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-5.png) — общая сумма квадратов. 
 
 ![%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-6.png](attachment:%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-6.png)

In [None]:
Adj. R-squared

F-statistic

Prob (F-statistic)

Log-Likelihood

AIC

BIC

Intercept

Literacy

np.log(Pop1831)

Omnibus
Prob(Omnibus)
Skew
Kurtosis
Durbin-Watson
Jarque-Bera (JB)
Prob(JB)
Cond. No.