In [1]:
import pandas as pd
import openpyxl
from statsmodels.formula.api import ols
import numpy as np
from scipy.stats import f

marketing = pd.read_excel("m.xlsx", index_col=0)
mod = ols(formula='sales ~ youtube + facebook + newspaper', data=marketing)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                  sales   R-squared:                       0.897
Model:                            OLS   Adj. R-squared:                  0.896
Method:                 Least Squares   F-statistic:                     570.3
Date:                Mon, 13 Mar 2023   Prob (F-statistic):           1.58e-96
Time:                        12:20:53   Log-Likelihood:                -422.65
No. Observations:                 200   AIC:                             853.3
Df Residuals:                     196   BIC:                             866.5
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      3.5267      0.374      9.422      0.0

Dep. Variable:                  sales
To informacja wskazująca, która zmienna jest zależna.

Method:                 Least Squares
Informacja o metodzie - domyślnie metoda najmniejszych kwadratów.

No. Observations:                 200
Liczba obserwacji - w tym kontekście liczba wierszy (bez nagłówka).

Df Residuals:                     196
Liczba stopni swobody reszt: liczby obserwacji minus liczbę zmiennych niezależnych w modelu (w tym stałej). Innymi słowy, jest to liczba niezależnych obserwacji, które mogą być użyte do oszacowania reszt modelu.

Df Model:                           3
Liczba stopni swobody modelu, czyli liczba zmiennych objaśniających (niezależnych, bez stałej), które zostały uwzględnione w modelu.

Covariance Type:            nonrobust
Typ kowariancji użyty w estymacji macierzy wariancji-kowariancji parametrów modelu. W analizie regresji, estymacja macierzy kowariancji jest istotna, ponieważ pozwala na obliczenie błędów standardowych parametrów regresji, t-statystyk i przedziałów ufności.
'nonrobust': standardowa estymacja kowariancji, która nie uwzględnia żadnych specjalnych właściwości danych.
'HC0': metoda Hubera-White'a, która jest odporna na heteroskedastyczność i autokorelację reszt.
'HC1', 'HC2', 'HC3': różne wersje metody Hubera-White'a, które różnią się wagami reszt wykorzystanymi w estymacji macierzy kowariancji.
https://www.statsmodels.org/stable/generated/statsmodels.regression.linear_model.OLSResults.get_robustcov_results.html

R-squared:                       0.897
Miara dopasowania modelu liniowego do danych i wskazuje, jaka część zmienności zmiennej objaśnianej jest wyjaśniona przez zmienne objaśniające.
R-kwadrat przyjmuje wartości od 0 do 1 i interpretuje się go jako procent wariancji zmiennej objaśnianej, która jest wyjaśniona przez model. Wartość R-kwadrat równe 0 oznacza, że model nie tłumaczy żadnej zmienności zmiennej objaśnianej, a wartość R-kwadrat równe 1 oznacza, że model tłumaczy całą zmienność zmiennej objaśnianej.

Należy jednak pamiętać, że wysoka wartość R-kwadrat nie zawsze oznacza, że model jest dobry. W szczególności, jeśli model ma wiele zmiennych objaśniających, wysoka wartość R-kwadrat może być wynikiem przeuczenia (overfittingu) modelu. Dlatego, warto zawsze uwzględnić także inne statystyki wyników analizy regresji, takie jak błędy standardowe parametrów, wartości t-statystyk i p-wartości.

$$R^2 = 1 - (SSR / SST)$$
$$R^2 = (SSM / SST)$$

In [4]:
yh = res.predict() # z modelu
y=np.array(marketing.iloc[:,3]) # dane do uczenia
ym=np.mean(y)
ssm=np.sum((yh-ym)**2)
sst=np.sum((y-ym)**2)
r2=ssm/sst
print(r2)
print(res.rsquared)

0.897210638178954
0.8972106381789522


Adj. R-squared:                  0.896
Skorygowane R-kwadrat jest miarą dopasowania modelu liniowego do danych, podobnie jak R-kwadrat, ale uwzględnia liczbę zmiennych objaśniających w modelu.
Skorygowane R-kwadrat jest skorygowaną wersją R-kwadrat i uwzględnia liczbę zmiennych objaśniających w modelu oraz liczbę obserwacji. Im większa liczba zmiennych objaśniających, tym większa szansa na przeuczenie (overfitting) modelu i sztucznie wyższy R-kwadrat. Skorygowane R-kwadrat koryguje tę niedoskonałość poprzez penalizowanie złożoności modelu i jest bardziej odpowiednią miarą dopasowania modelu dla modeli z wieloma zmiennymi objaśniającymi.
Skorygowane R-kwadrat przyjmuje wartości od 0 do 1 i interpretuje się go tak samo jak R-kwadrat - jako procent wariancji zmiennej objaśnianej, która jest wyjaśniona przez model. Wartość Skorygowanego R-kwadrat bliska 1 oznacza, że model dobrze wyjaśnia zmienność zmiennej objaśnianej, uwzględniając złożoność modelu.
Wartość Skorygowanego R-kwadrat może być wyższa lub niższa niż R-kwadrat, w zależności od liczby zmiennych objaśniających w modelu i liczby obserwacji. Dlatego warto zawsze uwzględnić obie statystyki w analizie wyników.

Skorygowany współczynnik determinacji:

$$\overline{R}^2=1 - (1 - R^2) \frac{n - 1}{n - p}$$

In [5]:
ro2=1-((1-r2)*(199/196))
print(ro2)
print(res.rsquared_adj)

0.8956373316204685
0.8956373316204668


F-test dla regresji wielowymiarowej

$$H_0: \qquad   \beta_1 = \beta_2 = \ldots = \beta_{p-1} = 0$$

$$H_1: \qquad  \beta_j \neq 0 \ \mathrm{dla \ co \ najmniej \ jednego} \ j.$$
Wyliczamy statystykę:

$$F=\frac{MSM}{MSE} = \frac{\mathrm{"wyjaśniona \ wariancja"}}{\mathrm{"niewyjaśniona \ wariancja"}} $$

In [6]:
ssm=np.sum((yh-ym)**2)
print(ssm)
ssr=np.sum((y-yh)**2)
print(ssr)
sst=np.sum((y-ym)**2)
print(sst)
print(ssm+ssr)
msm=ssm/3
print(msm)
mse=ssr/196
print(mse)
mst=sst/199
print(mst)
fi=msm/mse
print(fi)
print(res.fvalue)

6998.865821420864
801.8283785791496
7800.6942
7800.6942000000145
2332.9552738069547
4.090961115199742
39.199468341708545
570.2707036590954
570.2707036590942


Statystyka ta podlega rozkładowi F-Snedecora z $p-1$ i $n-p$ stopniami swobody. Ustalamy $\alpha=0,05$.

In [7]:
print(f.ppf(0.95, 3, 196))

2.6506765101121412


Jeśli wartość statystyki jest większa kwantylowi, odrzucamy hipotezę zerową. W przeciwnym wypadku przyjmujemy hipotezę zerową.

W naszym wypadku odrzucamy hipotezę zerową. Innymi słowy, odrzucamy hipotezę że wydatki na reklamy na poszczególne media nie mają wpływu na sprzedaż.

Obliczmy wartość $p$:

In [8]:
rv=f(3,196)
print(rv.sf(fi))
print(res.f_pvalue)

1.5752272560922012e-96
1.5752272560924532e-96


W naszym wypadku jest to "bliskie" zeru, więc możemy przyjąć, że się zgadza.

Jeśli $p\leqslant \alpha$ odrzucamy $H_0$ przyjmując $H_1$. W przeciwnym wypadku nie ma podstaw by odrzucić $H_0$.