### Example Multiple Linear Regression 3.1

The $ F $-statistic for the multiple linear regression model in the **Advertising** example is obtained by regressing **sales** 
onto **radio**, **TV**, and **newspaper** and is in this example 570. 
In the **Python**-output we find the value of the $ F $-statistic under **F-statistic**. 

In [6]:
import pandas as pd
import statsmodels.api as sm
import numpy as np

# Load data
df = pd.read_csv('./data/Advertising.csv')
x = df[['TV', 'radio', 'newspaper']]
y = df['sales']

# Fit Model:
x_sm = sm.add_constant(x)
model = sm.OLS(y, x_sm).fit()

# Print summary including F-Statistic
print(model.summary())

# F-statistic: 570.3 
# P-Wert Prob (F-statistic): 1.58e-96 --> W'keit dass die F-Statistik diesen Wert hat oder grössen, sehr klein --> Signifikant
# --> Mindestens eine der Variablen (Medien) ist signifikant (Zusammenhang mit Sales)


                            OLS Regression Results                            
Dep. Variable:                  sales   R-squared:                       0.897
Model:                            OLS   Adj. R-squared:                  0.896
Method:                 Least Squares   F-statistic:                     570.3
Date:                Fri, 07 Mar 2025   Prob (F-statistic):           1.58e-96
Time:                        10:19:02   Log-Likelihood:                -386.18
No. Observations:                 200   AIC:                             780.4
Df Residuals:                     196   BIC:                             793.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          2.9389      0.312      9.422      0.0

Since this is far larger than 1, it provides compelling evidence against the null hypothesis $ H_{0} $. In other words, the large $ F $-statistic suggests that at least one of the advertising media must be related to **sales**. 

In [None]:
# Mean Squared Error (MSE)  
# resid = residuals 
# mittlere quadtratische Abweichung der Residuen
# --> Schätzwert für sigma quadrat
# --> Sigma = np.sqrt(model.mse_resid)
model.mse_resid


2.8409452188887108

In [None]:
np.sqrt(model.mse_resid)

1.6855103734147443

In [None]:
# Einzelne Residuen
model.resid.head() 

0    1.576026
1   -1.937855
2   -3.007671
3    0.902170
4   -0.288672
dtype: float64

In [13]:
# manuell: 
RSS = sum(model.resid**2) # residual sum of squares (RSS)
MSE = RSS / (200-3-1) # Summe der Residuen / anzahl freiheitsgrade (n-3-1) --> 3 Prädiktoren, 200 Beobachtungen
MSE

2.8409452188887108

In [15]:
# grösseres Modell --> RSE wird immer kleiner = besser. 
# Ist aber nicht unbedingt das beste modell 
# Wir wollen aber wenn möglich auch immmer das einfachste Modell 
# Wir wollen ein gutes modell, dass möglich nah an den Datenpunkten ist 
# Ein einfacheres Modell führt zu einem schlechteren fitt, ein grösseres ist aber komplizierter 
# Adjusted R^2: berücksichtigt auch die "Komplexität" des Modells