**Applied Statistics**<br/>
Prod. Dr. Jan Kirenz <br/>
Hochschule der Medien Stuttgart

Name: Masendorf      <br/>
Vorname: Robert   <br/>

In [1]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf

# Assignment 1: Generalized linear regression (GLS) with simulated data

## Task a:

(a) Create some feature vectors: 

   - **X1** , containing 100 observations drawn from a N (0, 1) distribution. 
   - **X2** , containing 100 observations drawn from a N (0, 0.5) distribution. 
   - **X3** , containing 100 observations drawn from a N (0.5, 2) distribution. 

In [2]:
# Wenn ein Integer Value eingetragen ist, kommen bei erneutem Ausführen die selben Ergebnisse
np.random.seed(1)

In [3]:
# mean = 0 and sd = 1
X1 = np.random.normal(0, 1, 100)
# mean = 0 and sd = 0.5
X2 = np.random.normal(0, 0.5, 100)
# mean = 0.5 and sd = 2
X3 = np.random.normal(0.5, 2, 100)

## Task b:

(b) Population model 1: Using the X1 and X2 features, generate a vector **Y** according to the model (in this model, we assume a perfect relationship between Y and the features - i.e. no error): 

**Population model 1**:

$$Y = 2 + 1 \times X1 + 0.5 \times X2$$ 

This is our defined "true" relationship between Y and the feauters X1 and X2, also called a population model.

b_1) What are the values of the $β$ parameters in this linear population model? 

b_2) What is the expected value of Y if X1 and X2 are both zero? 

b_3) What is the expected value of Y if X1 is 1 and X2 is 2? 

b_4) Fit a generalized least squares (gls) linear model that predicts Y using X1, X2. Comment on the model obtained (Adjusted R-Squared, F-Statistic, beta-parameters, standard errors, p-values, confidence intervalls, mean squared error, BIC, AIC). 

b_5) Use your regression model to predict Y if X1 is 1 and X2 is 2. What is the associted standard error and 95% confidence interval?

b_6) Explain wether you find our population model realistic (i.e. is it plausible to have a situation where you always have a perfect relationship without any deviations between a dependent and some independent variables)?   

In [4]:
# Population model
Y = 2 + 1 * X1 + 0.5 * X2

**b_1)**  
$\beta_0$ = 2    -> Dies ist der Y-Achsenabschnitt, wenn X<sub>i</sub> = 0  
$\beta_1$ = 1    -> Dies ist die Steigung (Ø) von Y, wenn X1 um 1 erhöht wird und X2 konstant bleibt.  
$\beta_2$ = 0.5  -> Dies ist die Steigung (Ø) von Y, wenn X2 um 1 erhöht wird und X1 konstant bleibt. 

**b_2)**  
Wenn X<sub>1</sub> und X<sub>2</sub> beide den Wert 0 haben, ist $Y = 2+1*0+0.5*0 = 2$  
Damit wäre es der Wert von $\beta_0$ und somit der Schnittpunkt mit der Ordinatenachse.

**b_3)**  
Wenn X<sub>1</sub> = 1 und X<sub>2</sub> =2 ist, beträgt $Y = 2+1*1+0.5*2 = 4$

**b_4)**

In [5]:
# Create DataFrame
df = pd.DataFrame({'X1':X1, 'X2':X2, 'Y':Y})
# Fit Model
gls_lm = smf.gls(formula='Y ~ (X1 + X2)', data=df).fit()
# Print Summary
gls_lm.summary()

0,1,2,3
Dep. Variable:,Y,R-squared:,1.0
Model:,GLS,Adj. R-squared:,1.0
Method:,Least Squares,F-statistic:,4.535e+32
Date:,"Fri, 23 Nov 2018",Prob (F-statistic):,0.0
Time:,13:58:44,Log-Likelihood:,3430.4
No. Observations:,100,AIC:,-6855.0
Df Residuals:,97,BIC:,-6847.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.0000,3.15e-17,6.35e+16,0.000,2.000,2.000
X1,1.0000,3.52e-17,2.84e+16,0.000,1.000,1.000
X2,0.5000,6.69e-17,7.47e+15,0.000,0.500,0.500

0,1,2,3
Omnibus:,12.283,Durbin-Watson:,2.287
Prob(Omnibus):,0.002,Jarque-Bera (JB):,12.856
Skew:,-0.826,Prob(JB):,0.00162
Kurtosis:,3.598,Cond. No.,2.19


**Adjusted R-Squared:**  
Der Adjusted R-Squared hat in diesem Modell den Wert: 1.  
Das heißt, dass die Daten (X1 + X2) zu 100% von dem trainierten Modell erklärt werden können.
Dies war anzunehmen, da wir keinen Error in unserer Funktionen haben und daher ein perfekter Zusammenhang besteht.  
Daher bildet der ***Adjusted R-Squared*** in diesem Fall auch das selbe Ergebnis wie der ***R-Squared*** ab. In Modellen, die einen Error beinhalten, ist der ***Adjusted R-Squared*** immer kleiner als der ***R-Squared***, da dort die Sparsamkeit zusätzlich zur Modellanpassung berücksichtigt wird.  
Sparsamkeit heißt, dass jenes Modell bevorzugt wird, welches weniger unabhängige Variablen besitzt, wenn der ***R-Squared*** den selben Wert hat.

**F-Statistics**:

Mit der F-Statistik und dem zugehörigen P-Wert, lässt sich eine Aussage treffen, inwiefern die aufgestellte Null-Hypothese wiederlegbar ist.
Die F-Statistik gibt dabei Auskunft über die Signifikanz des Modells, also wie gut alle Parameter zusammen Y erklären können.
Der P-Wert gibt dabei die Wahrscheinlichkeit an, dass diese Statistik herauskommt, unter der Annahme, dass die Null-Hypothese zutrifft, also X und Y nicht voneinander abhängen.  
In diesem Modell hat die ***F-Statistik*** den Wert 4.535e+32 und ist damit weit größer als 1 und der zugehörige ***P-Wert*** ((Prob) F-Statistics) beträgt 0.0 .
Daher kann davon ausgegangen werden, dass eine statistisch signifikante Beziehung zwischen X1+X2 und Y besteht und damit die Null-Hypothese widerlegt ist.

**Beta-Parameters:**  
$\hat{β_0} = β_0 = 2$  
$\hat{β_1} = β_1 = 1$  
$\hat{β_2} = β_2 = 0.5$  
Das Ergebnis der Linearen Regression ist ein Modell, welches exakt die Werte der Koeefizienten aus dem Populationsmodell wiederspiegelt. Auch dies ist angesichts der Tatsache, dass unser Modell einen perfekten Zusammenhang beinhaltet vorhersehbar gewesen.

**Standard Errors:**  
Der ***Standardfehler*** beschreibt die Abweichung der geschätzten Koeffizienten von denen des Populationsmodells. Dieser ist bei allen drei Koeffizienten nahe 0. Das bedeutet, dass die Schätzung sehr gut ist (wie in der vorherigen Interpretation der Betaparameter bereits beschrieben) und somit kaum eine Abweichung zu den originalen Werten besteht.

**P-Values:**  
Die P-Werte (***P>|t|***) haben alle den Wert 0. Für unser Modell nehmen wir ein Konfidenzlevel von 0.05 an. Daher lässt sich hier ablesen, dass eine statistisch signifikante Beziehung zwischen X1+X2 und Y besteht.

**Confidence Intervalls:**

In [6]:
gls_lm.conf_int(alpha=0.05)

Unnamed: 0,0,1
Intercept,2.0,2.0
X1,1.0,1.0
X2,0.5,0.5


Die Grenzen des 95%-Konfidenzintervall werden vom Mittelwert ausgehend berechnet. Die untere Grenze bildet der Mittelwert abzüglich der zweifachen Standardabweichung. Die obere Grenze bildet der Mittelwert zuzüglich der zweifachen Standardabweichung. In diesem Fall bilden die Grenzen den selben Wert wie den Mittelwert ab, weshalb keine Streuung vorhanden ist.

**Mean Squared Error:**

In [7]:
gls_lm.mse_resid

9.64811482346484e-32

Der MSE (Gütemaßstab) beschreibt die größe des Fehlers, welchen das Modell macht. Da in unserem Modell ein Wert nahe der 0 herauskommt, können wir es als sehr gut bezeichnen.

**AIC / BIC:**  
Das Akaike und das Bayesian Information Criterium dienen zur Bewertung von unterschiedlichen Modellen. Das AIC bezeht dabei die Anzahl an Parametern und die Komplexität des Modells in die Berechnung ein. Das BIC ist ähnlich wie das AIC, hat jedoch einen höheren Strafterm in Abhängigket von der Anzahl der Parameter.
Da wir zum aktuellen Zeitpunkt noch nicht mehrere Modelle haben, können wir das Ergerbnis noch nicht bewerten. Allgemein lässt sich allerdings feststellen, dass die besseren Modelle immer kleine Werte haben.  
***AIC:*** -6855.  
***BIC:*** -6847.

**b_5)**  
Use your regression model to predict Y if X1 is 1 and X2 is 2. What is the associted standard error and 95% confidence interval?

In [8]:
to_predict = pd.DataFrame({'X1':[1],'X2':[2]})
results = gls_lm.get_prediction(to_predict)

In [9]:
results.summary_frame(alpha=0.05)

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,4.0,1.336576e-16,4.0,4.0,4.0,4.0


Wenn X1 = 1 und X2 = 2 kommen wir mit unserem Modell auf Y = 4, mit einem Standardfehler der nahezu 0 beträgt.
Die untere und die obere Grenze des 95%-Konfidenzintervalls haben beide den Wert 4. Demnach würden bei 100 Samples 95 von denen zwischen den Werten 4 und 4 liegen.

**b_6)**  
Nein, das Populationsmodell ist nicht realistisch, da außerhalb von selbst erstellten Daten naturgemäß Abweichungen und Fehler auftreten und diese hier nicht berücksichtigt werden.

## Task c:

(c) Create an error vector, **err** (error), containing 100 observations drawn from a N(0, 0.25) distribution (i.e. a normal distribution with mean zero and standard deviation 0.25) and add the error to our population model in order to define population model 2 (err is our random, non reducible error in the relationship between Y and our features ... i.e. natural deviations in the relationship):  

**Population model 2:**

$$Y = 2 + 1 \times X1 + 0.5 \times X2 + err$$ 

c_1) What are the values of the $β$ parameters in this linear population model? 

c_2) What is the expected value of Y if X1 and X2 are both zero? 

c_3) What is the expected value of Y if X1 is 1 and X2 is 2? 

c_4) Fit a generalized least squares (gls) linear model that predicts Y using X1, X2. Comment on the model obtained (Adjusted R-Squared, F-Statistic, beta-parameters, standard errors, p-values, confidence intervalls, mean squared error, BIC, AIC). 

c_5) Use your regression model to predict Y if X1 is 1 and X2 is 2. What is the associted standard error and 95% confidence interval? 


**c)**

In [10]:
# mean = 0 and sd = 0.25
err = np.random.normal(0, 0.25, 100)

In [11]:
#Population model
Y = 2 + 1 * X1 + 0.5 * X2 + err

**c_1)**

$\beta_0$ = 2    -> Dies ist der Y-Achsenabschnitt, wenn X<sub>i</sub> = 0  
$\beta_1$ = 1    -> Dies ist die Steigung (Ø) von Y, wenn X1 um 1 erhöht wird und X2 konstant bleibt.  
$\beta_2$ = 0.5  -> Dies ist die Steigung (Ø) von Y, wenn X2 um 1 erhöht wird und X1 konstant bleibt. 

**c_2)**  
Wenn X<sub>1</sub> und X<sub>2</sub> beide den Wert 0 haben, ist $Y = 2+1*0+0.5*0 + err = 2 + err$  

**c_3)**  
Wenn X<sub>1</sub> = 1 und X<sub>2</sub> = 2 ist, beträgt $Y=2+1*1+0.5*2+err=4+err$

**c_4)**  

In [12]:
# Create DataFrame
df_err = pd.DataFrame({'X1':X1, 'X2':X2, 'Y':Y})
# Fit Model
gls_lm_err = smf.gls(formula='Y ~ (X1 + X2)', data=df_err).fit()
# Print Summary
gls_lm_err.summary()

0,1,2,3
Dep. Variable:,Y,R-squared:,0.922
Model:,GLS,Adj. R-squared:,0.92
Method:,Least Squares,F-statistic:,572.5
Date:,"Fri, 23 Nov 2018",Prob (F-statistic):,1.9599999999999999e-54
Time:,13:58:44,Log-Likelihood:,-8.9903
No. Observations:,100,AIC:,23.98
Df Residuals:,97,BIC:,31.8
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,1.9986,0.027,73.273,0.000,1.945,2.053
X1,0.9750,0.030,31.974,0.000,0.914,1.035
X2,0.4710,0.058,8.132,0.000,0.356,0.586

0,1,2,3
Omnibus:,0.827,Durbin-Watson:,2.044
Prob(Omnibus):,0.661,Jarque-Bera (JB):,0.403
Skew:,0.101,Prob(JB):,0.818
Kurtosis:,3.236,Cond. No.,2.19


**Adjusted R-Squared:**  
Der ***Adjusted R-Squared*** hat in diesem Modell den Wert: 0.920  
Das heißt, dass die Daten (X1 + X2) zu 92% von dem trainierten Modell erklärt werden können.

**F-Statistics**:

In diesem Modell hat die ***F-Statistik*** den Wert 572.75 und ist damit weit größer als 1 und der zugehörige ***P-Wert*** ((Prob) F-Statistics) liegt nahe 0.
Daher kann davon ausgegangen werden, dass eine statistisch signifikante Beziehung zwischen X1+X2 und Y besteht und damit die Null-Hypothese widerlegt ist.

**Beta-Parameters:**  
$\hat{β_0} = $1.9986 / $β_0 = 2$  
$\hat{β_1} = $0.9750 / $β_1 = 1$  
$\hat{β_2} = $0.4710 / $β_2 = 0.5$  

Wie in der Übersicht ersichtlich liegen die Werte des errechneten Modells sehr nahe an den Werten des Populationsmodells.

**Standard Errors:**  
Der Standardfehler beträgt:  
$\hat{β_0}$: std_err = 0.027  
$\hat{β_1}$: std_err = 0.030   
$\hat{β_2}$: std_err = 0.058

In Bezug auf die Werte der Koeffizienten sind dies jeweils sehr kleine Standardfehler.

**P-Values:**  
Die P-Werte (***P>|t|***) haben alle den Wert 0. Für unser Modell nehmen wir ein Konfidenzlevel von 0.05 an. Daher lässt sich hier ablesen, dass eine statistisch signifikante Beziehung zwischen X1+X2 und Y besteht.

**Confidence Intervalls:**

In [13]:
gls_lm_err.conf_int(alpha=0.05)

Unnamed: 0,0,1
Intercept,1.944503,2.052776
X1,0.91445,1.035489
X2,0.356066,0.585977


In dem 95%-Konfidenzintervall sind die Bereiche zu sehen, in welchen sich die Koeffizienten ($\hat{\beta}$) in 95% der Fälle in unserem Modell bewegen.

**Mean Squared Error:**

In [14]:
gls_lm_err.mse_resid

0.07225076534666613

Der MSE (Gütemaßstab) beschreibt die größe des Fehlers, welchen das Modell macht. Im Vergleich zum vorherigen Modell hat sich der Wert verschlechtert. Dies lässt sich auf die Berückischtigung eines Errors im Populationsmodell zurückführen.

**AIC / BIC:**  

***AIC:*** 23.98   
***BIC:*** 31.80

Diese Werte sind deutlich größer als beim vorherigen Modell, da wir jedoch das Populationsmodell geändert haben, indem wir einen Error zusätzlich berücksichtigen, können wir die beiden Werte nicht miteinander vergleichen.

**c_5)**

In [15]:
to_predict_err = pd.DataFrame({'X1':[1],'X2':[2]})
results_err = gls_lm_err.get_prediction(to_predict_err)

In [16]:
results_err.summary_frame(alpha=0.05)

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,3.915652,0.115663,3.686093,4.145211,3.334875,4.496429


Wenn X1 = 1 und X2 = 2 kommen wir mit unserem Modell auf Y = 3.915652, mit einem Standardfehler der 0.115663 beträgt.
Die untere und die obere Grenze des 95%-Konfidenzintervalls haben die Werte 3.686093 und 4.145211. Demnach würden bei 100 Samples 95 von denen zwischen den Werten 3.686093 und 4.145211 liegen.

## Task d:

(d) Now fit a generalized least squares (gls) linear model to predict Y (population model 2) using X1, X2 and X3 in the model. Comment on the results for the X3 parameter in the model. 

In [17]:
# Create DataFrame
df_x3 = pd.DataFrame({'X1':X1, 'X2':X2, 'X3':X3, 'Y':Y})
# Fit Model
gls_lm_x3 = smf.gls(formula='Y ~ (X1 + X2 + X3)', data=df_x3).fit()
# Print Summary
gls_lm_x3.summary()

0,1,2,3
Dep. Variable:,Y,R-squared:,0.922
Model:,GLS,Adj. R-squared:,0.92
Method:,Least Squares,F-statistic:,378.6
Date:,"Fri, 23 Nov 2018",Prob (F-statistic):,4.79e-53
Time:,13:58:45,Log-Likelihood:,-8.8804
No. Observations:,100,AIC:,25.76
Df Residuals:,96,BIC:,36.18
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.0015,0.028,71.211,0.000,1.946,2.057
X1,0.9742,0.031,31.770,0.000,0.913,1.035
X2,0.4765,0.059,8.025,0.000,0.359,0.594
X3,-0.0063,0.014,-0.460,0.647,-0.034,0.021

0,1,2,3
Omnibus:,0.584,Durbin-Watson:,2.047
Prob(Omnibus):,0.747,Jarque-Bera (JB):,0.221
Skew:,0.065,Prob(JB):,0.896
Kurtosis:,3.19,Cond. No.,4.64


Der P-Wert (P>|t|) hat einen Wert weit größer als 0.05, weshalb für diesen Parameter keine statistische Signifikanz besteht. Weiterhin interessant ist, dass $\hat{\beta_3}$ nahe der 0 liegt und das Modell damit X3 kaum berücksichtigt.

## Task e:

(e) Generate a vector **Y** according to the model

**Population model 3:**

$$Y = 2 + 1 \times X1 + 0.5 \times X2 + X2^2 + err$$

e_1) Fit a gls model that predicts Y using X1, X2. Comment on the model obtained (Adjusted R-Squared, F-Statistic, beta-parameters, standard errors, p-values, confidence intervalls, mean squared error, BIC, AIC). 

e_2) Fit a polynomial gls regression model that predicts Y using X1, X2 and $X^2$. Comment on the model obtained and campare it to e_1 (Adjusted R-Squared, F-Statistic, beta-parameters, standard errors, p-values, confidence intervalls, mean squared error, BIC, AIC). '

**e)**  

In [18]:
# Population model
Y = 2 + 1 * X1 + 0.5 * X2 + X2**2 + err

**e_1)**  

In [19]:
# Create DataFrame
df_e = pd.DataFrame({'X1':X1, 'X2':X2, 'Y':Y})
# Fit Model
gls_lm_e = smf.gls(formula='Y ~ (X1 + X2)', data=df_e).fit()
# Print Summary
gls_lm_e.summary()

0,1,2,3
Dep. Variable:,Y,R-squared:,0.815
Model:,GLS,Adj. R-squared:,0.811
Method:,Least Squares,F-statistic:,214.0
Date:,"Fri, 23 Nov 2018",Prob (F-statistic):,2.68e-36
Time:,13:59:11,Log-Likelihood:,-60.118
No. Observations:,100,AIC:,126.2
Df Residuals:,97,BIC:,134.1
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.2156,0.045,48.714,0.000,2.125,2.306
X1,0.9820,0.051,19.313,0.000,0.881,1.083
X2,0.5447,0.097,5.640,0.000,0.353,0.736

0,1,2,3
Omnibus:,25.254,Durbin-Watson:,1.926
Prob(Omnibus):,0.0,Jarque-Bera (JB):,37.884
Skew:,1.149,Prob(JB):,5.94e-09
Kurtosis:,4.952,Cond. No.,2.19


**Adjusted R-Squared:**  
Der ***Adjusted R-Squared*** hat in diesem Modell den Wert: 0.811  
Das heißt, dass die Daten (X1 + X2) zu 81.1% von dem trainierten Modell erklärt werden können.

**F-Statistics**:

In diesem Modell hat die ***F-Statistik*** den Wert 214.0 und ist damit weit größer als 1 und der zugehörige ***P-Wert*** ((Prob) F-Statistics) liegt nahe 0.
Daher kann davon ausgegangen werden, dass eine statistisch signifikante Beziehung zwischen X1+X2 und Y besteht und damit die Null-Hypothese widerlegt ist.

**Beta-Parameters:**  
$\hat{β_0} = $2.2156 / $β_0 = 2$  
$\hat{β_1} = $0.9820 / $β_1 = 1$  
$\hat{β_2} = $0.5447 / $β_2 = 0.5$  

Wie in der Übersicht ersichtlich liegen die Werte des errechneten Modells nah an den Werten des Populationsmodells.

**Standard Errors:**  
Der Standardfehler beträgt:  
$\hat{β_0}$: std_err = 0.045  
$\hat{β_1}$: std_err = 0.051   
$\hat{β_2}$: std_err = 0.097


**P-Values:**  
Die P-Werte (***P>|t|***) haben alle den Wert 0. Für unser Modell nehmen wir ein Konfidenzlevel von 0.05 an. Daher lässt sich hier ablesen, dass eine statistisch signifikante Beziehung zwischen X1+X2 und Y besteht.

**Confidence Intervalls:**

In [20]:
gls_lm_e.conf_int(alpha=0.05)

Unnamed: 0,0,1
Intercept,2.125307,2.305844
X1,0.881048,1.082869
X2,0.353052,0.736408


In dem 95%-Konfidenzintervall sind die Bereiche zu sehen, in welchen sich die Koeffizienten ($\hat{\beta}$) in 95% der Fälle in unserem Modell bewegen.

**Mean Squared Error:**

In [21]:
gls_lm_e.mse_resid

0.2008766071299527

Der MSE (Gütemaßstab) beschreibt die größe des Fehlers, welchen das Modell macht. Im Vergleich zum vorherigen Modell hat sich der Wert verschlechtert. Dies hängt höchstwahrscheinlich mit der Änderung des Populationsmodells ($X^2$) zusammen.

**AIC / BIC:**  

***AIC:*** 126.2  
***BIC:*** 134.1

Diese Werte sind größer als beim vorherigen Modell, da wir jedoch das Populationsmodell geändert haben können wir die beiden Werte nicht miteinander vergleichen.

**e_2)**  


In [22]:
# Fit Model
gls_lm_power = smf.gls(formula='Y ~ (X1 + X2 + np.power(X2,2))', data=df_e).fit()
# Print Summary
gls_lm_power.summary()

0,1,2,3
Dep. Variable:,Y,R-squared:,0.935
Model:,GLS,Adj. R-squared:,0.933
Method:,Least Squares,F-statistic:,458.5
Date:,"Fri, 23 Nov 2018",Prob (F-statistic):,9.49e-57
Time:,14:10:22,Log-Likelihood:,-8.072
No. Observations:,100,AIC:,24.14
Df Residuals:,96,BIC:,34.56
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,1.9744,0.033,60.389,0.000,1.909,2.039
X1,0.9742,0.030,32.071,0.000,0.914,1.034
X2,0.4628,0.058,7.976,0.000,0.348,0.578
"np.power(X2, 2)",1.1118,0.084,13.261,0.000,0.945,1.278

0,1,2,3
Omnibus:,1.737,Durbin-Watson:,2.055
Prob(Omnibus):,0.42,Jarque-Bera (JB):,1.172
Skew:,0.192,Prob(JB):,0.556
Kurtosis:,3.367,Cond. No.,3.35


**Adjusted R-Squared:**  
Der Adjusted R-Squared hat sich von 0.811 verbessert auf 0.933, demnach können mit diesem Modell 93.3% der Daten erklärt werden.

**F-Statistics**:

In diesem Modell hat die ***F-Statistik*** den Wert 458.5 und ist damit weit größer als 1 und der zugehörige ***P-Wert*** ((Prob) F-Statistics) liegt nahe 0.
Daher kann davon ausgegangen werden, dass eine statistisch signifikante Beziehung zwischen den Parametern und Y besteht und damit die Null-Hypothese widerlegt ist.
Im Vergleich zum vorherigen Modell ist die Beziehung hier signifikanter, da der Wert der F-Statistik ca. um das zweifache größer ist.

**Beta-Parameters:**  
$\hat{β_0} = $1.9744 / $β_0 = 2$  
$\hat{β_1} = $0.9742 / $β_1 = 1$  
$\hat{β_2} = $0.4628 / $β_2 = 0.5$  
$\hat{β_3} = $1.1118 / $β_3 = 1$

Wie in der Übersicht ersichtlich liegen die Werte des errechneten Modells nah an den Werten des Populationsmodells.

**Standard Errors:**  
Der Standardfehler beträgt:  
$\hat{β_0}$: std_err = 0.033  
$\hat{β_1}$: std_err = 0.030   
$\hat{β_2}$: std_err = 0.058  
$\hat{β_3}$: std_err = 0.084

Im Vergleich zum vorherigen Modell haben sich die Standardfehler ($\hat{β_0}$ - $\hat{β_2}$) reduziert.

**P-Values:**  
Die P-Werte (***P>|t|***) haben alle den Wert 0. Für unser Modell nehmen wir ein Konfidenzlevel von 0.05 an. Daher lässt sich hier ablesen, dass eine statistisch signifikante Beziehung zwischen den Parametern und Y besteht.

**Confidence Intervalls:**

In [24]:
display(gls_lm_e.conf_int(alpha=0.05))
display(gls_lm_power.conf_int(alpha=0.05))

Unnamed: 0,0,1
Intercept,2.125307,2.305844
X1,0.881048,1.082869
X2,0.353052,0.736408


Unnamed: 0,0,1
Intercept,1.90948,2.039275
X1,0.913891,1.034484
X2,0.347612,0.577944
"np.power(X2, 2)",0.945411,1.278266


In dem 95%-Konfidenzintervall sind die Bereiche zu sehen, in welchen sich die Koeffizienten ($\hat{\beta}$) in 95% der Fälle in unserem Modell bewegen.  
Im Vergleich zu dem Konfidenzintervall aus dem vorherigen Modell haben sich bei allen Koeffizienten die Grenzen verringert, sodass die Schätzer näher am Ursprungswert liegen.

**Mean Squared Error:**

In [27]:
print("Aktuelles Modell: ",gls_lm_power.mse_resid)
print("Vorheriges Modell:",gls_lm_e.mse_resid)

Aktuelles Modell:  0.0716749282003363
Vorheriges Modell: 0.2008766071299527


Der MSE hat sich im Vergleich zum vorherigen Modell stark verbessert. Dies lässt sich auf die Berücksichtigung des $X2^2$ in der Formell des Modells zurückführen.

**AIC / BIC:**  

***AIC:*** 126.2  ***neu***: 24.14  
***BIC:*** 134.1  ***neu***: 34.56

Im Vergleich zu den AIC und BIC Werten des vorherigen Modells schneidet dieses erheblich besser ab, da beide Werte circa um 100 geringer sind. Daher fällt die Entscheidung, welches Modell das bessere ist, auf das zuletzt erstellte.