### Punkt 4

Erstelle aus allen Variablen ein gemeinsames Regressionsmodell für die Vorhersage
der abhängigen Variable und interpretiere dies in den Grundlagen vollständig (R², adj.
R², F-Statistik) sowie an 2-3 ausgewählten Variablen der Koeffizienten-Tabelle. Dieses
Modell stellt nun dein neues Grundmodell dar, welches du gern verbessern möchtes

In [2]:
import pandas as pd
import scipy.stats as stats
import statsmodels.api as sm
import make_uni_df

# Read the data
uni_df = make_uni_df.get_dummied_df()

uni_df = uni_df[['Lebenszufriedenheit','Studienzufriedenheit','Zufriedenheit_mit_Praxispartner','Zufriedenheit_mit_Gesundheit']]

dependent_variable = 'Lebenszufriedenheit'
selected_variables = list(uni_df.columns)
selected_variables.remove('Lebenszufriedenheit')

# Schritt 1: Daten bereinigen
uni_df_cleaned = uni_df.dropna(subset=[dependent_variable] + selected_variables)
x = uni_df_cleaned[selected_variables]
y = uni_df_cleaned[dependent_variable]

# Schritt 2: Regressionsmodell erstellen
X = sm.add_constant(x)  # Konstante hinzufügen (für den Intercepts)
model = sm.OLS(y, X).fit()

# Schritt 3: Ergebnisse interpretieren
print(model.summary())

# R^2 und adj. R^2
print("R^2:", model.rsquared)
print("Adjusted R^2:", model.rsquared_adj)

# F-Statistik und p-Wert
print("F-Statistik:", model.fvalue)
print("p-Wert (F-Test):", model.f_pvalue)

# Interpretation der Koeffizienten-Tabelle (nur als Beispiel, die Ausgabe hängt von den tatsächlichen Variablen ab)
print("\nKoeffizienten-Tabelle:")
coefficients = model.params[1:]  # Erste Zeile überspringen, da es die Konstante ist
p_values = model.pvalues[1:]    # Erste Zeile überspringen, da es die Konstante ist

for variable, coef, p_value in zip(selected_variables, coefficients, p_values):
    print(f"{variable}: Coefficient = {coef:.4f}, p-Wert = {p_value:.4f}")



                             OLS Regression Results                            
Dep. Variable:     Lebenszufriedenheit   R-squared:                       0.290
Model:                             OLS   Adj. R-squared:                  0.287
Method:                  Least Squares   F-statistic:                     102.6
Date:                 Fri, 21 Jul 2023   Prob (F-statistic):           1.07e-55
Time:                         10:42:19   Log-Likelihood:                -1505.3
No. Observations:                  759   AIC:                             3019.
Df Residuals:                      755   BIC:                             3037.
Df Model:                            3                                         
Covariance Type:             nonrobust                                         
                                      coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------------------------


Verbesserungsmöglichkeiten:
 - Überprüfung der Modellgüte (R^2, adj. R^2) und möglicherweise Hinzufügen weiterer relevanter Variablen
 - Überprüfung der statistischen Signifikanz aller Variablen und Entfernen nicht signifikanter Variablen
 - Überprüfung von Interaktionseffekten zwischen den Variablen
 - Überprüfung der Annahmen der linearen Regression (Normalität der Residuen, Homoskedastizität usw.)
 - Verwendung von Methoden wie Backward Elimination oder Stepwise Regression zur Modellselektion