<a href="https://colab.research.google.com/github/JasperLS/EWF/blob/main/VL_EWF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **t-Test: Vorbereitung**


In [None]:
import pandas as pd
import numpy as np
import scipy
from scipy import stats

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_Kundenzufriedenheit.csv',index_col=0)

In [None]:
df

#**Mittelwerttest (t-Test): Vergleich mit einem festen Wert**

Berechnung mit dem Package scipy.stats

In [None]:
mu_kz = 80
n = len(df)
t_m = stats.ttest_ind(df['Zufriedenheit_alt'], [mu_kz]*n,equal_var=True)
print('Teststatistik t\t=',t_m.statistic.round(2))
print('p-Wert\t\t=',t_m.pvalue.round(2))

#Bestimmung kritischer Wert
signifikanzniveau = 0.05
t_kritisch = scipy.stats.t.ppf(1-signifikanzniveau/2, n-1)
print('C\t\t=',t_kritisch.round(2))

Berechnung durch Formeln

In [None]:
X_mean = df['Zufriedenheit_alt'].mean()
print('X_mean\t\t\t=',round(X_mean,2))
S = df['Zufriedenheit_alt'].std(ddof=1)
print('Standardabweichung\t= ',round(S,2),'\n')

#Berechnung Teststatistik (empirischer Wert)
t = (X_mean-mu_kz)/S*np.sqrt(n)
print('t_empirisch\t\t= ',t.round(2))

#Bestimmung kritischer Wert
signifikanzniveau = 0.05
t_kritisch = scipy.stats.t.ppf(1-signifikanzniveau/2, n-1)
print('C\t\t\t= ',t_kritisch.round(2))

#**Mittelwerttest (t-Test): Untersuchung einer Veränderung**

Berechnung mit dem Package scipy.stats

In [None]:
mu_kz = 80
n = len(df)
t_m = scipy.stats.ttest_ind(df['Zufriedenheit_neu']-df['Zufriedenheit_alt'],[0]*n,equal_var=True)
print('Teststatistik t\t=',round(t_m.statistic,2))
print('p-Wert\t\t=',round(t_m.pvalue,5))

Berechnung durch Formeln

In [None]:
df['diff']=df['Zufriedenheit_neu']-df['Zufriedenheit_alt']
Xd_mean = df['diff'].mean()
print('Xd_mean\t\t\t=',round(Xd_mean,2))
Sd = df['diff'].std(ddof=1)
print('Standardabweichung\t=',round(Sd,2),'\n')


#Berechnung Teststatistik (empirischer Wert)
td = (Xd_mean-0)/Sd*np.sqrt(n)
print('t_empirisch\t\t=',round(td,2))

#Berechnung kritischer Wert
signifikanzniveau = 0.05
t_kritisch = scipy.stats.t.ppf(1-signifikanzniveau/2, n-1)
print('C\t\t\t=',round(t_kritisch,2))

#**Mittelwerttest (t-Test): Unterschiede zwischen zwei Gruppen**

Berechnung mit dem Package scipy.stats

In [None]:
# #Bei gleichen Varianzen der Stichproben X und Y:
# t_m = scipy.stats.ttest_ind(X,Y,equal_var=True)
# print('Teststatistik t\t=',t_m.statistic)
# print('p-Wert\t\t=',t_m.pvalue)

# #Bei ungleichen Varianzen der Stichproben X und Y (Welch-Test):
# t_m = scipy.stats.ttest_ind(X,Y,equal_var=False)
# print('Teststatistik t\t=',t_m.statistic)
# print('p-Wert\t\t=',t_m.pvalue)

Berechnung durch Formeln

In [None]:
# #Bei gleichen Varianzen der Stichproben X und Y:
# n1 = len(X)
# n2 = len(Y)
# s1 = X.std(ddof=1)
# s2 = Y.std(ddof=1)
# t = (X.mean()-Y.mean())/np.sqrt((n1+n2)*((n1-1)*s1**2+(n2-1)*s2**2)/(n1*n2*(n1+n2-2)))
# print('t_empirisch\t\t=',td)

# signifikanzniveau = 0.05
# t_kritisch = scipy.stats.t.ppf(1-signifikanzniveau/2, n1+n2-2)
# print('C\t\t\t=',t_kritisch)

# **ANOVA**

In [None]:
import pandas as pd
import statsmodels.api as sm
import scipy

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_Anova.csv',index_col=0)

In [None]:
df

In [None]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

model1 = ols('VerkUnf ~ Lizenz', data=df).fit()
anova_table1 = sm.stats.anova_lm(model1, typ=1)
anova_table1.loc['total',['df','sum_sq']]=anova_table1.loc[:,['df','sum_sq']].sum()
anova_table1.loc['total','mean_sq']=anova_table1.loc['total','sum_sq']/anova_table1.loc['total','df']
display(anova_table1.round(2))
print('\nR^2:',round(anova_table1.loc['Lizenz','sum_sq']/anova_table1.loc['total','sum_sq'],4))

In [None]:
# Type I:
# SS(A) für den Faktor A. 
# SS(B | A) für den Faktor B. 
# SS(AB | B, A) für die Interaktion AB.
# Dabei wird der Haupteffekt von Faktor A getestet, gefolgt vom Haupteffekt von Faktor B nach dem Haupteffekt von A, gefolgt vom Interaktionseffekt AB nach den Haupteffekten.
# Aufgrund des sequentiellen Charakters und der Tatsache, dass die beiden Hauptfaktoren in einer bestimmten Reihenfolge getestet werden, führt diese Art von Quadratsummen bei unausgewogenen Daten zu unterschiedlichen Ergebnissen, je nachdem, welcher Haupteffekt zuerst betrachtet wird.
# Bei unausgewogenen Daten testet dieser Ansatz auf einen Unterschied in den gewichteten marginalen Mittelwerten. In der Praxis bedeutet dies, dass die Ergebnisse von den realisierten Stichprobengrößen, d. h. den Anteilen im jeweiligen Datensatz, abhängig sind. Mit anderen Worten, es wird der erste Faktor getestet, ohne für den anderen Faktor zu kontrollieren (für eine weitere Diskussion und ein Arbeitsbeispiel siehe Zahn [4]).
# Beachten Sie, dass dies oft nicht die Hypothese ist, die bei unausgewogenen Daten von Interesse ist. 

model = ols('VerkUnf ~ Lizenz + VerkUnfVorjahr', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=1)
anova_table.loc['total',['df','sum_sq']]=anova_table.loc[:,['df','sum_sq']].sum()
anova_table.loc['total','mean_sq']=anova_table.loc['total','sum_sq']/anova_table.loc['total','df']
display(anova_table.round(3))
print('\nR^2:',round(anova_table.loc[['Lizenz','VerkUnfVorjahr'],'sum_sq'].sum()/anova_table.loc['total','sum_sq'],4))

In [None]:
# Type I:
# SS(A | B) für den Faktor A. 
# SS(B | A) für den Faktor B. 
# 
# Dieser Typ testet auf jeden Haupteffekt nach dem anderen Haupteffekt. 
# Beachten Sie, dass keine signifikante Interaktion angenommen wird (mit anderen Worten, Sie sollten zuerst auf Interaktion testen (SS(AB | A, B)) und nur wenn AB nicht signifikant ist, mit der Analyse der Haupteffekte fortfahren). 
# Wenn es tatsächlich keine Interaktion gibt, ist Typ II statistisch gesehen stärker als Typ III (siehe Langsrud [3] für weitere Einzelheiten). 
# Rechnerisch ist dies gleichbedeutend mit der Durchführung einer Typ-I-Analyse mit verschiedenen Reihenfolgen der Faktoren und der Entnahme des entsprechenden Ergebnisses (im obigen Beispiel die zweite, bei der ein Haupteffekt nach dem anderen ausgeführt wird). 
# Dabei wird der Haupteffekt von Faktor A getestet, gefolgt vom Haupteffekt von Faktor B nach dem Haupteffekt von A, gefolgt vom Interaktionseffekt AB nach den Haupteffekten. 

model = ols('VerkUnf ~ Lizenz + VerkUnfVorjahr', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table.loc['total',['df','sum_sq']]=anova_table.loc[:,['df','sum_sq']].sum()
anova_table['mean_sq']=anova_table['sum_sq']/anova_table['df']
display(anova_table[['df','sum_sq','mean_sq','F', 'PR(>F)']].round(3))

In [None]:
# Type III:
# SS(A | B, AB) für den Faktor A. 
# SS(B | A, AB) für den Faktor B. 
# Dieser Typ testet auf jeden Haupteffekt nach dem anderen Haupteffekt. 
# Beachten Sie, dass keine signifikante Interaktion angenommen wird (mit anderen Worten, Sie sollten zuerst auf Interaktion testen (SS(AB | A, B)) und nur wenn AB nicht signifikant ist, mit der Analyse der Haupteffekte fortfahren). 
# Wenn es tatsächlich keine Interaktion gibt, ist Typ II statistisch gesehen stärker als Typ III (siehe Langsrud [3] für weitere Einzelheiten). 
# Rechnerisch ist dies gleichbedeutend mit der Durchführung einer Typ-I-Analyse mit verschiedenen Reihenfolgen der Faktoren und der Entnahme des entsprechenden Ergebnisses (im obigen Beispiel die zweite, bei der ein Haupteffekt nach dem anderen ausgeführt wird). 
model = ols('VerkUnf ~ Lizenz + VerkUnfVorjahr', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=3)
anova_table.loc['total',['df','sum_sq']]=anova_table.loc[:,['df','sum_sq']].sum()
anova_table['mean_sq']=anova_table['sum_sq']/anova_table['df']
display(anova_table[['df','sum_sq','mean_sq','F', 'PR(>F)']].round(3))

# **Chi²-Test**


In [None]:
from scipy.stats import  chi2_contingency

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_chi2.csv',index_col=0)

In [None]:
df

In [None]:
df_dist = df.iloc[:-1,:-2].astype(int)

In [None]:
g, p, dof, expctd = chi2_contingency(df)
ddof = (df.shape[0]-1)*(df.shape[1]-1)
signifikanzniveau = 0.01
print('Prüfgröße Chi² \t\t=',round(g,2))
print('Freiheitsgrade df \t=  ', ddof)
print('Kritischer Wert Chi² \t= ', scipy.stats.chi2.ppf(1-signifikanzniveau, ddof).round(2))

# **Korrelation**


In [None]:
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_Korrelation.csv',index_col=0)
df

In [None]:
plt.scatter(df.loc['Zufriedenheit (x)',:],df.loc['Kundenbindung (y)',:])
plt.xlabel("Zufriedenheit (x)")
plt.ylabel("Kundenbindung (y)")
plt.show()

In [None]:
r = df.loc['Zufriedenheit (x)',:].corr(df.loc['Kundenbindung (y)',:])
print('Korrelation r \t =',round(r,2))

In [None]:
from scipy.stats import pearsonr

signifikanzniveau = 0.01

r, p = pearsonr(df.loc['Zufriedenheit (x)',:],df.loc['Kundenbindung (y)',:])
n = df.shape[1]
t = r*np.sqrt((n-2)/(1-r**2))
C = scipy.stats.t.ppf(1-signifikanzniveau/2, n-2)
print('Korrelation r \t\t\t =',round(r,2))
print('Signifikanzniveau (p-Wert)\t =',round(p,4))
print('Teststatistik t \t\t =',round(t,2))
print('C \t\t\t\t =',round(C,2))

In [None]:
import seaborn as sns
# plt.rcParams.update({'figure.figsize':(10,8), 'figure.dpi':100})
sns.lmplot(x='Zufriedenheit (x)', y='Kundenbindung (y)', data=df.T);

# **Regression**

In [None]:
import pandas as pd
import statsmodels.api as sm 

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_Regression.csv',index_col=0,encoding='utf-8')
df.insert(1,'Konstante',1)

In [None]:
mod = sm.OLS(df['Überstunden'], df[['Konstante','Alter']])
res = mod.fit()
print(res.summary())

In [None]:
mod = sm.OLS(df['Überstunden'], df[['Konstante','Motivation','Alter','Einkommen']])
res = mod.fit()
print(res.summary())

**Standardisierte Koeffizienten durch Standardisieren der Eingangsdaten**

In [None]:
df = (df-df.mean())/df.std()
df['Konstante'] = 1
print(sm.OLS(df['Überstunden'], df[['Konstante','Alter','Einkommen','Motivation']]).fit().summary())
