## **t-Test: Vorbereitung**


In [None]:
!pip install pingouin
import pandas as pd
import numpy as np
import scipy
from scipy import stats

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_Kundenzufriedenheit.csv',index_col=0)

In [None]:
df

#**Mittelwerttest (t-Test): Vergleich mit einem festen Wert**

Berechnung mit dem Package scipy.stats

In [None]:
mu_kz = 80
n = len(df)
t_m = stats.ttest_ind(df['Zufriedenheit_alt'], [mu_kz]*n,equal_var=True)
print('Teststatistik t\t=',t_m.statistic.round(2))
print('p-Wert\t\t=',t_m.pvalue.round(2))

#Bestimmung kritischer Wert
signifikanzniveau = 0.05
t_kritisch = scipy.stats.t.ppf(1-signifikanzniveau/2, n-1)
print('C\t\t=',t_kritisch.round(2))

Berechnung durch Formeln

In [None]:
X_mean = df['Zufriedenheit_alt'].mean()
print('X_mean\t\t\t=',round(X_mean,2))
S = df['Zufriedenheit_alt'].std(ddof=1)
print('Standardabweichung\t= ',round(S,2),'\n')

#Berechnung Teststatistik (empirischer Wert)
t = (X_mean-mu_kz)/S*np.sqrt(n)
print('t_empirisch\t\t= ',t.round(2))

#Bestimmung kritischer Wert
signifikanzniveau = 0.05
t_kritisch = scipy.stats.t.ppf(1-signifikanzniveau/2, n-1)
print('C\t\t\t= ',t_kritisch.round(2))

#**Mittelwerttest (t-Test): Untersuchung einer Veränderung**

Berechnung mit dem Package scipy.stats

In [None]:
mu_kz = 80
n = len(df)
t_m = scipy.stats.ttest_ind(df['Zufriedenheit_neu']-df['Zufriedenheit_alt'],[0]*n,equal_var=True)
print('Teststatistik t\t=',round(t_m.statistic,2))
print('p-Wert\t\t=',round(t_m.pvalue,5))

Berechnung durch Formeln

In [None]:
df['diff']=df['Zufriedenheit_neu']-df['Zufriedenheit_alt']
Xd_mean = df['diff'].mean()
print('Xd_mean\t\t\t=',round(Xd_mean,2))
Sd = df['diff'].std(ddof=1)
print('Standardabweichung\t=',round(Sd,2),'\n')


#Berechnung Teststatistik (empirischer Wert)
td = (Xd_mean-0)/Sd*np.sqrt(n)
print('t_empirisch\t\t=',round(td,2))

#Berechnung kritischer Wert
signifikanzniveau = 0.05
t_kritisch = scipy.stats.t.ppf(1-signifikanzniveau/2, n-1)
print('C\t\t\t=',round(t_kritisch,2))

#**Mittelwerttest (t-Test): Unterschiede zwischen zwei Gruppen**

Berechnung mit dem Package scipy.stats

In [None]:
# #Bei gleichen Varianzen der Stichproben X und Y:
# t_m = scipy.stats.ttest_ind(X,Y,equal_var=True)
# print('Teststatistik t\t=',t_m.statistic)
# print('p-Wert\t\t=',t_m.pvalue)

# #Bei ungleichen Varianzen der Stichproben X und Y (Welch-Test):
# t_m = scipy.stats.ttest_ind(X,Y,equal_var=False)
# print('Teststatistik t\t=',t_m.statistic)
# print('p-Wert\t\t=',t_m.pvalue)

Berechnung durch Formeln

In [None]:
# #Bei gleichen Varianzen der Stichproben X und Y:
# n1 = len(X)
# n2 = len(Y)
# s1 = X.std(ddof=1)
# s2 = Y.std(ddof=1)
# t = (X.mean()-Y.mean())/np.sqrt((n1+n2)*((n1-1)*s1**2+(n2-1)*s2**2)/(n1*n2*(n1+n2-2)))
# print('t_empirisch\t\t=',td)

# signifikanzniveau = 0.05
# t_kritisch = scipy.stats.t.ppf(1-signifikanzniveau/2, n1+n2-2)
# print('C\t\t\t=',t_kritisch)

# **ANOVA**

In [None]:
!pip install pingouin
import pandas as pd
import pingouin as pg

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_Anova.csv',index_col=0)

In [None]:
df

In [None]:
pg.anova(data=df, dv='VerkUnf', between='Lizenz', detailed=True,effsize='n2').round(3)

In [None]:
pg.ancova(data=df, dv='VerkUnf', covar='VerkUnfVorjahr', between='Lizenz',effsize='n2').round(3)

# **Chi²-Test**


In [None]:
from scipy.stats import  chi2_contingency

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_chi2.csv',index_col=0)

In [None]:
df

In [None]:
df_dist = df.iloc[:-1,:-2].astype(int)

In [None]:
g, p, dof, expctd = chi2_contingency(df)
ddof = (df.shape[0]-1)*(df.shape[1]-1)
signifikanzniveau = 0.01
print('Prüfgröße Chi² \t\t=',round(g,2))
print('Freiheitsgrade df \t=  ', ddof)
print('Kritischer Wert Chi² \t= ', scipy.stats.chi2.ppf(1-signifikanzniveau, ddof).round(2))

# **Korrelation**


In [None]:
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_Korrelation.csv',index_col=0)
df

In [None]:
plt.scatter(df.loc['Zufriedenheit (x)',:],df.loc['Kundenbindung (y)',:])
plt.xlabel("Zufriedenheit (x)")
plt.ylabel("Kundenbindung (y)")
plt.show()

In [None]:
r = df.loc['Zufriedenheit (x)',:].corr(df.loc['Kundenbindung (y)',:])
print('Korrelation r \t =',round(r,4))

In [None]:
from scipy.stats import pearsonr
import numpy as np
signifikanzniveau = 0.01

r, p = pearsonr(df.loc['Zufriedenheit (x)',:],df.loc['Kundenbindung (y)',:])
n = df.shape[1]
t = r*np.sqrt((n-2)/(1-r**2))
C = scipy.stats.t.ppf(1-signifikanzniveau/2, n-2)
print('Korrelation r \t\t\t =',round(r,2))
print('Signifikanzniveau (p-Wert)\t =',round(p,4))
print('Teststatistik t \t\t =',round(t,2))
print('C \t\t\t\t =',round(C,2))

In [None]:
import seaborn as sns
sns.lmplot(x='Zufriedenheit (x)', y='Kundenbindung (y)', data=df.T);

# **Regression**

In [None]:
import pandas as pd
import statsmodels.api as sm 

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JasperLS/EWF/main/datasets/VL_Regression.csv',index_col=0,encoding='utf-8')
df.insert(1,'Konstante',1)

In [None]:
mod = sm.OLS(df['Überstunden'], df[['Konstante','Alter']])
res = mod.fit()
print(res.summary())

In [None]:
mod = sm.OLS(df['Überstunden'], df[['Konstante','Motivation','Alter','Einkommen']])
res = mod.fit()
print(res.summary())

**Standardisierte Koeffizienten durch Standardisieren der Eingangsdaten**

In [None]:
df = (df-df.mean())/df.std()
df['Konstante'] = 1
print(sm.OLS(df['Überstunden'], df[['Konstante','Alter','Einkommen','Motivation']]).fit().summary())
