# Statistische Analysen
*(Dozentin: Susanne Haaf)*
* verschiedene statistische Maße
* Grundlage: Berechnungen zur Personaldeixis
* zusätzlich zu Pandas und NumPy setzen wir nun die Bibliothek **SciPy** ein

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

In [2]:
inputDir = "Daten_EL/Dataframes/Deixis/"
dfEB = pd.read_csv(inputDir + 'Erbauungsbuch.csv', sep=';', na_values=".")
dfLP = pd.read_csv(inputDir + 'Leichenpredigten.csv', sep=';', na_values=".")
dfGB = pd.read_csv(inputDir + 'Gebetbuch.csv', sep=';', na_values=".")

* Unser Beispielmerkmal ist Deixis der 1. Person Sg./Pl. (ich, wir, unser, etc.)

In [3]:
feat = "1tePerson"

## Deskriptive Statistisk

* Zunächst berechnen wir Maße der deskriptiven Statistik, d.h. wir schauen, wie unsere Korpora jeweils für sich genommen aussehen 
(Kommt das Merkmal häufig vor? Ist es homogen verteilt? etc.)
* Wir schauen nicht nur nach (relativer) Häufigkeit, sondern auch nach Verteilung und Streuung
* Wir können auch sehen, wie gut unser Mittelwert im Korpus die Grundgesamtheit schätzt
* Problematik von "Klumpen" in Sprachdaten
* Korpus als Stichprobe

## Hypothesen und Gewissheiten

* Grundgesamtheit
* Hypothese und Nullhypothese
* Wie gut repräsentiert das Korpus die Grundgesamtheit in Bezug auf das untersuchte Merkmal?

### Schiefe

In [4]:
# Schiefe
skEB = stats.skew(dfEB[feat])
skLP = stats.skew(dfLP[feat])
skGB = stats.skew(dfGB[feat])

skEB

0.6079136240487734

In [5]:
round(skEB)

1

In [6]:
round(skEB, 2)

0.61

### Mittelwert und Median

In [7]:
# Arithmetischer Mittelwert
amEB = np.mean(dfEB[feat])
amLP = np.mean(dfLP[feat])
amGB = np.mean(dfGB[feat])

(round(amEB, 2), round(amLP, 2), round(amGB, 2))

(21317.86, 20159.73, 63308.49)

In [8]:
results = {
    'Korpus':['Erbauungsbuch', 'Leichenpredigt', 'Gebetbuch'], 
    'Schiefe':[round(skEB, 2), round(skLP, 2), round(skGB,2)],
    'Mittelwert':[round(amEB, 2), round(amLP, 2), round(amGB, 2)]
    }

dfResults = pd.DataFrame(results).set_index(keys='Korpus')
dfResults

Unnamed: 0_level_0,Schiefe,Mittelwert
Korpus,Unnamed: 1_level_1,Unnamed: 2_level_1
Erbauungsbuch,0.61,21317.86
Leichenpredigt,0.12,20159.73
Gebetbuch,1.66,63308.49


In [9]:
dfResults.transpose()

Korpus,Erbauungsbuch,Leichenpredigt,Gebetbuch
Schiefe,0.61,0.12,1.66
Mittelwert,21317.86,20159.73,63308.49


In [10]:
# Median
medEB = np.median(dfEB[feat])
medLP = np.median(dfLP[feat])
medGB = np.median(dfGB[feat])

results['Median'] = [round(amEB, 2), round(amLP, 2), round(amGB, 2)]
results['Median']

[21317.86, 20159.73, 63308.49]

In [11]:
results

{'Korpus': ['Erbauungsbuch', 'Leichenpredigt', 'Gebetbuch'],
 'Schiefe': [0.61, 0.12, 1.66],
 'Mittelwert': [21317.86, 20159.73, 63308.49],
 'Median': [21317.86, 20159.73, 63308.49]}

### Interquartilsabstand

In [12]:
# Interquartile Range
iqrEB = stats.iqr(dfEB[feat])
iqrLP = stats.iqr(dfLP[feat])
iqrGB = stats.iqr(dfGB[feat])

results['Interquartile Range'] = [round(iqrEB, 2), round(iqrLP, 2), round(iqrGB, 2)]
results['Interquartile Range']

[22675.47, 4422.84, 5206.42]

### Standardfehler

In [13]:
# Standardfehler des Mittelwerts
seEB = stats.sem(dfEB[feat])
seLP = stats.sem(dfLP[feat])
seGB = stats.sem(dfGB[feat])

results['Standardfehler'] = [round(seEB, 2), round(seLP, 2), round(seGB, 2)]
results['Standardfehler']

[6067.24, 1261.54, 5800.97]

### Standardabweichung und Variationskoeffizient

In [14]:
# Standardabweichung
sdEB = np.std(dfEB[feat])
sdLP = np.std(dfLP[feat])
sdGB = np.std(dfGB[feat])

results['Standardabweichung'] = [round(sdEB, 2), round(sdLP, 2), round(sdGB, 2)]
results['Standardabweichung']

[14861.64, 3568.16, 12971.36]

In [15]:
# Variationskoeffizient
svarEB = stats.variation(dfEB[feat])
svarLP = stats.variation(dfLP[feat])
svarGB = stats.variation(dfGB[feat])

results['Variationskoeffizient'] = [round(svarEB, 2), round(svarLP, 2), round(svarGB, 2)]
results['Variationskoeffizient']

[0.7, 0.18, 0.2]

## Testen von Hypothesen je Korpus

### Verteilung 

* Test auf Normalverteilung (Wissen darüber ist die Grundlage für viele weitere Tests)
* Shapiro-Wilk-Test auf Normalverteilung
    * p-Wert > 0.05: Normalverteilung
    * p-Wert < 0.05: keine Normalverteilung

### p-Wert
* Hypothesis-Testing: Richtwert = p-Wert
* Konvention:
    * p < 0.05: Nullhypothese kann verworfen werden
    * p > 0.05: Hypothese kann verworfen werden
* Schwelle 0.05:
    * 95%ige Sicherheit, dass die Einschätzung stimmt
    * Ist das eigentlich so sicher? &rarr; zur Problematik des p-Werts
* Vorteil des p-Werts: Standardmaß, das Einschätzungen über Teststatistiken hinweg ermöglicht

In [16]:
# Verteilung
swEB = stats.shapiro(dfEB[feat])
swLP = stats.shapiro(dfLP[feat])
swGB = stats.shapiro(dfGB[feat])
(swEB, swLP, swGB)

(ShapiroResult(statistic=0.8889000415802002, pvalue=0.2689744830131531),
 ShapiroResult(statistic=0.960744321346283, pvalue=0.806079626083374),
 ShapiroResult(statistic=0.6525797843933105, pvalue=0.0018816478550434113))

### Konfidenzintervall 
* Wie gut schätzt der Mittelwert die Grundgesamtheit?

In [17]:
# Konfidenzintervall
# (unterschiedliche Berechnung, je nachdem, ob Normalverteilung vorliegt oder nicht)
if swEB[1] < 0.05:
    ciEB = stats.t.interval(confidence=0.95, df=len(dfEB[feat])-1, loc=np.mean(dfEB[feat]), scale=stats.sem(dfEB[feat]))
elif swEB[1] >= 0.05:
    ciEB = stats.norm.interval(confidence=0.95, loc=np.mean(dfEB[feat]), scale=stats.sem(dfEB[feat]))

if swLP[1] < 0.05:
    ciLP = stats.t.interval(confidence=0.95, df=len(dfLP[feat])-1, loc=np.mean(dfLP[feat]), scale=stats.sem(dfLP[feat]))
elif swLP[1] >= 0.05:
    ciLP = stats.norm.interval(confidence=0.95, loc=np.mean(dfLP[feat]), scale=stats.sem(dfLP[feat]))

if swGB[1] < 0.05:
    ciGB = stats.t.interval(confidence=0.95, df=len(dfGB[feat])-1, loc=np.mean(dfGB[feat]), scale=stats.sem(dfGB[feat]))
elif swGB[1] >= 0.05:
    ciGB = stats.norm.interval(confidence=0.95, loc=np.mean(dfGB[feat]), scale=stats.sem(dfGB[feat]))

results['Konfidenzintervall'] = [(round(ciEB[0], 2), round(ciEB[1], 2)), (round(ciLP[0], 2), round(ciLP[1], 2)), (round(ciGB[0], 2), round(ciGB[1], 2))]
results['Konfidenzintervall']

[(9426.29, 33209.43), (17687.17, 22632.3), (48396.63, 78220.36)]

### Korrelation

* Relevanz eines Merkmals in Bezug auf ein anderes (Kollokation *Bank/sitzen* vs. *Bank/stehen* vs. *Bank/Geld*)
* hier: Relevanz eines Merkmals im zeitlichen Verlauf

In [18]:
# Korrelationskoeffizient (Kedall's Tau)
try:
    ktEB = stats.kendalltau(dfEB[feat], dfEB['date'])
except:
    ktEB = 'N/A'

try:
    ktLP = stats.kendalltau(dfLP[feat], dfLP['date'])
except:
    ktLP = 'N/A'
    
try:
    ktGB = stats.kendalltau(dfGB[feat], dfGB['date'])
except:
    ktGB = 'N/A'

results['Korrelationskoeffizient'] = [(round(ktEB[0], 2), round(ktEB[1], 2)), (round(ktLP[0], 2), round(ktLP[1], 2)), (round(ktGB[0], 2), round(ktGB[1], 2))]
results['Korrelationskoeffizient']

[(-0.1, 0.76), (-0.44, 0.12), (-0.6, 0.14)]

## Beurteilung der Korpora im Überblick

In [19]:
dfResults = pd.DataFrame(results).set_index(keys='Korpus')
dfResults.transpose()

Korpus,Erbauungsbuch,Leichenpredigt,Gebetbuch
Schiefe,0.61,0.12,1.66
Mittelwert,21317.86,20159.73,63308.49
Median,21317.86,20159.73,63308.49
Interquartile Range,22675.47,4422.84,5206.42
Standardfehler,6067.24,1261.54,5800.97
Standardabweichung,14861.64,3568.16,12971.36
Variationskoeffizient,0.7,0.18,0.2
Konfidenzintervall,"(9426.29, 33209.43)","(17687.17, 22632.3)","(48396.63, 78220.36)"
Korrelationskoeffizient,"(-0.1, 0.76)","(-0.44, 0.12)","(-0.6, 0.14)"


## Korpusvergleich

* Endlich! Ist das Merkmal nun in einem Korpus relevanter als in den anderen oder nicht?

In [20]:
resultsVgl = {
    'Korpus':['EB vs. LP', 'LP vs. GB', 'EB vs. GB'], 
    }

### Test auf Unterschiede in der Frequenz

* Mann-Whitney-U-Test
* T-Test
* Effektstärke

In [21]:
# Mann-Whitney-U-Test
mwEB = stats.mannwhitneyu(dfEB[feat], dfLP[feat], alternative='two-sided')
mwLP = stats.mannwhitneyu(dfLP[feat], dfGB[feat], alternative='two-sided')
mwGB = stats.mannwhitneyu(dfEB[feat], dfGB[feat], alternative='two-sided')

resultsVgl['U-Test'] = [round(mwEB[1], 2), round(mwLP[1], 2), round(mwGB[1], 2)]
resultsVgl['U-Test']

[0.68, 0.0, 0.0]

In [22]:
resultsVgl['U-Test'] = [round(mwEB[1], 4), round(mwLP[1], 4), round(mwGB[1], 4)]
resultsVgl['U-Test']

[0.6806, 0.0004, 0.0012]

In [23]:
# T-Test
# "two-sided test for the null hypothesis that 2 independent samples have identical average (expected) values --> 
# independent samples = 2 unterschiedliche Korpora; Unterschied zu dependent s. Hartmann, Tutorial, S. 48"
ttEB = stats.ttest_ind(dfEB[feat], dfLP[feat])
ttLP = stats.ttest_ind(dfLP[feat], dfGB[feat])
ttGB = stats.ttest_ind(dfEB[feat], dfGB[feat])

resultsVgl['T-Test'] = [round(ttEB[1], 4), round(ttLP[1], 4), round(ttGB[1], 4)]
resultsVgl['T-Test']

[0.8359, 0.0, 0.0004]

In [24]:
# Effektstärke (Cohen's d)
# entsprechend Antwort von Bengt auf https://stackoverflow.com/questions/21532471/how-to-calculate-cohens-d-in-python
from math import sqrt
lenEB = len(dfEB[feat])
lenLP = len(dfLP[feat])
lenGB = len(dfGB[feat])

#sdEB, sdLP, sdVK von oben
cdEB = (amEB - amLP) / (sqrt((((lenEB - 1) * (sdEB ** 2)) + ((lenLP - 1) * (sdLP ** 2))) / (lenEB + lenLP -2)))
cdLP = (amLP - amGB) / (sqrt((((lenLP - 1) * (sdLP ** 2)) + ((lenGB - 1) * (sdGB ** 2))) / (lenLP + lenGB - 2)))
cdGB = (amEB - amGB) / (sqrt((((lenEB - 1) * (sdEB ** 2)) + ((lenGB - 1) * (sdGB ** 2))) / (lenEB + lenGB - 2)))

effect = [cdEB, cdLP, cdGB]
resultsVgl['Effekt'] = []

for i in effect:
    if abs(i) <= 0.2:
        x = 'klein'
    elif abs(i) > 0.2 and abs(i) < 0.4:
        x = 'klein – mittel'
    elif abs(i) >= 0.4 and abs(i) <= 0.6:
        x = 'mittel'
    elif abs(i) > 0.6 and abs(i) < 0.8:
        x = 'mittel – groß'
    elif abs(i) >= 0.8:
        x = 'groß'
    resultsVgl['Effekt'].append((x, round(abs(i), 2)))

resultsVgl['Effekt']

[('klein', 0.11), ('groß', 5.07), ('groß', 2.99)]

### Tests auf Ähnlichkeit in der Varianz 

In [25]:
# Varianzunterschied (Fligner-Killeen-Test)
# H0: Similar variances
fkEB = stats.fligner(dfEB[feat], dfLP[feat])
fkLP = stats.fligner(dfLP[feat], dfGB[feat])
fkGB = stats.fligner(dfEB[feat], dfGB[feat])

resultsVgl['Fligner-Killeen'] = [round(fkEB[1], 4), round(fkLP[1], 4), round(fkGB[1], 4)]
resultsVgl['Fligner-Killeen']

[0.0171, 0.7569, 0.3859]

In [26]:
# Varianzunterschied (Brown-Forsythe Test)
# H0: Similar variances
# default ist center="median", wodurch der Test auf Grundlage des Medians durchgeführt wird
# Levene-test wäre center="mean"; Abwandlung Brown-Forsythe-Test ist center="median"
bfEB = stats.levene(dfEB[feat], dfLP[feat])
bfLP = stats.levene(dfLP[feat], dfGB[feat])
bfGB = stats.levene(dfEB[feat], dfGB[feat])

resultsVgl['Brown-Forsythe'] = [round(bfEB[1], 4), round(bfLP[1], 4), round(bfGB[1], 4)]
resultsVgl['Brown-Forsythe']

[0.0224, 0.3251, 0.4705]

### Tests auf Ähnlichkeit in der Verteilung

In [27]:
# Verteilungsunterschied (two-sample Kolmogorov-Smirnov test)
# H0: Same distribution
arrEB = dfEB[feat].values
arrLP = dfLP[feat].values
arrVK = dfGB[feat].values

ksEB = stats.ks_2samp(arrEB, arrLP)
ksLP = stats.ks_2samp(arrLP, arrVK)
ksGB = stats.ks_2samp(arrEB, arrVK)

resultsVgl['Kolmogorov-Smirnov'] = [round(ksEB[1], 4), round(ksLP[1], 4), round(ksGB[1], 4)]
resultsVgl['Kolmogorov-Smirnov']

[0.0979, 0.0004, 0.0012]

## Finale Beurteilung des betrachteten Merkmals

In [28]:
dfResults = pd.DataFrame(resultsVgl).set_index(keys='Korpus')
dfResults.transpose()

Korpus,EB vs. LP,LP vs. GB,EB vs. GB
U-Test,0.6806,0.0004,0.0012
T-Test,0.8359,0.0,0.0004
Effekt,"(klein, 0.11)","(groß, 5.07)","(groß, 2.99)"
Fligner-Killeen,0.0171,0.7569,0.3859
Brown-Forsythe,0.0224,0.3251,0.4705
Kolmogorov-Smirnov,0.0979,0.0004,0.0012
