In [9]:
# NOMEN:
# Überprüfen des Speicherortes und der Datei durch Ausgabe der ersten Zeilen
import pandas as pd

file_path = "Nomen f. Kontigenztabelle.xlsx"  
df = pd.ExcelFile(file_path).parse('Nomen für Kontingenztabelle')

# Zeigen der ersten 4 Zeilen 
df.head()

Unnamed: 0,Wort,BNE Absolut,childLex Absolut,Nachrichten Absolut,BNE Gesamt,childLex Gesamt,Nachrichten Gesamt
0,Klimawandel,826,2,20093,42600,120000,5674456
1,Aufgabe,655,590,41687,42600,120000,5674456
2,Nachhaltigkeit,650,0,17484,42600,120000,5674456
3,Erde,631,1537,25517,42600,120000,5674456
4,Umwelt,609,35,20630,42600,120000,5674456


In [5]:
# NOMEN:
# Python-Bibliotheken anwenden 
import pandas as pd
from scipy.stats import chi2_contingency

# Einlesen der Excel-Datei - Liste der Nomen
file_path = 'Nomen f. Kontigenztabelle.xlsx' 
df = pd.ExcelFile(file_path).parse('Nomen für Kontingenztabelle')

# Berechnung der relativen Häufigkeiten
df['BNE Relativ (%)'] = (df['BNE Absolut'] / df['BNE Gesamt']) * 100
df['childLex Relativ (%)'] = (df['childLex Absolut'] / df['childLex Gesamt']) * 100
df['Nachrichten Relativ (%)'] = (df['Nachrichten Absolut'] / df['Nachrichten Gesamt']) * 100

# Ergebnisse für Chi-Quadrat-Tests speichern
pairwise_results = []

# Vergleich 1: BNE-Korpus (Korpus 1) vs. ChildLex (Korpus 2)
for index, row in df.iterrows():
    observed_bne_childlex = [
        [row['BNE Absolut'], row['BNE Gesamt'] - row['BNE Absolut']],
        [row['childLex Absolut'], row['childLex Gesamt'] - row['childLex Absolut']]
    ]
    chi2_stat_bne_childlex, p_value_bne_childlex, dof_bne_childlex, _ = chi2_contingency(observed_bne_childlex)
    pairwise_results.append({
        'Wort': row['Wort'],
        'Vergleich': 'BNE vs. ChildLex',
        'Chi2-Statistik': chi2_stat_bne_childlex,
        'P-Wert': p_value_bne_childlex,
        'Freiheitsgrade': dof_bne_childlex
    })

# Vergleich 2: BNE-Korpus (Korpus 1) vs. Nachrichten-Korpus (Korpus 3)
for index, row in df.iterrows():
    observed_bne_nachrichten = [
        [row['BNE Absolut'], row['BNE Gesamt'] - row['BNE Absolut']],
        [row['Nachrichten Absolut'], row['Nachrichten Gesamt'] - row['Nachrichten Absolut']]
    ]
    chi2_stat_bne_nachrichten, p_value_bne_nachrichten, dof_bne_nachrichten, _ = chi2_contingency(observed_bne_nachrichten)
    pairwise_results.append({
        'Wort': row['Wort'],
        'Vergleich': 'BNE vs. Nachrichten',
        'Chi2-Statistik': chi2_stat_bne_nachrichten,
        'P-Wert': p_value_bne_nachrichten,
        'Freiheitsgrade': dof_bne_nachrichten
    })

# DataFrame
pairwise_df = pd.DataFrame(pairwise_results)

# Anzahl der Tests festlegen und neues Signifikanzniveau berechnen
num_tests = 314  # 150 (bzw. 157) Wörter mit 2 Paar-Vergleichen = 300 Tests / Nach Anpassung = 314
alpha = 0.05  # Ursprüngliches Signifikanzniveau
alpha_corrected = alpha / num_tests  # Bonferroni-korrigiertes Signifikanzniveau

# Bonferroni-Korrektur
pairwise_df['Bonferroni-Korrigierter P-Wert'] = pairwise_df['P-Wert'] * num_tests

# Überprüfen, ob p-Werte nach der Korrektur signifikant sind
pairwise_df['Signifikant (Bonferroni)'] = pairwise_df['Bonferroni-Korrigierter P-Wert'] < alpha

# Neues Signifikanzniveau
print(f"Bonferroni-korrigiertes Signifikanzniveau: {alpha_corrected}")

# Ergebnisse abspeichern im gleichen Ordner
pairwise_output_path = 'Nomen_Pairwise_Chi2_Ergebnisse2.xlsx'
bonferroni_output_path = 'Nomen_Bonferroni_Chi2_Ergebnisse2.xlsx'
df.to_excel('Nomen_Relative_Haeufigkeiten2.xlsx', index=False)
pairwise_df.to_excel(pairwise_output_path, index=False)
pairwise_df.to_excel(bonferroni_output_path, index=False)

# Ausgabe der Dateinamen
print(f'Resultate gespeichert als: {pairwise_output_path} und {bonferroni_output_path}')

Bonferroni-korrigiertes Signifikanzniveau: 0.00015923566878980894
Resultate gespeichert als: Nomen_Pairwise_Chi2_Ergebnisse2.xlsx und Nomen_Bonferroni_Chi2_Ergebnisse2.xlsx


In [6]:
# VERBEN:
# Überprüfen des Speicherortes und der Datei durch Ausgabe der ersten Zeilen

file_path = "Verben für Kontigenztabelle.xlsx"  
df = pd.ExcelFile(file_path).parse('Verben f. Kontigenztabelle')

# Zeigen der ersten 4 Zeilen
df.head()

Unnamed: 0,Wort,BNE Absolut,childLex Absolut,Nachrichten Absolut,BNE Gesamt,childLex Gesamt,Nachrichten Gesamt
0,kaufen,310,868,36607,42600,120000,5674456
1,verbrauchen,269,0,4269,42600,120000,5674456
2,handeln,259,539,26425,42600,120000,5674456
3,herstellen,199,124,5186,42600,120000,5674456
4,benötigen,186,38,15261,42600,120000,5674456


In [7]:
# VERBEN:
# Einlesen der Excel-Datei
file_path = 'Verben für Kontigenztabelle.xlsx' 
df = pd.ExcelFile(file_path).parse('Verben f. Kontigenztabelle')

# Berechnung der relativen Häufigkeiten
df['BNE Relativ (%)'] = (df['BNE Absolut'] / df['BNE Gesamt']) * 100
df['childLex Relativ (%)'] = (df['childLex Absolut'] / df['childLex Gesamt']) * 100
df['Nachrichten Relativ (%)'] = (df['Nachrichten Absolut'] / df['Nachrichten Gesamt']) * 100

# Ergebnisse für Chi-Quadrat-Tests speichern
pairwise_results = []

# Vergleich 1: BNE-Korpus (Korpus 1) vs. ChildLex (Korpus 2)
for index, row in df.iterrows():
    observed_bne_childlex = [
        [row['BNE Absolut'], row['BNE Gesamt'] - row['BNE Absolut']],
        [row['childLex Absolut'], row['childLex Gesamt'] - row['childLex Absolut']]
    ]
    chi2_stat_bne_childlex, p_value_bne_childlex, dof_bne_childlex, _ = chi2_contingency(observed_bne_childlex)
    pairwise_results.append({
        'Wort': row['Wort'],
        'Vergleich': 'BNE vs. ChildLex',
        'Chi2-Statistik': chi2_stat_bne_childlex,
        'P-Wert': p_value_bne_childlex,
        'Freiheitsgrade': dof_bne_childlex
    })

# Vergleich 2: BNE-Korpus (Korpus 1) vs. Nachrichten-Korpus (Korpus 3)
for index, row in df.iterrows():
    observed_bne_nachrichten = [
        [row['BNE Absolut'], row['BNE Gesamt'] - row['BNE Absolut']],
        [row['Nachrichten Absolut'], row['Nachrichten Gesamt'] - row['Nachrichten Absolut']]
    ]
    chi2_stat_bne_nachrichten, p_value_bne_nachrichten, dof_bne_nachrichten, _ = chi2_contingency(observed_bne_nachrichten)
    pairwise_results.append({
        'Wort': row['Wort'],
        'Vergleich': 'BNE vs. Nachrichten',
        'Chi2-Statistik': chi2_stat_bne_nachrichten,
        'P-Wert': p_value_bne_nachrichten,
        'Freiheitsgrade': dof_bne_nachrichten
    })

# DataFrame
pairwise_df = pd.DataFrame(pairwise_results)

# Anzahl der Tests festlegen und neues Signifikanzniveau berechnen
num_tests = 314  # 150 (bzw. 157) Wörter mit 2 Paar-Vergleichen = 300 Tests / Nach Anpassung = 314
alpha = 0.05  # Ursprüngliches Signifikanzniveau
alpha_corrected = alpha / num_tests  # Bonferroni-korrigiertes Signifikanzniveau

# Bonferroni-Korrektur
pairwise_df['Bonferroni-Korrigierter P-Wert'] = pairwise_df['P-Wert'] * num_tests

# Überprüfen, ob p-Werte nach der Korrektur signifikant sind
pairwise_df['Signifikant (Bonferroni)'] = pairwise_df['Bonferroni-Korrigierter P-Wert'] < alpha

# Neues Signifikanzniveau
print(f"Bonferroni-korrigiertes Signifikanzniveau: {alpha_corrected}")

# Ergebnisse abspeichern im gleichen Ordner
pairwise_output_path = 'Verben_Pairwise_Chi2_Ergebnisse.xlsx'
bonferroni_output_path = 'Verben_Bonferroni_Chi2_Ergebnisse.xlsx'
df.to_excel('Verben_Relative_Haeufigkeiten.xlsx', index=False)
pairwise_df.to_excel(pairwise_output_path, index=False)
pairwise_df.to_excel(bonferroni_output_path, index=False)

# Ausgabe der Dateinamen
print(f'Resultate gespeichert als: {pairwise_output_path} und {bonferroni_output_path}')

Bonferroni-korrigiertes Signifikanzniveau: 0.00015923566878980894
Resultate gespeichert als: Verben_Pairwise_Chi2_Ergebnisse.xlsx und Verben_Bonferroni_Chi2_Ergebnisse.xlsx


In [10]:
# ADJEKTIVE:
# Überprüfen des Speicherortes und der Datei durch Ausgabe der ersten Zeilen

file_path = "Adjektive für Kontigenztabelle.xlsx"  
df = pd.ExcelFile(file_path).parse('Sheet1')

# Zeigen der ersten 4 Zeilen
df.head()

Unnamed: 0,Wort,BNE Absolut,childLex Absolut,Nachrichten Absolut,BNE Gesamt,childLex Gesamt,Nachrichten Gesamt
0,nachhaltig,665,4,16004,42600,120000,5674456
1,global,624,4,3506,42600,120000,5674456
2,verschieden,340,683,1860,42600,120000,5674456
3,unterschiedlich,223,182,13850,42600,120000,5674456
4,kulturell,221,2,1210,42600,120000,5674456


In [11]:
# ADJEKTIVE:
# Einlesen der Excel-Datei 
file_path = 'Adjektive für Kontigenztabelle.xlsx' 
df = pd.ExcelFile(file_path).parse('Sheet1')

# Berechnung der relativen Häufigkeiten
df['BNE Relativ (%)'] = (df['BNE Absolut'] / df['BNE Gesamt']) * 100
df['childLex Relativ (%)'] = (df['childLex Absolut'] / df['childLex Gesamt']) * 100
df['Nachrichten Relativ (%)'] = (df['Nachrichten Absolut'] / df['Nachrichten Gesamt']) * 100

# Ergebnisse für Chi-Quadrat-Tests speichern
pairwise_results = []

# Vergleich 1: BNE-Korpus (Korpus 1) vs. ChildLex (Korpus 2)
for index, row in df.iterrows():
    observed_bne_childlex = [
        [row['BNE Absolut'], row['BNE Gesamt'] - row['BNE Absolut']],
        [row['childLex Absolut'], row['childLex Gesamt'] - row['childLex Absolut']]
    ]
    chi2_stat_bne_childlex, p_value_bne_childlex, dof_bne_childlex, _ = chi2_contingency(observed_bne_childlex)
    pairwise_results.append({
        'Wort': row['Wort'],
        'Vergleich': 'BNE vs. ChildLex',
        'Chi2-Statistik': chi2_stat_bne_childlex,
        'P-Wert': p_value_bne_childlex,
        'Freiheitsgrade': dof_bne_childlex
    })

# Vergleich 2: BNE-Korpus (Korpus 1) vs. Nachrichten-Korpus (Korpus 3)
for index, row in df.iterrows():
    observed_bne_nachrichten = [
        [row['BNE Absolut'], row['BNE Gesamt'] - row['BNE Absolut']],
        [row['Nachrichten Absolut'], row['Nachrichten Gesamt'] - row['Nachrichten Absolut']]
    ]
    chi2_stat_bne_nachrichten, p_value_bne_nachrichten, dof_bne_nachrichten, _ = chi2_contingency(observed_bne_nachrichten)
    pairwise_results.append({
        'Wort': row['Wort'],
        'Vergleich': 'BNE vs. Nachrichten',
        'Chi2-Statistik': chi2_stat_bne_nachrichten,
        'P-Wert': p_value_bne_nachrichten,
        'Freiheitsgrade': dof_bne_nachrichten
    })

# DataFrame
pairwise_df = pd.DataFrame(pairwise_results)

# Anzahl der Tests festlegen und neues Signifikanzniveau berechnen
num_tests = 314  # 150 (bzw. 157) Wörter mit 2 Paar-Vergleichen = 300 Tests / Nach Anpassung = 314
alpha = 0.05  # Ursprüngliches Signifikanzniveau
alpha_corrected = alpha / num_tests  # Bonferroni-korrigiertes Signifikanzniveau

# Bonferroni-Korrektur
pairwise_df['Bonferroni-Korrigierter P-Wert'] = pairwise_df['P-Wert'] * num_tests

# Überprüfen, ob p-Werte nach der Korrektur signifikant sind
pairwise_df['Signifikant (Bonferroni)'] = pairwise_df['Bonferroni-Korrigierter P-Wert'] < alpha

# Neues Signifikanzniveau
print(f"Bonferroni-korrigiertes Signifikanzniveau: {alpha_corrected}")

# Ergebnisse abspeichern im gleichen Ordner
pairwise_output_path = 'Adjektive_Pairwise_Chi2_Ergebnisse2.xlsx'
bonferroni_output_path = 'Adjektive_Bonferroni_Chi2_Ergebnisse2.xlsx'
df.to_excel('Adjektive_Relative_Haeufigkeiten2.xlsx', index=False)
pairwise_df.to_excel(pairwise_output_path, index=False)
pairwise_df.to_excel(bonferroni_output_path, index=False)

# Ausgabe der Dateinamen
print(f'Resultate gespeichert als: {pairwise_output_path} und {bonferroni_output_path}')

Bonferroni-korrigiertes Signifikanzniveau: 0.00015923566878980894
Resultate gespeichert als: Adjektive_Pairwise_Chi2_Ergebnisse2.xlsx und Adjektive_Bonferroni_Chi2_Ergebnisse2.xlsx
