## Jupyter Notebook zur Erstellung von Säulendiagrammen

Zur Visualisierung der Ergebnisse aus der Berechnung der Levenshtein Distanzen werden Säulendiagramme erzeugt.
Dieses Notebook dient einerseits der Visualisierung der Gesamtdaten und andererseits der Visualisierung des Subsets, bei dem nur die Orte berücksichtigt werden, an denen der selbe Lehrer als Beantworter oder Einsender sowohl in der DWA als auch in der Maurer Befragung genannt wird. Somit gibt es die meisten Zellen in zweifacher Ausführung: einmal für das gesamte Datenset und einmal in abgeänderter Version für die Lehrerdaten.
Die Diagramme stützen sich auf zwei unterschiedliche Berechnungsarten: einerseits den binären Ansatz, bei dem nur festgestellt wird, ob die Grapheme übereinstimmen oder nicht und andererseits den quantitativen Ansatz, bei dem mittels der Levenshtein Distanz gemessen wird, welchen Grad der Übereinstimmung oder Nicht-Übereinstimmung es gibt.
Daraus ergeben sich zwei Diagrammarten. Durch den binären Ansatz können die Untersuchungsworte miteinander verglichen werden und der Unterschied zwischen den Worten in einem Diagram dargestellt werden. Bei dem quantitativen Ansatz werden die Unterschiede innerhalb der Untersuchungswortes dargestellt und für jedes dieser Worte ein eigenes Diagramm erstellt.
Bei jeder Diagrammart wird zwischen den Abstufungen "item", "phontype" und "lextype" unterschieden (bei dem Lehrer-Subset gibt es zusätzlich die Kategorie "org"), da diese nicht miteinander vergleichbar sind.

Der Code zur Erstellung der gruppierten Säulendiagramme mit korrekten Labels wurde zum Großteil von dieser Website übernommen: https://matplotlib.org/stable/gallery/lines_bars_and_markers/barchart.html.

In [54]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from collections import Counter

In [55]:
# Liste der Untersuchungsworte
# Vereinfacht die Automatisierungen verschidener Funktionen im weiteren Scriptverlauf
words = ["ameise", "begräbnis", "deichsel", "elster", "fledermaus", "gurke", "hagebutte", "hebamme", "kartoffel", "maulwurf", "pflaume", "stecknadel", "ziege", "zimmerfliege"]

In [56]:
import_path = "/home/kopatsch/Masterarbeit/MA/masterarbeit/data/lexem_gesamt/"

save_path = "/home/kopatsch/Masterarbeit/MA/masterarbeit/visual/bar_plots/bar_charts_lexem_added/"
category = "all_levenshtein_lexem_added_"
name = "lexem"
fill = ""

name_item = "Levenshtein_item"
name_phontype = "Levenshtein_phontype"
name_lextype = "Levenshtein_lextype"

In [57]:
# Gesamtdatensatz
# Erstellung von Dictionaries für die 3 Kategorien
# für jedes Abfragewort wird zusammengezählt, wie oft die Übereinstimmung True oder False ist
# Angaben von 999 (= keine Angabe) werden aus der Berechnung ausgeschlossen
item = {"True": [],
        "False": []}
phontype = {"True": [],
            "False": []}
lextype = {"True": [],
            "False": []}

#df = pd.read_csv(f"{import_path}", sep = "\t", index_col = False)
for word in words:

    df = pd.read_csv(f"{import_path}{category}{word}.csv", sep = "\t", index_col = False)

    word_item_true = 0
    word_item_false = 0

    #for i in df[f"{name_item}{word}"]:
    for i in df[f"{name_item}"]:
        i = int(i)
        if i == 0:
            word_item_true += 1
        elif i > 0 and i < 999:
            word_item_false += 1
        else:
            continue
    
    item["True"].append(word_item_true)
    item["False"].append(word_item_false)
    

    word_phontype_true = 0
    word_phontype_false = 0

    #for i in df[f"{name_phontype}{word}"]:
    for i in df[f"{name_phontype}"]:
        i = int(i)
        if i == 0:
            word_phontype_true += 1
        elif i > 0 and i < 999:
            word_phontype_false += 1
        else:
            continue
    
    phontype["True"].append(word_phontype_true)
    phontype["False"].append(word_phontype_false)


    word_lextype_true = 0
    word_lextype_false = 0

    #for i in df[f"{name_lextype}{word}"]:
    for i in df[f"{name_lextype}"]:
        i = int(i)
        if i == 0:
            word_lextype_true += 1
        elif i > 0 and i < 999:
            word_lextype_false += 1
        else:
            continue
    
    lextype["True"].append(word_lextype_true)
    lextype["False"].append(word_lextype_false)

In [58]:
# Erstellung Binär Graphik Item
# Berechnung der Übereinstimmung in Prozent

percentage_item = round(sum(item["True"])/(sum(item["True"]) + sum(item["False"])), 2)

x = np.arange(len(words))
width = 0.25
multiplier = 0

fig, ax = plt.subplots(layout='constrained')

for attribute, measurement in item.items():
    offset = width * multiplier
    rects = ax.bar(x + offset, measurement, width, label=attribute)
    multiplier += 1

ax.set_ylabel('Counts')
ax.set_title(f'Items {name}: {percentage_item} % Übereinstimmung Maurer/DWA')
ax.set_xticks(x + width, words)
ax.legend(loc='upper left', ncols=3)

plt.xticks(rotation=50, ha='right')
plt.savefig(f'{save_path}{category}{fill}gesamt_item.png')
plt.close()

In [59]:
# Erstellung Binär Graphik Phontype
# Berechnung der Übereinstimmung in Prozent

percentage_phontype = round(sum(phontype["True"])/(sum(phontype["True"]) + sum(phontype["False"])), 2)

x = np.arange(len(words))
width = 0.25
multiplier = 0

fig, ax = plt.subplots(layout='constrained')

for attribute, measurement in phontype.items():
    offset = width * multiplier
    rects = ax.bar(x + offset, measurement, width, label=attribute)
    multiplier += 1

ax.set_ylabel('Counts')
ax.set_title(f'Phontypes {name}: {percentage_phontype} % Übereinstimmung Maurer/DWA')
ax.set_xticks(x + width, words)
ax.legend(loc='upper left', ncols=3)

plt.xticks(rotation=50, ha='right')
plt.savefig(f'{save_path}{category}{fill}gesamt_phontype.png')
plt.close()

In [60]:
# Erstellung Binär Graphik Lextype
# Berechnung der Übereinstimmung in Prozent

percentage_lextype = round(sum(lextype["True"])/(sum(lextype["True"]) + sum(lextype["False"])), 2)

x = np.arange(len(words))
width = 0.25
multiplier = 0

fig, ax = plt.subplots(layout='constrained')

for attribute, measurement in lextype.items():
    offset = width * multiplier
    rects = ax.bar(x + offset, measurement, width, label=attribute)
    multiplier += 1

ax.set_ylabel('Counts')
ax.set_title(f'Lextypes {name}: {percentage_lextype} % Übereinstimmung Maurer/DWA')
ax.set_xticks(x + width, words)
ax.legend(loc='upper left', ncols=3)

plt.xticks(rotation=50, ha='right')
plt.savefig(f'{save_path}{category}{fill}gesamt_lextype.png')
plt.close()

In [61]:
# Gesamtdatensatz
# Erstellung der Säulendiagramme, die die Levenshtein Verteilung pro Untersuchungswort zeigen

#df = pd.read_csv(f"{import_path}", sep = "\t", index_col = False)
for w in words:
    df = pd.read_csv(f"{import_path}{category}{w}.csv", sep = "\t", index_col = False)
    #df2 = df[df[f'{name_item}{word}'] != 999]
    df2 = df[df[f'{name_item}'] != 999]
    #c2 = Counter(df2[f'{name_item}{word}'])
    c2 = Counter(df2[f'{name_item}'])
    #df3 = df[df[f'{name_phontype}{word}'] != 999]
    df3 = df[df[f'{name_phontype}'] != 999]
    #c3 = Counter(df3[f'{name_phontype}{word}'])
    c3 = Counter(df3[f'{name_phontype}'])
    #df4 = df[df[f'{name_lextype}{word}'] != 999]
    df4 = df[df[f'{name_lextype}'] != 999]
    #c4 = Counter(df3[f'{name_lextype}{word}'])
    c4 = Counter(df3[f'{name_lextype}'])

    percentage_item = round((c2[0])/(sum(c2.values())), 2)
    item_x_values = c2.keys()
    item_y_values = c2.values()
    plt.bar(item_x_values, item_y_values)
    plt.title(f"Item {w} {name} {percentage_item} % Übereinstimmung Maurer/DWA")
    plt.xlabel("Levenshtein Distanz")
    plt.ylabel("Counts")
    plt.plot()
    plt.savefig(f'{save_path}{category}{fill}{w}_item.png')
    plt.close()

    percentage_phontype = round((c3[0])/(sum(c3.values())), 2)
    phontype_x_values = c3.keys()
    phontype_y_values = c3.values()
    plt.bar(phontype_x_values, phontype_y_values)
    plt.title(f"Phontype {w} {name} {percentage_phontype} % Übereinstimmung Maurer/DWA")
    plt.xlabel("Levenshtein Distanz")
    plt.ylabel("Counts")
    plt.plot()
    plt.savefig(f'{save_path}{category}{fill}{w}_phontype.png')
    plt.close()

    percentage_lextype = round((c4[0])/(sum(c4.values())), 2)
    lextype_x_values = c4.keys()
    lextype_y_values = c4.values()
    plt.bar(lextype_x_values, lextype_y_values)
    plt.title(f"Lextype {w} {name} {percentage_lextype} % Übereinstimmung Maurer/DWA")
    plt.xlabel("Levenshtein Distanz")
    plt.ylabel("Counts")
    plt.plot()
    plt.savefig(f'{save_path}{category}{fill}{w}_lextype.png')
    plt.close()