## Jupyter Notebook zur Zusammenfassung der Word-Datensätze in einer Gesamtdatei

Um das Lehrer-Subset erstellen zu können, erscheint es sinnvoll, eine Datei zu haben, in der zu jedem Fragebogen alle Worte zusammengefasst sind.

In [5]:
import pandas as pd
import os

In [6]:
class Bogen:
    def __init__(self, fragebogen, gid, long, lat, org, item, phontype, lextype, beleg, erhebung):
        """
        Parameters:
        fragebogen(str)
        gid(int)
        long(float)
        lat(float)
        beleg(int)
        erhebung(str)

        Returns:
        Bogen object instance
        """
        self.fragebogen = fragebogen
        self.gid = gid
        self.long = long
        self.lat = lat

        self.org = org
        self.item = item
        self.phontype = phontype
        self.lextype = lextype
        
        self.beleg = beleg
        self.erhebung = erhebung

In [7]:
path = "/home/kopatsch/Masterarbeit/MA/masterarbeit/data/csv/"
entries = os.listdir(path)
entries = sorted(entries)

ameise = []
begräbnis = []
deichsel = []
elster = []
fledermaus = []
gurke = []
hagebutte = []
hebamme = []
kartoffel = []
maulwurf = []
pflaume = []
stecknadel = []
ziege = []
zimmerfliege = []

variables = [ameise, begräbnis, deichsel, elster, fledermaus, gurke, hagebutte, hebamme, kartoffel, maulwurf, pflaume, stecknadel, ziege, zimmerfliege]

# für alle Wort-Dateien wird eine Liste mit Objektinstanzen erstellt
index = 0
for entry in entries:
    df_word = pd.read_csv(f"{path}{entry}", sep = "\t")
    df_trans = df_word.T

    for i in df_trans:
        bogen_object = Bogen(df_trans[i][1], df_trans[i][3], df_trans[i][4], df_trans[i][5], df_trans[i][6], df_trans[i][7], df_trans[i][8], df_trans[i][9], df_trans[i][10], df_trans[i][11])
        variables[index].append(bogen_object)
    
    index += 1

In [8]:
def unique(word, liste):
    index = 1
    ende = len(word)

    save_list = []
    
    for ob1 in word:
        switch = False
        if (index + 1) != ende:
            # um Rechenzeit zu sparen werden nur die Elemente mit i abgeglichen,
            # die in der Liste nach i kommen
            for ob2 in word[index::]:
                if ob1.fragebogen == ob2.fragebogen:
                    # org besteht bereits aus allem Belegen für einen Fragebogen
                    ob2.item += f", {ob1.item}"
                    ob2.phontype += f", {ob1.phontype}"
                    ob2.lextype += f", {ob1.lextype}"
                    switch = True
                    # sobald eine Übereinstimmung gefunden wurde, bricht die Liste ab
                    # die aktuelle Information ist immer im "letzten" Objekt enthalten
                    break
            # wenn der switch False bleibt, wurden keine weiteren Belege für diesen Fragebogen gefunden
            # der Fragebogen kommt entweder nur 1 Mal vor oder er enthält bereits alle Belege
            if switch == False:
                save_list.append(ob1)
        else:
            save_list.append(ob1)
        index += 1
    
    liste.append(save_list)

In [9]:
gesamt_list = []
for var in variables:
    unique(var, gesamt_list)

In [10]:
df_ameise = pd.DataFrame()
df_begräbnis = pd.DataFrame()
df_deichsel = pd.DataFrame()
df_elster = pd.DataFrame()
df_fledermaus = pd.DataFrame()
df_gurke = pd.DataFrame()
df_hagebutte = pd.DataFrame()
df_hebamme = pd.DataFrame()
df_kartoffel = pd.DataFrame()
df_maulwurf = pd.DataFrame()
df_pflaume = pd.DataFrame()
df_stecknadel = pd.DataFrame()
df_ziege = pd.DataFrame()
df_zimmerfliege = pd.DataFrame()

In [11]:
# zur Erstellung des DataFrames werden Listen von gleicher Länge gebraucht, 
# die als Spalten übergeben werden können
def make_dataframe(liste, df, word):
    fragebogen = []
    long = []
    lat = []
    erhebung = []
    org = []
    item = []
    phontype = []
    lextype = []

    for i in liste:
        fragebogen.append(i.fragebogen)
        long.append(i.long)
        lat.append(i.lat)
        erhebung.append(i.erhebung)

        org.append(i.org)
        item.append(i.item)
        phontype.append(i.phontype)
        lextype.append(i.lextype)

    df["Fragebogen Nr."] = fragebogen
    df["Longitude"] = long
    df["Latitude"] = lat
    df["Erhebung"] = erhebung
    df[f"org {word}"] = org
    df[f"item {word}"] = item
    df[f"phontype {word}"] = phontype
    df[f"lextype {word}"] = lextype

In [12]:
make_dataframe(gesamt_list[0], df_ameise, "ameise")
make_dataframe(gesamt_list[1], df_begräbnis, "begräbnis")
make_dataframe(gesamt_list[2], df_deichsel, "deichsel")
make_dataframe(gesamt_list[3], df_elster, "elster")
make_dataframe(gesamt_list[4], df_fledermaus, "fledermaus")
make_dataframe(gesamt_list[5], df_gurke, "gurke")
make_dataframe(gesamt_list[6], df_hagebutte, "hagebutte")
make_dataframe(gesamt_list[7], df_hebamme, "hebamme")
make_dataframe(gesamt_list[8], df_kartoffel, "kartoffel")
make_dataframe(gesamt_list[9], df_maulwurf, "maulwurf")
make_dataframe(gesamt_list[10], df_pflaume, "pflaume")
make_dataframe(gesamt_list[11], df_stecknadel, "stecknadel")
make_dataframe(gesamt_list[12], df_ziege, "ziege")
make_dataframe(gesamt_list[13], df_zimmerfliege, "zimmerfliege")

In [13]:
df_gesamt = pd.merge(df_ameise, df_begräbnis, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_deichsel, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_elster, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_fledermaus, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_gurke, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_hagebutte, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_hebamme, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_kartoffel, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_maulwurf, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_pflaume, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_stecknadel, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_ziege, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])
df_gesamt = pd.merge(df_gesamt, df_zimmerfliege, how = "outer", on = ["Fragebogen Nr.", "Longitude", "Latitude", "Erhebung"])

In [14]:
# kleine Korrekturen für die Weiterverwewndung
df_gesamt = df_gesamt.replace("nan", "na")
df_gesamt = df_gesamt.fillna("na")

In [15]:
# speichern
df_gesamt.to_csv("/home/kopatsch/Masterarbeit/MA/masterarbeit/data/csv_gesamt/all_words.csv", sep = "\t")