# Daten-Visualisierung

Das vorliegende Jupyter-Notebook dient dazu, Statistiken zu den Korpus-Annotationen zu visualisieren.
Dieses Notebook ermöglicht es, ein oder mehrere Subkorpora (in der Form mehrerer XMI-Dateien) zu einem großen Korpus zusammenzufassen.

## Setup

Setup. Muss ausgeführt werden, wenn das Notebook in Colab ausgeführt wird.

In [None]:
# Check if the code is running in Google Colab
if 'google.colab' in str(get_ipython()):
    from google.colab import drive
    drive.mount('/content/drive')
    !git clone https://github.com/maria-becker/Moralization/
    %cd "/content/Moralization/Annotation Analysis Tools/data_analysis"
else:
    print("This code should be run in Google Colab only.")

Die import-Statements müssen immer ausgeführt werden.

In [None]:
from analysis_functions import (
    annotation_visualizations,
    _corpus_extraction_ as corpus_extraction,
    _util_ as util
)

Hier bitte eine Liste *file_list* erstellen, die die Dateipfade zu allen Korpusdateien enthält, die ihr analysieren wollt.
+ *Am einfachsten erhält man einen Dateipfad, indem man die Datei im Ordersystem rechtsklickt und dann -> 'Pfad kopieren' auswählt. Und unbedingt den Pfad in Anführungszeichen setzen und davor ein kleines "r"!*
+ *Wer sich ein bisschen auskennt, kann zum Erstellen der Liste auch das os-Modul benutzen, das aus diesem Grund oben importiert wurde.*

Bei der Erstellung des corpus-Objekts ist zu beachten, welche Sprache(n) in eurem Korpus vertreten sind. Ist es sowohl Deutsch als auch die Fremdsprachen, muss *"all"* angegeben werde, für nur Deutsch *"de"* und für andere Sprachkombinationen kann ein beliebiger anderer String übergeben werden (z.B. *"fremd"*).

In [None]:
# Create a list by hand
file = '/home/brunobrocai/Desktop/Code/moralization/Testfiles/test_gerichtsurteile_DE.xmi'
corpus = corpus_extraction.Corpus(file, 'de')

In [None]:
# Create a list via the list_xmis_in_directory() function
directory_path = '/home/brunobrocai/Data/Moralization/Zeitungs_XMIs'

file_list = util.list_xmis_in_directory(directory_path)
corpus = corpus_extraction.Corpus(file_list, 'de')

Vielleicht möchten wir nicht alle Annotationen auswerten. In diesem Fall können wir die Annotationen, die wir nicht auswerten wollen, herausfiltern.

In [None]:
# Filter unwanted labels
corpus.filter_out("protagonists", ["Kein Bezug"])
corpus.filter_out("protagonists_doubles", ["Kein Bezug"])

## Analyse 1: Frequenzen

Die folgende Funktion gibt an, **wie häufig es ist, dass ein Label n Mal in einer Moralisierung vergeben wird** (*Beispiel: Oft gibt es zwei Protagonisten in einer Moralisierung, aber nur selten sechs oder sieben.*).

+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite Parameter - *label_type* - ist die Kategorie des Phänomens, von denen wir wissen wollen, wie oft sie in den Moralisierungen auftauchen. Verwendet werden können:
  + *obj_morals*: Alle Moralwerte, die keine subjektiven Ausdrücke sind
  + *subj_morals*: Moralwerte, die subjektive Ausdrücke sind
  + *all_morals*: Alle Moralwerte
  + *protagonists*: Alle Protagonisten-Token
  + *protagonists_doubles*: Alle Protagonisten-Rollen (Achtung: manche Protagonisten-Token werden dabei doppelt gezählt - nämlich, wenn sie mehrere Rollen haben)
  + *com_functions*: Kommunikative Funktionen
  + *expl_demands*: Explizite Forderungen
  + *impl_demands*: Implizite Forderungen
  + *all_demands*: Alle Forderungen
+ Der Parameter *plot* gibt an, ob die Daten als Tabelle (*False*) oder als Säulendiagramm (*True*) visualisiert werden sollen.
+ Der Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.


In [None]:
annotation_visualizations.freq_inside_spans(
    corpus,
    category="obj_morals",
    plot=True,
    export=False
)

---

Die folgende Funktion wertet die **Häufigkeiten verschiedener Label einer Kategorie** aus. Es gibt folgende Funktionen:

Die Funktion hat folgende Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite Parameter ist die Annotations-Kategorie, die ausgewertet werden soll. Möglich sind:
  + *obj_morals*: Alle Moralwerte, die keine subjektiven Ausdrücke sind
  + *subj_morals*: Moralwerte, die subjektive Ausdrücke sind
  + *all_morals*: Alle Moralwerte
  + *prot_roles*: Protagonisten-Rollen
  + *prot_groups*: Protagonisten-Gruppentypen
  + *com_functions*: Kommunikative Funktionen
  + *demands*: implizite und explizite Forderungen
+ Der vorletzte Parameter *plot* gibt an, ob die Daten als Tabelle (*False*) oder als Säulendiagramm (*True*) visualisiert werden sollen.
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.


In [None]:
annotation_visualizations.label_frequency(
    corpus,
    category="all_morals",
    plot=True,
    export=False
)

## Analyse 1.5: Protagonisten-Zusammenhänge
Die Protagonisten-Kategorie ist interessant, weil für Protagonisten gleich mehrere Label vergeben werden. Mit folgenden Funktionen kann berechnet werden, wie diese zusammenhängen.

Drei Funktionen sind verfügbar:
1. *roles_and_groups()* - Zusammenhang zw. Rollen- und Gruppenlabel
2. *roles_and_ownother()* - Zusammenhang zw. Rollen- und Gruppenzugehörigkeitslabel
3. *groups_and_ownother()* - Zusammenhang zw. Gruppen- und Gruppenzugehörigkeitslabel

Alle Funktionen haben folgende Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der vorletzte Parameter *percent* gibt an, ob die Daten als Prozent der Spaltensumme (*True*) oder nicht (*False*) ausgegeben werden sollen.
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
annotation_visualizations.roles_and_groups(
    corpus,
    export=False,
)

## Analyse 2: Label-Kookkurenzen
Mit folgender Funktion kann ermittelt werden, ob manche Label überzufällig häufig mit anderen Label auftauchen.

Die Funktion *association_measure* berechnet PMI (pointwise mutual information) für die Label-Okkurenzen innerhalb von moralisierenden Spans.

Die Funktion *association_measure* hat folgende Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite und der dritte Parameter sind die Label, deren Kookurrenzen innerhalb von Moralisierungen untersucht werden sollen. Folgende Label stehen zur Verfügung:
    + obj_morals
    + subj_morals
    + all_morals
    + prot_roles
    + prot_groups
    + com_functions
    + demands
+ Der Parameter *significance* gibt an, ob zusätzlich zum PMI das statistische Signifikanzniveau der Verteilung (mittels Fischers Exaktem Text) berechnet werden soll.
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
annotation_visualizations.association_measure(
    corpus,
    "all_morals",
    "all_morals",
    significance=True,
    export=True
)