# Daten-Visualisierung (Korpussammlung)

Das vorliegende Jupyter-Notebook dient dazu, Statistiken zu den Korpus-Annotationen zu visualisieren.
Dieses Notebook ermöglicht es, mehrere Subkorpora (in der Form mehrerer XMI-Dateien) zu einem großen Korpus zusammenzufassen. Einzelne Subkorpora können ebenfalls hiermit analysiert werden, ein bisschen einfacher ist es aber mit dem Notebook analysis_notebook_single.

## Setup

Setup. Muss ausgeführt werden, wenn das Notebook in Colab ausgeführt wird.

In [None]:
from google.colab import drive
drive.mount('/content/drive')
!git clone https://github.com/maria-becker/Moralization/
%cd "/content/Moralization/Annotation Analysis Tools/data_analysis"

Die import-Statements müssen immer ausgeführt werden.

In [1]:
import annotation_stats_collection as astats
import corpus_extraction as ce
import label_analysis as la
import os

Hier bitte eine Liste *file_list* erstellen, die die Dateipfade zu allen Korpusdateien enthält, die ihr analysieren wollt.
+ *Am einfachsten erhält man einen Dateipfad, indem man die Datei im Ordersystem rechtsklickt und dann -> 'Pfad kopieren' auswählt. Und unbedingt den Pfad in Anführungszeichen setzen und davor ein kleines "r"!*
+ *Wer sich ein bisschen auskennt, kann zum Erstellen der Liste auch das os-Modul benutzen, das aus diesem Grund oben importiert wurde.*

Bei der Erstellung des corpus-Objekts ist zu beachten, welche Sprache(n) in eurem Korpus vertreten sind. Ist es sowohl Deutsch als auch die Fremdsprachen, muss *"all"* angegeben werde, für nur Deutsch *"de"* und für andere Sprachkombinationen kann ein beliebiger anderer String übergeben werden (z.B. *"fremd"*).

In [2]:
file_list = [
    r"filepath1",
	r"filepath2"
]
corpus = ce.CorpusCollection(file_list, language="fremd")

## Analyse 1: Frequenzen

Die folgende Funktion gibt an, **wie häufig es ist, dass ein Label n Mal in einer Moralisierung vergeben wird** (*Beispiel: Oft gibt es zwei Protagonisten in einer Moralisierung, aber nur selten sechs oder sieben.*).

+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite Parameter - *label_type* - ist die Kategorie des Phänomens, von denen wir wissen wollen, wie oft sie in den Moralisierungen auftauchen. Verwendet werden können:
  + *obj_morals*: Alle Moralwerte, die keine subjektiven Ausdrücke sind
  + *subj_morals*: Moralwerte, die subjektive Ausdrücke sind
  + *all_morals*: Alle Moralwerte
  + *protagonists*: Alle Protagonisten-Token
  + *protagonists_doubles*: Alle Protagonisten-Rollen (Achtung: manche Protagonisten-Token werden dabei doppelt gezählt - nämlich, wenn sie mehrere Rollen haben)
  + *com_functions*: Kommunikative Funktionen
  + *expl_demands*: Explizite Forderungen
  + *impl_demands*: Implizite Forderungen
  + *all_demands*: Alle Forderungen
+ Der Parameter *plot* gibt an, ob die Daten als Tabelle (*False*) oder als Säulendiagramm (*True*) visualisiert werden sollen.
+ Der Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.


In [None]:
astats.freq_inside_spans_collection(corpus,
									label_type="all_morals",
									plot=True)

---

Die folgende Funktionen wertet die **Häufigkeiten verschiedener Label einer Kategorie** aus. Es gibt folgende Funktionen:
1. *moral_values_freq()* - Moralwerte
   + Hier ist zu beachten, welche Moralwerte *("all", "obj" oder "subj." ausgewertet werden sollen). Es wird mit dem Parameter *moral_type* weitergegeben.
   + *sum_dimensions* gibt an, ob MFT-Dimensionspaare (z.B. Care-Harm) zusammen (*True*) oder getrennt (*False*) ausgegeben werden sollen.
2. *protagonist_role_freq()* - Protagonisten-Rollen
3. *protagonist_group_freq()* - Protagonisten-Typen/Gruppen (Individuum, Institution usw.)
4. *protagonist_ownother_freq()* - Protagonisten-Gruppenzuschreibungen
5. *comfunction_freq()* - Kommunikative Funktionen
6. *demand_freq()* - Forderungstypen

Alle Funktionen haben folgende Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der vorletzte Parameter *plot* gibt an, ob die Daten als Tabelle (*False*) oder als Säulendiagramm (*True*) visualisiert werden sollen.
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.


In [None]:
astats.moral_values_freq_collection(corpus,
                                    moral_type="all",
                                    sum_dimensions=False,
                                    plot=True,
                                    export=False)

In [None]:
astats.protagonist_role_freq_collection(corpus,
                                        plot=True,
                                        export=False)

In [None]:
astats.protagonist_group_freq_collection(corpus,
                                         plot=True,
                                         export=False)

In [None]:
astats.protagonist_ownother_freq_collection(corpus,
                                            plot=True,
                                            export=False)

In [None]:
astats.comfunction_freq_collection(corpus,
                                   plot=True,
                                   export=False)

In [None]:
astats.demand_freq_collection(corpus,
                              plot=True,
                              export=False)

## Analyse 1.5: Protagonisten-Zusammenhänge
Die Protagonisten-Kategorie ist interessant, weil für Protagonisten gleich mehrere Label vergeben werden. Mit folgenden Funktionen kann berechnet werden, wie diese zusammenhängen.

Drei Funktionen sind verfügbar:
1. *roles_and_groups()* - Zusammenhang zw. Rollen- und Gruppenlabel
2. *roles_and_ownother()* - Zusammenhang zw. Rollen- und Gruppenzugehörigkeitslabel
3. *groups_and_ownother()* - Zusammenhang zw. Gruppen- und Gruppenzugehörigkeitslabel

Alle Funktionen haben folgende Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der vorletzte Parameter *percent* gibt an, ob die Daten als Prozent der Spaltensumme (*True*) oder nicht (*False*) ausgegeben werden sollen.
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
astats.roles_and_groups_collection(corpus,
                                   percent=False,
                                   export=False)

In [None]:
astats.roles_and_ownother_collection(corpus,
                                     percent=False,
                                     export=False)

In [None]:
astats.groups_and_ownother_collection(corpus,
                                      percent=False,
                                      export=False)

## Analyse 2: Label-Kookkurenzen
Mit folgender Funktion kann ermittelt werden, ob manche Label überzufällig häufig mit anderen Label auftauchen.

Die Funktion *association_measure* berechnet PMI (pointwise mutual information) für die Label-Okkurenzen innerhalb von moralisierenden Spans.

Die Funktion *association_measure* hat folgende Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite und der dritte Parameter sind die Label, deren Kookurrenzen innerhalb von Moralisierungen untersucht werden sollen. Folgende Label stehen zur Verfügung:
    + obj_morals
    + subj_morals
    + all_morals
    + prot_roles
    + prot_groups
    + prot_ownother
    + com_functions
    + demands
+ Der Parameter *significance* gibt an, ob zusätzlich zum PMI das statistische Signifikanzniveau der Verteilung (mittels Fischers Exaktem Text) berechnet werden soll.
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
astats.association_measure_collection(corpus,
                                      "com_functions",
                                      "demands",
                                      significance=True,
                                      export=False)