# Instanzen-Suche (Korpussammlung)
Mit diesem Notebook können alle Instanzen aufgelistet werden, die bestimmte Bedingungen erfüllen. Die Bedingungen können frei gewählt werden. Sie bestehen aus einer Annotationskategorie und einer weiteren Bedingung. Folgende Suchparameter gibt es:
+ nach Wörtern (Lexemen)
+ Nach Wortarten oder Wortartenlisten (benutzt wird das [Stuttgart-Tübingen-Tagset](https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html))
+ Nach Anzahl vergebener Kategorietags (z.B.: 3 Moralwerte)
+ Nach bestimmten Annotationslabels (z.B.: Forderer)

Bezüglich der Annotationskategorien stehen Folgende zur Verfügung:
+ *obj_morals*: Alle Moralwerte, die keine subjektiven Ausdrücke sind
+ *subj_morals*: Moralwerte, die subjektive Ausdrücke sind
+ *all_morals*: Alle Moralwerte
+ *protagonists*: Alle Protagonisten-Token
+ *protagonists_doubles*: Alle Protagonisten-Rollen (Achtung: manche Protagonisten-Token werden dabei doppelt gezählt - nämlich, wenn sie mehrere Rollen haben)
+ *com_functions*: Kommunikative Funktionen
+ *expl_demands*: Explizite Forderungen
+ *impl_demands*: Implizite Forderungen
+ *all_demands*: Alle Forderungen

## Setup

Muss ausgeführt werden, wenn das Notebook in Colab ausgeführt wird.

In [None]:
from google.colab import drive
drive.mount('/content/drive')
!git clone https://github.com/maria-becker/Moralization/
!pip install HanTa
!pip install xlsxwriter
%cd "/content/Moralization/Annotation Analysis Tools/data_analysis"

Die import-Statements müssen immer ausgeführt werden.

In [2]:
import label_filtering_collection as lfc
import corpus_extraction as ce
import os

## Suchfunktionen (Einzelte Korpusdateien)
Code für die Analyse einzelner XMI-Dateien.

Hier bitte eine Liste *file_list* erstellen, die die Dateipfade zu allen Korpusdateien enthält, die ihr analysieren wollt.
+ *Am einfachsten erhält man einen Dateipfad, indem man die Datei im Ordersystem rechtsklickt und dann -> 'Pfad kopieren' auswählt. Und unbedingt den Pfad in Anführungszeichen setzen und davor ein kleines "r"!*
+ *Wer sich ein bisschen auskennt, kann zum Erstellen der Liste auch das os-Modul benutzen, das aus diesem Grund oben importiert wurde.*

Bei der Erstellung des corpus-Objekts ist zu beachten, welche Sprache in eurem Korpus vertreten sind. Mehre Sprachen gleichzeitig werden nicht unterstützt!
Folgende Sprachen stehen derzeit zur Verfügung:
+ Deutsch ('ger')
+ Englisch ('en')

Weitere Sprachen werden folgen.

In [3]:
path1 = r"filepath1"
path2 = r"filepath2"

filepaths = [path1,
             path2]
corpus_collection = ce.CorpusCollection(filepaths, 'ger')

Mit der folgenden Funktion kann nach Lexemen, die als eine bestimmte Kategorie annotiert wurden, gesucht werden.

**ACHTUNG: Bis jetzt werden nur das Deutsche ("ger") und das Englische ("en") unterstützt. Weitere Sprachen werden folgen.**

Parameter:
+ Der erste Parameter ist die Korpussammlumg. Hier einfach *corpus_collection* stehen lassen.
+ Der zweite Parameter ist das Lexem, das gesucht werden soll
+ Der dritte Parameter ist die Kategorie, in der die Wortart gesucht werden soll, s.o.
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als Excel-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
word_labels = lfc.word_label_instances_collection(corpus_collection,
												"Demokratie",
												"all_morals",
												export=True)
lfc.print_dict(word_labels)

Mit der folgenden Funktion kann nach Wortarten, die als eine bestimmte Kategorie annotiert wurden, gesucht werden.
Die Funktion nutzt das [Stuttgart-Tübingen-Tagset](https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html).

**ACHTUNG: Bis jetzt werden nur das Deutsche ("ger") und das Englische ("en") unterstützt. Weitere Sprachen werden folgen.**

Parameter:
+ Der erste Parameter ist die Korpussammlumg. Hier einfach *corpus_collection* stehen lassen.
+ Der zweite Parameter ist die Wortart, die gesucht werden soll
+ Der dritte Parameter ist die Kategorie, in der das Lexem gesucht werden soll, s.o.
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als Excel-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
pos_labels = lfc.pos_label_instances_collection(corpus_collection,
												"NE",
												"protagonists",
												export=False)
lfc.print_dict(pos_labels)

Mit der folgenden Funktion kann nach einer Liste von Wortarten, die als eine bestimmte Kategorie annotiert wurden, gesucht werden. Diese Suche hat daher ihre eigene Funktion, weil das [Stuttgart-Tübingen-Tagset](https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html) oft größere Wortarten wie Pronomen weiter aufteilt.

**ACHTUNG: Bis jetzt werden nur das Deutsche ("ger") und das Englische ("en") unterstützt. Weitere Sprachen werden folgen.**

Parameter:
+ Der erste Parameter ist die Korpussammlumg. Hier einfach *corpus_collection* stehen lassen.
+ Der zweite Parameter ist die Wortart, die gesucht werden soll
+ Der dritte Parameter ist die Kategorie, in der die Wortart gesucht werden soll, s.o.
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als Excel-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
poslist_labels = lfc.poslist_label_instances_collection(corpus_collection,
														["NE", "NN"],
														"protagonists",
														export=False)
lfc.print_dict(poslist_labels)

Mit der folgenden Funktion kann nach Anzahlen von Kategorie-Vergaben gesucht werden. Zum Beispiel können alle Funktionen mit zwei Protagonisten gesucht werden.

Parameter:
+ Der erste Parameter ist die Korpussammlumg. Hier einfach *corpus_collection* stehen lassen.
+ Der zweite Parameter *count* ist die Anzahl, die gesucht werden soll
+ Der dritte Parameter ist die Kategorie, die *count* Mal vergeben wurde
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als Excel-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
count_labels = lfc.count_label_instances_collection(corpus_collection,
													2,
													"protagonists",
													export=False)
lfc.print_dict(count_labels)

Mit der folgenden Funktion kann nach spezifischen Labeln gesucht werden werden. Zum Beispiel können alle Funktionen herausgesucht werden, in denen ein Protagonist als "Benefizient" markiert wurde.

Parameter:
+ Der erste Parameter ist die Korpussammlumg. Hier einfach *corpus_collection* stehen lassen.
+ Der zweite Parameter ist das Label, nach dem gesucht werden soll
+ Der dritte Parameter ist die Kategorie, aus der das Label stammt
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als Excel-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
tag_labels = lfc.tag_label_instances_collection(corpus_collection,
												"Benefizient:in",
												"protagonists",
												export=False)
lfc.print_dict(tag_labels)