# Instanzen-Suche
Mit diesem Notebook können alle Instanzen aufgelistet werden, die bestimmte Bedingungen erfüllen. Die Bedingungen können frei gewählt werden. Sie bestehen aus einer Annotationskategorie und einer weiteren Bedingung. Folgende Suchparameter gibt es:
+ nach Wörtern (Lexemen)
+ Nach Wortarten oder Wortartenlisten (benutzt wird das [Stuttgart-Tübingen-Tagset](https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html))
+ Nach Anzahl vergebener Kategorietags (z.B.: 3 Moralwerte)
+ Nach bestimmten Annotationslabels (z.B.: Forderer)

Bezüglich der Annotationskategorien stehen Folgende zur Verfügung:
+ *obj_morals*: Alle Moralwerte, die keine subjektiven Ausdrücke sind
+ *subj_morals*: Moralwerte, die subjektive Ausdrücke sind
+ *all_morals*: Alle Moralwerte
+ *protagonists*: Alle Protagonisten-Token
+ *protagonists_doubles*: Alle Protagonisten-Rollen (Achtung: manche Protagonisten-Token werden dabei doppelt gezählt - nämlich, wenn sie mehrere Rollen haben)
+ *com_functions*: Kommunikative Funktionen
+ *expl_demands*: Explizite Forderungen
+ *impl_demands*: Implizite Forderungen
+ *all_demands*: Alle Forderungen

## Setup

Muss ausgeführt werden, wenn das Notebook in Colab ausgeführt wird.

In [None]:
from google.colab import drive
drive.mount('/content/drive')
!git clone https://github.com/maria-becker/Moralization/
!pip install HanTa
!pip install xlsxwriter
%cd "/content/Moralization/Annotation Analysis Tools/data_analysis"

Die import-Statements müssen immer ausgeführt werden.

In [1]:
import label_filtering as lf
import corpus_extraction as ce
import os

## Suchfunktionen (Einzelte Korpusdateien)
Code für die Analyse einzelner XMI-Dateien.

Hier bitte den Dateipfad zur hochgeladenen XMI-Datei spezifizieren.
*Am einfachsten die Datei im Ordersystem rechtsklicken und dann -> 'Pfad kopieren'. Und unbedingt den Pfad in Anführungszeichen setzen und davor ein kleines "r"!*

In [2]:
filepath = r"C:\Users\Bruno\Desktop\Leserbriefe-neg-BB-neu-optimiert-RR.xmi"
corpus = ce.CorpusData(filepath)

Mit der folgenden Funktion kann nach Lexemen, die als eine bestimmte Kategorie annotiert wurden, gesucht werden.

Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite Parameter ist das Lexem, das gesucht werden soll
+ Der dritte Parameter ist die Kategorie, in der die Wortart gesucht werden soll, s.o.
+ Der vierte Parameter gibt die Sprache des Korpus an. **ACHTUNG: Bis jetzt werden nur das Deutsche ("ger") und das Englische ("en") unterstützt. Weitere Sprachen werden folgen.**
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
lf.word_label_instances(corpus,
						"Demokratie",
						"all_morals",
						language="en",
						export=False)

In [None]:
Mit der folgenden Funktion kann nach Wortarten, die als eine bestimmte Kategorie annotiert wurden, gesucht werden.
Die Funktion nutzt das [Stuttgart-Tübingen-Tagset](https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html)

Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite Parameter ist die Wortart, die gesucht werden soll
+ Der dritte Parameter ist die Kategorie, in der das Lexem gesucht werden soll, s.o.
+ Der vierte Parameter gibt die Sprache des Korpus an. **ACHTUNG: Bis jetzt werden nur das Deutsche ("ger") und das Englische ("en") unterstützt. Weitere Sprachen werden folgen.**
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
lf.pos_label_instances(corpus,
						"NE",
						"protagonists",
						language="ger",
						export=False)

Mit der folgenden Funktion kann nach einer Liste von Wortarten, die als eine bestimmte Kategorie annotiert wurden, gesucht werden. Diese Suche hat daher ihre eigene Funktion, weil das [Stuttgart-Tübingen-Tagset](https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html) oft größere Wortarten wie Pronomen weiter aufteilt.

Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite Parameter ist die Wortart, die gesucht werden soll
+ Der dritte Parameter ist die Kategorie, in der die Wortart gesucht werden soll, s.o.
+ Der vierte Parameter gibt die Sprache des Korpus an. **ACHTUNG: Bis jetzt werden nur das Deutsche ("ger") und das Englische ("en") unterstützt. Weitere Sprachen werden folgen.**
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
lf.poslist_label_instances(corpus,
							["NE", "NN"],
							"protagonists",
							language="ger",
							export=False)

Mit der folgenden Funktion kann nach Anzahlen von Kategorie-Vergaben gesucht werden. Zum Beispiel können alle Funktionen mit zwei Protagonisten gesucht werden.

Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite Parameter *count* ist die Anzahl, die gesucht werden soll
+ Der dritte Parameter ist die Kategorie, die *count* Mal vergeben wurde
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
lf.count_label_instances(corpus,
							2,
							"protagonists",
							export=False)

Mit der folgenden Funktion kann nach spezifischen Labeln gesucht werden werden. Zum Beispiel können alle Funktionen herausgesucht werden, in denen ein Protagonist als "Benefizient" markiert wurde.

Parameter:
+ Der erste Parameter ist das Korpus. Hier einfach *corpus* stehen lassen.
+ Der zweite Parameter ist das Label, nach dem gesucht werden soll
+ Der dritte Parameter ist die Kategorie, aus der das Label stammt
+ Der letzte Parameter *export* (*True* oder *False*) gibt an, ob die Daten als csv-Datei im derzeitigen Verzeichnis abgelegt werden sollen.

In [None]:
lf.tag_label_instances(corpus,
						"Benefizient:in",
						"protagonists",
						export=False)