# Text Mining
In diesem Notebook werden die von der Gruppe 1 bereitstellten Dokumenten aufbereitet und ein Text Mining Verfahren wird ausgeführt, sodass die Informationen dieser Dokumente in der Form einer Knowledge-Graph-Datenbank zur Gruppe 3 bereitgestellt wird.

## Import der Bibliotheken

#### Basis-Bibliotheken für Datenbearbeitung

In [1]:
import numpy as np
import pandas as pd

#### Bibliotheken für NLP und Textbearbeitung

In [2]:
import re # RegEx (Regular Expressions für Python für Textbearbeitung)
import spacy # Spacy für NLP
from spacy import displacy # Graphisches Werkzeug für die Visualisierung der Dependencies (DEP) und Parts of Speach (POS)
from spacy.matcher import Matcher # Spacy Objekt, um Muster im Text zu finden
from spacy.tokens import Span # Spacy Objekt, um Texte aufzuteilen
import de_core_news_md # Spacy-Wortschatz auf Deutsch 
nlp = de_core_news_md.load() # Erstellung ein Spacy NLP objekt auf basis von dem hochgeladenen Spacy-Wortschatz auf Deutsch 

#### Unterstützungsbibliotheken

In [3]:
import wikipediaapi # api für die Verbindung mit der Wikipedia-Website
import concurrent.futures # Unterstützungsbibliothek für die Erstellung eines Wikipedia-Scrapers
from tqdm import tqdm # Unterstützungsbibliothek für die Erstellung eines Wikipedia-Scrapers

#### Visualisierungswerkzeuge

In [4]:
import matplotlib.pyplot as plt # Basis-Visualisierungstool für Python
import networkx as nx # Visualisirungsbibliothek für Beziehungsdarstellung

#### Elastic Search api

In [6]:
from elasticsearch import Elasticsearch, helpers # Import von Elastic Search Objekten für Python
import sys, json, os # Unterstützte Datentypen

## Daten Hochladen - Elastic Search

In [7]:
'''
Importieren der von Gruppe 1 im Elastic Search bereitgestellten Dokumente.
'''

es = Elasticsearch(["http://vala.win.hs-heilbronn.de"], http_auth=("MID", "MID202002"), timeout=600, port=9200)
response = es.search(index="mid_beispieldaten_v9", body= {}, size=8000)
print('Größe der importierten Daten:', len(response['hits']['hits']))

Größe der importierten Daten: 7617


In [8]:
response['hits']['hits'][:5] # Ansicht der ersten 5 Dokumenten zwckecks Plausibilisierung des Imports

[{'_index': 'mid_beispieldaten_v9',
  '_type': '_doc',
  '_id': 'uoEBxXIB7QWdo8C6vTMN',
  '_score': 1.0,
  '_source': {'Creation-Date': '2019-11-19T12:17:15',
   'Course': '',
   'Course_location': '',
   'Link': 'www.hs-heilbronn.de/_b/0000000000000024097716bb5dd69a89/4b25a09e1fc943a0b35d33544f9f17b03b696f1a_2578682clip_center_800_600_750b90',
   'Course_abbreviation': '',
   'Upload-Date': '2020-06-18T00:42:28.923728Z',
   'Text': None,
   'Last-Modified': '2019-11-19T12:17:15',
   'Author': None,
   'Title': None}},
 {'_index': 'mid_beispieldaten_v9',
  '_type': '_doc',
  '_id': 'u4EBxXIB7QWdo8C6vTMN',
  '_score': 1.0,
  '_source': {'Creation-Date': None,
   'Course': '',
   'Course_location': '',
   'Link': 'www.hs-heilbronn.de/21278004/rueckblick-2018-ausblick-2019',
   'Course_abbreviation': '',
   'Upload-Date': '2020-06-18T00:42:06.083993Z',
   'Text': ' MR-Aktivitäten - Hochschule Heilbronn Skip to navigation Press Enter. Skip to main content Press Enter. home home Login DE EN

## Generierung von einem Datensatz mit allen Infomationen
#### **1** - Alle einzigartigen Features herausfinden

In [9]:
'''
Auf Basis von den bereitgestellten und hochgeladenen Dokumenten werden alle einzigartige Features 
(inkl. Daten und Metadaten) erkannt und gespeichert. Diese werden nachher bei der Erstellung eines Pandas-Dataframes verwendet.
'''

features_alone = []
all_features_list = [list(d['_source'].keys()) for d in response['hits']['hits']]
for features in all_features_list:
    for feature in features:
        features_alone.append(feature)
unique_features = set(features_alone)
print(unique_features)

{'Course_abbreviation', 'Creation-Date', 'Link', 'Last-Modified', 'Course_location', 'Course', 'Text', 'Title', 'Upload-Date', 'Author'}


#### **2** - Alle Nötige Infomation aus ElasticSearch in einem Dataframe speichern - Hauptdatensatz

In [10]:
'''
Das Dataframe "df" ist das Hauptinput-Dataframe. In diesem Dataframe werden alle Informationen gespeichert, 
die noch zu bearbeiten sind.
'''
df = pd.DataFrame()
error = []
# Alle Informationen, die bearbeitet werden befinden sich unter den Keys ['hits']['hits']
for doc in response['hits']['hits']:
    # Try and Except als fehlertoleranter Ansatz
    try:
        # Extrahieren der Metadaten aus der ersten Ebene des Jason-Elements
        d = {}
        d['ID'] = doc['_id']
        d['index'] = doc['_index']
        d['score'] = doc['_score']

        # Extahieren der Metadaten aus der zweiten Ebene  des Jason-Elements unter dem Key: "_source"
        for feature in unique_features:
            d[feature] = doc['_source'][feature]
        df = pd.concat([df, pd.DataFrame(d, index=[len(df)])])
    # Die Dokumente, die nicht ins Dataframes gespeichert werden könnten, werden in einer Liste gespeichert und 
    # können bezüglich der Vollständigkeit des Dokuments über das Key "_id" nachgeprüft werden
    except:
        error.append(doc['_id'])
# Die fehlerhaften Dokumenten werden dargestellt
print(error, '\n\nFehleranzahl: ', len(error), '\nFehlerquote: ', len(error)/len(df)*100, "%")

['Y4HqxHIB7QWdo8C6sjBU', 'aoHqxHIB7QWdo8C6sjBU', 'WoGYxHIB7QWdo8C6DCP5', 'woGhxHIB7QWdo8C6PCSS', 'u4EGxXIB7QWdo8C6XDQt', 'moEYxXIB7QWdo8C6vDfA', '-4HvxHIB7QWdo8C6WTBi', '3oFUxXIB7QWdo8C6ZEBN'] 

Fehleranzahl:  8 
Fehlerquote:  0.10513865159679327 %


In [11]:
'''
Visualisierung des Dataframes zwecks Plausibilisierung.
'''
df.head()

Unnamed: 0,ID,index,score,Course_abbreviation,Creation-Date,Link,Last-Modified,Course_location,Course,Text,Title,Upload-Date,Author
0,uoEBxXIB7QWdo8C6vTMN,mid_beispieldaten_v9,1.0,,2019-11-19T12:17:15,www.hs-heilbronn.de/_b/0000000000000024097716b...,2019-11-19T12:17:15,,,,,2020-06-18T00:42:28.923728Z,
1,u4EBxXIB7QWdo8C6vTMN,mid_beispieldaten_v9,1.0,,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,,,,MR-Aktivitäten - Hochschule Heilbronn Skip to...,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,
2,vIEBxXIB7QWdo8C6vTMN,mid_beispieldaten_v9,1.0,,,www.hs-heilbronn.de/1074136/partner-universities,,,,Partner Universities - Hochschule Heilbronn S...,Partner Universities - Hochschule Heilbronn,2020-06-18T00:42:39.586380Z,
3,vYEBxXIB7QWdo8C6vTMN,mid_beispieldaten_v9,1.0,,2016-11-24T20:44:41,www.hs-heilbronn.de/12598639/IMG_8515_JPG.jpg,2016-11-24T20:44:41,,,,,2020-06-18T00:40:12.871729Z,
4,voEBxXIB7QWdo8C6vTMN,mid_beispieldaten_v9,1.0,,2014-03-21T14:21:15Z,www.hs-heilbronn.de/6352921/Criteria-for-Coast...,2014-05-09T13:02:14Z,,,Abstract This study quantifies fuel savings a...,,2020-06-18T00:41:59.349752Z,


In [12]:
'''
Beispieldarstellung eines Texts, der vom NLP-Verfahren bearbeitet wird.
'''
text = df['Text'][1]
text

' MR-Aktivitäten - Hochschule Heilbronn Skip to navigation Press Enter. Skip to main content Press Enter. home home Login DE EN Suchen Zielgruppen Die Hochschule Forschung Internationales Kooperation Login DE EN Studieninteressierte Studierende Mitarbeitende Lehrende Schulen Alumni Unternehmen Presse Hochschule Heilbronn Standorte Fakultäten Studiengänge für Interessierte Studiengänge für Studierende Heilbronn University Graduate School HUGS Semesterterminplan Grundordnung und Satzungen Öffentliche Bekanntmachungen Gremien und Beauftragte Rektorat Hochschulrat Senat Fakultätsräte Hochschulbeauftragte Personalrat Verfasste Studierendenschaft Zentrale Einrichtungen Bibliothek LIV Career Service Institut für mathematisch-naturwissenschaftliche Grundlagen IfG Rechenzentrum Schulkoordination Stipendienstelle Zentrale Studienberatung Zentrum für Studium und Lehre ZfSL Weiterbildung Berufsbegleitende Studiengänge Heilbronner Institut für Lebenslanges Lernen HILL HHN und Gesellschaft Familieng

## NLP-Verfahren
### Erforschung von Spacy - Entwicklung

In [13]:
'''
Visualisierung der NLP-Objekte (Dependencies und Parts-of-Speach) auf Basis von Spacy.
'''
txt = "das interessante Buch wird nicht von Victor heute am schönen Strand gelesen, sondern fährt er das schnelle Auto"
# text = 'Der Text hätte von dem Mann geschrieben werden können' # zu bearbeitetem Text
doc = nlp(txt) # aus einem String hin zu einem Spacy Doc (Textformat mit den analysierten NLP-Objekte)
displacy.render(doc,style='dep', jupyter=True,) # Darstellung des Satzes
for token in doc: # Informationen aus jedem Token
    print(token.text, token.dep_, token.pos_, token.head, [child for child in token.children], [ante for ante in token.ancestors])

das nk DET Buch [] [Buch, wird]
interessante nk ADJ Buch [] [Buch, wird]
Buch sb NOUN wird [das, interessante] [wird]
wird ROOT AUX wird [Buch, gelesen, ,, sondern] []
nicht ng PART Victor [] [Victor, von, gelesen, wird]
von sbp ADP gelesen [Victor] [gelesen, wird]
Victor nk PROPN von [nicht] [von, gelesen, wird]
heute mo ADV gelesen [] [gelesen, wird]
am mo ADP gelesen [Strand] [gelesen, wird]
schönen nk ADJ Strand [] [Strand, am, gelesen, wird]
Strand nk NOUN am [schönen] [am, gelesen, wird]
gelesen oc VERB wird [von, heute, am] [wird]
, punct PUNCT wird [] [wird]
sondern cd CCONJ wird [fährt] [wird]
fährt cj VERB sondern [er, Auto] [sondern, wird]
er sb PRON fährt [] [fährt, sondern, wird]
das nk DET Auto [] [Auto, fährt, sondern, wird]
schnelle nk ADJ Auto [] [Auto, fährt, sondern, wird]
Auto oa NOUN fährt [das, schnelle] [fährt, sondern, wird]


In [14]:
'''
Spacy-Methode, um die Spacy-Bezwichnungen bspw. von "Dependencies"(DEP) und "Parts-of-Speach"(POS) erklären zu lassen.
'''
name = 'cj'
print(name, "is equal:",spacy.explain(name))

cj is equal: conjunct


## Erstellung einer NLP-Klasse mit den Objekten und Methoden: VictoryNLP
Dieser Punkt ist der Kernpunkt des ganzen Projektes. Hier wird das Text Mining und NLP durchgeführt. Diese Klasse ist auf der Open Source Python-Bibliothek Spacy aufgebaut und besteht aus vielfältige Methoden, um die NLP an die deutsche Sprache anzupassen und die Informationen am besten zu extrahieren.

In [5]:
class VictoryNLP():
    
    def __init__(self, name, nlp):
        '''
        Initialisierungsfunktion:
        Das Spacy-NLP-Objekt wird importiert um in der Klasse intialisiert.
        Der Name des Objekts wird in der Klasse importiert und gespeichert.
        '''
        self.name = name # Initialisierung vom Objektname
        self.nlp = nlp # Initialisierung des Spacy-NLP-Objekts
    
    def is_question(self,sent):
        '''
        Prüft, ob der analisyste Satz eine Frage ist.
        ____________________________________________________________________________________________________
        ### Inputs ###
        sent --> Satz, der analysiert wird
        ____________________________________________________________________________________________________
        ### Outputs ###
        True/False --> Boolean, ob der Satz eine Frage ist.
        
        '''
        return '?' in sent.text # Prüft, ob "?" in dem Satz zu finden ist
    
    def is_question_words_without_obj(self,token):
        '''
        Prüft ob der Token ein W-Fragewort ist, bei dem das Objekt oder Subjekt direkt die W-Fragewort ist.
        ____________________________________________________________________________________________________
        ### Inputs ###
        sent --> Satz, der analysiert wird
        ____________________________________________________________________________________________________
        ### Outputs ###
        True/False --> Boolean, ob der Token ein von den W-Fragewörtern ist.
    
        '''
        question_words_without_obj = ['was', 'wo', 'wer', 'wen', 'wem', 'wohin', 'woher'] # W-Fragewörter, , bei denen das Objekt oder Subjekt direkt die W-Fragewort ist
        return token.text.lower() in question_words_without_obj # Return Boolean, ob der Token ein von den W-Fragewörtern ist.
    
    def get_multiple_elements(self,objs):
        '''
        Bei dieser Methode werden vielfältige Objekte oder Subjekte gesucht. Nicht immer sind die Objekte oder Subjekte direkt
        zu erkennen. Manchmal besteht das Objekt oder das Subjekt aus mehrere Wörter, die nicht sofort von Spacy erkennbar sind.
        Aus diesem Grund, liest die Methode den Satzt wieder durch und verknüpft die vielfältigen Objekte und Subjekte.
        Da das Verfahren gleich für Subjekte und Objekte ist, wird in den Komentare nur über Objekte gesprochen.
        ____________________________________________________________________________________________________
        ### Inputs ###
        objs --> Liste mit den erkannten Objekten
        ____________________________________________________________________________________________________
        ### Outputs ###
        objs --> Bearbeitete Liste von den vielfältigen Objekten
    
        '''
        # Typen von Wörtern, die nicht als Objekte erwünscht sind
        unwanted_tokens = (
        'AUX', # auxiliar verb
        'ADJ', # adjective
        'ADV', # adverb
        'VERB', # verb
        'PART',  # particle
        'DET',  # determiner
        'SCONJ',  # subordinating conjunction
        'PUNCT',  # punctuation
        'SYM',  # symbol
        'X',  # other
        )
        
        # Diese Typen werden nachher gefiltert, weil viele Verknüpfungen zwischen Objekten über diese Typen zu erkennen sind,
        # jedoch werden diese Typen am Ende als Objekte nicht erwünscht, daher werden sie gefiltert.
        obj_filter = (
        'CONJ', # conjunction
        'ADP', # adposition
        )
        
        # Schleife über die Objekte
        for obj in objs:
            # Schleife über die Kinder des Objkets
            for child in obj.children:
                # Voraussetzungen:
                # --> Wenn das POS des Kinds nicht in des Tuples "unwanted_tokens" sich befindet
                # --> Und wenn das Kind kein Interpunktionszeichen ist
                # --> Und wenn das Kind noch nicht in der Objektliste ist
                if child.pos_ not in unwanted_tokens and child.is_punct==False and child not in objs:
                    # Fügt das Kind zu der Objektliste ein
                    objs.append(child)

        # Filtert die Subjekte und Objekte auf basis des Tuples "obj_filter" 
        objs = [obj for obj in objs if obj.pos_ not in obj_filter]
        
        # Rückgabe der vielfältigen Objekte
        return objs
    
    def substitute_pronoun(self,token):
        '''
        Für einen guten Lesefluss werden oft Pronomen angewendet. Durch die Anwendung von Pronomen im Text wird
        verzichtet, mehrmals die Subjekte oder Objekte zu wiederholen, ohne dass Informationen verloren geht.
        Die Beziehung zwischen Pronomen und den Wörtern auf denen die Pronomen sich beziehen werden nicht von 
        Spacy erkannt und, um diese Informationen nicht zu verlieren und um herauszufinden woraus das Pronomem
        sich bezieht wurde diese Methode geschrieben        
        ____________________________________________________________________________________________________
        ### Inputs ###
        token --> Wort aus dem Satz, der analysiert wird
        ____________________________________________________________________________________________________
        ### Outputs ###
        Wenn das Wort, auf dem das Pronomen sich bezieht, erkannt wird:
        obj  --> Wenn das Pronomen in einem Relativsatz sich befindet und das Wort, auf dem das Pronomen sich 
                 bezieht, in einem Hauptsatz zu finden ist.
        subj --> Wenn das Pronomen in einer Konjunktivsatz ist, wird das Subjekt des Hauptsatzes gewählt, um 
                 das Pronomen zu ersetzen
        '''
        case=1
        
        # Wenn die Abhängigkeit der Wurzel des Wortes ein Relativsatz ist und das Wort ein Pronomen ist
        if token.head.dep_ == 'rc' and token.pos_ == 'PRON':
            # Wird versucht die Wurzel der Wurzel zu speichern (zweite Wurzel)
            try:
                obj = token.head.head
                # Wenn es klappt wird das Pronomen von seiner zweiten Wurzel ersetzt
                # Rückgabe von case 1 (Aktivform)
                return obj, case
            except:
                None
                
        # Wenn die Abhängigkeit der Wurzel des Wortes eine Konjunktion ist und das Wort ein Pronomen ist aber davor befindet sich eine Konjunktion  
        elif token.head.head.head.dep_ == 'cd' and token.pos_ == 'PRON':

            # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen, wenn der Satz in der Aktivform steht
            try:
                # Holt das Subjekt des anderen Satzs
                subj = [subj for subj in token.head.head.head.head.children if subj.dep_=='sb'][0] 
                # Prüft, ob das Hauptsatz in der Passivform steht
                if subj.head.lemma_ == 'werden':
                    # Findet das Hauptverb
                    oc_verb = [oc for oc in subj.head.children if oc.dep_=='oc'][0]
                    case = 2
                    # Sucht nach den Objekten
                    for i in range(3):
                        try:
                            # Sucht nach einem Objekt Akkusativ
                            obj = [obj for obj in oc_verb.children if obj.dep_=='oa'][0]
                            return obj, case
                        except:
                            # Sucht nach einem Subjekt in der Passivform
                            try:
                                obj = [obj for obj in oc_verb.children if obj.dep_=='sbp'][0]
                                obj = [obj for obj in obj.children if obj.dep_=='nk'][0]
                                return obj, case
                            except:
                                # Sucht nach einem Predikat
                                try:
                                    obj = [obj for obj in oc_verb.children if obj.dep_=='pd'][0]
                                    return obj, case
                                except:
                                    # Prüft, ob die Ebene des Hauptverbs noch nicht erreicht wurde
                                    try:
                                        oc_verb = [oc for oc in oc_verb.children if obj.dep_=='oc'][0]
                                    except:
                                        None
                        
                # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen        
                else:
                    # Rückgabe von case 1 (Aktivform)
                    return subj, case
            except:
                None
        
        # Wenn die Abhängigkeit der Wurzel des Wortes eine Konjunktion ist und das Wort ein Pronomen ist aber davor befindet sich eine Konjunktion  
        elif token.head.head.dep_ == 'cd' and token.pos_ == 'PRON':

            # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen, wenn der Satz in der Aktivform steht
            try:
                # Holt das Subjekt des anderen Satzs
                subj = [subj for subj in token.head.head.head.children if subj.dep_=='sb'][0] 
                # Prüft, ob das Hauptsatz in der Passivform steht
                if subj.head.lemma_ == 'werden':
                    # Findet das Hauptverb
                    oc_verb = [oc for oc in subj.head.children if oc.dep_=='oc'][0]
                    case = 2
                    # Sucht nach den Objekten
                    for i in range(3):
                        # Sucht nach einem Objekt Akkusativ
                        try:
                            obj = [obj for obj in oc_verb.children if obj.dep_=='oa'][0]
                            return obj, case
                        except:
                            # Sucht nach einem Subjekt in der Passivform
                            try:
                                obj = [obj for obj in oc_verb.children if obj.dep_=='sbp'][0]
                                obj = [obj for obj in obj.children if obj.dep_=='nk'][0]
                                return obj, case
                            except:
                                # Sucht nach einem Predikat
                                try:
                                    obj = [obj for obj in oc_verb.children if obj.dep_=='pd'][0]
                                    return obj, case
                                except:
                                    # Prüft, ob die Ebene des Hauptverbs noch nicht erreicht wurde
                                    try:
                                        oc_verb = [oc for oc in oc_verb.children if obj.dep_=='oc'][0]
                                    except:
                                        None
                        
                # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen        
                else:
                    # Rückgabe von case 1 (Aktivform)
                    return subj, case
            except:
                None
        
        # Wenn die Abhängigkeit der Wurzel des Wortes eine Konjunktion ist und das Wort ein Pronomen ist
        elif token.head.dep_ == 'cj' and token.pos_ == 'PRON':
            
            # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen, wenn der Satz in der Aktivform steht
            try:
                # Holt das Subjekt des anderen Satzs
                subj = [subj for subj in token.head.head.children if subj.dep_=='sb'][0] 
                # Prüft, ob das Hauptsatz in der Passivform steht
                if subj.head.lemma_ == 'werden':
                    # Findet das Hauptverb
                    oc_verb = [oc for oc in subj.head.children if oc.dep_=='oc'][0]
                    case = 2
                    # Sucht nach den Objekten
                    for i in range(3):
                        # Sucht nach einem Objekt Akkusativ
                        try:
                            obj = [obj for obj in oc_verb.children if obj.dep_=='oa'][0]
                            return obj, case
                        except:
                            # Sucht nach einem Subjekt in der Passivform
                            try:
                                obj = [obj for obj in oc_verb.children if obj.dep_=='sbp'][0]
                                obj = [obj for obj in obj.children if obj.dep_=='nk'][0]
                                return obj, case
                            except:
                                # Sucht nach einem Predikat
                                try:
                                    obj = [obj for obj in oc_verb.children if obj.dep_=='pd'][0]
                                    return obj, case
                                except:
                                    # Prüft, ob die Ebene des Hauptverbs noch nicht erreicht wurde
                                    try:
                                        oc_verb = [oc for oc in oc_verb.children if obj.dep_=='oc'][0]
                                    except:
                                        None
                # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen        
                else:
                    # Rückgabe von case 1 (Aktivform)
                    return subj, case
            except:
                None
        else:
            # Wenn die beiden Fälle nicht zugetroffen werden, bleibt das Pronomen
            return token, case
    
    def get_chunks(self,subjs, sent):
        '''
        Die Methode "get_chunks" findet in dem Satz, wo das Subjekt sich befindet, für jedes vorher gefundenen
        Objekt sein entsprechendes sogenanntes "Noun Chunk". Das ist die Kombination von Wörter die, das Objekt 
        oder Subjekt beschreiben. Nehmen wir zum Beispiel der Satz "Peter will heute das schnelle rote Auto 
        fahren.". In diesem Fall ist das Substantiv "Auto" das Objekt und "das schnelle rote Auto" das 
        entsprechende "Noun Chunk".
        ____________________________________________________________________________________________________
        ### Inputs ###
        subjs --> Liste mit den vorher erkannten Subjekte oder Objekte
        sent  --> Satz, der analysiert wird
        ____________________________________________________________________________________________________
        ### Outputs ###
        chunks --> Liste mit den entsprechenden Noun Chunks auf Basis des Inputs "subjs"
        '''
        # Nutzt die Spacy-Generator ".noun_chunks", um alle gefundenen Noun Chunks in dem Satz in einer Liste zu speichern.
        chunks_raw = [chunk for chunk in sent.noun_chunks]
        
        # Leere Liste, in der die gefundenen Noun Chunks 
        chunks = []
        
        # Schleife über die Subjekte
        for subj in subjs:
            # Schleife über alle Noun Chunks von dem Satz
            for chunk in chunks_raw:
                # Wenn das Subjekt in dem entsprechenden Chunk sich befindet, wird es zu der Outputliste hinzugefügt.
                if subj in chunk:
                    chunks.append(chunk)
                    
        # Stellt sicher, dass die Output-Noun-Chunks einzigartig sind
        chunks = list(set(chunks))
        
        # Rückgabe der Noun Chunks
        return chunks
    
    def get_root(self,element):
        '''
        Bei jedem Satz wird eine Wurzel definiert. Als Wurzel eines Satzes werden Verben oder Hilfsverben angenommen.
        Diese Wurzel sind die Basis für die Relationen zwischen Subjekte und Objekte. Diese Methode findet die Wurzeln
        des Satzes heraus.
        ____________________________________________________________________________________________________
        ### Inputs ###
        element --> Token, das analysiert wird. Aus dem Token wird die Wurzel gefunden.
        ____________________________________________________________________________________________________
        ### Outputs ###
        root --> Gefundene Wurzel von dem Satz auf Basis von dem Input "element"
        '''
        # Erlaubte Parts-Of-Speach von den Wurzeln
        root_pos = (
        'VERB', # Verben
        'AUX')  # Hilfsverben
        
        # Anwendung der Spacy-Methode ".head" um die Wurzel eines Worts zu finden
        root = element.head
        
        # Schleife, die von Wort zu Wort geht, um die Wurzel in Form von Verben oder Hilfsverben zu finden.
        while root.pos_ not in root_pos and root != root.head:
            root = root.head
        
        # Rückgabe der Wurzel
        return root
    
    def get_modal_verb(self,sent, roots):
        '''
        Modalverben, wie können, wollen, sollen, möchten, werden von Spacy als eine separte Kategorie erkannt.
        Die Modalverben ergeben nur Sinn, wenn sie Zusammen mit den Hauptverben als Relation erkannt werden. Aus
        Diesem Grund wird durch diese Methode das Modalverb erkannt und zu der Roots-Liste (Wurzeln) hinzugefügt.
        ____________________________________________________________________________________________________
        ### Inputs ###
        sent  --> Satz, der analysiert wird
        roots --> Roots-Liste oder erkannte Wurzeln des Satzes
        ____________________________________________________________________________________________________
        ### Outputs ###
        roots --> Roots-Liste mit der Ergänzung von den Modalverben
        '''
        # Schleife über die Wörter des Satzes
        for oc in sent:
            # Wenn das Wort ein Modalverb ist, wird es zu der Roots-Liste hinzugefügt
            if oc.dep_=='oc':
                roots.append(oc)   
        # Rückgabe der ergänzten Wurzeln         
        return roots  
    
    def get_clause(self,token):
        '''
        Bei einem Nebensatz, kommt es of vor, dass das Objekt des Hauptssatzes das Subjekt des Nebensatzes ist.
        Diese Methode erkennt diese Fällen und, wenn vorhanden, gibt den Nebensatz zurück. In anderen Wörter
        prüft, ob das Objekt das Subjekt eines Nebensatzes ist.
        ____________________________________________________________________________________________________
        ### Inputs ###
        token  --> Token, das geprüft wird, ob ein Nebensatz zu ihm verbunden ist
        ____________________________________________________________________________________________________
        ### Outputs ###
        check_clause --> Kind des geprüften Tokens, zu dem ein Nebensatz verbunden ist
        '''
        # "Parts-Of-Speach", die erwünscht sind, um den Nebensatz zu charakterisieren
        clause_link = ('VERB', 'AUX') # Verben oder Hilfsverben
        
        # Aus der Spacy-Generator werden die Kinder vom Token gesammelt, die als "Part-Of-Speach Verben oder Hilfsverben enthalten"
        check_clause = [child for child in token.children if child.pos_ in clause_link]
        # Falls die Liste "check_clause" größer als null ist wird diese Liste zurückgegeben
        if len(check_clause)>0:
            # Rückgabe der Liste "check_clause"
            return check_clause
        else:
            # Rückgabe einer leeren Liste
            return []
        
    def activate_passive(self,case, relation, obj, subj, obj_chunk, subj_chunk, obj_type, subj_type):
        '''
        Diese Methode wandelt die Sätze in der passiven Form in die aktive Form um. Falls der Satz in der passiven 
        Form ist, wird das Subjekt von dem Objekt ersetzt und umgekehrt, sodass das Ergebnis immer einheitlich in 
        dem aktiven Form steht. Die Inputs und Outputs sind gleich und nur die Relation wird in dieser Methode transformiert
        ____________________________________________________________________________________________________
        ### Inputs ###
        relation --> Relationen, die sie Subjekte und die Objekte verbinden
        obj --> Erkannte Objekte
        subj --> Erkannte Subjekte
        obj_chunk --> Erkannte Noun Chunks aus den Objekten
        subj_chunk --> Erkannte Noun Chunks aus den Subjekten
        obj_type --> Objekttyp aus den Objekten, ergeben von der Spacy-Methode ".ent_type_"
        subj_type --> Subjekttyp aus den Subjekten, ergeben von der Spacy-Methode ".ent_type_"
        ____________________________________________________________________________________________________
        ### Outputs ###
        relation --> Relationen, die sie Subjekte und die Objekte verbinden
        obj --> Erkannte Objekte
        subj --> Erkannte Subjekte
        obj_chunk --> Erkannte Noun Chunks aus den Objekten
        subj_chunk --> Erkannte Noun Chunks aus den Subjekten
        obj_type --> Objekttyp aus den Objekten, ergeben von der Spacy-Methode ".ent_type_"
        subj_type --> Subjekttyp aus den Subjekten, ergeben von der Spacy-Methode ".ent_type_"
        
        '''
        # Wandelt den String zu einem Spacy-Doc um
        doc = nlp(relation)
        # Leere Liste, für die Stammform des Verbs
        lemma_form = []
        # Variable zu bestätigen, ob der Satz ist Passiv, oder nicht
        counter = 0
        
        # Schleife über die Tokens des transformierten Relation
        for token in doc:
            # Falls die Passivform nicht erkannt wird
            if token.lemma_ != 'werden':
                # Das Verb wird in der Stammform gespeichert
                lemma_form.append(token.lemma_)
            # Charakterisierung der Passivform: Wenn das Hilfsverb werden angewendet wird
            else: # token.lemma_ == 'werden':
                # Counter zählt hoch
                counter += 1
        
        # Alle Relations werden zu einem String umgewandelt
        relation = ' '.join(map(str, lemma_form))
        
        # Wenn die Passivworm erkannt wurde
        if counter >0 and case == 1:
            # Rückgabe der Relationen Objekte und Subjekte in der umgekehrten Reinfolge 
            return relation, subj, obj, subj_chunk, obj_chunk, subj_type, obj_type
        # Wenn die Passivform nicht erkannt wurde
        else:
            # Rückgabe der Relationen Objekte und Subjekte in der direkten Reinfolge 
            return relation, obj, subj, obj_chunk, subj_chunk, obj_type, subj_type
    
    def get_relations(self,roots):
        '''
        Diese Methode ist dafür verantwörtlich, die Beziehungen bzw. Relationen zwischen Objekte und Subjekte
        herauszufinden. Bei dieser Funktion Spielen viele sprachlische Eigenschaften der deutschen Sprache eine
        Rolle. Herausforderungen sind bspw. die Modalverben und Hauptverben zu verbinden, oder die Relationen aus
        Nebensätzen und mit den Hauptsätzen zu verknüpfen. 
        ____________________________________________________________________________________________________
        ### Inputs ###
        roots --> Die Wurzeln die in dem Satz erkannt wurden
        ____________________________________________________________________________________________________
        ### Outputs ###
        relation_full --> Die Relationen mit den zusätzlichen Informationen, wie die verbalen Konjunktionen
        '''
        # Leere Liste für die Relationen
        relations=[]
        # Leere liste für die Konjunktionen
        conj_verb = []
        
        # Schleife über die Wurzeln, um die verbalen Konjunktionen herauszufinden
        for root in roots:
            # Placeholder für die erstellung der Relationen
            pm = ''
            ng = ''
            svp = ''
            head1 = ''
            head2 = ''
            head3 = ''
            # Schleife über die Kinder der gefundenen Wurzel
            for child in root.children:
                
                # Prüfen, ob ein morphologisches Partikel vorhanden ist
                if child.dep_ == 'pm':
                    pm = child.text + ' '
                    
                # Prüfen, ob ein negatives Element vorhanden ist
                if child.dep_ == 'ng':
                    ng = child.text + ' '
                    
            # Prüfen, ob die Relationen vielfältige verbale Konjunktionen enthalten
            # Erste Ebene: Für die Relationen, die aus zwei Verben oder Hilfsverben besteht
            if (root.head.pos_=='VERB' or root.head.pos_=='AUX') and \
            root.head!=root and root.dep_!='cj':
                head1 = root.head.text + ' '
                
                # Zweite Ebene: Für die Relationen, die aus drei Verben oder Hilfsverben besteht
                if (root.head.head.pos_=='VERB' or root.head.head.pos_=='AUX') and \
                root.head.head!=root.head and root.head.dep_!='cj':
                    head2 = root.head.head.text + ' '
                    
                    # Zweite Ebene: Für die Relationen, die aus vier Verben oder Hilfsverben besteht
                    if (root.head.head.head.pos_=='VERB' or root.head.head.head.pos_=='AUX') and \
                    root.head.head.head!=root.head.head and root.head.head.dep_!='cj':
                        head3 = root.head.head.head.text + ' '
                
                # Zusammenfügung von allen verbalen Konjunktionen als ein einziges Text
                conj_verb.append("{}{}{}{}{}{}".format(head1, head3, head2, ng, pm, root.text ))
        
        # Schleife über die gefundenen Wurzeln für die Erstellung der Relationen
        for root in roots:
            
            # Prüfen, ob die Wurzeln bei den verbalen Konjunktionen bereits gespeichert wurden
            test = [root.text in element for element in conj_verb]
            
            # Die Relationen herausfinden und in eine Liste speichern
            if sum(test) == 0 and (root.pos_=='VERB' or (root.pos_=='AUX' and root.lemma_=='haben')):
                # Placeholder für die Nachbereitung der Relationen
                pm = ''
                ng = ''
                svp = ''
                
                # Schleife über die Kinder der gefundenen Wurzel
                for child in root.children:
                    # Prüfen ob das Kind ein trennbares Verb ist
                    if child.dep_ == 'svp':
                        svp = child.text
                    # Prüfen ob das Kind ein morphologisches Partikel ist
                    if child.dep_ == 'pm':
                        pm = child.text + ' '
                    # check if there is a negative element
                    if child.dep_ == 'ng':
                        ng = child.text + ' '
                        
                # Zusammenfügung von allen verben als ein einziges Text
                relations.append("{}{}{}{}".format(ng, pm, svp, root.text))

        # Erstellung einer Liste aus den Relationen mit einzigartigen Relationen
        relations = list(set(relations))
        # Erstellung einer Liste aus den verbalen Konjunktionen mit einzigartigen Konjunktionen
        conj_verb = list(set(conj_verb))
        
        # Erstellung der finalen Relationen aus der Zusammenfügung von den Verben (Relationen) und verbalen Konjunktionen
        relations_full = relations + conj_verb
        
        # Rückgabe der vollständigen Relationen
        return relations_full
    
    def linking_relations(self,subjs, objs, roots, sub_chunks, obj_chunks, relations):
        '''
        Aus der Analyse des Satzes mittels NLP werden die Objekte, Objekt Chunks, Subjekte, Subjekt Chunks und die
        Relationen gefunden, extrahiert und zugeordnet. In dieser Methode werden alle diese gefundene Informationen
        miteinander verbunden. Die Subjekte werden zu den Relationen verbunden und diese Verbindung zu den jeweiligen
        Objekten. Am Ende werden die Subjekte, Objekte und Relationen in einem Dataframe eingefügt.
        ____________________________________________________________________________________________________
        ### Inputs ###
        subjs --> Gefundene Subjekte
        objs --> Gefundente Objekte
        roots --> Die Gefundene Wurzeln aus dem Satz
        relations --> Die bearbeitete Relationen aus dem Satz
        ____________________________________________________________________________________________________
        ### Outputs ###
        df_subjs --> Dataframe mit den wesentlichen Informationen bzgl. der Subjekte (Features: root, subj, subj_chunk, subj_type
        df_objs --> Dataframe mit den wesentlichen Informationen bzgl. der Objekten (Features: obj, obj_chunk, obj_type, root)
        df_relations --> Dataframe mit den wesentlichen Informationen bzgl. der Relationen (Features: relation, root)
        df_info --> Dataframe mit den Verbindungen zwischen Objekte, Subjekte und Relationen, 
                    Ergebnis aus der Analyse jedes Satzes
        '''
        # Erstellung der 3 Zuordnungstabellen
        # 1 - Zuordnungstabelle von den Subjekten
        df_subjs = pd.DataFrame(columns = ['subj', 'subj_chunk', 'subj_type', 'root'])

        # Ausfüllen der Zuordnungstabelle von den Subjekten
        # Schleife über die Subjekte
        for subj in subjs:
            # Schleife über die Noun Chunks
            for chunk in sub_chunks:
                # Prüfen ob das Subjekt im Noun Chunk zu finden ist
                if subj in chunk:
                    # Zeile in das Dataframe einfügen
                    add_row = pd.DataFrame({'subj':subj, 'subj_chunk':chunk.text, 'subj_type':subj.ent_type_, 'root':self.get_root(subj)}, 
                                           index=[len(df_subjs)])
                    # Zusammenfügung von der erstellten Zeile in die Zuordnungstabelle von den Subjekten
                    df_subjs = pd.concat([df_subjs,add_row])

        # 2 - Zuordnungstabelle von den Objekten
        df_objs = pd.DataFrame(columns = ['obj', 'obj_chunk', 'obj_type', 'root'])
        
        # Ausfüllen der Zuordnungstabelle von den Objekten
        # Schleife über die Objekte
        for obj in objs:
            # Schleife über die Noun Chunks
            for chunk in obj_chunks:
                # Prüfen ob das Objekt im Noun Chunk zu finden ist
                if obj in chunk:
                    # Zeile in das Dataframe einfügen
                    add_row = pd.DataFrame({'obj':obj, 'obj_chunk':chunk.text, 'obj_type':obj.ent_type_, 'root':self.get_root(obj)}, 
                                           index=[len(df_objs)])
                    # Zusammenfügung von der erstellten Zeile in die bestehende Zuordnungstabelle von den Objekten
                    df_objs = pd.concat([df_objs,add_row])

        # 3 - Zuordnungstabelle von den Relationen
        df_relations = pd.DataFrame(columns = ['root', 'relation'])
        
        # Ausfüllen der Zuordnungstabelle von den Relationen
        
        # Schleife über die Wurzeln
        for root in roots:
            
            # Schleife über die Relationen
            for relation in relations:
                
                # Prüfen ob die Wurzel in der Relation zu finden ist
                if root.text in relation:
                    # Zeile in das Dataframe einfügen
                    add_row = pd.DataFrame({'root':root, 'relation':relation}, index=[len(df_relations)])
                    
                    # Zusammenfügung von der erstellten Zeile in die bestehende Zuordnungstabelle von den Relationen
                    df_relations = pd.concat([df_relations,add_row])

        # Speichern von Entitäten (Subjekte und Objekte) und Beziehungen in einem DataFrame 
        df_info = pd.DataFrame(columns=['Subjects', 'Subjects_raw', 'Subject_Type', 'Relations', 'Objects_raw', 'Objects', 'Object_Type'], )
       
        # Schleife über die Subjekte
        for i in range(len(df_subjs)):
            # Fehlertoleranter Ansatz, um Abbrüche aufgrund außergewöhnlicher Textstrukturen zu vermeiden
            try:
                # Auswahl des zu analysierenden Subjektes
                subj = df_subjs['subj'].iloc[i]

                # Auf Basis des Objektes wird die Clause_Relation geholt um die Wurzel des Subjekts zu entdecken
                clause_relation = self.get_clause(subj)
                # Falls mehrere Wurzeln in dem Satz zu finden sind
                if len(clause_relation)>0:
                    # erhält den Satz-Wurzel (nur eine Satzrelation pro Subjekt ist erlaubt)
                    root1 = clause_relation[0]
                # Falls nur eine Wurzel zu finden ist
                else:
                    # Wurzel wird geholt
                    root1 = df_subjs['root'].iloc[i]
                # findet die Relation basierend auf der Wurzel
                relation1 = df_relations['relation'][df_relations['root'] == root1].values[0]

                # Schleife über die Objekte
                for j in range(len(df_objs)):
                    # Wurzel wird geholt
                    root2 = df_objs['root'].iloc[j]
                    # findet die Beziehung basierend auf der Wurzel
                    relation2 = df_relations['relation'][df_relations['root'] == root2].values[0]
                    
                    # Verbindungsphase zwischen Subjekte und Objekte
                    
                    # Falls die gefundene Relation aus dem Subjekt und aus dem Objekt gleich sind
                    if relation1 == relation2:
                        
                        # Auswahl des zu analysierenden Objektes
                        obj = df_objs['obj'].iloc[j] 
                        
                        # Objekt ersetzen, wenn es ein Pronomen ist (Relativsatz und Nebensätze)
                        obj, case = self.substitute_pronoun(obj)

                        # Auf Basis des Objektes wird das Noun Chunk und Objekt-Typ geholt
                        obj_chunk = df_objs['obj_chunk'][df_objs['obj'] == obj].values[0]
                        obj_type = df_objs['obj_type'].iloc[j]
                        
                        # Subjekt ersetzen, wenn es ein Pronomen ist (Relativsatz und Nebensätze)
                        subj, case = self.substitute_pronoun(subj)
                        
                        # Wenn das Pronomen auf einem Satz in der Aktivform sich bezieht
                        if case == 1:
                            # Auf Basis des Subjektes wird versucht, das Noun Chunk und Objekt-Typ zu holen
                            try:
                                subj_chunk = df_subjs['subj_chunk'][df_subjs['subj'] == subj].values[0]
                                subj_type = df_subjs['subj_type'][df_subjs['subj'] == subj].values[0]
                            # Falls die Aktiveform nicht erkannt wird, soll das Noun Chunk und Objekt-Typ auf Basis der Passivform geholt werden
                            except:
                                case = 2
                                subj_chunk = df_objs['obj_chunk'][df_objs['obj'] == subj].values[0]
                                subj_type = df_objs['obj_chunk'][df_objs['obj'] == subj].values[0]
                                
                        # Wenn das Pronomen aus einem Satz in der Passivform sich bezieht
                        else:
                            # Auf Basis des Subjektes wird versucht, das Noun Chunk und Objekt-Typ zu holen
                            try:
                                subj_chunk = df_objs['obj_chunk'][df_objs['obj'] == subj].values[0]
                                subj_type = df_objs['obj_chunk'][df_objs['obj'] == subj].values[0]
                            # Falls die Passivform nicht erkannt wird, soll das Noun Chunk und Objekt-Typ auf Basis der Aktivform geholt werden
                            except:
                                case = 1
                                subj_chunk = df_subjs['subj_chunk'][df_subjs['subj'] == subj].values[0]
                                subj_type = df_subjs['subj_type'][df_subjs['subj'] == subj].values[0]
                        
                        # Methode zur Aktivierung der Passivform wird ausgeführt
                        relation, obj, subj, obj_chunk, subj_chunk, obj_type, subj_type = self.activate_passive(case, relation1, obj, subj, obj_chunk, subj_chunk, obj_type, subj_type)
                        
                        # Erstellung eines Dictionarys mit den Informationen, die exportiert werden
                        d = {'Subjects_raw':subj, 
                             'Subjects':subj_chunk,
                             'Subject_Type':subj_type,
                             'Relations':relation,
                             'Objects':obj_chunk, 
                             'Objects_raw':obj,
                             'Object_Type':obj_type}

                        # achten Sie darauf, Pronomen nicht als Paare zu speichern (Pronomen sind nicht aussagekräftig)
                        # Wenn sowohl das Objekt als auch das Subjekt kein Pronomen sind, werden die Informationen in das Dataframe "df_info" eingefügt
                        if (self.is_question_words_without_obj(obj) or self.is_question_words_without_obj(subj)) and \
                            obj != subj and subj_chunk != obj_chunk:
                            add_row = pd.DataFrame(d,index=[len(df_info)])
                            df_info = pd.concat([df_info,add_row])
                        elif obj.pos_ != 'PRON' and subj.pos_ != 'PRON' and obj != subj and subj_chunk != obj_chunk:
                            add_row = pd.DataFrame(d,index=[len(df_info)])
                            df_info = pd.concat([df_info,add_row])
            
            # Falls die Bearbeitung der Relationen zwischen Subjekte und Objete fehlerhaft sind, wird sie ignoriert und das Programm läuft weiter
            except:
                None
        
        # Duplikate werden entfernt
        df_info.drop_duplicates(inplace=True)
        
        # Rückgabe von den Subjekten, Objekten, Relationen und die Zusammenfügung von ihnen.
        return df_subjs, df_objs, df_relations, df_info
    
    def text_prep(self,text):
        '''
        Diese Methode wird für die Textaufbereitung erstellt. Die Form des Textes beeiflusst dierekt die Performance des
        Algorithmus. Wenn Sonderzeichen oder mehrere Textumbruche oder Leerzeichen im Text vorkommen, kann das Algorithmus
        schlechter bspw. die Sätze erkennen, oder den Zusammenhang der Wörter im Kontext des Satzes. Aufgrund dessen
        wird durch diese Methode den Text vor der Bearbeitung bereinigt, um effizient bearbeitet zu werden.
        ____________________________________________________________________________________________________
        ### Inputs ###
        text --> Text, der bearbeitet wird
        ____________________________________________________________________________________________________
        ### Outputs ###
        text --> Aufbereiteter und bereinigter Text
        '''
        # Zeilenumbrüche innerhalb des Wortes werden gelöscht
        text = re.sub(r'-\n+', '', text)
        # Mehrere Zeilenumbrüche, Tabs  werden zu einem Leerzeichen ersetzt
        text = re.sub(r'\n+', ' ', text)
        text = re.sub('\n ','',text)
        text = re.sub('\n',' ',text)
        # removing new line characters
        text = re.sub('\n ','',text)
        text = re.sub('\n',' ',text)
        # Ersetzen alle Whitespace-Zeichen zu normalem Leerzeichen
        text = re.sub(r'\s+', ' ', text)
        text = re.sub(r'\t+', ' ', text)
        # Entfernen von Unterstrich gefolgt von einem Leerzeichen
        text = re.sub("— ",'',text)
        # Entfernen jeglicher Verweise auf externen Text
        text = re.sub("[\(\[].*?[\)\]]", "", text)
        # E-Mailadresse wird zu dem Wort E-Mail ersetzt
        text = re.sub(r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)", 'E-Mail', text)
        # Klammen werden duch Komma ersetzt
        text = re.sub(r'([()[]{}])', ',', text)
        # Leerzeichen werden gelöscht, aber die Interpunktion wird beibehalten
        text = re.sub(r"[^<>{}\"/|~@#$%^=&*\\]\\\\()\\[¿§«»ω⊙¤°℃℉€¥£¢¡®©0-9_+]", '', text)

        # Rückgabe des bereinigten und aufbereiteten Texts
        return text
        
    def information_extraction(self,text,all_info=False):
        '''
        Diese ist die Hauptmethode der Klasse und über diese Methode werden die andere ausgeführt und gesteuert.
        Diese Methode soll extern ausgeführt werden, um das VictoryNLP-Verfahren zu nutzen. Der Bereich "all_info" 
        bezeichnet das Format des Ergebnisses:
        --> wenn all_info=False: Rückgabe von den aus dem Dokument extrahierten Informationen
        --> wenn all_info=True: Rückgabe von den aus dem Dokument extrahierten Informationen und einzelnen Dataframes: 
                                Subjekte, Objekte und Relationen
        ____________________________________________________________________________________________________
        ### Inputs ###
        text --> Text, der bearbeitet wird
        ____________________________________________________________________________________________________
        ### Outputs ###
        Wenn all_infos = False:
            df_info_full --> Datensatz mit allen Wissensfragmente (Subjekte, Objekte und Relationen)
        Wenn all_infos = True:
            df_info_full --> Datensatz mit allen Wissensfragmente (Subjekte, Objekte und Relationen)
            df_subjs --> Datensatz mit allen erkannten Subjekten und ihren wesentlichen Informationen
            df_objs --> Datensatz mit allen erkannten Objekten und ihren wesentlichen Informationen
            df_relations --> Datensatz mit allen Relationen (Beziehungen) zwischen den Subjekten und Objekten
        '''
        # Bearbeitung des Textes, um das NLP-Verfahren mit RegEx zu erleichtern
        text = self.text_prep(text)
        # Erstellung eines Spacy-Objektes
        doc = nlp(text)

        # Erstellung eines Dataframes für die Subjekte
        subjs = pd.DataFrame(columns=['subj', 'root'])
        
        # Erstellung eines Dataframes für die Objekte
        objs = pd.DataFrame(columns=['obj', 'root'])
        
        # Erstellung eines Dataframes für die Relationen
        relations = pd.DataFrame(columns=['relation', 'root'])
        
        # Erstellung eines leeren Dataframes für die Zusammenfügung der Informationen
        df_info_full = pd.DataFrame()

        # Aufteilung des Textes in Sätzen in Form einer Liste mit den Sätzen im Textformat
        sentences = [sent.string.strip() for sent in doc.sents]

        # Schleife über die Sätze
        for sent in sentences:
            
            # Weiter Nachbereitung von dem Text, dieses Mal in der Form eines Satzes
            sent = self.text_prep(sent)
            
            # Erstellung eines Spacy-Objektes für das NLP
            sent = nlp(sent)

            # Erstellung von Placeholders für die Subjekte, Objekte und Wurzeln
            subjs = []
            objs  = []
            roots = []
            
            # Data Exploration für die Bearbeitung von Fragen
            # Erstellung von einer Liste mit den Subjekten (Dependency = 'sb')
            s = [word for word in sent if word.dep_ == 'sb']
            # Erstellung von einer Liste mit den Objekten (Dependency = 'oa' Objekt Akkusativ)
            o = [word for word in sent if word.dep_ == 'oa']
            
            # Schleife über die Sätze
            for token in sent:
                # Findet die Subjekte heraus, wenn die Dependency = 'sb', Nominativ
                if token.dep_ == 'sb':
                    # Fügt den Token in die Subjekt-Liste ein
                    subjs.append(token)
                    
                    # Findet die anderen möglichen Subjekte heraus, falls vielfältige Subjekte vorhanden sind
                    subjs = self.get_multiple_elements(subjs)
                    
                    # Speichert die Wurzeln
                    roots.append(token.head)
                    # Modalverben werden auch als Wurzel berücksichtigt
                    roots = self.get_modal_verb(sent, roots)

                # Findet die Objekte heraus. Erlaubte Dependencies:
                # 'oa' --> Objekt Akkusativ
                # 'da' --> Objekt Dativ
                # 'pd' --> Predikat
                # 'sbp' --> Subjekt in der Passivform
                # 'mo' --> Modifier (z.B.: Präpositionen)
                elif token.dep_ == 'oa' or token.dep_ == 'da' or token.dep_ == 'pd' or token.dep_ == 'sbp' or token.dep_ == 'mo':
                    # Fügt den Token in die Objekt-Liste ein
                    objs.append(token)
                    
                    # check clausal phrases
                    if len(self.get_clause(token))>0:
                        subjs.append(token)
                        
                    # Findet die anderen möglichen Subjekte heraus, falls vielfältige Objekte vorhanden sind
                    objs = self.get_multiple_elements(objs)
                    
                # Die Objekte überprüfen, wenn der Satz eine Frage ist
                elif self.is_question(sent) and self.is_question_words_without_obj(token):
                    # Wenn die Frage kein Subjekt enthält
                    if len(s)==0:
                        subjs.append(token)
                    # Wenn die Frage kein Objekt enthält
                    if len(o)==0:
                        objs.append(token)
                else:
                    None            

            # Die Noun Chunks werden geholt
            sub_chunks = self.get_chunks(subjs, sent)
            obj_chunks = self.get_chunks(objs, sent)
            
            # Nur die einzigartigen Wurzeln werden beibehalten
            roots = list(set(roots))
            # Die Relationen werden herausgefunden auf Basis von den Wurzeln
            relations = self.get_relations(roots)

            # Verbindung von den Subjekten und Objekten über ihre Relationen
            df_subjs, df_objs, df_relations, df_info = self.linking_relations(subjs, objs, roots, sub_chunks, obj_chunks, relations)
            # Der Satz wird in das Dataframe hinzugefügt 
            df_info['Sentence'] = str(sent)
            # Update von dem bestehenden Dataframe, mit den neuen Informationen aus dem gerade analysierten Satz
            df_info_full = pd.concat([df_info_full, df_info])

        # Duplikate werden gelöscht
        df_info_full.drop_duplicates(subset= ['Subjects', 'Subjects_raw', 'Subject_Type', 'Relations', 'Objects_raw', 'Objects', 'Object_Type', 'Sentence'],
                        inplace=True)
        
        # Vorbose, damit es bewusst ist, wie viele Paare aus einem Dokument extrahiert wurden
        print('Pairs extracted: {}'.format(len(df_info_full)))
        
        # Entwicklungsmodus
        if all_info == True:
            # Rückgabe von den aus dem Dokument extrahierten Informationen und einzelnen Dataframes: Subjekte, Objekte und Relationen
            return df_info_full, df_subjs, df_objs, df_relations
        # Produktionsmodus
        else:
            # Rückgabe von den aus dem Dokument extrahierten Informationen
            return df_info_full

### Erstellung eines Objektes aus der VictoryNLP-Klasse

In [7]:
victory = VictoryNLP("victory", nlp)

#### Test vom Algorithmus mit einem Text aus den Echtdaten

In [17]:
'''
Test mit dem Text aus dem Zweiten Dokument aus den von Gruppe 1 zur Verfügung gestellten Daten
'''
text = df['Text'][1]
df_info_full = victory.information_extraction(text)
df_info_full

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




Pairs extracted: 461


Unnamed: 0,Object_Type,Objects,Objects_raw,Relations,Sentence,Subject_Type,Subjects,Subjects_raw
0,,Stipendien,Stipendien,gewinnen,Talente gewinnen Stipendien Studium mit vertie...,PER,Talente,Talente
1,,Studium,Studium,gewinnen,Talente gewinnen Stipendien Studium mit vertie...,PER,Talente,Talente
2,,vertiefter Praxis,Praxis,gewinnen,Talente gewinnen Stipendien Studium mit vertie...,PER,Talente,Talente
0,ORG,das Württembergische Kammerorchester Heilbronn,Kammerorchester,können vorstellen dirigieren,"bis 24.07.2020 Den Besuchern wird das ""Virtual...",,24.07.2020,24.07.2020
1,,Den Besuchern,Besuchern,können vorstellen dirigieren,"bis 24.07.2020 Den Besuchern wird das ""Virtual...",24.07.2020,24.07.2020,24.07.2020
2,ORG,das Württembergische Kammerorchester Heilbronn,Heilbronn,können vorstellen dirigieren,"bis 24.07.2020 Den Besuchern wird das ""Virtual...",,24.07.2020,24.07.2020
0,,Die Dirigierbewegung,Dirigierbewegung,erfasst,Die Dirigierbewegung wird durch Radarsensorik ...,,Radarsensorik,Radarsensorik
0,,der Vorgabe,Vorgabe,abWeicht,Weicht das Metrum zu stark von der Vorgabe des...,,das Metrum,Metrum
1,,des gewählten Musikstückes,Musikstückes,abWeicht,Weicht das Metrum zu stark von der Vorgabe des...,,das Metrum,Metrum
2,,das Stück,Stück,abbrechen,Weicht das Metrum zu stark von der Vorgabe des...,,das Orchester,Orchester


#### Entwicklungsmodus: Test mit einem selbsterstellten Satz

In [25]:
text = "das interessante Buch wird von Victor heute nicht am schönen Strand gelesen, stattdessen fährt er das schnelle Auto"
df_info_full, df_subjs, df_objs, df_relations = victory.information_extraction(text, all_info=True)

Pairs extracted: 3


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




##### Extrahierten Informationen in Form von Subjekten Objekten und ihren Beziehungen

In [26]:
df_info_full

Unnamed: 0,Object_Type,Objects,Objects_raw,Relations,Subject_Type,Subjects,Subjects_raw,Sentence
0,,das interessante Buch,Buch,nicht lesen,PER,Victor,Victor,das interessante Buch wird von Victor heute ni...
1,,schönen Strand,Strand,nicht lesen,Victor,Victor,Victor,das interessante Buch wird von Victor heute ni...
2,,das schnelle Auto,Auto,fahren,Victor,Victor,Victor,das interessante Buch wird von Victor heute ni...


##### Objekte und ihre wesentlichen Informationen

In [10]:
df_objs

Unnamed: 0,obj,obj_chunk,obj_type,root
0,Victor,Victor,PER,gelesen
1,Strand,schönen Strand,,gelesen
2,Auto,das schnelle Auto,,fährt


##### Subjekte und ihre wesentlichen Informationen

In [11]:
df_subjs

Unnamed: 0,subj,subj_chunk,subj_type,root
0,Buch,das interessante Buch,,wird
1,er,er,,fährt


##### Relationen und Wurzeln

In [12]:
df_relations

Unnamed: 0,root,relation
0,gelesen,wird nicht gelesen
1,fährt,fährt
2,wird,wird nicht gelesen


### Methode für die Ausführung des NLP-Verfahrens über alle Dokumente (Aus dem Hauptdatensazt)

In [23]:
# Metadata aus dem Hauptdatensatz
metadata = [col for col in df.columns if col != 'Text']

# Features aus dem NLP-Verfahren
kg_data_cols = ['Subjects', 'Subjects_raw', 'Subject_Type', 'Relations', 'Objects_raw', 'Objects', 'Object_Type', 'Sentence']

# Zusammenfügung von allen Features
columns = metadata + kg_data_cols

# Erstellung eines leeren Dataframes
kg_df = pd.DataFrame(columns=columns)
df_error = []

# Erstellung eines Objektes aus der VictoryNLP-Klasse
victory = VictoryNLP("victory", nlp)

# Schleife über den Hauptdatensatz
for i, doc in df.iterrows():
    
    # Erstellung eines Dataframes für alle Extrahierten Informationen aus einem Dokument
    doc = pd.DataFrame(doc).T
    # Einstellung der Spalten
    cache = pd.DataFrame(columns=columns)
        
    # Wird versucht, die Informationen aus einem Dokument zu extrahieren
    try:
        print('Document: {}'.format(i))
        pairs = victory.information_extraction(doc.iloc[0]['Text'])
        cache = pd.concat([cache, pairs])
        for feature in metadata:
            cache[feature] = cache[feature].apply(lambda row : doc.iloc[0][feature])
        kg_df = pd.concat([kg_df,cache])
        print('___________________________________________________')
        
    # Wird angezeigt, dass ein Fehler passiert ist
    except:
        df_error.append(doc.iloc[0]['ID'])
        print('Error')
        print('___________________________________________________')
        
    # Speichert den Datensatz während der Ausführung des NLP-Verfahren (in 100-Schritten)
    if i%100==0:
        kg_df.to_csv(r'pairs_datensatz_v2.csv')
# Speichert am Ende
kg_df.to_csv(r'pairs_datensatz_v2.csv')

Document: 0
Error
___________________________________________________
Document: 1


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




Pairs extracted: 463


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




___________________________________________________
Document: 2
Pairs extracted: 3
___________________________________________________
Document: 3
Error
___________________________________________________
Document: 4
Pairs extracted: 49
___________________________________________________
Document: 5
Error
___________________________________________________
Document: 6
Pairs extracted: 16
___________________________________________________
Document: 7
Pairs extracted: 0
___________________________________________________
Document: 8
Pairs extracted: 15
___________________________________________________
Document: 9
Pairs extracted: 122
___________________________________________________
Document: 10
Error
___________________________________________________
Document: 11
Error
___________________________________________________
Document: 12
Error
___________________________________________________
Document: 13
Pairs extracted: 21
___________________________________________________
Documen

Pairs extracted: 3
___________________________________________________
Document: 106
Error
___________________________________________________
Document: 107
Pairs extracted: 2
___________________________________________________
Document: 108
Error
___________________________________________________
Document: 109
Pairs extracted: 8
___________________________________________________
Document: 110
Error
___________________________________________________
Document: 111
Error
___________________________________________________
Document: 112
Pairs extracted: 36
___________________________________________________
Document: 113
Pairs extracted: 3
___________________________________________________
Document: 114
Pairs extracted: 8
___________________________________________________
Document: 115
Error
___________________________________________________
Document: 116
Pairs extracted: 19
___________________________________________________
Document: 117
Pairs extracted: 0
________________________

Pairs extracted: 18
___________________________________________________
Document: 207
Pairs extracted: 49
___________________________________________________
Document: 208
Pairs extracted: 0
___________________________________________________
Document: 209
Pairs extracted: 35
___________________________________________________
Document: 210
Error
___________________________________________________
Document: 211
Pairs extracted: 15
___________________________________________________
Document: 212
Error
___________________________________________________
Document: 213
Pairs extracted: 3
___________________________________________________
Document: 214
Pairs extracted: 522
___________________________________________________
Document: 215
Pairs extracted: 7
___________________________________________________
Document: 216
Pairs extracted: 15
___________________________________________________
Document: 217
Error
___________________________________________________
Document: 218
Pairs extrac

Pairs extracted: 0
___________________________________________________
Document: 309
Pairs extracted: 3
___________________________________________________
Document: 310
Error
___________________________________________________
Document: 311
Pairs extracted: 10
___________________________________________________
Document: 312
Pairs extracted: 5
___________________________________________________
Document: 313
Pairs extracted: 5
___________________________________________________
Document: 314
Pairs extracted: 45
___________________________________________________
Document: 315
Error
___________________________________________________
Document: 316
Pairs extracted: 25
___________________________________________________
Document: 317
Pairs extracted: 100
___________________________________________________
Document: 318
Pairs extracted: 3
___________________________________________________
Document: 319
Pairs extracted: 3
___________________________________________________
Document: 320
P

Pairs extracted: 59
___________________________________________________
Document: 410
Error
___________________________________________________
Document: 411
Pairs extracted: 3
___________________________________________________
Document: 412
Pairs extracted: 87
___________________________________________________
Document: 413
Error
___________________________________________________
Document: 414
Pairs extracted: 6
___________________________________________________
Document: 415
Pairs extracted: 9
___________________________________________________
Document: 416
Pairs extracted: 3
___________________________________________________
Document: 417
Pairs extracted: 3
___________________________________________________
Document: 418
Pairs extracted: 17
___________________________________________________
Document: 419
Pairs extracted: 3
___________________________________________________
Document: 420
Pairs extracted: 58
___________________________________________________
Document: 421
Pa

Pairs extracted: 36
___________________________________________________
Document: 513
Error
___________________________________________________
Document: 514
Pairs extracted: 16
___________________________________________________
Document: 515
Error
___________________________________________________
Document: 516
Pairs extracted: 398
___________________________________________________
Document: 517
Pairs extracted: 66
___________________________________________________
Document: 518
Pairs extracted: 333
___________________________________________________
Document: 519
Pairs extracted: 0
___________________________________________________
Document: 520
Pairs extracted: 36
___________________________________________________
Document: 521
Pairs extracted: 0
___________________________________________________
Document: 522
Pairs extracted: 29
___________________________________________________
Document: 523
Error
___________________________________________________
Document: 524
Error
____

Pairs extracted: 4
___________________________________________________
Document: 615
Pairs extracted: 102
___________________________________________________
Document: 616
Pairs extracted: 3
___________________________________________________
Document: 617
Error
___________________________________________________
Document: 618
Error
___________________________________________________
Document: 619
Error
___________________________________________________
Document: 620
Error
___________________________________________________
Document: 621
Pairs extracted: 74
___________________________________________________
Document: 622
Error
___________________________________________________
Document: 623
Pairs extracted: 36
___________________________________________________
Document: 624
Pairs extracted: 197
___________________________________________________
Document: 625
Pairs extracted: 30
___________________________________________________
Document: 626
Pairs extracted: 3
___________________

Pairs extracted: 17
___________________________________________________
Document: 717
Error
___________________________________________________
Document: 718
Pairs extracted: 158
___________________________________________________
Document: 719
Pairs extracted: 49
___________________________________________________
Document: 720
Pairs extracted: 17
___________________________________________________
Document: 721
Pairs extracted: 13
___________________________________________________
Document: 722
Pairs extracted: 0
___________________________________________________
Document: 723
Error
___________________________________________________
Document: 724
Pairs extracted: 3
___________________________________________________
Document: 725
Pairs extracted: 3
___________________________________________________
Document: 726
Pairs extracted: 3
___________________________________________________
Document: 727
Pairs extracted: 1795
___________________________________________________
Document: 7

Pairs extracted: 18
___________________________________________________
Document: 818
Pairs extracted: 0
___________________________________________________
Document: 819
Pairs extracted: 241
___________________________________________________
Document: 820
Error
___________________________________________________
Document: 821
Pairs extracted: 70
___________________________________________________
Document: 822
Pairs extracted: 14
___________________________________________________
Document: 823
Pairs extracted: 43
___________________________________________________
Document: 824
Pairs extracted: 3
___________________________________________________
Document: 825
Pairs extracted: 34
___________________________________________________
Document: 826
Pairs extracted: 308
___________________________________________________
Document: 827
Error
___________________________________________________
Document: 828
Pairs extracted: 35
___________________________________________________
Document: 

Pairs extracted: 0
___________________________________________________
Document: 918
Error
___________________________________________________
Document: 919
Error
___________________________________________________
Document: 920
Pairs extracted: 3
___________________________________________________
Document: 921
Pairs extracted: 3
___________________________________________________
Document: 922
Error
___________________________________________________
Document: 923
Pairs extracted: 3
___________________________________________________
Document: 924
Pairs extracted: 7
___________________________________________________
Document: 925
Pairs extracted: 3
___________________________________________________
Document: 926
Error
___________________________________________________
Document: 927
Pairs extracted: 0
___________________________________________________
Document: 928
Pairs extracted: 158
___________________________________________________
Document: 929
Pairs extracted: 0
___________

Pairs extracted: 66
___________________________________________________
Document: 1022
Pairs extracted: 16
___________________________________________________
Document: 1023
Error
___________________________________________________
Document: 1024
Error
___________________________________________________
Document: 1025
Error
___________________________________________________
Document: 1026
Pairs extracted: 34
___________________________________________________
Document: 1027
Pairs extracted: 3
___________________________________________________
Document: 1028
Pairs extracted: 33
___________________________________________________
Document: 1029
Pairs extracted: 62
___________________________________________________
Document: 1030
Error
___________________________________________________
Document: 1031
Pairs extracted: 0
___________________________________________________
Document: 1032
Pairs extracted: 0
___________________________________________________
Document: 1033
Error
_________

Pairs extracted: 0
___________________________________________________
Document: 1121
Pairs extracted: 6
___________________________________________________
Document: 1122
Pairs extracted: 0
___________________________________________________
Document: 1123
Pairs extracted: 0
___________________________________________________
Document: 1124
Pairs extracted: 474
___________________________________________________
Document: 1125
Pairs extracted: 60
___________________________________________________
Document: 1126
Pairs extracted: 125
___________________________________________________
Document: 1127
Pairs extracted: 1
___________________________________________________
Document: 1128
Error
___________________________________________________
Document: 1129
Error
___________________________________________________
Document: 1130
Pairs extracted: 0
___________________________________________________
Document: 1131
Pairs extracted: 159
___________________________________________________
Do

Pairs extracted: 68
___________________________________________________
Document: 1220
Pairs extracted: 175
___________________________________________________
Document: 1221
Error
___________________________________________________
Document: 1222
Pairs extracted: 8
___________________________________________________
Document: 1223
Pairs extracted: 3
___________________________________________________
Document: 1224
Pairs extracted: 11
___________________________________________________
Document: 1225
Pairs extracted: 3
___________________________________________________
Document: 1226
Pairs extracted: 3
___________________________________________________
Document: 1227
Error
___________________________________________________
Document: 1228
Pairs extracted: 7
___________________________________________________
Document: 1229
Error
___________________________________________________
Document: 1230
Pairs extracted: 173
___________________________________________________
Document: 1231
P

Pairs extracted: 5
___________________________________________________
Document: 1321
Pairs extracted: 169
___________________________________________________
Document: 1322
Error
___________________________________________________
Document: 1323
Error
___________________________________________________
Document: 1324
Pairs extracted: 18
___________________________________________________
Document: 1325
Pairs extracted: 3
___________________________________________________
Document: 1326
Error
___________________________________________________
Document: 1327
Pairs extracted: 7
___________________________________________________
Document: 1328
Pairs extracted: 0
___________________________________________________
Document: 1329
Pairs extracted: 788
___________________________________________________
Document: 1330
Error
___________________________________________________
Document: 1331
Pairs extracted: 0
___________________________________________________
Document: 1332
Pairs extracted

Pairs extracted: 6
___________________________________________________
Document: 1419
Error
___________________________________________________
Document: 1420
Pairs extracted: 56
___________________________________________________
Document: 1421
Pairs extracted: 10
___________________________________________________
Document: 1422
Error
___________________________________________________
Document: 1423
Pairs extracted: 61
___________________________________________________
Document: 1424
Pairs extracted: 3
___________________________________________________
Document: 1425
Pairs extracted: 116
___________________________________________________
Document: 1426
Pairs extracted: 7
___________________________________________________
Document: 1427
Pairs extracted: 0
___________________________________________________
Document: 1428
Pairs extracted: 0
___________________________________________________
Document: 1429
Error
___________________________________________________
Document: 1430
Pa

Pairs extracted: 85
___________________________________________________
Document: 1519
Pairs extracted: 3
___________________________________________________
Document: 1520
Pairs extracted: 27
___________________________________________________
Document: 1521
Error
___________________________________________________
Document: 1522
Pairs extracted: 60
___________________________________________________
Document: 1523
Pairs extracted: 0
___________________________________________________
Document: 1524
Pairs extracted: 29
___________________________________________________
Document: 1525
Pairs extracted: 99
___________________________________________________
Document: 1526
Error
___________________________________________________
Document: 1527
Error
___________________________________________________
Document: 1528
Pairs extracted: 41
___________________________________________________
Document: 1529
Pairs extracted: 13
___________________________________________________
Document: 1530


Pairs extracted: 188
___________________________________________________
Document: 1620
Pairs extracted: 38
___________________________________________________
Document: 1621
Pairs extracted: 144
___________________________________________________
Document: 1622
Error
___________________________________________________
Document: 1623
Pairs extracted: 4
___________________________________________________
Document: 1624
Pairs extracted: 38
___________________________________________________
Document: 1625
Pairs extracted: 17
___________________________________________________
Document: 1626
Pairs extracted: 3
___________________________________________________
Document: 1627
Error
___________________________________________________
Document: 1628
Error
___________________________________________________
Document: 1629
Pairs extracted: 25
___________________________________________________
Document: 1630
Pairs extracted: 3
___________________________________________________
Document: 1631

Pairs extracted: 3
___________________________________________________
Document: 1720
Pairs extracted: 277
___________________________________________________
Document: 1721
Pairs extracted: 36
___________________________________________________
Document: 1722
Pairs extracted: 9
___________________________________________________
Document: 1723
Pairs extracted: 191
___________________________________________________
Document: 1724
Pairs extracted: 0
___________________________________________________
Document: 1725
Error
___________________________________________________
Document: 1726
Error
___________________________________________________
Document: 1727
Error
___________________________________________________
Document: 1728
Pairs extracted: 3
___________________________________________________
Document: 1729
Pairs extracted: 94
___________________________________________________
Document: 1730
Pairs extracted: 14
___________________________________________________
Document: 1731


Pairs extracted: 3
___________________________________________________
Document: 1821
Pairs extracted: 23
___________________________________________________
Document: 1822
Error
___________________________________________________
Document: 1823
Error
___________________________________________________
Document: 1824
Pairs extracted: 158
___________________________________________________
Document: 1825
Error
___________________________________________________
Document: 1826
Pairs extracted: 176
___________________________________________________
Document: 1827
Pairs extracted: 122
___________________________________________________
Document: 1828
Error
___________________________________________________
Document: 1829
Pairs extracted: 3
___________________________________________________
Document: 1830
Pairs extracted: 3
___________________________________________________
Document: 1831
Pairs extracted: 33
___________________________________________________
Document: 1832
Error
______

Pairs extracted: 137
___________________________________________________
Document: 1924
Error
___________________________________________________
Document: 1925
Pairs extracted: 3
___________________________________________________
Document: 1926
Pairs extracted: 6
___________________________________________________
Document: 1927
Pairs extracted: 57
___________________________________________________
Document: 1928
Pairs extracted: 11
___________________________________________________
Document: 1929
Error
___________________________________________________
Document: 1930
Error
___________________________________________________
Document: 1931
Error
___________________________________________________
Document: 1932
Pairs extracted: 0
___________________________________________________
Document: 1933
Error
___________________________________________________
Document: 1934
Pairs extracted: 3
___________________________________________________
Document: 1935
Error
_______________________

Pairs extracted: 0
___________________________________________________
Document: 2024
Pairs extracted: 0
___________________________________________________
Document: 2025
Pairs extracted: 0
___________________________________________________
Document: 2026
Pairs extracted: 185
___________________________________________________
Document: 2027
Error
___________________________________________________
Document: 2028
Pairs extracted: 0
___________________________________________________
Document: 2029
Error
___________________________________________________
Document: 2030
Error
___________________________________________________
Document: 2031
Pairs extracted: 114
___________________________________________________
Document: 2032
Pairs extracted: 4919
___________________________________________________
Document: 2033
Error
___________________________________________________
Document: 2034
Error
___________________________________________________
Document: 2035
Pairs extracted: 20
______

Pairs extracted: 186
___________________________________________________
Document: 2123
Error
___________________________________________________
Document: 2124
Pairs extracted: 14
___________________________________________________
Document: 2125
Error
___________________________________________________
Document: 2126
Error
___________________________________________________
Document: 2127
Pairs extracted: 3
___________________________________________________
Document: 2128
Error
___________________________________________________
Document: 2129
Error
___________________________________________________
Document: 2130
Pairs extracted: 8
___________________________________________________
Document: 2131
Pairs extracted: 4
___________________________________________________
Document: 2132
Pairs extracted: 3
___________________________________________________
Document: 2133
Pairs extracted: 176
___________________________________________________
Document: 2134
Pairs extracted: 88
________

Pairs extracted: 10
___________________________________________________
Document: 2223
Error
___________________________________________________
Document: 2224
Pairs extracted: 120
___________________________________________________
Document: 2225
Pairs extracted: 17
___________________________________________________
Document: 2226
Pairs extracted: 3
___________________________________________________
Document: 2227
Pairs extracted: 523
___________________________________________________
Document: 2228
Pairs extracted: 90
___________________________________________________
Document: 2229
Pairs extracted: 113
___________________________________________________
Document: 2230
Pairs extracted: 15
___________________________________________________
Document: 2231
Pairs extracted: 3
___________________________________________________
Document: 2232
Pairs extracted: 0
___________________________________________________
Document: 2233
Error
___________________________________________________

Pairs extracted: 12
___________________________________________________
Document: 2323
Pairs extracted: 94
___________________________________________________
Document: 2324
Pairs extracted: 0
___________________________________________________
Document: 2325
Pairs extracted: 240
___________________________________________________
Document: 2326
Pairs extracted: 0
___________________________________________________
Document: 2327
Pairs extracted: 4243
___________________________________________________
Document: 2328
Error
___________________________________________________
Document: 2329
Error
___________________________________________________
Document: 2330
Error
___________________________________________________
Document: 2331
Pairs extracted: 3
___________________________________________________
Document: 2332
Pairs extracted: 345
___________________________________________________
Document: 2333
Error
___________________________________________________
Document: 2334
Error
_____

Pairs extracted: 128
___________________________________________________
Document: 2422
Pairs extracted: 3
___________________________________________________
Document: 2423
Pairs extracted: 40
___________________________________________________
Document: 2424
Pairs extracted: 3
___________________________________________________
Document: 2425
Error
___________________________________________________
Document: 2426
Error
___________________________________________________
Document: 2427
Pairs extracted: 26
___________________________________________________
Document: 2428
Pairs extracted: 13
___________________________________________________
Document: 2429
Error
___________________________________________________
Document: 2430
Error
___________________________________________________
Document: 2431
Error
___________________________________________________
Document: 2432
Pairs extracted: 0
___________________________________________________
Document: 2433
Pairs extracted: 38
________

Pairs extracted: 0
___________________________________________________
Document: 2522
Error
___________________________________________________
Document: 2523
Pairs extracted: 73
___________________________________________________
Document: 2524
Pairs extracted: 3
___________________________________________________
Document: 2525
Pairs extracted: 35
___________________________________________________
Document: 2526
Pairs extracted: 0
___________________________________________________
Document: 2527
Pairs extracted: 82
___________________________________________________
Document: 2528
Error
___________________________________________________
Document: 2529
Pairs extracted: 3
___________________________________________________
Document: 2530
Pairs extracted: 3
___________________________________________________
Document: 2531
Pairs extracted: 60
___________________________________________________
Document: 2532
Pairs extracted: 572
___________________________________________________
Doc

Pairs extracted: 3
___________________________________________________
Document: 2622
Pairs extracted: 484
___________________________________________________
Document: 2623
Pairs extracted: 132
___________________________________________________
Document: 2624
Pairs extracted: 29
___________________________________________________
Document: 2625
Pairs extracted: 44
___________________________________________________
Document: 2626
Pairs extracted: 56
___________________________________________________
Document: 2627
Pairs extracted: 3
___________________________________________________
Document: 2628
Error
___________________________________________________
Document: 2629
Pairs extracted: 45
___________________________________________________
Document: 2630
Error
___________________________________________________
Document: 2631
Error
___________________________________________________
Document: 2632
Pairs extracted: 11
___________________________________________________
Document: 263

Pairs extracted: 43
___________________________________________________
Document: 2722
Pairs extracted: 98
___________________________________________________
Document: 2723
Error
___________________________________________________
Document: 2724
Error
___________________________________________________
Document: 2725
Pairs extracted: 6
___________________________________________________
Document: 2726
Error
___________________________________________________
Document: 2727
Pairs extracted: 3
___________________________________________________
Document: 2728
Pairs extracted: 0
___________________________________________________
Document: 2729
Pairs extracted: 84
___________________________________________________
Document: 2730
Pairs extracted: 5
___________________________________________________
Document: 2731
Error
___________________________________________________
Document: 2732
Pairs extracted: 3
___________________________________________________
Document: 2733
Error
___________

Pairs extracted: 3
___________________________________________________
Document: 2824
Error
___________________________________________________
Document: 2825
Error
___________________________________________________
Document: 2826
Error
___________________________________________________
Document: 2827
Error
___________________________________________________
Document: 2828
Pairs extracted: 25
___________________________________________________
Document: 2829
Pairs extracted: 3
___________________________________________________
Document: 2830
Pairs extracted: 3
___________________________________________________
Document: 2831
Pairs extracted: 158
___________________________________________________
Document: 2832
Pairs extracted: 0
___________________________________________________
Document: 2833
Pairs extracted: 3
___________________________________________________
Document: 2834
Error
___________________________________________________
Document: 2835
Error
________________________

Pairs extracted: 19
___________________________________________________
Document: 2925
Error
___________________________________________________
Document: 2926
Pairs extracted: 0
___________________________________________________
Document: 2927
Error
___________________________________________________
Document: 2928
Pairs extracted: 3
___________________________________________________
Document: 2929
Error
___________________________________________________
Document: 2930
Error
___________________________________________________
Document: 2931
Pairs extracted: 8
___________________________________________________
Document: 2932
Pairs extracted: 3
___________________________________________________
Document: 2933
Pairs extracted: 3
___________________________________________________
Document: 2934
Error
___________________________________________________
Document: 2935
Pairs extracted: 38
___________________________________________________
Document: 2936
Pairs extracted: 13
___________

Pairs extracted: 3
___________________________________________________
Document: 3026
Pairs extracted: 0
___________________________________________________
Document: 3027
Pairs extracted: 36
___________________________________________________
Document: 3028
Pairs extracted: 0
___________________________________________________
Document: 3029
Pairs extracted: 77
___________________________________________________
Document: 3030
Error
___________________________________________________
Document: 3031
Pairs extracted: 0
___________________________________________________
Document: 3032
Error
___________________________________________________
Document: 3033
Pairs extracted: 3
___________________________________________________
Document: 3034
Pairs extracted: 9
___________________________________________________
Document: 3035
Pairs extracted: 4
___________________________________________________
Document: 3036
Error
___________________________________________________
Document: 3037
Pairs

Pairs extracted: 68
___________________________________________________
Document: 3128
Pairs extracted: 38
___________________________________________________
Document: 3129
Error
___________________________________________________
Document: 3130
Pairs extracted: 3
___________________________________________________
Document: 3131
Pairs extracted: 159
___________________________________________________
Document: 3132
Pairs extracted: 7
___________________________________________________
Document: 3133
Pairs extracted: 3
___________________________________________________
Document: 3134
Error
___________________________________________________
Document: 3135
Pairs extracted: 3
___________________________________________________
Document: 3136
Error
___________________________________________________
Document: 3137
Pairs extracted: 3
___________________________________________________
Document: 3138
Pairs extracted: 60
___________________________________________________
Document: 3139
Pa

Pairs extracted: 0
___________________________________________________
Document: 3231
Pairs extracted: 3
___________________________________________________
Document: 3232
Pairs extracted: 10
___________________________________________________
Document: 3233
Pairs extracted: 12
___________________________________________________
Document: 3234
Pairs extracted: 64
___________________________________________________
Document: 3235
Pairs extracted: 3
___________________________________________________
Document: 3236
Error
___________________________________________________
Document: 3237
Pairs extracted: 2537
___________________________________________________
Document: 3238
Error
___________________________________________________
Document: 3239
Error
___________________________________________________
Document: 3240
Pairs extracted: 99
___________________________________________________
Document: 3241
Pairs extracted: 0
___________________________________________________
Document: 3242


Pairs extracted: 4
___________________________________________________
Document: 3331
Pairs extracted: 0
___________________________________________________
Document: 3332
Pairs extracted: 0
___________________________________________________
Document: 3333
Pairs extracted: 104
___________________________________________________
Document: 3334
Pairs extracted: 3
___________________________________________________
Document: 3335
Error
___________________________________________________
Document: 3336
Pairs extracted: 0
___________________________________________________
Document: 3337
Error
___________________________________________________
Document: 3338
Pairs extracted: 3
___________________________________________________
Document: 3339
Pairs extracted: 27
___________________________________________________
Document: 3340
Pairs extracted: 82
___________________________________________________
Document: 3341
Pairs extracted: 3
___________________________________________________
Docum

Pairs extracted: 0
___________________________________________________
Document: 3435
Pairs extracted: 11
___________________________________________________
Document: 3436
Pairs extracted: 159
___________________________________________________
Document: 3437
Pairs extracted: 3
___________________________________________________
Document: 3438
Error
___________________________________________________
Document: 3439
Pairs extracted: 14
___________________________________________________
Document: 3440
Error
___________________________________________________
Document: 3441
Pairs extracted: 10438
___________________________________________________
Document: 3442
Pairs extracted: 56
___________________________________________________
Document: 3443
Pairs extracted: 39
___________________________________________________
Document: 3444
Pairs extracted: 3122
___________________________________________________
Document: 3445
Pairs extracted: 3
________________________________________________

Pairs extracted: 3
___________________________________________________
Document: 3536
Pairs extracted: 50
___________________________________________________
Document: 3537
Pairs extracted: 4
___________________________________________________
Document: 3538
Pairs extracted: 40
___________________________________________________
Document: 3539
Pairs extracted: 3
___________________________________________________
Document: 3540
Error
___________________________________________________
Document: 3541
Pairs extracted: 45
___________________________________________________
Document: 3542
Error
___________________________________________________
Document: 3543
Pairs extracted: 3
___________________________________________________
Document: 3544
Error
___________________________________________________
Document: 3545
Pairs extracted: 17
___________________________________________________
Document: 3546
Error
___________________________________________________
Document: 3547
Error
__________

Pairs extracted: 4
___________________________________________________
Document: 3636
Pairs extracted: 3
___________________________________________________
Document: 3637
Pairs extracted: 0
___________________________________________________
Document: 3638
Pairs extracted: 0
___________________________________________________
Document: 3639
Pairs extracted: 60
___________________________________________________
Document: 3640
Pairs extracted: 3
___________________________________________________
Document: 3641
Pairs extracted: 24
___________________________________________________
Document: 3642
Pairs extracted: 3021
___________________________________________________
Document: 3643
Pairs extracted: 0
___________________________________________________
Document: 3644
Pairs extracted: 9
___________________________________________________
Document: 3645
Error
___________________________________________________
Document: 3646
Pairs extracted: 14
__________________________________________

Pairs extracted: 3
___________________________________________________
Document: 3736
Error
___________________________________________________
Document: 3737
Pairs extracted: 3
___________________________________________________
Document: 3738
Pairs extracted: 0
___________________________________________________
Document: 3739
Error
___________________________________________________
Document: 3740
Error
___________________________________________________
Document: 3741
Pairs extracted: 3
___________________________________________________
Document: 3742
Pairs extracted: 0
___________________________________________________
Document: 3743
Error
___________________________________________________
Document: 3744
Error
___________________________________________________
Document: 3745
Pairs extracted: 0
___________________________________________________
Document: 3746
Error
___________________________________________________
Document: 3747
Error
________________________________________

___________________________________________________
Document: 3836
Pairs extracted: 4
___________________________________________________
Document: 3837
Pairs extracted: 158
___________________________________________________
Document: 3838
Error
___________________________________________________
Document: 3839
Pairs extracted: 168
___________________________________________________
Document: 3840
Pairs extracted: 25
___________________________________________________
Document: 3841
Error
___________________________________________________
Document: 3842
Pairs extracted: 3
___________________________________________________
Document: 3843
Pairs extracted: 21
___________________________________________________
Document: 3844
Pairs extracted: 222
___________________________________________________
Document: 3845
Error
___________________________________________________
Document: 3846
Pairs extracted: 0
___________________________________________________
Document: 3847
Pairs extracted: 1

Pairs extracted: 29
___________________________________________________
Document: 3939
Pairs extracted: 7
___________________________________________________
Document: 3940
Pairs extracted: 24
___________________________________________________
Document: 3941
Error
___________________________________________________
Document: 3942
Pairs extracted: 13
___________________________________________________
Document: 3943
Pairs extracted: 0
___________________________________________________
Document: 3944
Pairs extracted: 0
___________________________________________________
Document: 3945
Pairs extracted: 3
___________________________________________________
Document: 3946
Pairs extracted: 0
___________________________________________________
Document: 3947
Pairs extracted: 66
___________________________________________________
Document: 3948
Pairs extracted: 145
___________________________________________________
Document: 3949
Error
___________________________________________________
Doc

Pairs extracted: 3
___________________________________________________
Document: 4040
Error
___________________________________________________
Document: 4041
Pairs extracted: 43
___________________________________________________
Document: 4042
Pairs extracted: 50
___________________________________________________
Document: 4043
Pairs extracted: 50
___________________________________________________
Document: 4044
Error
___________________________________________________
Document: 4045
Error
___________________________________________________
Document: 4046
Pairs extracted: 3
___________________________________________________
Document: 4047
Pairs extracted: 3594
___________________________________________________
Document: 4048
Pairs extracted: 6
___________________________________________________
Document: 4049
Error
___________________________________________________
Document: 4050
Pairs extracted: 102
___________________________________________________
Document: 4051
Pairs extrac

Pairs extracted: 3
___________________________________________________
Document: 4141
Error
___________________________________________________
Document: 4142
Error
___________________________________________________
Document: 4143
Pairs extracted: 40
___________________________________________________
Document: 4144
Pairs extracted: 661
___________________________________________________
Document: 4145
Pairs extracted: 40
___________________________________________________
Document: 4146
Pairs extracted: 64
___________________________________________________
Document: 4147
Pairs extracted: 4
___________________________________________________
Document: 4148
Pairs extracted: 3
___________________________________________________
Document: 4149
Pairs extracted: 18
___________________________________________________
Document: 4150
Pairs extracted: 3
___________________________________________________
Document: 4151
Pairs extracted: 0
___________________________________________________
Doc

Pairs extracted: 124
___________________________________________________
Document: 4240
Pairs extracted: 0
___________________________________________________
Document: 4241
Error
___________________________________________________
Document: 4242
Pairs extracted: 0
___________________________________________________
Document: 4243
Error
___________________________________________________
Document: 4244
Pairs extracted: 39
___________________________________________________
Document: 4245
Pairs extracted: 3
___________________________________________________
Document: 4246
Pairs extracted: 3
___________________________________________________
Document: 4247
Pairs extracted: 3
___________________________________________________
Document: 4248
Pairs extracted: 12
___________________________________________________
Document: 4249
Error
___________________________________________________
Document: 4250
Error
___________________________________________________
Document: 4251
Pairs extracted:

Pairs extracted: 385
___________________________________________________
Document: 4341
Pairs extracted: 309
___________________________________________________
Document: 4342
Error
___________________________________________________
Document: 4343
Pairs extracted: 3
___________________________________________________
Document: 4344
Pairs extracted: 3
___________________________________________________
Document: 4345
Pairs extracted: 3
___________________________________________________
Document: 4346
Pairs extracted: 13
___________________________________________________
Document: 4347
Pairs extracted: 29
___________________________________________________
Document: 4348
Error
___________________________________________________
Document: 4349
Pairs extracted: 3
___________________________________________________
Document: 4350
Pairs extracted: 3
___________________________________________________
Document: 4351
Pairs extracted: 279
___________________________________________________
D

Pairs extracted: 4
___________________________________________________
Document: 4443
Error
___________________________________________________
Document: 4444
Pairs extracted: 36
___________________________________________________
Document: 4445
Pairs extracted: 58
___________________________________________________
Document: 4446
Pairs extracted: 3
___________________________________________________
Document: 4447
Pairs extracted: 3
___________________________________________________
Document: 4448
Error
___________________________________________________
Document: 4449
Pairs extracted: 3
___________________________________________________
Document: 4450
Pairs extracted: 9
___________________________________________________
Document: 4451
Error
___________________________________________________
Document: 4452
Pairs extracted: 3
___________________________________________________
Document: 4453
Pairs extracted: 3
___________________________________________________
Document: 4454
Pairs

Pairs extracted: 31
___________________________________________________
Document: 4543
Error
___________________________________________________
Document: 4544
Pairs extracted: 3
___________________________________________________
Document: 4545
Error
___________________________________________________
Document: 4546
Error
___________________________________________________
Document: 4547
Pairs extracted: 3
___________________________________________________
Document: 4548
Error
___________________________________________________
Document: 4549
Error
___________________________________________________
Document: 4550
Pairs extracted: 3
___________________________________________________
Document: 4551
Error
___________________________________________________
Document: 4552
Pairs extracted: 66
___________________________________________________
Document: 4553
Pairs extracted: 9
___________________________________________________
Document: 4554
Pairs extracted: 57
________________________

Pairs extracted: 137
___________________________________________________
Document: 4645
Pairs extracted: 83
___________________________________________________
Document: 4646
Error
___________________________________________________
Document: 4647
Error
___________________________________________________
Document: 4648
Pairs extracted: 3
___________________________________________________
Document: 4649
Pairs extracted: 0
___________________________________________________
Document: 4650
Pairs extracted: 65
___________________________________________________
Document: 4651
Pairs extracted: 21
___________________________________________________
Document: 4652
Pairs extracted: 106
___________________________________________________
Document: 4653
Pairs extracted: 3
___________________________________________________
Document: 4654
Pairs extracted: 31
___________________________________________________
Document: 4655
Pairs extracted: 3
___________________________________________________
D

Document: 4744
Pairs extracted: 223
___________________________________________________
Document: 4745
Error
___________________________________________________
Document: 4746
Error
___________________________________________________
Document: 4747
Error
___________________________________________________
Document: 4748
Pairs extracted: 134
___________________________________________________
Document: 4749
Pairs extracted: 0
___________________________________________________
Document: 4750
Pairs extracted: 21
___________________________________________________
Document: 4751
Pairs extracted: 648
___________________________________________________
Document: 4752
Error
___________________________________________________
Document: 4753
Pairs extracted: 294
___________________________________________________
Document: 4754
Pairs extracted: 18
___________________________________________________
Document: 4755
Error
___________________________________________________
Document: 4756
Error
__

Pairs extracted: 33
___________________________________________________
Document: 4845
Pairs extracted: 0
___________________________________________________
Document: 4846
Pairs extracted: 0
___________________________________________________
Document: 4847
Error
___________________________________________________
Document: 4848
Pairs extracted: 3
___________________________________________________
Document: 4849
Pairs extracted: 30
___________________________________________________
Document: 4850
Error
___________________________________________________
Document: 4851
Pairs extracted: 0
___________________________________________________
Document: 4852
Error
___________________________________________________
Document: 4853
Error
___________________________________________________
Document: 4854
Pairs extracted: 3
___________________________________________________
Document: 4855
Error
___________________________________________________
Document: 4856
Error
_________________________

Pairs extracted: 158
___________________________________________________
Document: 4946
Error
___________________________________________________
Document: 4947
Pairs extracted: 3
___________________________________________________
Document: 4948
Pairs extracted: 9
___________________________________________________
Document: 4949
Pairs extracted: 14
___________________________________________________
Document: 4950
Error
___________________________________________________
Document: 4951
Pairs extracted: 0
___________________________________________________
Document: 4952
Pairs extracted: 0
___________________________________________________
Document: 4953
Pairs extracted: 3
___________________________________________________
Document: 4954
Pairs extracted: 6
___________________________________________________
Document: 4955
Pairs extracted: 12
___________________________________________________
Document: 4956
Pairs extracted: 8
___________________________________________________
Docum

Pairs extracted: 186
___________________________________________________
Document: 5046
Error
___________________________________________________
Document: 5047
Error
___________________________________________________
Document: 5048
Error
___________________________________________________
Document: 5049
Pairs extracted: 6
___________________________________________________
Document: 5050
Error
___________________________________________________
Document: 5051
Error
___________________________________________________
Document: 5052
Pairs extracted: 91
___________________________________________________
Document: 5053
Pairs extracted: 3327
___________________________________________________
Document: 5054
Pairs extracted: 4
___________________________________________________
Document: 5055
Pairs extracted: 3
___________________________________________________
Document: 5056
Error
___________________________________________________
Document: 5057
Pairs extracted: 162
___________________

Pairs extracted: 231
___________________________________________________
Document: 5146
Pairs extracted: 3
___________________________________________________
Document: 5147
Pairs extracted: 100
___________________________________________________
Document: 5148
Pairs extracted: 525
___________________________________________________
Document: 5149
Pairs extracted: 10
___________________________________________________
Document: 5150
Error
___________________________________________________
Document: 5151
Pairs extracted: 0
___________________________________________________
Document: 5152
Error
___________________________________________________
Document: 5153
Pairs extracted: 0
___________________________________________________
Document: 5154
Pairs extracted: 0
___________________________________________________
Document: 5155
Pairs extracted: 59
___________________________________________________
Document: 5156
Pairs extracted: 0
___________________________________________________
D

Pairs extracted: 24
___________________________________________________
Document: 5246
Error
___________________________________________________
Document: 5247
Error
___________________________________________________
Document: 5248
Error
___________________________________________________
Document: 5249
Pairs extracted: 15
___________________________________________________
Document: 5250
Pairs extracted: 3
___________________________________________________
Document: 5251
Error
___________________________________________________
Document: 5252
Pairs extracted: 158
___________________________________________________
Document: 5253
Pairs extracted: 3
___________________________________________________
Document: 5254
Pairs extracted: 3
___________________________________________________
Document: 5255
Error
___________________________________________________
Document: 5256
Error
___________________________________________________
Document: 5257
Pairs extracted: 69
______________________

Pairs extracted: 9
___________________________________________________
Document: 5347
Pairs extracted: 12
___________________________________________________
Document: 5348
Pairs extracted: 62
___________________________________________________
Document: 5349
Pairs extracted: 34
___________________________________________________
Document: 5350
Pairs extracted: 3
___________________________________________________
Document: 5351
Pairs extracted: 3
___________________________________________________
Document: 5352
Error
___________________________________________________
Document: 5353
Pairs extracted: 40
___________________________________________________
Document: 5354
Pairs extracted: 41
___________________________________________________
Document: 5355
Pairs extracted: 16
___________________________________________________
Document: 5356
Error
___________________________________________________
Document: 5357
Error
___________________________________________________
Document: 5358
P

Pairs extracted: 3
___________________________________________________
Document: 5447
Error
___________________________________________________
Document: 5448
Error
___________________________________________________
Document: 5449
Pairs extracted: 16
___________________________________________________
Document: 5450
Error
___________________________________________________
Document: 5451
Pairs extracted: 36
___________________________________________________
Document: 5452
Pairs extracted: 3
___________________________________________________
Document: 5453
Pairs extracted: 0
___________________________________________________
Document: 5454
Pairs extracted: 9
___________________________________________________
Document: 5455
Pairs extracted: 39
___________________________________________________
Document: 5456
Pairs extracted: 3
___________________________________________________
Document: 5457
Pairs extracted: 0
___________________________________________________
Document: 5458
Pair

Pairs extracted: 63
___________________________________________________
Document: 5548
Pairs extracted: 28
___________________________________________________
Document: 5549
Pairs extracted: 3
___________________________________________________
Document: 5550
Pairs extracted: 3
___________________________________________________
Document: 5551
Pairs extracted: 5
___________________________________________________
Document: 5552
Pairs extracted: 110
___________________________________________________
Document: 5553
Error
___________________________________________________
Document: 5554
Error
___________________________________________________
Document: 5555
Pairs extracted: 9
___________________________________________________
Document: 5556
Pairs extracted: 75
___________________________________________________
Document: 5557
Pairs extracted: 0
___________________________________________________
Document: 5558
Error
___________________________________________________
Document: 5559
Pa

Pairs extracted: 185
___________________________________________________
Document: 5646
Pairs extracted: 3
___________________________________________________
Document: 5647
Pairs extracted: 4353
___________________________________________________
Document: 5648
Pairs extracted: 133
___________________________________________________
Document: 5649
Pairs extracted: 97
___________________________________________________
Document: 5650
Error
___________________________________________________
Document: 5651
Pairs extracted: 3
___________________________________________________
Document: 5652
Pairs extracted: 26
___________________________________________________
Document: 5653
Pairs extracted: 6
___________________________________________________
Document: 5654
Error
___________________________________________________
Document: 5655
Error
___________________________________________________
Document: 5656
Error
___________________________________________________
Document: 5657
Error
_____

Pairs extracted: 10
___________________________________________________
Document: 5746
Error
___________________________________________________
Document: 5747
Pairs extracted: 38
___________________________________________________
Document: 5748
Pairs extracted: 30
___________________________________________________
Document: 5749
Error
___________________________________________________
Document: 5750
Pairs extracted: 3
___________________________________________________
Document: 5751
Error
___________________________________________________
Document: 5752
Pairs extracted: 36
___________________________________________________
Document: 5753
Pairs extracted: 3
___________________________________________________
Document: 5754
Pairs extracted: 5
___________________________________________________
Document: 5755
Error
___________________________________________________
Document: 5756
Pairs extracted: 87
___________________________________________________
Document: 5757
Pairs extracted

Pairs extracted: 15
___________________________________________________
Document: 5846
Error
___________________________________________________
Document: 5847
Pairs extracted: 29
___________________________________________________
Document: 5848
Pairs extracted: 0
___________________________________________________
Document: 5849
Pairs extracted: 69
___________________________________________________
Document: 5850
Pairs extracted: 0
___________________________________________________
Document: 5851
Pairs extracted: 125
___________________________________________________
Document: 5852
Error
___________________________________________________
Document: 5853
Pairs extracted: 3
___________________________________________________
Document: 5854
Pairs extracted: 19
___________________________________________________
Document: 5855
Pairs extracted: 3
___________________________________________________
Document: 5856
Error
___________________________________________________
Document: 5857
P

Pairs extracted: 0
___________________________________________________
Document: 5947
Error
___________________________________________________
Document: 5948
Pairs extracted: 3
___________________________________________________
Document: 5949
Error
___________________________________________________
Document: 5950
Pairs extracted: 20
___________________________________________________
Document: 5951
Error
___________________________________________________
Document: 5952
Pairs extracted: 3
___________________________________________________
Document: 5953
Pairs extracted: 3
___________________________________________________
Document: 5954
Pairs extracted: 2
___________________________________________________
Document: 5955
Pairs extracted: 0
___________________________________________________
Document: 5956
Error
___________________________________________________
Document: 5957
Error
___________________________________________________
Document: 5958
Pairs extracted: 61
____________

Pairs extracted: 660
___________________________________________________
Document: 6047
Pairs extracted: 45
___________________________________________________
Document: 6048
Pairs extracted: 3
___________________________________________________
Document: 6049
Pairs extracted: 306
___________________________________________________
Document: 6050
Error
___________________________________________________
Document: 6051
Pairs extracted: 0
___________________________________________________
Document: 6052
Pairs extracted: 9
___________________________________________________
Document: 6053
Pairs extracted: 0
___________________________________________________
Document: 6054
Pairs extracted: 15
___________________________________________________
Document: 6055
Pairs extracted: 3
___________________________________________________
Document: 6056
Pairs extracted: 0
___________________________________________________
Document: 6057
Error
___________________________________________________
Doc

Pairs extracted: 3
___________________________________________________
Document: 6148
Pairs extracted: 441
___________________________________________________
Document: 6149
Pairs extracted: 20
___________________________________________________
Document: 6150
Pairs extracted: 0
___________________________________________________
Document: 6151
Pairs extracted: 14
___________________________________________________
Document: 6152
Error
___________________________________________________
Document: 6153
Error
___________________________________________________
Document: 6154
Pairs extracted: 71
___________________________________________________
Document: 6155
Error
___________________________________________________
Document: 6156
Pairs extracted: 3
___________________________________________________
Document: 6157
Pairs extracted: 0
___________________________________________________
Document: 6158
Pairs extracted: 3
___________________________________________________
Document: 6159
Pa

Pairs extracted: 3
___________________________________________________
Document: 6250
Pairs extracted: 610
___________________________________________________
Document: 6251
Error
___________________________________________________
Document: 6252
Error
___________________________________________________
Document: 6253
Pairs extracted: 0
___________________________________________________
Document: 6254
Pairs extracted: 7
___________________________________________________
Document: 6255
Pairs extracted: 3
___________________________________________________
Document: 6256
Pairs extracted: 3
___________________________________________________
Document: 6257
Pairs extracted: 3
___________________________________________________
Document: 6258
Error
___________________________________________________
Document: 6259
Pairs extracted: 3
___________________________________________________
Document: 6260
Pairs extracted: 158
___________________________________________________
Document: 6261
Err

Pairs extracted: 343
___________________________________________________
Document: 6352
Pairs extracted: 482
___________________________________________________
Document: 6353
Pairs extracted: 3
___________________________________________________
Document: 6354
Pairs extracted: 0
___________________________________________________
Document: 6355
Error
___________________________________________________
Document: 6356
Error
___________________________________________________
Document: 6357
Pairs extracted: 0
___________________________________________________
Document: 6358
Pairs extracted: 637
___________________________________________________
Document: 6359
Pairs extracted: 3
___________________________________________________
Document: 6360
Pairs extracted: 78
___________________________________________________
Document: 6361
Pairs extracted: 3
___________________________________________________
Document: 6362
Pairs extracted: 96
___________________________________________________
D

Pairs extracted: 158
___________________________________________________
Document: 6453
Pairs extracted: 0
___________________________________________________
Document: 6454
Pairs extracted: 3
___________________________________________________
Document: 6455
Error
___________________________________________________
Document: 6456
Error
___________________________________________________
Document: 6457
Error
___________________________________________________
Document: 6458
Pairs extracted: 41
___________________________________________________
Document: 6459
Error
___________________________________________________
Document: 6460
Pairs extracted: 14
___________________________________________________
Document: 6461
Pairs extracted: 26
___________________________________________________
Document: 6462
Pairs extracted: 3
___________________________________________________
Document: 6463
Pairs extracted: 3
___________________________________________________
Document: 6464
Pairs extracted

Pairs extracted: 0
___________________________________________________
Document: 6551
Pairs extracted: 24
___________________________________________________
Document: 6552
Error
___________________________________________________
Document: 6553
Pairs extracted: 3
___________________________________________________
Document: 6554
Error
___________________________________________________
Document: 6555
Pairs extracted: 44
___________________________________________________
Document: 6556
Error
___________________________________________________
Document: 6557
Pairs extracted: 3
___________________________________________________
Document: 6558
Pairs extracted: 0
___________________________________________________
Document: 6559
Pairs extracted: 3
___________________________________________________
Document: 6560
Error
___________________________________________________
Document: 6561
Error
___________________________________________________
Document: 6562
Pairs extracted: 8
____________

___________________________________________________
Document: 6651
Pairs extracted: 110
___________________________________________________
Document: 6652
Pairs extracted: 3
___________________________________________________
Document: 6653
Pairs extracted: 60
___________________________________________________
Document: 6654
Pairs extracted: 58
___________________________________________________
Document: 6655
Pairs extracted: 3
___________________________________________________
Document: 6656
Error
___________________________________________________
Document: 6657
Pairs extracted: 0
___________________________________________________
Document: 6658
Pairs extracted: 3
___________________________________________________
Document: 6659
Pairs extracted: 484
___________________________________________________
Document: 6660
Pairs extracted: 36
___________________________________________________
Document: 6661
Pairs extracted: 3
___________________________________________________
Document

Pairs extracted: 25
___________________________________________________
Document: 6751
Pairs extracted: 29
___________________________________________________
Document: 6752
Error
___________________________________________________
Document: 6753
Pairs extracted: 97
___________________________________________________
Document: 6754
Pairs extracted: 3
___________________________________________________
Document: 6755
Pairs extracted: 0
___________________________________________________
Document: 6756
Pairs extracted: 106
___________________________________________________
Document: 6757
Pairs extracted: 25
___________________________________________________
Document: 6758
Pairs extracted: 51
___________________________________________________
Document: 6759
Error
___________________________________________________
Document: 6760
Pairs extracted: 0
___________________________________________________
Document: 6761
Pairs extracted: 0
___________________________________________________
Do

Pairs extracted: 0
___________________________________________________
Document: 6851
Pairs extracted: 2111
___________________________________________________
Document: 6852
Error
___________________________________________________
Document: 6853
Error
___________________________________________________
Document: 6854
Pairs extracted: 3
___________________________________________________
Document: 6855
Error
___________________________________________________
Document: 6856
Pairs extracted: 11
___________________________________________________
Document: 6857
Pairs extracted: 3
___________________________________________________
Document: 6858
Pairs extracted: 36
___________________________________________________
Document: 6859
Pairs extracted: 6
___________________________________________________
Document: 6860
Pairs extracted: 105
___________________________________________________
Document: 6861
Error
___________________________________________________
Document: 6862
Pairs extract

Pairs extracted: 0
___________________________________________________
Document: 6951
Error
___________________________________________________
Document: 6952
Pairs extracted: 0
___________________________________________________
Document: 6953
Pairs extracted: 5
___________________________________________________
Document: 6954
Pairs extracted: 3
___________________________________________________
Document: 6955
Error
___________________________________________________
Document: 6956
Pairs extracted: 3
___________________________________________________
Document: 6957
Pairs extracted: 3
___________________________________________________
Document: 6958
Error
___________________________________________________
Document: 6959
Error
___________________________________________________
Document: 6960
Pairs extracted: 0
___________________________________________________
Document: 6961
Pairs extracted: 3
___________________________________________________
Document: 6962
Error
______________

Pairs extracted: 1330
___________________________________________________
Document: 7051
Error
___________________________________________________
Document: 7052
Pairs extracted: 46
___________________________________________________
Document: 7053
Error
___________________________________________________
Document: 7054
Pairs extracted: 45
___________________________________________________
Document: 7055
Pairs extracted: 18
___________________________________________________
Document: 7056
Pairs extracted: 0
___________________________________________________
Document: 7057
Pairs extracted: 3
___________________________________________________
Document: 7058
Pairs extracted: 0
___________________________________________________
Document: 7059
Error
___________________________________________________
Document: 7060
Error
___________________________________________________
Document: 7061
Pairs extracted: 5
___________________________________________________
Document: 7062
Pairs extracte

Pairs extracted: 933
___________________________________________________
Document: 7151
Pairs extracted: 147
___________________________________________________
Document: 7152
Pairs extracted: 5
___________________________________________________
Document: 7153
Pairs extracted: 693
___________________________________________________
Document: 7154
Error
___________________________________________________
Document: 7155
Pairs extracted: 14
___________________________________________________
Document: 7156
Pairs extracted: 25
___________________________________________________
Document: 7157
Pairs extracted: 3
___________________________________________________
Document: 7158
Pairs extracted: 31
___________________________________________________
Document: 7159
Pairs extracted: 211
___________________________________________________
Document: 7160
Pairs extracted: 3
___________________________________________________
Document: 7161
Pairs extracted: 0
_____________________________________

___________________________________________________
Document: 7248
Pairs extracted: 3
___________________________________________________
Document: 7249
Pairs extracted: 3
___________________________________________________
Document: 7250
Pairs extracted: 9
___________________________________________________
Document: 7251
Pairs extracted: 600
___________________________________________________
Document: 7252
Error
___________________________________________________
Document: 7253
Error
___________________________________________________
Document: 7254
Pairs extracted: 5
___________________________________________________
Document: 7255
Pairs extracted: 14
___________________________________________________
Document: 7256
Pairs extracted: 19
___________________________________________________
Document: 7257
Error
___________________________________________________
Document: 7258
Pairs extracted: 379
___________________________________________________
Document: 7259
Pairs extracted: 76


Document: 7349
Error
___________________________________________________
Document: 7350
Pairs extracted: 19
___________________________________________________
Document: 7351
Pairs extracted: 15
___________________________________________________
Document: 7352
Pairs extracted: 976
___________________________________________________
Document: 7353
Error
___________________________________________________
Document: 7354
Pairs extracted: 77
___________________________________________________
Document: 7355
Pairs extracted: 22
___________________________________________________
Document: 7356
Pairs extracted: 3
___________________________________________________
Document: 7357
Pairs extracted: 0
___________________________________________________
Document: 7358
Pairs extracted: 11
___________________________________________________
Document: 7359
Pairs extracted: 47
___________________________________________________
Document: 7360
Pairs extracted: 0
______________________________________

Pairs extracted: 3
___________________________________________________
Document: 7450
Error
___________________________________________________
Document: 7451
Pairs extracted: 3
___________________________________________________
Document: 7452
Pairs extracted: 3
___________________________________________________
Document: 7453
Pairs extracted: 3
___________________________________________________
Document: 7454
Pairs extracted: 3
___________________________________________________
Document: 7455
Error
___________________________________________________
Document: 7456
Pairs extracted: 0
___________________________________________________
Document: 7457
Pairs extracted: 7
___________________________________________________
Document: 7458
Pairs extracted: 146
___________________________________________________
Document: 7459
Pairs extracted: 3
___________________________________________________
Document: 7460
Pairs extracted: 18
___________________________________________________
Docume

Pairs extracted: 79
___________________________________________________
Document: 7550
Pairs extracted: 14
___________________________________________________
Document: 7551
Pairs extracted: 230
___________________________________________________
Document: 7552
Error
___________________________________________________
Document: 7553
Pairs extracted: 0
___________________________________________________
Document: 7554
Pairs extracted: 3
___________________________________________________
Document: 7555
Pairs extracted: 0
___________________________________________________
Document: 7556
Error
___________________________________________________
Document: 7557
Pairs extracted: 3
___________________________________________________
Document: 7558
Pairs extracted: 51
___________________________________________________
Document: 7559
Pairs extracted: 3
___________________________________________________
Document: 7560
Pairs extracted: 41
___________________________________________________
Doc

### Ergebnis der Datenextrahierung

In [24]:
kg_df

Unnamed: 0,Author,Course,Course_abbreviation,Course_location,Creation-Date,ID,Last-Modified,Link,Object_Type,Objects,Objects_raw,Relations,Sentence,Subject_Type,Subjects,Subjects_raw,Title,Upload-Date,index,score
0,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,,Stipendien,Stipendien,gewinnen,Talente gewinnen Stipendien Studium mit vertie...,PER,Talente,Talente,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0
1,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,,Studium,Studium,gewinnen,Talente gewinnen Stipendien Studium mit vertie...,PER,Talente,Talente,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0
2,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,,vertiefter Praxis,Praxis,gewinnen,Talente gewinnen Stipendien Studium mit vertie...,PER,Talente,Talente,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0
0,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,ORG,das Württembergische Kammerorchester Heilbronn,Kammerorchester,können vorstellen dirigieren,"bis 24.07.2020 Den Besuchern wird das ""Virtual...",,24.07.2020,24.07.2020,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0
1,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,,Den Besuchern,Besuchern,können vorstellen dirigieren,"bis 24.07.2020 Den Besuchern wird das ""Virtual...",24.07.2020,24.07.2020,24.07.2020,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0
2,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,ORG,das Württembergische Kammerorchester Heilbronn,Heilbronn,können vorstellen dirigieren,"bis 24.07.2020 Den Besuchern wird das ""Virtual...",,24.07.2020,24.07.2020,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0
0,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,,Die Dirigierbewegung,Dirigierbewegung,erfasst,Die Dirigierbewegung wird durch Radarsensorik ...,,Radarsensorik,Radarsensorik,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0
0,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,,der Vorgabe,Vorgabe,abWeicht,Weicht das Metrum zu stark von der Vorgabe des...,,das Metrum,Metrum,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0
1,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,,des gewählten Musikstückes,Musikstückes,abWeicht,Weicht das Metrum zu stark von der Vorgabe des...,,das Metrum,Metrum,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0
2,,,,,,u4EBxXIB7QWdo8C6vTMN,,www.hs-heilbronn.de/21278004/rueckblick-2018-a...,,das Stück,Stück,abbrechen,Weicht das Metrum zu stark von der Vorgabe des...,,das Orchester,Orchester,MR-Aktivitäten - Hochschule Heilbronn,2020-06-18T00:42:06.083993Z,mid_beispieldaten_v9,1.0


### Die Methoden aus der VictoryNLP-Klasse werden hier auch in Einzelblöcke zur Verfügung gestellt, damit die Auswertung von denen einfacher ist

In [25]:
    def is_question(sent):
        '''
        Prüft, ob der analisyste Satz eine Frage ist.
        ____________________________________________________________________________________________________
        ### Inputs ###
        sent --> Satz, der analysiert wird
        ____________________________________________________________________________________________________
        ### Outputs ###
        Boolean, ob "?" in dem Satz zu finden ist
        '''
        return '?' in sent.text # Prüft, ob "?" in dem Satz zu finden ist

In [26]:
 def is_question_words_without_obj(token):
        '''
        Prüft ob der Token ein W-Fragewort ist, bei dem das Objekt oder Subjekt direkt die W-Fragewort ist.
        ____________________________________________________________________________________________________
        ### Inputs ###
        token --> Wort, das analysiert wird
        ____________________________________________________________________________________________________
        ### Outputs ###
        Boolean --> ob, das Wort in W-Fragewort ist, bei dem das Objekt oder Subjekt direkt die W-Fragewort ist.
    
        '''
        question_words_without_obj = ['was', 'wo', 'wer', 'wen', 'wem', 'wohin', 'woher'] # W-Fragewörter, , bei denen das Objekt oder Subjekt direkt die W-Fragewort ist
        return token.text.lower() in question_words_without_obj # Return Boolean, ob der Token ein von den W-Fragewörtern ist.
   

In [27]:
def get_multiple_elements(objs):
    '''
    Bei dieser Methode werden vielfältige Objekte oder Subjekte gesucht. Nicht immer sind die Objekte oder Subjekte direkt
    zu erkennen. Manchmal besteht das Objekt oder das Subjekt aus mehrere Wörter, die nicht sofort von Spacy erkennbar sind.
    Aus diesem Grund, liest die Methode den Satzt wieder durch und verknüpft die vielfältigen Objekte und Subjekte.
    Da das Verfahren gleich für Subjekte und Objekte ist, wird in den Komentare nur über Objekte gesprochen.
    ____________________________________________________________________________________________________
    ### Inputs ###
    objs --> Liste mit den erkannten Objekten
    ____________________________________________________________________________________________________
    ### Outputs ###
    objs --> Bearbeitete Liste von den vielfältigen Objekten

    '''
    # Typen von Wörtern, die nicht als Objekte erwünscht sind
    unwanted_tokens = (
    'AUX', # auxiliar verb
    'ADJ', # adjective
    'ADV', # adverb
    'VERB', # verb
    'PART',  # particle
    'DET',  # determiner
    'SCONJ',  # subordinating conjunction
    'PUNCT',  # punctuation
    'SYM',  # symbol
    'X',  # other
    )

    # Diese Typen werden nachher gefiltert, weil viele Verknüpfungen zwischen Objekten über diese Typen zu erkennen sind,
    # jedoch werden diese Typen am Ende als Objekte nicht erwünscht, daher werden sie gefiltert.
    obj_filter = (
    'CONJ', # conjunction
    'ADP', # adposition
    )

    # Schleife über die Objekte
    for obj in objs:
        # Schleife über die Kinder des Objkets
        for child in obj.children:
            # Voraussetzungen:
            # --> Wenn das POS des Kinds nicht in des Tuples "unwanted_tokens" sich befindet
            # --> Und wenn das Kind kein Interpunktionszeichen ist
            # --> Und wenn das Kind noch nicht in der Objektliste ist
            if child.pos_ not in unwanted_tokens and child.is_punct==False and child not in objs:
                # Fügt das Kind zu der Objektliste ein
                objs.append(child)

    # Filtert die Subjekte und Objekte auf basis des Tuples "obj_filter" 
    objs = [obj for obj in objs if obj.pos_ not in obj_filter]

    # Rückgabe der vielfältigen Objekte
    return objs

In [28]:
def substitute_pronoun(token):
    '''
    Für einen guten Lesefluss werden oft Pronomen angewendet. Durch die Anwendung von Pronomen im Text wird
    verzichtet, mehrmals die Subjekte oder Objekte zu wiederholen, ohne dass Informationen verloren geht.
    Die Beziehung zwischen Pronomen und den Wörtern auf denen die Pronomen sich beziehen werden nicht von 
    Spacy erkannt und, um diese Informationen nicht zu verlieren und um herauszufinden woraus das Pronomem
    sich bezieht wurde diese Methode geschrieben        
    ____________________________________________________________________________________________________
    ### Inputs ###
    token --> Wort aus dem Satz, der analysiert wird
    ____________________________________________________________________________________________________
    ### Outputs ###
    Wenn das Wort, auf dem das Pronomen sich bezieht, erkannt wird:
    obj  --> Wenn das Pronomen in einem Relativsatz sich befindet und das Wort, auf dem das Pronomen sich 
             bezieht, in einem Hauptsatz zu finden ist.
    subj --> Wenn das Pronomen in einer Konjunktivsatz ist, wird das Subjekt des Hauptsatzes gewählt, um 
             das Pronomen zu ersetzen
    '''
    case=1

    # Wenn die Abhängigkeit der Wurzel des Wortes ein Relativsatz ist und das Wort ein Pronomen ist
    if token.head.dep_ == 'rc' and token.pos_ == 'PRON':
        # Wird versucht die Wurzel der Wurzel zu speichern (zweite Wurzel)
        try:
            obj = token.head.head
            # Wenn es klappt wird das Pronomen von seiner zweiten Wurzel ersetzt
            # Rückgabe von case 1 (Aktivform)
            return obj, case
        except:
            None

    # Wenn die Abhängigkeit der Wurzel des Wortes eine Konjunktion ist und das Wort ein Pronomen ist aber davor befindet sich eine Konjunktion  
    elif token.head.head.head.dep_ == 'cd' and token.pos_ == 'PRON':

        # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen, wenn der Satz in der Aktivform steht
        try:
            # Holt das Subjekt des anderen Satzs
            subj = [subj for subj in token.head.head.head.head.children if subj.dep_=='sb'][0] 
            # Prüft, ob das Hauptsatz in der Passivform steht
            if subj.head.lemma_ == 'werden':
                # Findet das Hauptverb
                oc_verb = [oc for oc in subj.head.children if oc.dep_=='oc'][0]
                case = 2
                # Sucht nach den Objekten
                for i in range(3):
                    try:
                        # Sucht nach einem Objekt Akkusativ
                        obj = [obj for obj in oc_verb.children if obj.dep_=='oa'][0]
                        return obj, case
                    except:
                        # Sucht nach einem Subjekt in der Passivform
                        try:
                            obj = [obj for obj in oc_verb.children if obj.dep_=='sbp'][0]
                            obj = [obj for obj in obj.children if obj.dep_=='nk'][0]
                            return obj, case
                        except:
                            # Sucht nach einem Predikat
                            try:
                                obj = [obj for obj in oc_verb.children if obj.dep_=='pd'][0]
                                return obj, case
                            except:
                                # Prüft, ob die Ebene des Hauptverbs noch nicht erreicht wurde
                                try:
                                    oc_verb = [oc for oc in oc_verb.children if obj.dep_=='oc'][0]
                                except:
                                    None

            # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen        
            else:
                # Rückgabe von case 1 (Aktivform)
                return subj, case
        except:
            None

    # Wenn die Abhängigkeit der Wurzel des Wortes eine Konjunktion ist und das Wort ein Pronomen ist aber davor befindet sich eine Konjunktion  
    elif token.head.head.dep_ == 'cd' and token.pos_ == 'PRON':

        # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen, wenn der Satz in der Aktivform steht
        try:
            # Holt das Subjekt des anderen Satzs
            subj = [subj for subj in token.head.head.head.children if subj.dep_=='sb'][0] 
            # Prüft, ob das Hauptsatz in der Passivform steht
            if subj.head.lemma_ == 'werden':
                # Findet das Hauptverb
                oc_verb = [oc for oc in subj.head.children if oc.dep_=='oc'][0]
                case = 2
                # Sucht nach den Objekten
                for i in range(3):
                    # Sucht nach einem Objekt Akkusativ
                    try:
                        obj = [obj for obj in oc_verb.children if obj.dep_=='oa'][0]
                        return obj, case
                    except:
                        # Sucht nach einem Subjekt in der Passivform
                        try:
                            obj = [obj for obj in oc_verb.children if obj.dep_=='sbp'][0]
                            obj = [obj for obj in obj.children if obj.dep_=='nk'][0]
                            return obj, case
                        except:
                            # Sucht nach einem Predikat
                            try:
                                obj = [obj for obj in oc_verb.children if obj.dep_=='pd'][0]
                                return obj, case
                            except:
                                # Prüft, ob die Ebene des Hauptverbs noch nicht erreicht wurde
                                try:
                                    oc_verb = [oc for oc in oc_verb.children if obj.dep_=='oc'][0]
                                except:
                                    None

            # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen        
            else:
                # Rückgabe von case 1 (Aktivform)
                return subj, case
        except:
            None

    # Wenn die Abhängigkeit der Wurzel des Wortes eine Konjunktion ist und das Wort ein Pronomen ist
    elif token.head.dep_ == 'cj' and token.pos_ == 'PRON':

        # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen, wenn der Satz in der Aktivform steht
        try:
            # Holt das Subjekt des anderen Satzs
            subj = [subj for subj in token.head.head.children if subj.dep_=='sb'][0] 
            # Prüft, ob das Hauptsatz in der Passivform steht
            if subj.head.lemma_ == 'werden':
                # Findet das Hauptverb
                oc_verb = [oc for oc in subj.head.children if oc.dep_=='oc'][0]
                case = 2
                # Sucht nach den Objekten
                for i in range(3):
                    # Sucht nach einem Objekt Akkusativ
                    try:
                        obj = [obj for obj in oc_verb.children if obj.dep_=='oa'][0]
                        return obj, case
                    except:
                        # Sucht nach einem Subjekt in der Passivform
                        try:
                            obj = [obj for obj in oc_verb.children if obj.dep_=='sbp'][0]
                            obj = [obj for obj in obj.children if obj.dep_=='nk'][0]
                            return obj, case
                        except:
                            # Sucht nach einem Predikat
                            try:
                                obj = [obj for obj in oc_verb.children if obj.dep_=='pd'][0]
                                return obj, case
                            except:
                                # Prüft, ob die Ebene des Hauptverbs noch nicht erreicht wurde
                                try:
                                    oc_verb = [oc for oc in oc_verb.children if obj.dep_=='oc'][0]
                                except:
                                    None
            # Wird versucht das Subjekt des früheren Satzes gewählt, um das Pronomen zu ersetzen        
            else:
                # Rückgabe von case 1 (Aktivform)
                return subj, case
        except:
            None
    else:
        # Wenn die beiden Fälle nicht zugetroffen werden, bleibt das Pronomen
        return token, case

In [29]:
def get_chunks(subjs, sent):
    '''
    Die Methode "get_chunks" findet in dem Satz, wo das Subjekt sich befindet, für jedes vorher gefundenen
    Objekt sein entsprechendes sogenanntes "Noun Chunk". Das ist die Kombination von Wörter die, das Objekt 
    oder Subjekt beschreiben. Nehmen wir zum Beispiel der Satz "Peter will heute das schnelle rote Auto 
    fahren.". In diesem Fall ist das Substantiv "Auto" das Objekt und "das schnelle rote Auto" das 
    entsprechende "Noun Chunk".
    ____________________________________________________________________________________________________
    ### Inputs ###
    subjs --> Liste mit den vorher erkannten Subjekte oder Objekte
    sent  --> Satz, der analysiert wird
    ____________________________________________________________________________________________________
    ### Outputs ###
    chunks --> Liste mit den entsprechenden Noun Chunks auf Basis des Inputs "subjs"
    '''
    # Nutzt die Spacy-Generator ".noun_chunks", um alle gefundenen Noun Chunks in dem Satz in einer Liste zu speichern.
    chunks_raw = [chunk for chunk in sent.noun_chunks]

    # Leere Liste, in der die gefundenen Noun Chunks 
    chunks = []

    # Schleife über die Subjekte
    for subj in subjs:
        # Schleife über alle Noun Chunks von dem Satz
        for chunk in chunks_raw:
            # Wenn das Subjekt in dem entsprechenden Chunk sich befindet, wird es zu der Outputliste hinzugefügt.
            if subj in chunk:
                chunks.append(chunk)

    # Stellt sicher, dass die Output-Noun-Chunks einzigartig sind
    chunks = list(set(chunks))

    # Rückgabe der Noun Chunks
    return chunks

In [30]:
def get_root(element):
    '''
    Bei jedem Satz wird eine Wurzel definiert. Als Wurzel eines Satzes werden Verben oder Hilfsverben angenommen.
    Diese Wurzel sind die Basis für die Relationen zwischen Subjekte und Objekte. Diese Methode findet die Wurzeln
    des Satzes heraus.
    ____________________________________________________________________________________________________
    ### Inputs ###
    element --> Token, das analysiert wird. Aus dem Token wird die Wurzel gefunden.
    ____________________________________________________________________________________________________
    ### Outputs ###
    root --> Gefundene Wurzel von dem Satz auf Basis von dem Input "element"
    '''
    # Erlaubte Parts-Of-Speach von den Wurzeln
    root_pos = (
    'VERB', # Verben
    'AUX')  # Hilfsverben

    # Anwendung der Spacy-Methode ".head" um die Wurzel eines Worts zu finden
    root = element.head

    # Schleife, die von Wort zu Wort geht, um die Wurzel in Form von Verben oder Hilfsverben zu finden.
    while root.pos_ not in root_pos and root != root.head:
        root = root.head

    # Rückgabe der Wurzel
    return root

In [31]:
def get_modal_verb(sent, roots):
    '''
    Modalverben, wie können, wollen, sollen, möchten, werden von Spacy als eine separte Kategorie erkannt.
    Die Modalverben ergeben nur Sinn, wenn sie Zusammen mit den Hauptverben als Relation erkannt werden. Aus
    Diesem Grund wird durch diese Methode das Modalverb erkannt und zu der Roots-Liste (Wurzeln) hinzugefügt.
    ____________________________________________________________________________________________________
    ### Inputs ###
    sent  --> Satz, der analysiert wird
    roots --> Roots-Liste oder erkannte Wurzeln des Satzes
    ____________________________________________________________________________________________________
    ### Outputs ###
    roots --> Roots-Liste mit der Ergänzung von den Modalverben
    '''
    # Schleife über die Wörter des Satzes
    for oc in sent:
        # Wenn das Wort ein Modalverb ist, wird es zu der Roots-Liste hinzugefügt
        if oc.dep_=='oc':
            roots.append(oc)   
    # Rückgabe der ergänzten Wurzeln         
    return roots   

In [32]:
def get_clause(token):
    '''
    Bei einem Nebensatz, kommt es of vor, dass das Objekt des Hauptssatzes das Subjekt des Nebensatzes ist.
    Diese Methode erkennt diese Fällen und, wenn vorhanden, gibt den Nebensatz zurück. In anderen Wörter
    prüft, ob das Objekt das Subjekt eines Nebensatzes ist.
    ____________________________________________________________________________________________________
    ### Inputs ###
    token  --> Token, das geprüft wird, ob ein Nebensatz zu ihm verbunden ist
    ____________________________________________________________________________________________________
    ### Outputs ###
    check_clause --> Kind des geprüften Tokens, zu dem ein Nebensatz verbunden ist
    '''
    # "Parts-Of-Speach", die erwünscht sind, um den Nebensatz zu charakterisieren
    clause_link = ('VERB', 'AUX') # Verben oder Hilfsverben

    # Aus der Spacy-Generator werden die Kinder vom Token gesammelt, die als "Part-Of-Speach Verben oder Hilfsverben enthalten"
    check_clause = [child for child in token.children if child.pos_ in clause_link]
    # Falls die Liste "check_clause" größer als null ist wird diese Liste zurückgegeben
    if len(check_clause)>0:
        # Rückgabe der Liste "check_clause"
        return check_clause
    else:
        # Rückgabe einer leeren Liste
        return []

In [33]:
def activate_passive(case, relation, obj, subj, obj_chunk, subj_chunk, obj_type, subj_type):
    '''
    Diese Methode wandelt die Sätze in der passiven Form in die aktive Form um. Falls der Satz in der passiven 
    Form ist, wird das Subjekt von dem Objekt ersetzt und umgekehrt, sodass das Ergebnis immer einheitlich in 
    dem aktiven Form steht. Die Inputs und Outputs sind gleich und nur die Relation wird in dieser Methode transformiert
    ____________________________________________________________________________________________________
    ### Inputs ###
    relation --> Relationen, die sie Subjekte und die Objekte verbinden
    obj --> Erkannte Objekte
    subj --> Erkannte Subjekte
    obj_chunk --> Erkannte Noun Chunks aus den Objekten
    subj_chunk --> Erkannte Noun Chunks aus den Subjekten
    obj_type --> Objekttyp aus den Objekten, ergeben von der Spacy-Methode ".ent_type_"
    subj_type --> Subjekttyp aus den Subjekten, ergeben von der Spacy-Methode ".ent_type_"
    ____________________________________________________________________________________________________
    ### Outputs ###
    relation --> Relationen, die sie Subjekte und die Objekte verbinden
    obj --> Erkannte Objekte
    subj --> Erkannte Subjekte
    obj_chunk --> Erkannte Noun Chunks aus den Objekten
    subj_chunk --> Erkannte Noun Chunks aus den Subjekten
    obj_type --> Objekttyp aus den Objekten, ergeben von der Spacy-Methode ".ent_type_"
    subj_type --> Subjekttyp aus den Subjekten, ergeben von der Spacy-Methode ".ent_type_"

    '''
    # Wandelt den String zu einem Spacy-Doc um
    doc = nlp(relation)
    # Leere Liste, für die Stammform des Verbs
    lemma_form = []
    # Variable zu bestätigen, ob der Satz ist Passiv, oder nicht
    counter = 0

    # Schleife über die Tokens des transformierten Relation
    for token in doc:
        # Falls die Passivform nicht erkannt wird
        if token.lemma_ != 'werden':
            # Das Verb wird in der Stammform gespeichert
            lemma_form.append(token.lemma_)
        # Charakterisierung der Passivform: Wenn das Hilfsverb werden angewendet wird
        else: # token.lemma_ == 'werden':
            # Counter zählt hoch
            counter += 1

    # Alle Relations werden zu einem String umgewandelt
    relation = ' '.join(map(str, lemma_form))

    # Wenn die Passivworm erkannt wurde
    if counter >0 and case == 1:
        # Rückgabe der Relationen Objekte und Subjekte in der umgekehrten Reinfolge 
        return relation, subj, obj, subj_chunk, obj_chunk, subj_type, obj_type
    # Wenn die Passivform nicht erkannt wurde
    else:
        # Rückgabe der Relationen Objekte und Subjekte in der direkten Reinfolge 
        return relation, obj, subj, obj_chunk, subj_chunk, obj_type, subj_type

In [34]:
def get_relations(roots):
    '''
    Diese Methode ist dafür verantwörtlich, die Beziehungen bzw. Relationen zwischen Objekte und Subjekte
    herauszufinden. Bei dieser Funktion Spielen viele sprachlische Eigenschaften der deutschen Sprache eine
    Rolle. Herausforderungen sind bspw. die Modalverben und Hauptverben zu verbinden, oder die Relationen aus
    Nebensätzen und mit den Hauptsätzen zu verknüpfen. 
    ____________________________________________________________________________________________________
    ### Inputs ###
    roots --> Die Wurzeln die in dem Satz erkannt wurden
    ____________________________________________________________________________________________________
    ### Outputs ###
    relation_full --> Die Relationen mit den zusätzlichen Informationen, wie die verbalen Konjunktionen
    '''
    # Leere Liste für die Relationen
    relations=[]
    # Leere liste für die Konjunktionen
    conj_verb = []

    # Schleife über die Wurzeln, um die verbalen Konjunktionen herauszufinden
    for root in roots:
        # Placeholder für die erstellung der Relationen
        pm = ''
        ng = ''
        svp = ''
        head1 = ''
        head2 = ''
        head3 = ''
        # Schleife über die Kinder der gefundenen Wurzel
        for child in root.children:

            # Prüfen, ob ein morphologisches Partikel vorhanden ist
            if child.dep_ == 'pm':
                pm = child.text + ' '

            # Prüfen, ob ein negatives Element vorhanden ist
            if child.dep_ == 'ng':
                ng = child.text + ' '

        # Prüfen, ob die Relationen vielfältige verbale Konjunktionen enthalten
        # Erste Ebene: Für die Relationen, die aus zwei Verben oder Hilfsverben besteht
        if (root.head.pos_=='VERB' or root.head.pos_=='AUX') and \
        root.head!=root and root.dep_!='cj':
            head1 = root.head.text + ' '

            # Zweite Ebene: Für die Relationen, die aus drei Verben oder Hilfsverben besteht
            if (root.head.head.pos_=='VERB' or root.head.head.pos_=='AUX') and \
            root.head.head!=root.head and root.head.dep_!='cj':
                head2 = root.head.head.text + ' '

                # Zweite Ebene: Für die Relationen, die aus vier Verben oder Hilfsverben besteht
                if (root.head.head.head.pos_=='VERB' or root.head.head.head.pos_=='AUX') and \
                root.head.head.head!=root.head.head and root.head.head.dep_!='cj':
                    head3 = root.head.head.head.text + ' '

            # Zusammenfügung von allen verbalen Konjunktionen als ein einziges Text
            conj_verb.append("{}{}{}{}{}{}".format(head1, head3, head2, ng, pm, root.text ))

    # Schleife über die gefundenen Wurzeln für die Erstellung der Relationen
    for root in roots:

        # Prüfen, ob die Wurzeln bei den verbalen Konjunktionen bereits gespeichert wurden
        test = [root.text in element for element in conj_verb]

        # Die Relationen herausfinden und in eine Liste speichern
        if sum(test) == 0 and (root.pos_=='VERB' or (root.pos_=='AUX' and root.lemma_=='haben')):
            # Placeholder für die Nachbereitung der Relationen
            pm = ''
            ng = ''
            svp = ''

            # Schleife über die Kinder der gefundenen Wurzel
            for child in root.children:
                # Prüfen ob das Kind ein trennbares Verb ist
                if child.dep_ == 'svp':
                    svp = child.text
                # Prüfen ob das Kind ein morphologisches Partikel ist
                if child.dep_ == 'pm':
                    pm = child.text + ' '
                # check if there is a negative element
                if child.dep_ == 'ng':
                    ng = child.text + ' '

            # Zusammenfügung von allen verben als ein einziges Text
            relations.append("{}{}{}{}".format(ng, pm, svp, root.text))

    # Erstellung einer Liste aus den Relationen mit einzigartigen Relationen
    relations = list(set(relations))
    # Erstellung einer Liste aus den verbalen Konjunktionen mit einzigartigen Konjunktionen
    conj_verb = list(set(conj_verb))

    # Erstellung der finalen Relationen aus der Zusammenfügung von den Verben (Relationen) und verbalen Konjunktionen
    relations_full = relations + conj_verb

    # Rückgabe der vollständigen Relationen
    return relations_full       

In [35]:
def linking_relations(subjs, objs, roots, sub_chunks, obj_chunks, relations):
    '''
    Aus der Analyse des Satzes mittels NLP werden die Objekte, Objekt Chunks, Subjekte, Subjekt Chunks und die
    Relationen gefunden, extrahiert und zugeordnet. In dieser Methode werden alle diese gefundene Informationen
    miteinander verbunden. Die Subjekte werden zu den Relationen verbunden und diese Verbindung zu den jeweiligen
    Objekten. Am Ende werden die Subjekte, Objekte und Relationen in einem Dataframe eingefügt.
    ____________________________________________________________________________________________________
    ### Inputs ###
    subjs --> Gefundene Subjekte
    objs --> Gefundente Objekte
    roots --> Die Gefundene Wurzeln aus dem Satz
    relations --> Die bearbeitete Relationen aus dem Satz
    ____________________________________________________________________________________________________
    ### Outputs ###
    df_subjs --> Dataframe mit den wesentlichen Informationen bzgl. der Subjekte (Features: root, subj, subj_chunk, subj_type
    df_objs --> Dataframe mit den wesentlichen Informationen bzgl. der Objekten (Features: obj, obj_chunk, obj_type, root)
    df_relations --> Dataframe mit den wesentlichen Informationen bzgl. der Relationen (Features: relation, root)
    df_info --> Dataframe mit den Verbindungen zwischen Objekte, Subjekte und Relationen, 
                Ergebnis aus der Analyse jedes Satzes
    '''
    # Erstellung der 3 Zuordnungstabellen
    # 1 - Zuordnungstabelle von den Subjekten
    df_subjs = pd.DataFrame(columns = ['subj', 'subj_chunk', 'subj_type', 'root'])

    # Ausfüllen der Zuordnungstabelle von den Subjekten
    # Schleife über die Subjekte
    for subj in subjs:
        # Schleife über die Noun Chunks
        for chunk in sub_chunks:
            # Prüfen ob das Subjekt im Noun Chunk zu finden ist
            if subj in chunk:
                # Zeile in das Dataframe einfügen
                add_row = pd.DataFrame({'subj':subj, 'subj_chunk':chunk.text, 'subj_type':subj.ent_type_, 'root':get_root(subj)}, 
                                       index=[len(df_subjs)])
                # Zusammenfügung von der erstellten Zeile in die Zuordnungstabelle von den Subjekten
                df_subjs = pd.concat([df_subjs,add_row])

    # 2 - Zuordnungstabelle von den Objekten
    df_objs = pd.DataFrame(columns = ['obj', 'obj_chunk', 'obj_type', 'root'])

    # Ausfüllen der Zuordnungstabelle von den Objekten
    # Schleife über die Objekte
    for obj in objs:
        # Schleife über die Noun Chunks
        for chunk in obj_chunks:
            # Prüfen ob das Objekt im Noun Chunk zu finden ist
            if obj in chunk:
                # Zeile in das Dataframe einfügen
                add_row = pd.DataFrame({'obj':obj, 'obj_chunk':chunk.text, 'obj_type':obj.ent_type_, 'root':get_root(obj)}, 
                                       index=[len(df_objs)])
                # Zusammenfügung von der erstellten Zeile in die bestehende Zuordnungstabelle von den Objekten
                df_objs = pd.concat([df_objs,add_row])

    # 3 - Zuordnungstabelle von den Relationen
    df_relations = pd.DataFrame(columns = ['root', 'relation'])

    # Ausfüllen der Zuordnungstabelle von den Relationen

    # Schleife über die Wurzeln
    for root in roots:

        # Schleife über die Relationen
        for relation in relations:

            # Prüfen ob die Wurzel in der Relation zu finden ist
            if root.text in relation:
                # Zeile in das Dataframe einfügen
                add_row = pd.DataFrame({'root':root, 'relation':relation}, index=[len(df_relations)])

                # Zusammenfügung von der erstellten Zeile in die bestehende Zuordnungstabelle von den Relationen
                df_relations = pd.concat([df_relations,add_row])

    # Speichern von Entitäten (Subjekte und Objekte) und Beziehungen in einem DataFrame 
    df_info = pd.DataFrame(columns=['Subjects', 'Subjects_raw', 'Subject_Type', 'Relations', 'Objects_raw', 'Objects', 'Object_Type'], )

    # Schleife über die Subjekte
    for i in range(len(df_subjs)):
        # Fehlertoleranter Ansatz, um Abbrüche aufgrund außergewöhnlicher Textstrukturen zu vermeiden
        try:
            # Auswahl des zu analysierenden Subjektes
            subj = df_subjs['subj'].iloc[i]

            # Auf Basis des Objektes wird die Clause_Relation geholt um die Wurzel des Subjekts zu entdecken
            clause_relation = get_clause(subj)
            # Falls mehrere Wurzeln in dem Satz zu finden sind
            if len(clause_relation)>0:
                # erhält den Satz-Wurzel (nur eine Satzrelation pro Subjekt ist erlaubt)
                root1 = clause_relation[0]
            # Falls nur eine Wurzel zu finden ist
            else:
                # Wurzel wird geholt
                root1 = df_subjs['root'].iloc[i]
            # findet die Relation basierend auf der Wurzel
            relation1 = df_relations['relation'][df_relations['root'] == root1].values[0]

            # Schleife über die Objekte
            for j in range(len(df_objs)):
                # Wurzel wird geholt
                root2 = df_objs['root'].iloc[j]
                # findet die Beziehung basierend auf der Wurzel
                relation2 = df_relations['relation'][df_relations['root'] == root2].values[0]

                # Verbindungsphase zwischen Subjekte und Objekte

                # Falls die gefundene Relation aus dem Subjekt und aus dem Objekt gleich sind
                if relation1 == relation2:

                    # Auswahl des zu analysierenden Objektes
                    obj = df_objs['obj'].iloc[j] 

                    # Objekt ersetzen, wenn es ein Pronomen ist (Relativsatz und Nebensätze)
                    obj, case = substitute_pronoun(obj)

                    # Auf Basis des Objektes wird das Noun Chunk und Objekt-Typ geholt
                    obj_chunk = df_objs['obj_chunk'][df_objs['obj'] == obj].values[0]
                    obj_type = df_objs['obj_type'].iloc[j]

                    # Subjekt ersetzen, wenn es ein Pronomen ist (Relativsatz und Nebensätze)
                    subj, case = substitute_pronoun(subj)

                    # Wenn das Pronomen auf einem Satz in der Aktivform sich bezieht
                    if case == 1:
                        # Auf Basis des Subjektes wird versucht, das Noun Chunk und Objekt-Typ zu holen
                        try:
                            subj_chunk = df_subjs['subj_chunk'][df_subjs['subj'] == subj].values[0]
                            subj_type = df_subjs['subj_type'][df_subjs['subj'] == subj].values[0]
                        # Falls die Aktiveform nicht erkannt wird, soll das Noun Chunk und Objekt-Typ auf Basis der Passivform geholt werden
                        except:
                            case = 2
                            subj_chunk = df_objs['obj_chunk'][df_objs['obj'] == subj].values[0]
                            subj_type = df_objs['obj_chunk'][df_objs['obj'] == subj].values[0]

                    # Wenn das Pronomen aus einem Satz in der Passivform sich bezieht
                    else:
                        # Auf Basis des Subjektes wird versucht, das Noun Chunk und Objekt-Typ zu holen
                        try:
                            subj_chunk = df_objs['obj_chunk'][df_objs['obj'] == subj].values[0]
                            subj_type = df_objs['obj_chunk'][df_objs['obj'] == subj].values[0]
                        # Falls die Passivform nicht erkannt wird, soll das Noun Chunk und Objekt-Typ auf Basis der Aktivform geholt werden
                        except:
                            case = 1
                            subj_chunk = df_subjs['subj_chunk'][df_subjs['subj'] == subj].values[0]
                            subj_type = df_subjs['subj_type'][df_subjs['subj'] == subj].values[0]

                    # Methode zur Aktivierung der Passivform wird ausgeführt
                    relation, obj, subj, obj_chunk, subj_chunk, obj_type, subj_type = activate_passive(case, relation1, obj, subj, obj_chunk, subj_chunk, obj_type, subj_type)

                    # Erstellung eines Dictionarys mit den Informationen, die exportiert werden
                    d = {'Subjects_raw':subj, 
                         'Subjects':subj_chunk,
                         'Subject_Type':subj_type,
                         'Relations':relation,
                         'Objects':obj_chunk, 
                         'Objects_raw':obj,
                         'Object_Type':obj_type}

                    # achten Sie darauf, Pronomen nicht als Paare zu speichern (Pronomen sind nicht aussagekräftig)
                    # Wenn sowohl das Objekt als auch das Subjekt kein Pronomen sind, werden die Informationen in das Dataframe "df_info" eingefügt
                    if (is_question_words_without_obj(obj) or is_question_words_without_obj(subj)) and \
                        obj != subj and subj_chunk != obj_chunk:
                        add_row = pd.DataFrame(d,index=[len(df_info)])
                        df_info = pd.concat([df_info,add_row])
                    elif obj.pos_ != 'PRON' and subj.pos_ != 'PRON' and obj != subj and subj_chunk != obj_chunk:
                        add_row = pd.DataFrame(d,index=[len(df_info)])
                        df_info = pd.concat([df_info,add_row])

        # Falls die Bearbeitung der Relationen zwischen Subjekte und Objete fehlerhaft sind, wird sie ignoriert und das Programm läuft weiter
        except:
            None

    # Duplikate werden entfernt
    df_info.drop_duplicates(inplace=True)

    # Rückgabe von den Subjekten, Objekten, Relationen und die Zusammenfügung von ihnen.
    return df_subjs, df_objs, df_relations, df_info

In [36]:
def text_prep(text):
    '''
    Diese Methode wird für die Textaufbereitung erstellt. Die Form des Textes beeiflusst dierekt die Performance des
    Algorithmus. Wenn Sonderzeichen oder mehrere Textumbruche oder Leerzeichen im Text vorkommen, kann das Algorithmus
    schlechter bspw. die Sätze erkennen, oder den Zusammenhang der Wörter im Kontext des Satzes. Aufgrund dessen
    wird durch diese Methode den Text vor der Bearbeitung bereinigt, um effizient bearbeitet zu werden.
    ____________________________________________________________________________________________________
    ### Inputs ###
    text --> Text, der bearbeitet wird
    ____________________________________________________________________________________________________
    ### Outputs ###
    text --> Aufbereiteter und bereinigter Text
    '''
    # Zeilenumbrüche innerhalb des Wortes werden gelöscht
    text = re.sub(r'-\n+', '', text)
    # Mehrere Zeilenumbrüche, Tabs  werden zu einem Leerzeichen ersetzt
    text = re.sub(r'\n+', ' ', text)
    text = re.sub('\n ','',text)
    text = re.sub('\n',' ',text)
    # removing new line characters
    text = re.sub('\n ','',text)
    text = re.sub('\n',' ',text)
    # Ersetzen alle Whitespace-Zeichen zu normalem Leerzeichen
    text = re.sub(r'\s+', ' ', text)
    text = re.sub(r'\t+', ' ', text)
    # Entfernen von Unterstrich gefolgt von einem Leerzeichen
    text = re.sub("— ",'',text)
    # Entfernen jeglicher Verweise auf externen Text
    text = re.sub("[\(\[].*?[\)\]]", "", text)
    # E-Mailadresse wird zu dem Wort E-Mail ersetzt
    text = re.sub(r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)", 'E-Mail', text)
    # Klammen werden duch Komma ersetzt
    text = re.sub(r'([()[]{}])', ',', text)
    # Leerzeichen werden gelöscht, aber die Interpunktion wird beibehalten
    text = re.sub(r"[^<>{}\"/|~@#$%^=&*\\]\\\\()\\[¿§«»ω⊙¤°℃℉€¥£¢¡®©0-9_+]", '', text)

    # Rückgabe des bereinigten und aufbereiteten Texts
    return text

In [37]:
def information_extraction(text,all_info=False):
    '''
    Diese ist die Hauptmethode der Klasse und über diese Methode werden die andere ausgeführt und gesteuert.
    Diese Methode soll extern ausgeführt werden, um das VictoryNLP-Verfahren zu nutzen. 
    ____________________________________________________________________________________________________
    ### Inputs ###
    text --> Text, der bearbeitet wird
    ____________________________________________________________________________________________________
    ### Outputs ###
    df_info_full --> Aufbereiteter und bereinigter Text
    '''
    # Bearbeitung des Textes, um das NLP-Verfahren mit RegEx zu erleichtern
    text = text_prep(text)
    # Erstellung eines Spacy-Objektes
    doc = nlp(text)

    # Erstellung eines Dataframes für die Subjekte
    subjs = pd.DataFrame(columns=['subj', 'root'])

    # Erstellung eines Dataframes für die Objekte
    objs = pd.DataFrame(columns=['obj', 'root'])

    # Erstellung eines Dataframes für die Relationen
    relations = pd.DataFrame(columns=['relation', 'root'])

    # Erstellung eines leeren Dataframes für die Zusammenfügung der Informationen
    df_info_full = pd.DataFrame()

    # Aufteilung des Textes in Sätzen in Form einer Liste mit den Sätzen im Textformat
    sentences = [sent.string.strip() for sent in doc.sents]

    # Schleife über die Sätze
    for sent in sentences:

        # Weiter Nachbereitung von dem Text, dieses Mal in der Form eines Satzes
        sent = text_prep(sent)

        # Erstellung eines Spacy-Objektes für das NLP
        sent = nlp(sent)

        # Erstellung von Placeholders für die Subjekte, Objekte und Wurzeln
        subjs = []
        objs  = []
        roots = []

        # Data Exploration für die Bearbeitung von Fragen
        # Erstellung von einer Liste mit den Subjekten (Dependency = 'sb')
        s = [word for word in sent if word.dep_ == 'sb']
        # Erstellung von einer Liste mit den Objekten (Dependency = 'oa' Objekt Akkusativ)
        o = [word for word in sent if word.dep_ == 'oa']

        # Schleife über die Sätze
        for token in sent:
            # Findet die Subjekte heraus, wenn die Dependency = 'sb', Nominativ
            if token.dep_ == 'sb':
                # Fügt den Token in die Subjekt-Liste ein
                subjs.append(token)

                # Findet die anderen möglichen Subjekte heraus, falls vielfältige Subjekte vorhanden sind
                subjs = get_multiple_elements(subjs)

                # Speichert die Wurzeln
                roots.append(token.head)
                # Modalverben werden auch als Wurzel berücksichtigt
                roots = get_modal_verb(sent, roots)

            # Findet die Objekte heraus. Erlaubte Dependencies:
            # 'oa' --> Objekt Akkusativ
            # 'da' --> Objekt Dativ
            # 'pd' --> Predikat
            # 'sbp' --> Subjekt in der Passivform
            # 'mo' --> Modifier (z.B.: Präpositionen)
            elif token.dep_ == 'oa' or token.dep_ == 'da' or token.dep_ == 'pd' or token.dep_ == 'sbp' or token.dep_ == 'mo':
                # Fügt den Token in die Objekt-Liste ein
                objs.append(token)

                # check clausal phrases
                if len(get_clause(token))>0:
                    subjs.append(token)

                # Findet die anderen möglichen Subjekte heraus, falls vielfältige Objekte vorhanden sind
                objs = get_multiple_elements(objs)

            # Die Objekte überprüfen, wenn der Satz eine Frage ist
            elif is_question(sent) and is_question_words_without_obj(token):
                # Wenn die Frage kein Subjekt enthält
                if len(s)==0:
                    subjs.append(token)
                # Wenn die Frage kein Objekt enthält
                if len(o)==0:
                    objs.append(token)
            else:
                None            

        # Die Noun Chunks werden geholt
        sub_chunks = get_chunks(subjs, sent)
        obj_chunks = get_chunks(objs, sent)

        # Nur die einzigartigen Wurzeln werden beibehalten
        roots = list(set(roots))
        # Die Relationen werden herausgefunden auf Basis von den Wurzeln
        relations = get_relations(roots)

        # Verbindung von den Subjekten und Objekten über ihre Relationen
        df_subjs, df_objs, df_relations, df_info = linking_relations(subjs, objs, roots, sub_chunks, obj_chunks, relations)
        # Der Satz wird in das Dataframe hinzugefügt 
        df_info['Sentence'] = str(sent)
        # Update von dem bestehenden Dataframe, mit den neuen Informationen aus dem gerade analysierten Satz
        df_info_full = pd.concat([df_info_full, df_info])

    # Duplikate werden gelöscht
    df_info_full.drop_duplicates(subset= ['Subjects', 'Subjects_raw', 'Subject_Type', 'Relations', 'Objects_raw', 'Objects', 'Object_Type', 'Sentence'],
                    inplace=True)

    # Vorbose, damit es bewusst ist, wie viele Paare aus einem Dokument extrahiert wurden
    print('Pairs extracted: {}'.format(len(df_info_full)))

    # Entwicklungsmodus
    if all_info == True:
        # Rückgabe von den aus dem Dokument extrahierten Informationen und einzelnen Dataframes: Subjekte, Objekte und Relationen
        return df_info_full, df_subjs, df_objs, df_relations
    # Produktionsmodus
    else:
        # Rückgabe von den aus dem Dokument extrahierten Informationen
        return df_info_full

#### Test vom Algorithmus mit einem Text aus den Echtdaten

In [38]:
'''
Test mit dem Text aus dem Zweiten Dokument aus den von Gruppe 1 zur Verfügung gestellten Daten
'''
text = df['Text'][1]
df_info_full = information_extraction(text)
df_info_full

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




Pairs extracted: 461


Unnamed: 0,Object_Type,Objects,Objects_raw,Relations,Sentence,Subject_Type,Subjects,Subjects_raw
0,,Stipendien,Stipendien,gewinnen,Talente gewinnen Stipendien Studium mit vertie...,PER,Talente,Talente
1,,Studium,Studium,gewinnen,Talente gewinnen Stipendien Studium mit vertie...,PER,Talente,Talente
2,,vertiefter Praxis,Praxis,gewinnen,Talente gewinnen Stipendien Studium mit vertie...,PER,Talente,Talente
0,ORG,das Württembergische Kammerorchester Heilbronn,Kammerorchester,können vorstellen dirigieren,"bis 24.07.2020 Den Besuchern wird das ""Virtual...",,24.07.2020,24.07.2020
1,,Den Besuchern,Besuchern,können vorstellen dirigieren,"bis 24.07.2020 Den Besuchern wird das ""Virtual...",24.07.2020,24.07.2020,24.07.2020
2,ORG,das Württembergische Kammerorchester Heilbronn,Heilbronn,können vorstellen dirigieren,"bis 24.07.2020 Den Besuchern wird das ""Virtual...",,24.07.2020,24.07.2020
0,,Die Dirigierbewegung,Dirigierbewegung,erfasst,Die Dirigierbewegung wird durch Radarsensorik ...,,Radarsensorik,Radarsensorik
0,,der Vorgabe,Vorgabe,abWeicht,Weicht das Metrum zu stark von der Vorgabe des...,,das Metrum,Metrum
1,,des gewählten Musikstückes,Musikstückes,abWeicht,Weicht das Metrum zu stark von der Vorgabe des...,,das Metrum,Metrum
2,,das Stück,Stück,abbrechen,Weicht das Metrum zu stark von der Vorgabe des...,,das Orchester,Orchester


#### Entwicklungsmodus: Test mit einem selbsterstellten Satz
##### Für das Testen vom Algorithmus, kann ein Text im nächsten Block eingefügt werden, sodass die Variable "text" gleich dem eingegebenen Text  ist.

In [39]:
text = "das interessante Buch wird von Victor nicht heute am schönen Strand gelesen, sondern fährt er das schnelle Auto"
df_info_full, df_subjs, df_objs, df_relations = information_extraction(text, all_info=True)

Pairs extracted: 3


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




##### Extrahierten Informationen in Form von Subjekten Objekten und ihren Beziehungen

In [40]:
df_info_full

Unnamed: 0,Object_Type,Objects,Objects_raw,Relations,Subject_Type,Subjects,Subjects_raw,Sentence
0,,das interessante Buch,Buch,lesen,PER,Victor,Victor,das interessante Buch wird von Victor nicht he...
1,,schönen Strand,Strand,lesen,Victor,Victor,Victor,das interessante Buch wird von Victor nicht he...
2,,das schnelle Auto,Auto,fahren,Victor,Victor,Victor,das interessante Buch wird von Victor nicht he...


##### Objekte und ihre wesentlichen Informationen

In [41]:
df_objs

Unnamed: 0,obj,obj_chunk,obj_type,root
0,Victor,Victor,PER,gelesen
1,Strand,schönen Strand,,gelesen
2,Auto,das schnelle Auto,,fährt


##### Subjekte und ihre wesentlichen Informationen

In [42]:
df_subjs

Unnamed: 0,subj,subj_chunk,subj_type,root
0,Buch,das interessante Buch,,wird
1,er,er,,fährt


##### Relationen und Wurzeln

In [43]:
df_relations

Unnamed: 0,root,relation
0,gelesen,wird gelesen
1,fährt,fährt
2,wird,wird gelesen


## Generierung von den Training-Datensatz

### Datendistribution: Wikipedia auf Deutsch
Das Ziel von dieser Implementierung ist die Performance vom Algorithmus im Kontext einer anderen Datendistribution zu evaluieren und diese mit der Performance auf Basis von Echtdaten der Hochschule Heilbronn zu vergleichen. Themen die berücksichtigt werden sind bspw.:
##### **1** - Werden mehrere Paaren in der anderen Distribution erkannt?
##### **2** - Ergeben die aus der anderen Datendistribution erkannten Paaren mehr Sinn als die aus Echtdaten?
##### **3** - Wie können die Ergebnisse verglichen werden?

In [44]:
def wiki_scrape(topic_name, verbose=True):
    '''
    Diese Methode ist ein Wikipedia-Scraper, was die in Beziehung stehende Artikeln aus der Wikipedia in einem 
    Dataframe speichert zusammen mit verfügbaren Metadaten zu diesem Artikel
    '''
    
    def wiki_link(link):
        try:
            page = wiki_api.page(link)
            if page.exists():
                d = {'page': link, 'text': page.text, 'link': page.fullurl,
                     'categories': list(page.categories.keys())}
                return d
            else:
                return None
        except:
            return None

    wiki_api = wikipediaapi.Wikipedia(language='de',
                extract_format=wikipediaapi.ExtractFormat.WIKI)
    
    page_name = wiki_api.page(topic_name)
    
    if not page_name.exists():
        print('page does not exist')
        return
    
    page_links = list(page_name.links.keys())
    progress = tqdm(desc='Links Scraped', unit='', total=len(page_links)) if verbose else None
    sources = [{'page': topic_name, 'text': page_name.text, 'link': page_name.fullurl,
                'categories': list(page_name.categories.keys())}]
    
    with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
        future_link = {executor.submit(wiki_link, link): link for link in page_links}
        for future in concurrent.futures.as_completed(future_link):
            data = future.result()
            progress.update(1) if verbose else None
            if data:
                sources.append(data)
    progress.close() if verbose else None
    blacklist = ('Template', 'Help:', 'Category:', 'Portal:', 'Wikipedia:', 'Talk:')
    sources = pd.DataFrame(sources)
    sources = sources[(len(sources['text']) > 20)
                      & ~(sources['page'].str.startswith(blacklist))]
    sources['categories'] = sources.categories.apply(lambda x: [y[9:] for y in x])
    return sources

In [45]:
df_wiki = wiki_scrape('Deutschland')
df_wiki.to_csv(r'wiki_deutschland_datensatz.csv')

Links Scraped: 100%|█████████████████████████████████████████████████████████████████| 2068/2068 [14:49<00:00,  2.32/s]


In [46]:
df_wiki.head()

Unnamed: 0,categories,link,page,text
0,"[:Deutschland, :Gruppe der Acht, :Mitglied des...",https://de.wikipedia.org/wiki/Deutschland,Deutschland,Deutschland ( [ˈdɔʏtʃlant]; Vollform: Bundesre...
1,"[:Tag, :Tag im Oktober]",https://de.wikipedia.org/wiki/3._Oktober,3. Oktober,Der 3. Oktober ist der 276. Tag des gregoriani...
2,"[:Armee der Wehrmacht, :Gegründet 1939]",https://de.wikipedia.org/wiki/6._Armee_(Wehrma...,6. Armee (Wehrmacht),Die 6. Armee/Armeeoberkommando 6 (AOK 6) war e...
3,"[:Al-Qaida, :Asymmetrische Kriegführung, :Feue...",https://de.wikipedia.org/wiki/Terroranschl%C3%...,9/11,Die Terroranschläge am 11. September 2001 ware...
4,"[:Abkürzung, :Autobahn-Rennstrecke, :Berlin-Gr...",https://de.wikipedia.org/wiki/AVUS,AVUS,Die AVUS (Automobil-Verkehrs- und Übungsstraße...


In [47]:
# Features aus dem NLP-Verfahren
kg_data_cols = ['Subjects', 'Subjects_raw', 'Subject_Type', 'Relations', 'Objects_raw', 'Objects', 'Object_Type', 'Sentence']

# Zusammenfügung von allen Features
columns = kg_data_cols

# Erstellung eines leeren Dataframes
wiki_kg_df = pd.DataFrame(columns=columns)
wiki_kg_df_error = []

# Erstellung eines Objektes aus der VictoryNLP-Klasse
victory = VictoryNLP("victory", nlp)

# Schleife über den Wiki-Datensatz
for i, doc in df_wiki.iterrows():
    
    # Erstellung eines Dataframes für alle Extrahierten Informationen aus einem Wikipediaartikel
    doc = pd.DataFrame(doc).T
    # Einstellung der Spalten
    cache = pd.DataFrame(columns=columns)
    
     # Wird versucht, die Informationen aus einem Dokument zu extrahieren
    try:
        print('Document: {}'.format(i))
        pairs = victory.information_extraction(doc.iloc[0]['text'])
        cache = pd.concat([cache, pairs])
        wiki_kg_df = pd.concat([wiki_kg_df,cache])
        print('___________________________________________________')
        
    # Wird angezeigt, dass ein Fehler passiert ist
    except:
        wiki_kg_df_error.append(doc.iloc[0]['link'])
        print('Error')
        print('___________________________________________________')
    
    # Speichert den Datensatz während der Ausführung des NLP-Verfahren (in 100-Schritten)
    if i%100==0:
        wiki_kg_df.to_csv(r'pairs_wiki_deutschland_datensatz_v2.csv')
        
# Speichert am Ende
wiki_kg_df.to_csv(r'pairs_wiki_deutschland_datensatz_v2.csv')  

Document: 0


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




Pairs extracted: 3699
___________________________________________________
Document: 1


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




Pairs extracted: 1295
___________________________________________________
Document: 2
Pairs extracted: 275
___________________________________________________
Document: 3
Pairs extracted: 1807
___________________________________________________
Document: 4
Pairs extracted: 540
___________________________________________________
Document: 5
Pairs extracted: 173
___________________________________________________
Document: 6
Pairs extracted: 1015
___________________________________________________
Document: 7
Pairs extracted: 277
___________________________________________________
Document: 8
Pairs extracted: 296
___________________________________________________
Document: 9
Pairs extracted: 637
___________________________________________________
Document: 10
Pairs extracted: 197
___________________________________________________
Document: 11
Pairs extracted: 1039
___________________________________________________
Document: 12
Pairs extracted: 4665
____________________________________

Pairs extracted: 519
___________________________________________________
Document: 98
Pairs extracted: 403
___________________________________________________
Document: 99
Pairs extracted: 5047
___________________________________________________
Document: 100
Pairs extracted: 83
___________________________________________________
Document: 101
Pairs extracted: 230
___________________________________________________
Document: 102
Pairs extracted: 55
___________________________________________________
Document: 103
Pairs extracted: 280
___________________________________________________
Document: 104
Pairs extracted: 1506
___________________________________________________
Document: 105
Pairs extracted: 5603
___________________________________________________
Document: 106
Pairs extracted: 62
___________________________________________________
Document: 107
Pairs extracted: 461
___________________________________________________
Document: 108
Pairs extracted: 3521
_______________________

Pairs extracted: 352
___________________________________________________
Document: 193
Pairs extracted: 359
___________________________________________________
Document: 194
Pairs extracted: 1443
___________________________________________________
Document: 195
Pairs extracted: 293
___________________________________________________
Document: 196
Pairs extracted: 184
___________________________________________________
Document: 197
Pairs extracted: 2788
___________________________________________________
Document: 198
Pairs extracted: 617
___________________________________________________
Document: 199
Pairs extracted: 1462
___________________________________________________
Document: 200
Pairs extracted: 1106
___________________________________________________
Document: 201
Pairs extracted: 1215
___________________________________________________
Document: 202
Pairs extracted: 504
___________________________________________________
Document: 203
Pairs extracted: 270
_________________

Pairs extracted: 236
___________________________________________________
Document: 288
Pairs extracted: 1212
___________________________________________________
Document: 289
Pairs extracted: 207
___________________________________________________
Document: 290
Pairs extracted: 186
___________________________________________________
Document: 291
Pairs extracted: 622
___________________________________________________
Document: 292
Pairs extracted: 712
___________________________________________________
Document: 293
Pairs extracted: 1421
___________________________________________________
Document: 294
Pairs extracted: 234
___________________________________________________
Document: 295
Pairs extracted: 15
___________________________________________________
Document: 296
Pairs extracted: 28
___________________________________________________
Document: 297
Pairs extracted: 1512
___________________________________________________
Document: 298
Pairs extracted: 28
______________________

Pairs extracted: 1188
___________________________________________________
Document: 382
Pairs extracted: 457
___________________________________________________
Document: 383
Pairs extracted: 225
___________________________________________________
Document: 384
Pairs extracted: 359
___________________________________________________
Document: 385
Pairs extracted: 830
___________________________________________________
Document: 386
Pairs extracted: 2071
___________________________________________________
Document: 387
Pairs extracted: 413
___________________________________________________
Document: 388
Pairs extracted: 189
___________________________________________________
Document: 389
Pairs extracted: 141
___________________________________________________
Document: 390
Pairs extracted: 49
___________________________________________________
Document: 391
Pairs extracted: 723
___________________________________________________
Document: 392
Pairs extracted: 2578
____________________

Pairs extracted: 204
___________________________________________________
Document: 477
Pairs extracted: 195
___________________________________________________
Document: 478
Pairs extracted: 1956
___________________________________________________
Document: 479
Pairs extracted: 452
___________________________________________________
Document: 480
Pairs extracted: 3560
___________________________________________________
Document: 481
Pairs extracted: 40
___________________________________________________
Document: 482
Pairs extracted: 306
___________________________________________________
Document: 483
Pairs extracted: 434
___________________________________________________
Document: 484
Pairs extracted: 1006
___________________________________________________
Document: 485
Pairs extracted: 3851
___________________________________________________
Document: 486
Pairs extracted: 303
___________________________________________________
Document: 487
Pairs extracted: 43
____________________

Pairs extracted: 475
___________________________________________________
Document: 572
Pairs extracted: 919
___________________________________________________
Document: 573
Pairs extracted: 1965
___________________________________________________
Document: 574
Pairs extracted: 2789
___________________________________________________
Document: 575
Pairs extracted: 902
___________________________________________________
Document: 576
Pairs extracted: 1312
___________________________________________________
Document: 577
Pairs extracted: 661
___________________________________________________
Document: 578
Pairs extracted: 30
___________________________________________________
Document: 579
Pairs extracted: 105
___________________________________________________
Document: 580
Pairs extracted: 434
___________________________________________________
Document: 581
Pairs extracted: 122
___________________________________________________
Document: 582
Pairs extracted: 324
____________________

Pairs extracted: 2545
___________________________________________________
Document: 667
Pairs extracted: 2187
___________________________________________________
Document: 668
Pairs extracted: 1954
___________________________________________________
Document: 669
Pairs extracted: 206
___________________________________________________
Document: 670
Pairs extracted: 1887
___________________________________________________
Document: 671
Pairs extracted: 824
___________________________________________________
Document: 672
Pairs extracted: 177
___________________________________________________
Document: 673
Pairs extracted: 1168
___________________________________________________
Document: 674
Pairs extracted: 3068
___________________________________________________
Document: 675
Pairs extracted: 2302
___________________________________________________
Document: 676
Pairs extracted: 143
___________________________________________________
Document: 677
Pairs extracted: 129
_______________

Pairs extracted: 1014
___________________________________________________
Document: 762
Pairs extracted: 172
___________________________________________________
Document: 763
Pairs extracted: 238
___________________________________________________
Document: 764
Pairs extracted: 85
___________________________________________________
Document: 765
Pairs extracted: 480
___________________________________________________
Document: 766
Pairs extracted: 1412
___________________________________________________
Document: 767
Pairs extracted: 126
___________________________________________________
Document: 768
Pairs extracted: 3500
___________________________________________________
Document: 769
Pairs extracted: 577
___________________________________________________
Document: 770
Pairs extracted: 637
___________________________________________________
Document: 771
Pairs extracted: 691
___________________________________________________
Document: 772
Pairs extracted: 162
____________________

Pairs extracted: 2290
___________________________________________________
Document: 857
Pairs extracted: 5118
___________________________________________________
Document: 858
Pairs extracted: 408
___________________________________________________
Document: 859
Pairs extracted: 4182
___________________________________________________
Document: 860
Pairs extracted: 3186
___________________________________________________
Document: 861
Pairs extracted: 1037
___________________________________________________
Document: 862
Pairs extracted: 412
___________________________________________________
Document: 863
Pairs extracted: 1231
___________________________________________________
Document: 864
Pairs extracted: 438
___________________________________________________
Document: 865
Pairs extracted: 17
___________________________________________________
Document: 866
Pairs extracted: 38
___________________________________________________
Document: 867
Pairs extracted: 147
__________________

Pairs extracted: 3018
___________________________________________________
Document: 951
Pairs extracted: 1265
___________________________________________________
Document: 952
Pairs extracted: 564
___________________________________________________
Document: 953
Pairs extracted: 323
___________________________________________________
Document: 954
Pairs extracted: 319
___________________________________________________
Document: 955
Pairs extracted: 167
___________________________________________________
Document: 956
Pairs extracted: 685
___________________________________________________
Document: 957
Pairs extracted: 550
___________________________________________________
Document: 958
Pairs extracted: 152
___________________________________________________
Document: 959
Pairs extracted: 1638
___________________________________________________
Document: 960
Pairs extracted: 168
___________________________________________________
Document: 961
Pairs extracted: 1667
__________________

Pairs extracted: 32
___________________________________________________
Document: 1045
Pairs extracted: 1136
___________________________________________________
Document: 1046
Pairs extracted: 4334
___________________________________________________
Document: 1047
Pairs extracted: 174
___________________________________________________
Document: 1048
Pairs extracted: 247
___________________________________________________
Document: 1049
Pairs extracted: 60
___________________________________________________
Document: 1050
Pairs extracted: 1037
___________________________________________________
Document: 1051
Pairs extracted: 509
___________________________________________________
Document: 1052
Pairs extracted: 1361
___________________________________________________
Document: 1053
Pairs extracted: 1350
___________________________________________________
Document: 1054
Pairs extracted: 1913
___________________________________________________
Document: 1055
Pairs extracted: 44
________

___________________________________________________
Document: 1138
Pairs extracted: 2794
___________________________________________________
Document: 1139
Pairs extracted: 942
___________________________________________________
Document: 1140
Pairs extracted: 1219
___________________________________________________
Document: 1141
Pairs extracted: 137
___________________________________________________
Document: 1142
Pairs extracted: 5
___________________________________________________
Document: 1143
Pairs extracted: 1544
___________________________________________________
Document: 1144
Pairs extracted: 291
___________________________________________________
Document: 1145
Pairs extracted: 3728
___________________________________________________
Document: 1146
Pairs extracted: 541
___________________________________________________
Document: 1147
Pairs extracted: 1902
___________________________________________________
Document: 1148
Pairs extracted: 56
______________________________

___________________________________________________
Document: 1324
Pairs extracted: 980
___________________________________________________
Document: 1325
Pairs extracted: 1639
___________________________________________________
Document: 1326
Pairs extracted: 281
___________________________________________________
Document: 1327
Pairs extracted: 206
___________________________________________________
Document: 1328
Pairs extracted: 246
___________________________________________________
Document: 1329
Pairs extracted: 67
___________________________________________________
Document: 1330
Pairs extracted: 1819
___________________________________________________
Document: 1331
Pairs extracted: 271
___________________________________________________
Document: 1332
Pairs extracted: 487
___________________________________________________
Document: 1333
Pairs extracted: 308
___________________________________________________
Document: 1334
Pairs extracted: 418
_______________________________

Pairs extracted: 906
___________________________________________________
Document: 1418
Pairs extracted: 164
___________________________________________________
Document: 1419
Pairs extracted: 133
___________________________________________________
Document: 1420
Pairs extracted: 297
___________________________________________________
Document: 1421
Pairs extracted: 295
___________________________________________________
Document: 1422
Pairs extracted: 565
___________________________________________________
Document: 1423
Pairs extracted: 150
___________________________________________________
Document: 1424
Pairs extracted: 342
___________________________________________________
Document: 1425
Pairs extracted: 674
___________________________________________________
Document: 1426
Pairs extracted: 221
___________________________________________________
Document: 1427
Pairs extracted: 993
___________________________________________________
Document: 1428
Pairs extracted: 282
___________

___________________________________________________
Document: 1511
Pairs extracted: 131
___________________________________________________
Document: 1512
Pairs extracted: 70
___________________________________________________
Document: 1513
Pairs extracted: 2161
___________________________________________________
Document: 1514
Pairs extracted: 750
___________________________________________________
Document: 1515
Pairs extracted: 1232
___________________________________________________
Document: 1516
Pairs extracted: 438
___________________________________________________
Document: 1517
Pairs extracted: 2092
___________________________________________________
Document: 1518
Pairs extracted: 957
___________________________________________________
Document: 1519
Pairs extracted: 82
___________________________________________________
Document: 1520
Pairs extracted: 680
___________________________________________________
Document: 1521
Pairs extracted: 149
_______________________________

___________________________________________________
Document: 1604
Pairs extracted: 93
___________________________________________________
Document: 1605
Pairs extracted: 908
___________________________________________________
Document: 1606
Pairs extracted: 1572
___________________________________________________
Document: 1607
Pairs extracted: 481
___________________________________________________
Document: 1608
Pairs extracted: 1370
___________________________________________________
Document: 1609
Pairs extracted: 620
___________________________________________________
Document: 1610
Pairs extracted: 1238
___________________________________________________
Document: 1611
Pairs extracted: 1166
___________________________________________________
Document: 1612
Pairs extracted: 298
___________________________________________________
Document: 1613
Pairs extracted: 2216
___________________________________________________
Document: 1614
Pairs extracted: 1113
___________________________

___________________________________________________
Document: 1697
Pairs extracted: 333
___________________________________________________
Document: 1698
Pairs extracted: 2788
___________________________________________________
Document: 1699
Pairs extracted: 904
___________________________________________________
Document: 1700
Pairs extracted: 53
___________________________________________________
Document: 1701
Pairs extracted: 435
___________________________________________________
Document: 1702
Pairs extracted: 318
___________________________________________________
Document: 1703
Pairs extracted: 248
___________________________________________________
Document: 1704
Pairs extracted: 963
___________________________________________________
Document: 1705
Pairs extracted: 103
___________________________________________________
Document: 1706
Pairs extracted: 38
___________________________________________________
Document: 1707
Pairs extracted: 71
__________________________________

Pairs extracted: 751
___________________________________________________
Document: 1791
Pairs extracted: 331
___________________________________________________
Document: 1792
Pairs extracted: 132
___________________________________________________
Document: 1793
Pairs extracted: 1503
___________________________________________________
Document: 1794
Pairs extracted: 449
___________________________________________________
Document: 1795
Pairs extracted: 271
___________________________________________________
Document: 1796
Pairs extracted: 98
___________________________________________________
Document: 1797
Pairs extracted: 340
___________________________________________________
Document: 1798
Pairs extracted: 222
___________________________________________________
Document: 1799
Pairs extracted: 14
___________________________________________________
Document: 1800
Pairs extracted: 123
___________________________________________________
Document: 1801
Pairs extracted: 236
____________

___________________________________________________
Document: 1884
Pairs extracted: 217
___________________________________________________
Document: 1885
Pairs extracted: 472
___________________________________________________
Document: 1886
Pairs extracted: 2032
___________________________________________________
Document: 1887
Pairs extracted: 451
___________________________________________________
Document: 1888
Pairs extracted: 370
___________________________________________________
Document: 1889
Pairs extracted: 20
___________________________________________________
Document: 1890
Pairs extracted: 412
___________________________________________________
Document: 1891
Pairs extracted: 561
___________________________________________________
Document: 1892
Pairs extracted: 345
___________________________________________________
Document: 1893
Pairs extracted: 3185
___________________________________________________
Document: 1894
Pairs extracted: 27
________________________________

Pairs extracted: 185
___________________________________________________
Document: 1978
Pairs extracted: 113
___________________________________________________
Document: 1979
Pairs extracted: 138
___________________________________________________
Document: 1980
Pairs extracted: 1511
___________________________________________________
Document: 1981
Pairs extracted: 590
___________________________________________________
Document: 1982
Pairs extracted: 932
___________________________________________________
Document: 1983
Pairs extracted: 3883
___________________________________________________
Document: 1984
Pairs extracted: 1508
___________________________________________________
Document: 1985
Pairs extracted: 31
___________________________________________________
Document: 1986
Pairs extracted: 403
___________________________________________________
Document: 1987
Pairs extracted: 252
___________________________________________________
Document: 1988
Pairs extracted: 1823
________

### Ergebnis der Datenextrahierung aus den Wikipediaartikeln

In [48]:
wiki_kg_df

Unnamed: 0,Object_Type,Objects,Objects_raw,Relations,Sentence,Subject_Type,Subjects,Subjects_raw
0,,die jüngste Ausprägung,Ausprägung,darstellen,Die 1949 gegründete Bundesrepublik Deutschland...,LOC,Die 1949 gegründete Bundesrepublik Deutschland,Bundesrepublik
1,,des deutschen Nationalstaates,Nationalstaates,darstellen,Die 1949 gegründete Bundesrepublik Deutschland...,LOC,Die 1949 gegründete Bundesrepublik Deutschland,Bundesrepublik
2,,die jüngste Ausprägung,Ausprägung,darstellen,Die 1949 gegründete Bundesrepublik Deutschland...,LOC,Die 1949 gegründete Bundesrepublik Deutschland,Deutschland
3,,des deutschen Nationalstaates,Nationalstaates,darstellen,Die 1949 gegründete Bundesrepublik Deutschland...,LOC,Die 1949 gegründete Bundesrepublik Deutschland,Deutschland
0,,83 Millionen Einwohner,Millionen,haben,Deutschland hat 83 Millionen Einwohner und zäh...,LOC,Deutschland,Deutschland
1,,83 Millionen Einwohner,83,haben,Deutschland hat 83 Millionen Einwohner und zäh...,LOC,Deutschland,Deutschland
2,,83 Millionen Einwohner,Einwohner,haben,Deutschland hat 83 Millionen Einwohner und zäh...,LOC,Deutschland,Deutschland
0,LOC,Deutschland,Deutschland,grenzen,"An Deutschland grenzen neun Staaten, es hat An...",LOC,neun Staaten,Staaten
1,LOC,Deutschland,Deutschland,grenzen,"An Deutschland grenzen neun Staaten, es hat An...",,neun Staaten,neun
0,,"1,57 Kindern",Kindern,haben,"Deutschlands Bevölkerung hat mit 1,57 Kindern ...",,Deutschlands Bevölkerung,Bevölkerung


In [49]:
wiki_kg_df.iloc[10]['Sentence']

'Deutschlands Bevölkerung hat mit 1,57 Kindern pro Frau eine vergleichsweise niedrige Geburtenrate, die jedoch in den 2010er-Jahren leicht anstieg.'

In [50]:
wiki_kg_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1758087 entries, 0 to 8
Data columns (total 8 columns):
Object_Type     object
Objects         object
Objects_raw     object
Relations       object
Sentence        object
Subject_Type    object
Subjects        object
Subjects_raw    object
dtypes: object(8)
memory usage: 120.7+ MB


## Visualisierung der Ergebnisse
Die Erste Ergebnisse werden angezeigt, um ein Gefühl bezüglich der Aussicht eines Knowledge-Graphs erhalten wird.

In [51]:
def draw_kg(pairs):
    '''
    Bei dieser Methode wird die Basis für die vereinfachten Darstellung eines
    Knowledge-Graphs geschaffen.
    '''
    k_graph = nx.from_pandas_edgelist(pairs, 'Subjects', 'Objects',
            create_using=nx.MultiDiGraph())
    node_deg = nx.degree(k_graph)
    layout = nx.spring_layout(k_graph, k=0.15, iterations=20)
    plt.figure(num=None, figsize=(15, 10), dpi=80)
    nx.draw_networkx(
        k_graph,
        node_size=[int(deg[1]) * 500 for deg in node_deg],
        arrowsize=20,
        linewidths=1.5,
        pos=layout,
        edge_color='red',
        edgecolors='black',
        node_color='white',
        )
    labels = dict(zip(list(zip(pairs.Subjects, pairs.Objects)),
                  pairs['Relations'].tolist()))
    nx.draw_networkx_edge_labels(k_graph, pos=layout, edge_labels=labels,
                                 font_color='red')
    plt.axis('off')
    plt.show()

In [52]:
def filter_graph(pairs, node):
    '''
    Bei dieser Methode, wird die Information anhand der Subjekte gefiltert, sodass
    nicht alle Informationen gleichzeitig dargestellt wird, sonder nur was eine
    Verbindung zu dem Eingegebenen Subjekt enthält.
    '''
    k_graph = nx.from_pandas_edgelist(pairs, 'Subjects', 'Objects',
            create_using=nx.MultiDiGraph())
    edges = nx.dfs_successors(k_graph, node)
    nodes = []
    for k, v in edges.items():
        nodes.extend([k])
        nodes.extend(v)
    subgraph = k_graph.subgraph(nodes)
    layout = nx.spring_layout(k_graph, k=0.15, iterations=20)
    nx.draw_networkx(
        subgraph,
        node_size=1000,
        arrowsize=20,
        linewidths=1.5,
        pos=layout,
        edge_color='red',
        edgecolors='black',
        node_color='white'
        )
    labels = dict(zip((list(zip(pairs.Subjects, pairs.Objects))),
                    pairs['Relations'].tolist()))
    edges= tuple(subgraph.out_edges(data=False))
    sublabels ={k: labels[k] for k in edges}
#     print(k_graph.out_edges(data=False))
    nx.draw_networkx_edge_labels(subgraph, pos=layout, edge_labels=sublabels,
                                font_color='red')
    plt.axis('off')
    plt.show()

In [55]:
try:
    plt.figure(num=None, figsize=(15, 10), dpi=80)
    filter_graph(kg_df[kg_data_cols], 'die Studierenden')
except:
    print('HHN')

HHN


<Figure size 1200x800 with 0 Axes>

In [54]:
spacy.explain('MISC')

'Miscellaneous entities, e.g. events, nationalities, products or works of art'