In [1]:
from spacy_preprocessing.preprocess import Preprocess

# Beispiel für Preprocessing eines Plozeiberichtes der Berliner Polizei

**Beispieltext:**

In [2]:
#text = "Polizeimeldung vom 06.11.2018. Neukölln. Nr. 2331. Gestern Nachmittag kam es in Neukölln zu einer versuchten räuberischen Erpressung an einem Obdachlosen. Ein Zeuge beobachtete gegen 15.30 Uhr, wie ein Mann auf dem Bahnsteig des U-Bahnhofs Boddinstraße von einem offensichtlich Obdachlosen Geld forderte und diesen dabei mehrfach ins Gesicht schlug. Der mutmaßliche Täter und ein Begleiter wollten danach den Bahnhof mit der U-Bahn verlassen. Durch alarmierte Polizeikräfte konnte die Abfahrt des Zuges verhindert und der 34-jährige Tatverdächtige festgenommen werden. Eine freiwillige Atemalkoholmessung ergab bei ihm einen Wert von zirka 1,2 Promille. Nach einer erkennungsdienstlichen Behandlung wurde er der Kriminalpolizei übergeben. Der Obdachlose entfernte sich unerkannt."
#text = "Polizeimeldung vom 30.07.2018. Neukölln. Nr. 1589. Gegen 2.30 Uhr bemerkten Anwohner eines Mehrfamilienhauses in der Emser Straße in Neukölln, dass in einem Treppenaufgang des Hinterhauses dort abgestellte Gegenstände brannten. Ein Mitbewohner löschte das Feuer noch vor dem Eintreffen der Feuerwehr. Ein abgestellter Trolli und eine angelehnte Fußmatte wurden vollständig zerstört. Personen kamen nicht zu Schaden. Ein Brandkommissariat des Landeskriminalamtes Berlin hat die weiteren Ermittlungen übernommen."
text = "Der 18-jährige blinde Passant wurde am 18.07.2018 um 15.30 Uhr tot in der Braunschweiger Straße mit mehreren Messerstichen aufgefunden. Die Polizeidirektion Neukölln ermittelt und bittet um Hilfe."
#text = "Polizeimeldung vom 31.12.2015. Spandau. Nr. 3273. In Siemensstadt brachten gestern Abend Rettungskräfte der Berliner Feuerwehr einen verletzten Radfahrer in ein Krankenhaus. Den bisherigen Ermittlungen zufolge stürzte gegen 21.35 Uhr der 75-Jährige mit seinem Rad in der Wattstraße und zog sich eine schwere Kopfverletzung zu. Ärzte nahmen den Verletzten stationär auf. Die Ermittlungen zur Unfallursache übernahm der Verkehrsermittlungsdienst der Polizeidirektion 2."
print(text)

Der 18-jährige blinde Passant wurde am 18.07.2018 um 15.30 Uhr tot in der Braunschweiger Straße mit mehreren Messerstichen aufgefunden. Die Polizeidirektion Neukölln ermittelt und bittet um Hilfe.


**Init Preprocess Object mit Beispieltext:**  
Weitere Einstellungsparameter für das Preprocess Objekt:  
 - **split_in_sentences** (default=True): Tokens des Preprocess-Ergebnisses werden abhängig von Sätzen in Sub-Arrays gespeichert
 - **with_pos** (default=False): 
   * False: nur Tokens werden gespeichert
   * True: Speichern der Position des Tokens im Originaltext als Tripel: (Anfangsbuchstabe, Endbuchstabe, Token)

In [3]:
preprocessed = Preprocess(text)

**Ermittlung der Noun-Phrases und Named-Entities:**  
Intern werden als ersten die Indexe (Spacy-Token-Index) der Noun-Phrases und Named Entities als Listen generiert.  
Die Noun-Phrases werden zusätzlich von ihren Stopwörtern und Punctuation bereinigt.
Die Index-Listen werden gemerged, um für den Preprocess die Indexe vorzuhalten, welche definitiv in dem aufbereiteten Text vorkommen sollten.  
Die Indexe der Token sind für, um sicherzustellen, dass diese Tokens definitiv in dem Preprocess-Ergebnis beibehalten werden. 

In [4]:
# Noun-Phrases, nur Indexe als 1d-Array:
print("Noun-Phrases, cleaned (default): \n", preprocessed.noun_chunks)

# Named-Entities (1d-Array):
print("\nNamed-Entities (default): \n", preprocessed.named_entities)

# merged Noun-Phrases and Named-Entities --> must have maintain for preprocess
print("\nMaintain-Indeces, generated put of Noun-chunks and Named-Entities: \n", preprocessed.maintain_indeces)

Noun-Phrases, cleaned (default): 
 [1, 3, 4, 5, 8, 10, 11, 15, 16, 18, 19, 23, 24, 29]

Named-Entities (default): 
 [15, 16, 24]

Maintain-Indeces, generated put of Noun-chunks and Named-Entities: 
 [1, 3, 4, 5, 8, 10, 11, 15, 16, 18, 19, 23, 24, 29]


**Mehr Infos zu Noun-Phrases und Named-Entities:**  
Mit Methoden der Preprocess Klasse können bei Bedarf auch Ausgaben generiert werden, die detailiertere Infos zu den Noun-Phrases und Named-Entitites enthalten.

In [5]:
print("Noun-Phrases: \n", preprocessed.get_noun_chunks(only_indices=False, cleaned=False, flattened=False))

print("\nNamed-Entities: \n", preprocessed.get_named_entities(only_indeces=False, flattened=False))

Noun-Phrases: 
 [[(0, Der), (1, 18), (2, -), (3, jährige), (4, blinde), (5, Passant)], [(8, 18.07.2018)], [(10, 15.30), (11, Uhr)], [(14, der), (15, Braunschweiger), (16, Straße)], [(18, mehreren), (19, Messerstichen)], [(22, Die), (23, Polizeidirektion), (24, Neukölln)], [(29, Hilfe)]]

Named-Entities: 
 [[(15, Braunschweiger, 'LOC'), (16, Straße, 'LOC')], [(24, Neukölln, 'LOC')]]


## Preprocess Ergebnis:  
Das **preprocessed-Attribut** hält den aufbereiteten Text als Array mit Sub-Arrays (Sätze) gefüllt mit den bedeutungstragenden lemmatisierten Tokens. 

In [6]:
# Original-Text
print(text)

Der 18-jährige blinde Passant wurde am 18.07.2018 um 15.30 Uhr tot in der Braunschweiger Straße mit mehreren Messerstichen aufgefunden. Die Polizeidirektion Neukölln ermittelt und bittet um Hilfe.


In [7]:
print("Preprocessed Text split by sentences (default): \n", preprocessed.preprocessed)

Preprocessed Text split by sentences (default): 
 [['18', 'jährig', 'blind', 'passant', '18.07.2018', '15.30', 'uhr', 'tot', 'braunschweiger', 'straße', 'viel', 'messerstich', 'auffinden'], ['polizeidirektion', 'neukölln', 'ermitteln', 'bitten', 'hilfe']]


**Customize Preprocess:**  
Das Preprocess Object hält außerdem eine preprocess() Methode, mit der das preprocessing konfiguriert werden kann. Die gleicher Einstellungsparameter können auch bei der Initialisierung des Preprocess-Objektes angegeben werden. Das Ergebniss des Preprocessings würde dann im preprocessed-Attribut gespeichert werden.

In [8]:
print("Preprocessed flattened Text (ignore sentences): \n", preprocessed.preprocess(sentence_split=False))

Preprocessed flattened Text (ignore sentences): 
 ['18', 'jährig', 'blind', 'passant', '18.07.2018', '15.30', 'uhr', 'tot', 'braunschweiger', 'straße', 'viel', 'messerstich', 'auffinden', 'polizeidirektion', 'neukölln', 'ermitteln', 'bitten', 'hilfe']


In [9]:
print("Preprocessed with Token Position in Text: \n", preprocessed.preprocess(with_pos=True))

Preprocessed with Token Position in Text: 
 [[(4, 6, '18'), (7, 14, 'jährig'), (15, 21, 'blind'), (22, 29, 'passant'), (39, 49, '18.07.2018'), (53, 58, '15.30'), (59, 62, 'uhr'), (63, 66, 'tot'), (74, 88, 'braunschweiger'), (89, 95, 'straße'), (100, 108, 'viel'), (109, 122, 'messerstich'), (123, 134, 'auffinden')], [(140, 156, 'polizeidirektion'), (157, 165, 'neukölln'), (166, 175, 'ermitteln'), (180, 186, 'bitten'), (190, 195, 'hilfe')]]
