## Vorverarbeitung von Texten mit spaCy

Textdateien müssen für die Weiterverarbeitung häufig vorab bereinigt bzw. entsprechend vorbereitet werden, um sie für unterschiedliche Anwendungsfälle nutzbar zu machen. 

Für Python existiert eine große Auswahl an Bibliotheken für Natural Language Processing (algorithmische Verarbeitung von Text- und Sprachdaten), die sich bezüglich ihres Funktionsumfanges und ihrer Performance teilweise deutlich unterscheiden. Die gängisten Bibliotheken sind: 

* [NLTK](http://www.nltk.org/)
* [spaCy](https://spacy.io/)
* [openNLP](https://opennlp.apache.org/)
* [CoreNLP](https://stanfordnlp.github.io/CoreNLP/)

Hier ein kurzer Einblick in spaCy, eine Bibliothek zur Tokenisierung, Named Entity Recognition, Deep Learning Integration, Unterstützung von 61 Sprachen etc.  
* Einfacher Einstieg in spaCy [spacy 101](https://spacy.io/usage/spacy-101)

In [5]:
import spacy
from pathlib import Path

# zunächst über powershell Sprachpaket installieren:
# python -m spacy download en_core_web_md
# python -m spacy download de_core_news_md

In [6]:
#nlp = spacy.load("en_core_web_md")
#doc = nlp("‘New dawn in America’: World leaders welcome U.S. President Joe Biden and Vice President Kamala Harris.")
#for token in doc:
#    print(token.text)

In [7]:
nlp = spacy.load("de_core_news_md")
with open('fahrrad.txt', encoding='utf-8') as f:
        doc = nlp(f.read())
        print (doc)

Wir waren z.B. früher auf'm Fahrrad unterwegs in Graz (immer nach 11 Uhr).


In [8]:
for token in doc:
    print(token.text)

Wir
waren
z.B.
früher
auf
'm
Fahrrad
unterwegs
in
Graz
(
immer
nach
11
Uhr
)
.


In [9]:
# Lemmatisieren: https://spacy.io/api/token

In [10]:
for token in doc:
    if token.is_punct == False:
        # Zahlen entfernen
            print(token)

Wir
waren
z.B.
früher
auf
'm
Fahrrad
unterwegs
in
Graz
immer
nach
11
Uhr


In [11]:
# Text in Kleinbuchstaben ausgeben

In [12]:
# Stoppwörter entfernen und Text normalisieren

In [14]:
#fileNoun = open("fahrrad-noun.txt", "w")

for token in doc:
    if token.pos_ == 'NOUN':
        print(token, ' : ', token.lemma_) #file=fileNoun

z.B.  :  z.B.
Fahrrad  :  Fahrrad
Uhr  :  Uhr


In [15]:
# Entitäten erkennen
for ent in doc.ents:
    print(ent.text, ent.label_)

Graz LOC
