<a href="https://colab.research.google.com/github/krumeto/NLP_notes/blob/master/NLP_for_German_text_with_spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import spacy

In [None]:
#Download medium german pretrained model
!python -m spacy download de_core_news_md


Collecting de_core_news_md==2.2.5
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/de_core_news_md-2.2.5/de_core_news_md-2.2.5.tar.gz (224.6MB)
[K     |████████████████████████████████| 224.6MB 1.3MB/s 
Building wheels for collected packages: de-core-news-md
  Building wheel for de-core-news-md (setup.py) ... [?25l[?25hdone
  Created wheel for de-core-news-md: filename=de_core_news_md-2.2.5-cp36-none-any.whl size=228399479 sha256=405eea2b5b9d9b46a9155d9eb8c0be1928b29e5211501ba310a339190b63467d
  Stored in directory: /tmp/pip-ephem-wheel-cache-8gdstu9_/wheels/41/60/41/81898870259d7c19fe8f9e46a537611c939f0c425eee2e1785
Successfully built de-core-news-md
Installing collected packages: de-core-news-md
Successfully installed de-core-news-md-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('de_core_news_md')


In [None]:
# Create an nlp object
import de_core_news_md
nlp = de_core_news_md.load()

In [None]:
# Example document
document = """Sehr geehrte Frau Dr. Graf,

mein Name ist Max Mustermann und ich bin Inhaber des Unternehmens BG Architekten GmbH.

Ihrer umfangreichen Homepage entnehme ich, dass Sie sich insbesondere mit dem Thema Badezimmerprodukte befassen. Deshalb möchte ich Ihnen auf diesem Wege einen Kooperationsvorschlag machen.

Sollte Ihrerseits Interesse bestehen, würde ich mich gerne bei Ihnen telefonisch melden, um alles Weitere im Detail zu besprechen.

Über eine Antwort Ihrerseits würde ich mich sehr freuen!

Herzliche Grüße nach Jona und einen guten Start in die Woche

Max Mustermann"""

In [None]:
# Created by processing a string of text with the nlp object
doc = nlp(document)

### Tokenization
Tokenization separates sentence(s) into pieces called tokens. For English, it normally uses whitespace as a separator with special treatments for punctuations, emoji. etc. SpaCy allows customization of most of its features (e.g. add infix "-" as a seperator for tokenization).

Hiererarcy: Corpus > document > sentence > word > sub-word > character > subcharacter > stroke



In [None]:
# For each token, print its token number and token text 
i = 0
for token in doc:
    i += 1
    print (f"{i} {token.text}")

1 Sehr
2 geehrte
3 Frau
4 Dr.
5 Graf
6 ,
7 


8 mein
9 Name
10 ist
11 Max
12 Mustermann
13 und
14 ich
15 bin
16 Inhaber
17 des
18 Unternehmens
19 "
20 BG
21 Architekten
22 "
23 GmbH.
24 


25 Ihrer
26 umfangreichen
27 Homepage
28 entnehme
29 ich
30 ,
31 dass
32 Sie
33 sich
34 insbesondere
35 mit
36 dem
37 Thema
38 Badezimmerprodukte
39 befassen
40 .
41 Deshalb
42 möchte
43 ich
44 Ihnen
45 auf
46 diesem
47 Wege
48 einen
49 Kooperationsvorschlag
50 machen
51 .
52 


53 Sollte
54 Ihrerseits
55 Interesse
56 bestehen
57 ,
58 würde
59 ich
60 mich
61 gerne
62 bei
63 Ihnen
64 telefonisch
65 melden
66 ,
67 um
68 alles
69 Weitere
70 im
71 Detail
72 zu
73 besprechen
74 .
75 


76 Über
77 eine
78 Antwort
79 Ihrerseits
80 würde
81 ich
82 mich
83 sehr
84 freuen
85 !
86 


87 Herzliche
88 Grüße
89 nach
90 Jona
91 und
92 einen
93 guten
94 Start
95 in
96 die
97 Woche
98 


99 Max
100 Mustermann


In [None]:
#stopwords
# By default, spaCy contains a few hundred stop words for German 
spacy_stop_words = spacy.lang.de.stop_words.STOP_WORDS
len(spacy_stop_words)

543

In [None]:
# Print 10 stop words
list(spacy_stop_words)[:10]

['groß',
 'ihnen',
 'wie',
 'mögen',
 'besten',
 'dritter',
 'ihrer',
 'ins',
 'siebter',
 'drei']

In [None]:
#Lemmatization
#Lemmatization converts a word into its inflected form (lemma) while still ensuring that the reduced form (lemma) belongs to the language, which might not be the case for stemming. 
#For each token, print its token number, token text, and lemma 
#i = 0
#for token in doc:
#    i += 1
#    print (f"{i} {token.text} \t\t {token.lemma_}")

In [None]:
# for each sentence, print sentence number and text
i = 0
for sentence in doc.sents:
    i += 1
    print (f"{i} {sentence}")

1 Sehr geehrte Frau Dr. Graf,


2 mein Name ist Max Mustermann und ich bin Inhaber des Unternehmens "BG Architekten"
3 GmbH.

Ihrer umfangreichen Homepage entnehme ich, dass Sie sich insbesondere mit dem Thema Badezimmerprodukte befassen.
4 Deshalb möchte ich Ihnen auf diesem Wege einen Kooperationsvorschlag machen.


5 Sollte Ihrerseits Interesse bestehen, würde ich mich gerne bei Ihnen telefonisch melden, um alles Weitere im Detail zu besprechen.


6 Über eine Antwort Ihrerseits würde ich mich sehr freuen!


7 Herzliche Grüße nach Jona und einen guten Start in die Woche

Max Mustermann


### Statistical Models
SpaCy comes with 3 deep neural network (DNN) based models:

1. Part-of-speech (POS) tagger
2. Named entity recognizer (NER)
3. Syntactic dependency parser'=

SpaCy used supervised Seq2Seq convolutional neural network (CNN) with sub-word embedding, residual connections, and layer normalization in a multi-task fashion to train those models. These models can be retrained if you have your own labeled data.

#### Part-of-speech (POS)
POS indicates which category a word is assigned to in accordance with its syntactic functions.

Examples:

- Noun
- Pronoun
- Proper noun
- Adjective
- Verb
- Adverb
- Adposition
- Auxiliary
- Punctuation
- Determiner
- Subordinating conjunction
- Interjection

In [None]:
# For each token, print its token number, token text, and POS 
i = 0
for token in doc:
    i += 1
    print (f"{i} {token.text} \t\t {token.pos_}")

1 Sehr 		 ADV
2 geehrte 		 ADJ
3 Frau 		 NOUN
4 Dr. 		 PROPN
5 Graf 		 PROPN
6 , 		 PUNCT
7 

 		 SPACE
8 mein 		 DET
9 Name 		 NOUN
10 ist 		 AUX
11 Max 		 PROPN
12 Mustermann 		 PROPN
13 und 		 CCONJ
14 ich 		 PRON
15 bin 		 AUX
16 Inhaber 		 NOUN
17 des 		 DET
18 Unternehmens 		 NOUN
19 " 		 PUNCT
20 BG 		 PROPN
21 Architekten 		 NOUN
22 " 		 PUNCT
23 GmbH. 		 PROPN
24 

 		 SPACE
25 Ihrer 		 DET
26 umfangreichen 		 ADJ
27 Homepage 		 NOUN
28 entnehme 		 VERB
29 ich 		 PRON
30 , 		 PUNCT
31 dass 		 SCONJ
32 Sie 		 PRON
33 sich 		 PRON
34 insbesondere 		 ADV
35 mit 		 ADP
36 dem 		 DET
37 Thema 		 NOUN
38 Badezimmerprodukte 		 NOUN
39 befassen 		 VERB
40 . 		 PUNCT
41 Deshalb 		 ADV
42 möchte 		 VERB
43 ich 		 PRON
44 Ihnen 		 PRON
45 auf 		 ADP
46 diesem 		 DET
47 Wege 		 NOUN
48 einen 		 DET
49 Kooperationsvorschlag 		 NOUN
50 machen 		 VERB
51 . 		 PUNCT
52 

 		 SPACE
53 Sollte 		 VERB
54 Ihrerseits 		 ADV
55 Interesse 		 NOUN
56 bestehen 		 VERB
57 , 		 PUNCT
58 würde 		 AUX
59 

### Named Entity Recognizer (NER)
NER locates named entities and classifies them into pre-defined categories, such as:

- PERSON People, including fictional.
- FAC Buildings, airports, highways, bridges, etc.
- ORG Companies, agencies, institutions, etc.
- GPE Countries, cities, states.
- PRODUCT Objects, vehicles, foods, etc. (Not services.)
- EVENT Named hurricanes, battles, wars, sports events, etc.
- DATE Absolute or relative dates or periods.
- TIME Times smaller than a day.
- MONEY Monetary values, including unit.
- QUANTITY Measurements, as of weight or distance.
- ORDINAL “first”, “second”, etc.
- CARDINAL Numerals that do not fall under another type.

In [None]:
# For each extracted token, print its token number, token text, and named entities 
i = 0
for token in doc.ents:
    i += 1
    print (f"{i} {token.text} \t\t {token.label_}")

1 Dr. Graf 		 PER
2 Max Mustermann 		 PER
3 Unternehmens BG 		 ORG
4 GmbH.

 		 PER
5 Jona 		 LOC
6 Max Mustermann 		 PER


In [None]:
# Visualize NER
spacy.displacy.render(doc, style='ent', jupyter = True)

In [None]:
spacy.explain('GPE')

'Countries, cities, states'

### Syntactic Dependency Parser
This process extracts the dependency parse of a sentence to represent its grammatical structure. The extracted structured is represented as directed graph, and it can be used as features in some deep learning algorithms (Tree-Recursive Neural Network, Graph Neural Network, etc.

In [None]:
# For each token, print its token number, token text, and dependency 
i = 0
for token in doc:
    i += 1
    print (f"{i} {token.text} \t\t {token.dep_} \t\t {token.head.text}")

1 Sehr 		 mo 		 geehrte
2 geehrte 		 nk 		 Frau
3 Frau 		 ROOT 		 Frau
4 Dr. 		 nk 		 Frau
5 Graf 		 nk 		 Dr.
6 , 		 punct 		 Frau
7 

 		  		 ,
8 mein 		 nk 		 Name
9 Name 		 pd 		 ist
10 ist 		 ROOT 		 ist
11 Max 		 pnc 		 Mustermann
12 Mustermann 		 sb 		 ist
13 und 		 cd 		 Mustermann
14 ich 		 sb 		 bin
15 bin 		 cj 		 und
16 Inhaber 		 pd 		 bin
17 des 		 nk 		 Unternehmens
18 Unternehmens 		 ag 		 Inhaber
19 " 		 punct 		 Architekten
20 BG 		 pnc 		 Architekten
21 Architekten 		 nk 		 Unternehmens
22 " 		 punct 		 Architekten
23 GmbH. 		 dep 		 Homepage
24 

 		  		 GmbH.
25 Ihrer 		 nk 		 Homepage
26 umfangreichen 		 nk 		 Homepage
27 Homepage 		 da 		 entnehme
28 entnehme 		 ROOT 		 entnehme
29 ich 		 sb 		 entnehme
30 , 		 punct 		 entnehme
31 dass 		 cp 		 befassen
32 Sie 		 sb 		 befassen
33 sich 		 oa 		 befassen
34 insbesondere 		 mo 		 mit
35 mit 		 op 		 befassen
36 dem 		 nk 		 Thema
37 Thema 		 nk 		 mit
38 Badezimmerprodukte 		 nk 		 Thema
39 befassen 		 oc 		 entne

In [None]:
# Visualize syntactic dependency
# Split into sentences
sentence_spans = list(doc.sents)
spacy.displacy.render(sentence_spans[3], style="dep" , jupyter = True)

### Rule-based matching

In [None]:
from spacy.matcher import Matcher

# Initialize the matcher with the shared vocab
matcher = Matcher(nlp.vocab)

pattern = [
           {"LOWER": "sehr"},
           {"LOWER": "geehrte"},
           {"POS": "NOUN"},
           {"POS": "PROPN"},
           ]
matcher.add("ANY_OFFER", None, pattern)

matches = matcher(doc)

# Iterate over the matches
for match_id, start, end in matches:
    # Get the matched span
    matched_span = doc[start:end]
    print(matched_span.text)

Sehr geehrte Frau Dr.


In [None]:
from spacy.pipeline import EntityRuler

ruler = EntityRuler(nlp)

pattern = [
           {"LOWER": "sehr"},
           {"LOWER": "geehrte"},
           {"POS": "NOUN"},
           {"POS": "PROPN"},
           ]

### Word vectors.

In [None]:
# Printing a word vector for "cat" and its demension size
word1 = nlp("Katze")
print(f"{word1.vector} Dimension: {len(word1.vector)}")

[ 7.94400e-02  6.50390e-02  3.84020e-02  5.71960e-02 -1.07483e-01
  9.44500e-02  1.26056e-01 -3.67150e-02 -5.19510e-02  5.70890e-02
 -3.57100e-03 -1.54680e-01 -1.79570e-01  1.22324e-01  2.95920e-02
 -1.52795e-01  1.75330e-02  2.72260e-02 -3.26880e-02 -5.72130e-02
  7.61460e-02 -1.15061e-01 -1.18281e-01  6.27390e-02  5.73380e-02
  8.77280e-02 -4.46090e-02 -7.46910e-02  6.35170e-02  6.42840e-02
  5.79190e-02 -1.95661e-01 -3.66710e-02  1.02721e-01 -1.22134e-01
  1.80000e-03  5.61740e-02  6.45820e-02 -1.47540e-02 -1.47828e-01
 -3.81200e-02 -1.64022e-01 -6.24050e-02  5.61530e-02  1.64387e-01
  6.80460e-02  1.80591e-01 -2.91230e-02  4.31600e-03  1.40180e-02
  4.37030e-02 -2.29150e-02 -4.17530e-02 -7.53750e-02  6.99130e-02
 -6.91130e-02  1.00700e-03  2.34009e-01 -7.96400e-02  7.47110e-02
  2.84470e-02  5.21340e-02  8.57650e-02 -5.56790e-02 -4.64900e-02
  3.81810e-02  6.47380e-02 -1.29101e-01 -1.56267e-01  1.19110e-01
  9.13850e-02  8.93200e-02 -8.16340e-02  6.30740e-02 -6.76660e-02
  1.44070e

In [None]:
# Cosine similarity of cat and dog
word2 = nlp("Hund")
print(word1.similarity(word2))

0.63144929286022


In [None]:
# Cosine similarity of 2 different documents by averaging word vectors
doc1 = nlp("Ich möchte 20 Monolith Sanitärmodulen bestellen.")
doc2 = nlp("Bitte bestellen Sie 20 Monolith Sanitärmodule.")

print(doc1.similarity(doc2))


0.8386252986628338


In [None]:
# Cosine similarity of 2 different documents by averaging word vectors
string1 = "Ich möchte 20 Monolith Sanitärmodulen bestellen."
string2 = "Bitte bestellen Sie 20 Monolith Sanitärmodule."

doc1 = nlp(' '.join([str(t) for t in nlp(string1) if not t.is_stop]))
doc2 = nlp(' '.join([str(t) for t in nlp(string2) if not t.is_stop]))

print(doc1.similarity(doc2))

0.7819968069549414


In [None]:
# A somewhat related topic
doc1 = nlp("Ich möchte 20 Monolith Sanitärmodulen bestellen.")
doc2 = nlp("Bis wann können Sie die Monolith Sanitärmodulen liefern?")
print(doc1.similarity(doc2))

0.7561470737760702


In [None]:
# A less related topic
doc1 = nlp("Ich möchte 20 Monolith Sanitärmodulen bestellen.")
doc2 = nlp("Die Bestellung erfolgt mit 30 Tage Zahlungsziel")
print(doc1.similarity(doc2))

0.6448197949078333


In [None]:
# Unrelated
doc1 = nlp("Ich möchte 20 Monolith Sanitärmodulen bestellen.")
doc2 = nlp("Wo ist meine Katze?")
print(doc1.similarity(doc2))

0.6895539149878707


### Working with bigger datasets


In [None]:
import pandas as pd

In [None]:
articles = pd.read_csv('https://raw.githubusercontent.com/tblock/10kGNAD/master/train.csv', sep=';', names = ['topic', 'text'],header=None, error_bad_lines=False)


In [None]:
print(articles.text[0])
print('Topic is: ', articles.topic[0])

21-Jähriger fällt wohl bis Saisonende aus. Wien – Rapid muss wohl bis Saisonende auf Offensivspieler Thomas Murg verzichten. Der im Winter aus Ried gekommene 21-Jährige erlitt beim 0:4-Heimdebakel gegen Admira Wacker Mödling am Samstag einen Teilriss des Innenbandes im linken Knie, wie eine Magnetresonanz-Untersuchung am Donnerstag ergab. Murg erhielt eine Schiene, muss aber nicht operiert werden. Dennoch steht ihm eine mehrwöchige Pause bevor.
Topic is:  Sport


#### Spacy way to handle big text datasets
Spacy allows multi-processing by treating texts as a stream and yielding Doc objects. In addition, when an nlp object is created, spaCy adds pipelines. By disabling unused pipeline components, spaCy can become even faster! Pipelines can be customized.


In [None]:
%%timeit
token_list = []

for doc in nlp.pipe(articles.text.astype('unicode').values, batch_size=100, n_threads=40):
    word_list = []
    for token in doc:
        word_list.append(token.text)
        
    token_list.append(word_list)


articles['token_list'] = token_list

1 loop, best of 3: 6min 1s per loop


In [None]:
# Print pipeline components
for p in nlp.pipeline:
    print(p)

('tagger', <spacy.pipeline.pipes.Tagger object at 0x7f6e6025e278>)
('parser', <spacy.pipeline.pipes.DependencyParser object at 0x7f6e5e9d7708>)
('ner', <spacy.pipeline.pipes.EntityRecognizer object at 0x7f6e5e9d7768>)


In [None]:
%%timeit
token_list = []
count = 0
# Disable POS, Dependency Parser, and NER since all we want is tokenizer 
# Alternatively, you can use nlp.make_doc method, which skips all pipelines, if you just need a tokenizer.
with nlp.disable_pipes('tagger', 'parser', 'ner'):
    for doc in nlp.pipe(articles.text.astype('unicode').values, batch_size=100, n_threads=40):
        word_list = []
        for token in doc:
            word_list.append(token.text)

        token_list.append(word_list)

articles['token_list2'] = token_list

1 loop, best of 3: 12.9 s per loop


### Using GPU

In [None]:
# Make sure GPU is enabled
spacy.prefer_gpu()

True

In [None]:
# Use the first GPU card
spacy.util.use_gpu(0)

<CUDA Device 0>