## 1. Spacy pos-tagging example

In [1]:
import spacy
from spacy.matcher import Matcher
nlp = spacy.load("en_core_web_sm")

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
test = "We anaylse innovations in car recycling industries"
matcher = Matcher(nlp.vocab)

pattern1 = [{'POS': 'NOUN'}, {'POS': 'NOUN'}, {'POS': 'NOUN'}]
pattern2 = [{'POS': 'PROPN'}, {'POS': 'NOUN'}, {'POS': 'PROPN'}, {'POS': 'PROPN'}]
pattern3 = [{'POS': 'NOUN'}, {'POS': 'DET'}, {'POS': 'NOUN'}]


pattern4 = [{'TAG': 'NN'}, {'TAG': 'VBG'}]

matcher.add("TrigramNCs", [pattern1, pattern2, pattern3, pattern4])

In [3]:
doc = nlp(test)
matches = matcher(doc)

In [4]:
for nc in doc.noun_chunks:
    print(nc.text)
print("######")

We anaylse innovations
car recycling industries
######


In [5]:
for match_id, start, end in matches:
    span = doc[start:end]
    print(span.text)

car recycling industries


In [6]:
test = "We anaylse innovations in vehicle sensing capabilities"
doc = nlp(test)

print(f"{'text':{8}} {'POS':{6}} {'TAG':{6}} {'Dep':{6}} {'POS explained':{20}} {'tag explained'} ")

for token in doc:
    print(f'{token.text:{8}} {token.pos_:{6}} {token.tag_:{6}} {token.dep_:{6}} {spacy.explain(token.pos_):{20}} {spacy.explain(token.tag_)}')

text     POS    TAG    Dep    POS explained        tag explained 
We       PRON   PRP    compound pronoun              pronoun, personal
anaylse  VERB   VBP    compound verb                 verb, non-3rd person singular present
innovations NOUN   NNS    ROOT   noun                 noun, plural
in       ADP    IN     prep   adposition           conjunction, subordinating or preposition
vehicle  NOUN   NN     compound noun                 noun, singular or mass
sensing  VERB   VBG    compound verb                 verb, gerund or present participle
capabilities NOUN   NNS    pobj   noun                 noun, plural


## 2. POS - Tag analysis

In [15]:
import pandas as pd

In [7]:
pos_text = """Das Programmieren der Bewegungen eines Roboters ist eine aufwendige und komplexe Angelegenheit. Mit seinem TracePen möchte das Dresdener Unternehmen Wandelbots diese Aufgabe erleichtern: Statt jedes Detail eines Bewegungsablaufs in Programmcode zu beschreiben, führt man mit dem TracePen am zu bearbeitenden Werkstück den gewünschten Bewegungsablauf des Roboters vor. Die Sensoren im  TracePen  erfassen die Bewegungen und übertragen sie an eine iPad-Software, mit der sich der Bewegungspfad nachbearbeiten lässt. Schließlich soll die App roboterspezifischen Programmcode für verschiedene Robotersysteme generieren und auf den Controller des Roboters übertragen, verspricht Hersteller Wandelbots – darunter KUKA (LBR iiwa und KRC-4), Universal Robots (CB Series und E Series) und ABB (IRC-5). Wandelbots , entstanden als Ausgründung aus der TU Dresden, startete 2017 mit der Idee, Roboter über intelligente Kleidung zu steuern. Bislang ist die Technik in Projekten bei Industriekunden, unter anderem bei Volkswagen, im Einsatz. Mit dem TracePen möchte das Unternehmen jetzt auch mittelständische Kunden erreichen. Das Produkt soll ab Mitte des Jahres ausgeliefert werden."""
neg_text = """Die automatica, die nach eigener Aussage "internationale Leitmesse für intelligente Automation und Robotik", und die Munich School of Robotics and Machine Intelligence (MSRM) der Technischen Universität München (TUM) wollen im Dezember auf der automatica 2020 eine neue und "weltweit einzigartige" KI-Plattform ins Leben rufen. munich_i soll dabei "unter dem Leitmotiv intelligence empowering tomorrow Antworten auf wirtschaftlich und gesellschaftlich dringende Fragen geben". KI und Robotik stünden schließlich vor einem Quantensprung, erklärt munich_i-Direktor Prof. Dr. Sami Haddadin. Der Hightech Summit vom 8. bis 11. Dezember auf der automatica fokussiert sich dabei vor allem auf die Bereiche der modernen Arbeitswelt, Gesundheit und Mobilität. Falk Senger, Geschäftsführer der Messe München,  ist überzeugt , dass die automatica durch die neue KI-Plattform an gesellschaftlicher Relevanz gewinnt: „Gemeinsam initiieren wir die Debatte über den Nutzen von Technologie als Helfer des Menschen in den relevanten Bereichen Gesundheit, Arbeit und Mobilität. Mit munich_i führen wir (...) zusammen, was zueinander gehört (...) – die automatica als treibende Kraft für KI und Robotik, auf der anderen Seite die MSRM als Europas führende Deep-Tech-Schmiede.“ Neben dem Hightech Summit am 8. Dezember bietet munich_i mit der AI.Society auf über 1.000 Quadratmetern das, "was morgen in Gesundheit, Arbeit und Mobilität Realität sein wird". Ein Robothon-Wettbewerb soll die Fähigkeiten der internationalen akademischen Nachwuchselite unter Beweis stellen und beim Roboter-Führerschein können Messebesucher selbst die Zusammenarbeit zwischen Mensch und Roboter am eigenen Leib erfahren, so die Presseerklärung."""

In [8]:
pos_text

'Das Programmieren der Bewegungen eines Roboters ist eine aufwendige und komplexe Angelegenheit. Mit seinem TracePen möchte das Dresdener Unternehmen Wandelbots diese Aufgabe erleichtern: Statt jedes Detail eines Bewegungsablaufs in Programmcode zu beschreiben, führt man mit dem TracePen am zu bearbeitenden Werkstück den gewünschten Bewegungsablauf des Roboters vor. Die Sensoren im  TracePen  erfassen die Bewegungen und übertragen sie an eine iPad-Software, mit der sich der Bewegungspfad nachbearbeiten lässt. Schließlich soll die App roboterspezifischen Programmcode für verschiedene Robotersysteme generieren und auf den Controller des Roboters übertragen, verspricht Hersteller Wandelbots – darunter KUKA (LBR iiwa und KRC-4), Universal Robots (CB Series und E Series) und ABB (IRC-5). Wandelbots , entstanden als Ausgründung aus der TU Dresden, startete 2017 mit der Idee, Roboter über intelligente Kleidung zu steuern. Bislang ist die Technik in Projekten bei Industriekunden, unter anderem

In [9]:
neg_text

'Die automatica, die nach eigener Aussage "internationale Leitmesse für intelligente Automation und Robotik", und die Munich School of Robotics and Machine Intelligence (MSRM) der Technischen Universität München (TUM) wollen im Dezember auf der automatica 2020 eine neue und "weltweit einzigartige" KI-Plattform ins Leben rufen. munich_i soll dabei "unter dem Leitmotiv intelligence empowering tomorrow Antworten auf wirtschaftlich und gesellschaftlich dringende Fragen geben". KI und Robotik stünden schließlich vor einem Quantensprung, erklärt munich_i-Direktor Prof. Dr. Sami Haddadin. Der Hightech Summit vom 8. bis 11. Dezember auf der automatica fokussiert sich dabei vor allem auf die Bereiche der modernen Arbeitswelt, Gesundheit und Mobilität. Falk Senger, Geschäftsführer der Messe München,  ist überzeugt , dass die automatica durch die neue KI-Plattform an gesellschaftlicher Relevanz gewinnt: „Gemeinsam initiieren wir die Debatte über den Nutzen von Technologie als Helfer des Menschen 

In [10]:
nlp_de = spacy.load("de_core_news_sm")



In [16]:
columns = ['token text', 'POS', 'TAG', 'Dep', 'POS explained', 'tag explained']

In [22]:
def print_pos_tagging(text):
    
    doc = nlp_de(text)
    token_list = []
    
#     print(f"{'text':{8}} {'POS':{6}} {'TAG':{6}} {'Dep':{6}} {'POS explained':{20}} {'tag explained'} ")

    for token in doc:
        token_list.append((token.text,token.pos_, token.tag_, token.dep_, spacy.explain(token.pos_), spacy.explain(token.tag_).replace(',', ';')))
#         print(f'{token.text:{8}} {token.pos_:{6}} {token.tag_:{6}} {token.dep_:{6}} {spacy.explain(token.pos_):{20}} {spacy.explain(token.tag_)}')

    return token_list

In [25]:
token_list = print_pos_tagging(pos_text)
pos_df = pd.DataFrame(token_list, columns= columns)
pos_df.to_csv('pos_doc_pos_data.csv', encoding='utf-8', index=False)
pos_df

Unnamed: 0,token text,POS,TAG,Dep,POS explained,tag explained
0,Das,DET,ART,nk,determiner,definite or indefinite article
1,Programmieren,NOUN,NN,sb,noun,noun; singular or mass
2,der,DET,ART,nk,determiner,definite or indefinite article
3,Bewegungen,NOUN,NN,ag,noun,noun; singular or mass
4,eines,DET,ART,nk,determiner,definite or indefinite article
...,...,...,...,...,...,...
178,des,DET,ART,nk,determiner,definite or indefinite article
179,Jahres,NOUN,NN,ag,noun,noun; singular or mass
180,ausgeliefert,VERB,VVPP,oc,verb,perfect participle; full
181,werden,AUX,VAINF,oc,auxiliary,infinitive; auxiliary


In [26]:
token_list = print_pos_tagging(neg_text)
pos_df = pd.DataFrame(token_list, columns= columns)
pos_df.to_csv('neg_doc_pos_data.csv', encoding='utf-8', index=False)
pos_df

Unnamed: 0,token text,POS,TAG,Dep,POS explained,tag explained
0,Die,DET,ART,nk,determiner,definite or indefinite article
1,automatica,PROPN,NE,sb,proper noun,proper noun
2,",",PUNCT,"$,",punct,punctuation,comma
3,die,PRON,PRELS,sb,pronoun,substituting relative pronoun
4,nach,ADP,APPR,mnr,adposition,preposition; circumposition left
...,...,...,...,...,...,...
265,",",PUNCT,"$,",punct,punctuation,comma
266,so,ADV,ADV,mo,adverb,adverb
267,die,DET,ART,nk,determiner,definite or indefinite article
268,Presseerklärung,NOUN,NN,mo,noun,noun; singular or mass
