In [None]:
!pip install --upgrade spacy
!python -m spacy download de_core_news_lg

Collecting spacy
  Downloading spacy-3.2.1-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.0 MB)
[K     |████████████████████████████████| 6.0 MB 20.1 MB/s 
Collecting thinc<8.1.0,>=8.0.12
  Downloading thinc-8.0.13-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (628 kB)
[K     |████████████████████████████████| 628 kB 24.3 MB/s 
Collecting spacy-legacy<3.1.0,>=3.0.8
  Downloading spacy_legacy-3.0.8-py2.py3-none-any.whl (14 kB)
Collecting srsly<3.0.0,>=2.4.1
  Downloading srsly-2.4.2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (451 kB)
[K     |████████████████████████████████| 451 kB 35.6 MB/s 
[?25hCollecting typer<0.5.0,>=0.3.0
  Downloading typer-0.4.0-py3-none-any.whl (27 kB)
Collecting catalogue<2.1.0,>=2.0.6
  Downloading catalogue-2.0.6-py3-none-any.whl (17 kB)
Collecting pathy>=0.3.5
  Downloading pathy-0.6.1-py3-none-any.whl (42 kB)
[K     |████████████████████████████████| 42 kB 785 kB/s 
Collecting langcodes<4.0.0,>=3.2.0
  Download

In [None]:
import spacy
from spacy import displacy
from spacy.matcher import Matcher 
from spacy.tokens import Span
from spacy.util import filter_spans

In [None]:
nlp = spacy.load('de_core_news_lg')

In [None]:
nlp = spacy.load('de_core_news_lg')
nlp.add_pipe('merge_entities')
nlp.add_pipe('merge_noun_chunks')

<function spacy.pipeline.functions.merge_noun_chunks>

In [None]:
ex = 'In der Ostsee zwischen Ystad (Schweden) und Bornholm (Dänemark) ist es zu einem Unfall zwischen zwei Frachtschiffen gekommen, wie mehrere schwedische Medien berichten. Der Unfall hat sich um 3.30 Uhr ereignet. Es handelt sich um das britische Frachtschiff Scot Carrier und das dänische Karin Hoej. Das dänische Frachtschiff soll gekentert sein. Mindestens zwei Menschen seien über Bord gegangen.'

In [None]:
doc = nlp(ex)

In [None]:
class TripleExtraction:
  def __init__(self):
    self.subj = ''
    self.pred = ''
    self.obj = ''
    self.aux = False

  def extract(self, sent):
    self.pred = self.extract_pred(sent)
    self.subj = self.extract_subj(sent)
    self.obj = self.extract_obj(sent)

  def extract_subj(self, sent):
    subj = []

    for token in sent:
      if self.aux == True:
        subj.append(' '.join([t.text for t in token.subtree if token.dep_ == 'mo']))
        subj.append(' '.join([t.text for t in token.subtree if token.dep_ == 'sb']))
      else:
        subj.append(' '.join([t.text for t in token.subtree if token.dep_ in ['sb', 'ep']]))
      if len(subj) > 0:
        return ' '.join(subj)

  def extract_pred(self, sent):
    pred = []
    for i, token in enumerate(sent):
      if token.pos_ == 'AUX' and self.aux == False:
        self.aux = True
        rights = [t for t in token.rights]
        pred.append(token.text)
        if doc[i+1].pos_ == 'PRON':
          pred.append(doc[i+1].text)
        if rights:
          pred.append(' '.join([t.text for t in token.rights if t.text not in pred[-1]]))
      elif token.dep_ == 'ROOT':
        pred.append(token.text + ' ' + ' '.join([t.text for t in token.rights]))
    if len(pred) > 0:
      return ' '.join(pred)
  
  def extract_obj(self, sent):
    obj = []
    for token in sent:
      if self.aux == True:
        obj.append(' '.join([t.text for t in token.subtree if token.dep_ == 'oc' and t.text not in obj and t.text not in self.pred]))
      else:
        obj.append(' '.join([t.text for t in token.subtree if token.dep_ in ['mo', 'op'] and t.text not in self.pred]))
    return ' '.join([o for o in obj if len(o) > 0])
        

In [None]:
for sent in doc.sents:
  tp = TripleExtraction()
  print(sent.text)
  tp.extract(sent)
  print(tp.subj)
  print(tp.pred)
  print(tp.obj)

In der Ostsee zwischen Ystad (Schweden) und Bornholm (Dänemark) ist es zu einem Unfall zwischen zwei Frachtschiffen gekommen, wie mehrere schwedische Medien berichten.
In der Ostsee zwischen Ystad ( Schweden ) und Bornholm ( Dänemark ) 
ist es gekommen .
zu einem Unfall zwischen zwei Frachtschiffen , wie mehrere schwedische Medien berichten
Der Unfall hat sich um 3.30 Uhr ereignet.
 Der Unfall
hat ereignet .
sich um 3.30 Uhr
Es handelt sich um das britische Frachtschiff Scot Carrier und das dänische Karin Hoej.
Es
handelt sich um
das britische Frachtschiff Scot Carrier und das dänische Karin Hoej.
Das dänische Frachtschiff soll gekentert sein.
 Das dänische Frachtschiff
soll sein .
gekentert
Mindestens zwei Menschen seien über Bord gegangen.
 Mindestens zwei Menschen
seien gegangen .
über Bord


In [None]:
ex2 = 'Das dänische Frachtschiff soll gekentert sein.'
doc = nlp(ex2)

In [None]:
for token in doc:
  print(token.text, token.pos_, token.dep_)

Das dänische Frachtschiff NOUN sb
soll AUX ROOT
gekentert VERB oc
sein AUX oc
. PUNCT punct


In [None]:
displacy.render(doc, style='dep', jupyter=True)