# Spacy Rule-Based Matching

The objective is to experiment with spacy rule-based matching, for scraping personal pronoun exercises etc from the internet.

# 1. English

Straight from the example at https://spacy.io/usage/rule-based-matching

In [1]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("en_core_web_sm")
matcher = Matcher(nlp.vocab)
# Add match ID "HelloWorld" with no callback and one pattern
pattern = [{"LOWER": "hello"}, {"IS_PUNCT": True}, {"LOWER": "world"}]
# matcher.add("HelloWorld", [pattern])

doc = nlp("Hello world! Hello; world! Hello; world?")
matches = matcher(doc)
print(matches)
for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(match_id, string_id, start, end, span.text)

[]


# 2. German

In [10]:
text = """
Es war einmal: So fangen Märchen an.
Ein Märchen ist eine sehr alte Geschichte.
Dieses Märchen heißt: Rapunzel.
Das Märchen geht so:

Szenen aus dem Märchen Rapunzel © Universität Hildesheim 
Auf dem Bild ist das Feld mit den Rapunzeln. Rapunzeln sind Salat. Das Feld gehört der Zauberin.
Ein Mann und eine Frau wünschen sich ein Kind.
Die Frau wird schwanger.
Bald wird die Frau ein Kind bekommen.
Der Mann und die Frau wohnen in einem kleinen Haus.
Das Haus ist an einem Feld.
Das Feld gehört einer Zauberin.
Die Zauberin hat eine Mauer um das Feld gebaut.
Niemand soll auf das Feld gehen.
Das wissen die Menschen.
Deshalb haben die Menschen Angst vor der Zauberin:
Die Zauberin ist nämlich böse.
Und die Zauberin hat magische Kräfte.

Auf dem Feld von der Zauberin wachsen Rapunzeln.
Rapunzeln sind Salat.
Der Mann und seine schwangere Frau wissen von den Rapunzeln.
Die Frau möchte unbedingt von den Rapunzeln essen.
Und so sagt die Frau zu ihrem Mann:
         Hol mir Rapunzeln.
         Ich will unbedingt Rapunzeln essen.
         Sonst sterbe ich.

Szenen aus dem Märchen Rapunzel © Universität Hildesheim 
Auf dem Bild ist die schwangere Frau. Die Frau möchte unbedingt Rapunzeln essen.
Der Mann will seiner Frau diesen Wunsch erfüllen.
Der Mann liebt seine Frau nämlich sehr.
Aber der Mann weiß:
         Das Feld mit den Rapunzeln gehört der bösen Zauberin.
         Und niemand darf auf das Feld gehen.
         Das hat die Zauberin verboten.
Deshalb wartet der Mann auf die Nacht.
Nachts ist es nämlich dunkel.
Und niemand kann den Mann im Dunkeln sehen.

Es ist Nacht.
Der Mann klettert über die Mauer.
Und geht auf das Feld.
Der Mann nimmt einige Rapunzeln.
Und der Mann bringt die Rapunzeln seiner schwangeren Frau.
Die Frau isst die Rapunzeln.
Und die Frau möchte noch mehr von den Rapunzeln essen.
Deshalb sagt die Frau zu ihrem Mann:
         Hol mir morgen noch mehr Rapunzeln.
         Ich will unbedingt Rapunzeln essen.
         Sonst sterbe ich.

Der Mann hat große Angst vor der bösen Zauberin.
Aber der Mann liebt seine Frau sehr.
Deshalb wartet der Mann auf die nächste Nacht.
Dann klettert der Mann wieder über die Mauer.
Und geht auf das Feld.
Der Mann nimmt einige Rapunzeln.
Plötzlich steht die böse Zauberin vor dem Mann.
Und sagt wütend:
         Das ist mein Feld.
         Und das sind meine Rapunzeln.
         Du hast meine Rapunzeln genommen.
         Du bist ein Dieb!
         Deshalb werde ich dich bestrafen.

Szenen aus dem Märchen Rapunzel © Universität Hildesheim 
Auf dem Bild ist die böse Zauberin. Die Zauberin hat magische Kräfte.

Der Mann hat Angst.
Und sagt:
         Bitte bestraf mich nicht.
         Meine Frau ist schwanger.
         Meine Frau wollte unbedingt Rapunzeln essen.
         Sonst stirbt meine Frau.
         Deshalb habe ich deine Rapunzeln genommen.
Die Zauberin beruhigt sich.
Und antwortet:
         Ist das wahr?
         Dann nimm dir noch mehr von meinen Rapunzeln.
         Deine Frau soll alle Rapunzeln essen.
         Aber dafür musst du mir etwas versprechen:
         Deine Frau hat euer Kind geboren?
         Dann musst du mir euer Kind für die Rapunzeln geben.


Der Mann hat große Angst.
Deshalb sagt der Mann zur Zauberin:
         Wir werden dir unser Kind geben.
Aber der Mann denkt:
         Die Zauberin bekommt unser Kind nicht!


Einige Wochen vergehen.
Und die Frau bekommt ein Kind:
Es ist ein kleines Mädchen.
Plötzlich steht die Zauberin in der Tür.
Und die Zauberin nimmt das kleine Mädchen mit.
Die Zauberin nennt das Mädchen: Rapunzel.

Die Zauberin bringt Rapunzel in einen Turm.
Der Turm ist mitten im Wald.
Der Turm hat keine Tür.
Der Turm hat nur ein kleines Fenster.
Rapunzel wächst in dem Turm auf.
Rapunzel wird älter.
Und Rapunzel wird immer schöner.
Und Rapunzel bekommt sehr lange Haare:
Die Haare gehen vom Fenster oben im Turm bis unten auf die Erde.
Aber in all den Jahren darf Rapunzel nicht nach draußen.
Das möchte die böse Zauberin nicht.
Die böse Zauberin will Rapunzel nämlich für sich alleine haben.

Szenen aus dem Märchen Rapunzel © Universität Hildesheim 
Auf dem Bild ist der Turm von Rapunzel. Die Zauberin hat Rapunzel in den Turm gebracht. Rapunzel wohnt jetzt in dem Turm.

Die böse Zauberin besucht Rapunzel jeden Abend.
Dann ruft die Zauberin zu Rapunzel:
         Rapunzel!
         Rapunzel:
         Lass deine Haare herunter!
Und Rapunzel lässt ihre Haare herunter.
Rapunzel hat ihre langen Haare zu einem Zopf geflochten.
So kann die Zauberin am Zopf nach oben klettern.

Die Jahre vergehen.
Und die böse Zauberin besucht ihre Rapunzel jeden Tag.
An einem Tag reitet ein Prinz durch den Wald.
Der Prinz reitet an dem Turm von Rapunzel vorbei.
Da hört der Prinz ein Mädchen im Turm singen.
Der Prinz bleibt stehen.
Der Prinz findet den Gesang nämlich sehr schön.
Der Prinz möchte unbedingt in den Turm hinein.
Der Prinz sucht eine Tür.
Aber der Turm hat keine Tür.
Deshalb reitet der Prinz auf seinem Pferd weiter.


Die Tage vergehen.
Aber der Prinz kann den Gesang von dem Mädchen im Turm nicht vergessen.
Deshalb kommt der Prinz jeden Tag zu dem Turm im Wald.
Und hört dem schönen Gesang von dem Mädchen zu.
Einmal versteckt sich der Prinz hinter einem Baum.
Da kommt die böse Zauberin zum Turm.
Und ruft :
         Rapunzel!
         Rapunzel:
         Lass deine Haare herunter!
Und Rapunzel lässt ihre langen Haare herunter.
Die Zauberin klettert am Zopf nach oben.
Der Prinz beobachtet das.
Und denkt:
         So komme ich also in den Turm.


Am nächsten Abend kommt der Prinz wieder zum Turm.
Der Prinz verstellt seine Stimme.
Und ruft:
         Rapunzel!
         Rapunzel:
         Lass deine Haare herunter!
Und Rapunzel lässt ihre langen Haare herunter.

Szenen aus dem Märchen Rapunzel © Universität Hildesheim 
Auf dem Bild lässt Rapunzel ihre langen Haare herunter. Der Prinz klettert am Zopf nach oben.
Der Prinz klettert am Zopf nach oben:
Rapunzel sieht den Prinzen.
Und Rapunzel erschrickt.
Rapunzel hat nämlich noch nie einen Prinzen gesehen.
Rapunzel hat überhaupt noch keine anderen Menschen gesehen.
Aber der Prinz ist sehr freundlich.
Der Prinz sagt:
         Du hast so schön gesungen.
         Ich musste dich unbedingt sehen.
Jetzt hat Rapunzel keine Angst mehr vor dem Prinzen.

Der Prinz verliebt sich sofort in das schöne Rapunzel.
Und fragt:
         Möchtest du meine Frau werden?
Rapunzel ist glücklich.
Und Rapunzel möchte den Prinzen gerne heiraten.
Aber Rapunzel sagt:
         Mein lieber Prinz:
         Wie komme ich aus dem Turm heraus?
Der Prinz hat eine Idee.
Und sagt:
         Ich bringe dir jeden Tag ein Stück Stoff. 
         Aus dem Stoff kannst du dir ein langes Seil machen.
         Das Seil muss bis zum Boden gehen.
         Erst dann kannst du den Turm verlassen.
         Und wir können zusammen in mein Schloss reiten.

Von jetzt an kommt der Prinz immer am Tage zu Rapunzel.
Und die Zauberin kommt am Abend.
Die Zauberin weiß nichts von dem Prinzen.
Und besucht ihre Rapunzel jeden Abend.
An einem Abend passt Rapunzel nicht auf.
Und sagt zu der Zauberin:
         Du kletterst sehr langsam.
         Der Prinz klettert viel schneller den Zopf herauf als du.
Die Zauberin ist sehr wütend.
Und schreit:
         Was sagst du da?
         Du darfst keine anderen Menschen sehen.
         Du gehörst mir allein.
         Du hast mich betrogen.

Da nimmt die Zauberin eine Schere.
Und die Zauberin schneidet Rapunzel den langen Zopf ab.
Die Zauberin kann Rapunzel nicht verzeihen.
Deshalb schickt die Zauberin Rapunzel an einen einsamen Ort.
An diesem Ort muss Rapunzel jetzt arm und alleine leben.
Am nächsten Tag kommt der Prinz zum Turm.
Und ruft:
         Rapunzel!
         Rapunzel:
         Lass deine Haare herunter!
Und die Zauberin lässt den langen Zopf von Rapunzel hinunter.
Der Prinz klettert am Zopf nach oben.
Der Prinz sieht die Zauberin.
Und der Prinz erschickt.
Jetzt weiß der Prinz:
         Rapunzel ist nicht mehr hier.


Die Zauberin schaut den Prinzen böse an.
Und sagt:
         Deine schöne Rapunzel ist nicht mehr hier.
         Ich habe Rapunzel bestraft.
         Und jetzt werde ich dich bestrafen.
         Du wirst Rapunzel nie wieder sehen.
Der Prinz hat große Angst vor der Zauberin.
Deshalb springt der Prinz aus dem Turm∙fenster.
Der Prinz stürzt nach unten.
Und bleibt in einem spitzen Dornen∙busch liegen.
Der Prinz überlebt den Sturz:
Aber der Prinz ist jetzt blind.

So irrt der Prinz ohne Ziel durch den Wald:
Der Prinz kann nicht mehr sehen.
Und der Prinz hat seine liebe Rapunzel verloren.


Nach vielen Jahren kommt der Prinz zu einem einsamen Ort.
Plötzlich hört der Prinz eine Stimme.
Die Stimme ist sehr schön.
Und der Prinz kennt diese Stimme.
Es ist nämlich die Stimme von Rapunzel.
Der Prinz geht auf die Stimme zu.
Und der Prinz hat recht:
Es ist seine liebe Rapunzel.

Szenen aus dem Märchen Rapunzel © Universität Hildesheim 
Auf dem Bild sind die 2 Kinder von Rapunzel. Und von dem Prinzen. Die Kinder sind Zwillinge.
Rapunzel erkennt den Prinzen.
Und Rapunzel läuft auf den Prinzen zu.
Rapunzel umarmt den Prinzen.
Und Rapunzel weint vor Freude.
Dabei berühren 2 Tränen die Augen vom Prinzen.
Plötzlich kann der Prinz wieder sehen:
Der Prinz sieht Rapunzel.
Und der Prinz sieht 2 Kinder vor sich.
Diese Kinder sind die Kinder von Rapunzel.
Und von dem Prinzen.
Die Kinder sind Zwillinge.
Der Prinz nimmt Rapunzel und die beiden Kinder mit auf sein Schloss.
Der Prinz und Rapunzel heiraten.
Und alle leben noch viele Jahre glücklich zusammen.

Das war das Märchen von Rapunzel.
"""

In [19]:
import spacy
from spacy.matcher import Matcher
from spacy.tokens import Span

# load model
nlp = spacy.load("de_core_news_sm")

# create matcher using model
matcher = Matcher(nlp.vocab)

# Add match ID "simple_phrase" for POS sequence
# pattern = [{"POS": "DET"}, {"POS": "NOUN"}, {"POS": "VERB"}, {"POS": "ADP"}, {"POS": "DET"}, {"POS": "NOUN"}]
# pattern = [{"POS": "DET"}, {"POS": "NOUN"}, {"POS": "VERB"}, {"POS": "ADV"}, {"POS": "PRON"}]
# pattern = [{"POS": "ADV"}, {"POS": "VERB"}, {"POS": "DET"}, {"POS": "NOUN"}, {"POS": "PRON"}]
pattern = [{"POS": "VERB"}, {"POS": "ADP"}, {"POS": "DET"}, {"POS": "NOUN"}]
matcher.add("simple_phrase", [pattern])

doc = nlp(text)
matches = matcher(doc, as_spans=True)
for span in matches:
    print(span)
    print(span[2].tag_)
    

wissen von den Rapunzeln
ART
klettert über die Mauer
ART
geht auf das Feld
ART
geht auf das Feld
ART
wächst in dem Turm
ART
reitet an dem Turm
ART
sagt zu der Zauberin
ART
geht auf die Stimme
ART
läuft auf den Prinzen
ART
