Syntax natürlicher Sprachen, WS 2023/24

# 02 - Übung (Lösung)

In [2]:
import nltk
from nltk.tree import Tree
from nltk.parse.generate import generate


## Aufgabe 1 - Ergänzung um Phrasenkategorien


#### Ergänzen Sie in folgendem Klammerausdruck (aus der vorherigen Übung) die Phrasenkategorie-Label und generieren Sie den entsprechenden Syntaxbaum, indem Sie die Codezelle anschließend ausführen.

In [3]:
#Lösung
tree = Tree.fromstring("""
(S
    (NP Fischers_Fritz)
    (VP
        (VP
            fischt
            (NP die_frischen_Fische)
        )
        (PP
            aus
            (NP dem_Fluss)
        )
    )
)
""")

tree.pretty_print(unicodelines=True)

                                 S                              
      ┌──────────────────────────┴──────────┐                    
      │                                     VP                  
      │                ┌────────────────────┴───────┐            
      │                VP                           PP          
      │          ┌─────┴─────────┐              ┌───┴──────┐     
      NP         │               NP             │          NP   
      │          │               │              │          │     
Fischers_Fritz fischt     die_frischen_Fis     aus     dem_Fluss
                                che                             



## *Aufgabe 2 - Phrasen und Konstituenten*

#### Erläutern Sie am Beispiel des Wortes *Verloren* im folgenden Satz den Unterschied zwischen Konstituente und Phrase.

- *Verloren hat er seinen Schlüsselbund zwar noch nie, aber oft genug verlegt.*

In [4]:
# 'verloren' ist Konstituente (verschiebbar), aber keine Phrase:
# denn das Partizip ist Teil einer komplexen VP ('hat seinen Schlüsselbund zwar noch nie verloren'),
# aus dieser wurde es extrahiert und ins Vorfeld gestellt. 

# Das Beispiel zeigt auch, dass nicht nur ausschließlich Satzglieder, 
# sondern bei einem komplexen Prädikat-Satzglied ('hat verloren') auch die Partizip-Subkonstituente 
# in das (vom finite Verb 'hat' bestimmte) Vorfeld verschoben werden kann.

## *Aufgabe 3 - Wortarten*

### (a) Bestimmen Sie die Wortarten des folgenden Satzes. Geben Sie jeweils das entsprechende Tag aus dem Universal Dependency (http://universaldependencies.org/u/pos/) Tagset an. Sie können für einen Vergleich auch weitere Tagsets verwenden.

*Sie gab ihm das neue Buch von Chomsky, aber er zeigte kein Interesse daran.*


| *Tagset:* | Sie | gab | ihm | das | neue | Buch | von | Chomsky | aber | er  | zeigte | kein | Interesse | daran |
| --- | --- | --- | --- | --- | ---- | ---- | --- | -------- | ---- | --- | ------ | ---- | --------- | ------ |
| __(UD vereinfacht)__ | PRON | V | PRON | DET | ADJ  | N  | P | PROPN   | CONJ  | PRON | V  | PRON/DET  | N     | PRON/ADV   |
| __UD__ | PRON | VERB | PRON | DET | ADJ  | NOUN  | ADP | PROPN   | CCONJ  | PRON | VERB    | PRON/DET  | NOUN    | PRON/ADV   |
| __TIGER__ | PPER | VVFIN | PPER | ART | ADJA | NN | APPR | NE | KON | PPER | VVFIN | PIAT | NN | PROAV |
| __PennTreebank__  | PRP | VBD | PRP | DT | JJ | NN | IN | NNP | CC | PRP | VBD | DT | NN | RB |

### (b) Vergleichen Sie ihre Tabelle anschließend mit dem Output des Spacy-Taggers.


In [5]:
import spacy

nlp = spacy.load("de_core_news_sm")
doc = nlp('Sie gab ihm das neue Buch von Chomsky, aber er zeigte kein Interesse daran.')

In [6]:
format_string = '{:10s} {:10s} {:10s}'
print(format_string.format('Text', 'UD Tag', 'TIGER Tag'))
print(format_string.format(*(['==========']*3)))
for token in doc:
    print(format_string.format(token.text, token.pos_, token.tag_))

Text       UD Tag     TIGER Tag 
Sie        PRON       PPER      
gab        VERB       VVFIN     
ihm        PRON       PPER      
das        DET        ART       
neue       ADJ        ADJA      
Buch       NOUN       NN        
von        ADP        APPR      
Chomsky    PROPN      NE        
,          PUNCT      $,        
aber       CCONJ      KON       
er         PRON       PPER      
zeigte     VERB       VVFIN     
kein       DET        PIAT      
Interesse  NOUN       NN        
daran      ADV        PROAV     
.          PUNCT      $.        


### (c) Verwenden Sie Spacy zur Auflösung unklarer Tagnamen.

- `spacy.explain()` ist eine Funktion in der Spacy-Bibliothek, die eine textuelle Erklärung für eine gegebene Spacy-Token-ID oder POS-Tag liefert.

- Sie können auch `nltk.help.upenn_tagset()` für zusätzliche Beispiele für die POS-Tags der Penn Treebank verwenden.

In [7]:
spacy.explain('PIAT') #TIGER

'attributive indefinite pronoun without determiner'

---

In [8]:
spacy.explain('PRON') #UD

'pronoun'

In [9]:
spacy.explain('PROAV') #TIGER

'pronominal adverb'

In [10]:
spacy.explain('RB') #PennTreebank

'adverb'

In [11]:
nltk.help.upenn_tagset('RB') # PennTreebank, with NLTK helper

RB: adverb
    occasionally unabatingly maddeningly adventurously professedly
    stirringly prominently technologically magisterially predominately
    swiftly fiscally pitilessly ...


---

In [12]:
spacy.explain('ADP') #UD

'adposition'

In [13]:
spacy.explain('APPR') #TIGER

'preposition; circumposition left'

In [14]:
spacy.explain('IN') #PennTreebank

'conjunction, subordinating or preposition'

## *Aufgabe 4 - Distributionsanalysen*

#### Mit Hilfe  des NLTK können distributionsäquivalente Wörter gesucht werden, also solche, die in gleichen Kontexten auftreten (vgl. https://www.nltk.org/book/ch05.html#using-a-tagger).

#### Betrachten Sie folgenden Aufruf und erläutern Sie.


In [15]:
from nltk.corpus import brown
text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())
text.similar('big')

little new first good small large great the old other strong young
major white second short beautiful a best long


In [16]:
# Erläuterung:
# Feststellung von Adjektiven als Klasse distributionsäquivalenter Wörter
# empirisch begründete Kategorisierung syntaktischer Einheiten (hier Wortart Adjektiv)

## *Aufgabe 5 - Wortarten im Kontext*

#### Betrachten sie folgende Sätze:
1. *Er spielt gerne Schach.*
2. *Er spielt gut Schach.*


#### Diskutieren Sie, ob es sich bei dem Wort *gerne* in Satz 1 um ein Adverb oder ein Adjektiv handelt.

In [17]:
# 1. Es bezeichnet die näheren Umstände des im Verb ausgedrückten Geschehens.
# 2. Es fungiert als Satzglied mit der syntaktischen Funktion Adverbial.
# 3. Es ist NICHT flektierbar.

# ADVERB

#### Um welche Wortart handelt es sich bei dem Lexem *gut* in Satz 2? Diskutieren Sie die Probleme, die hier bei der Wortartenbestimmung auftreten.

In [18]:
# 1. Es bezeichnet die näheren Umstände des im Verb ausgedrückten Geschehens.
# 2. Es fungiert als Satzglied mit der syntaktischen Funktion Adverbial.
# 3. Es ist flektierbar.

# ADJEKTIV

#### Welche Wortart könnte man für das Wort gut in Satz 2 vermuten, wenn man Adverbien nicht morphologisch, sondern semantisch charakterisiert (als Wortart, die der Modifizierung des Verbalgeschehens dient)?


In [19]:
# ADVERB


## Aufgabe 6 - Phrasenstrukturbaum

#### Geben Sie nun für den Satz aus Aufgabe 1 einen vollständigen Phrasenstrukturbaum inklusive Wortart-Label an:

*Fischers Fritz fischt die frischen Fische aus dem Fluss.*



In [20]:
tree = Tree.fromstring("""
(S
    (NP (PROPN Fischers) (PROPN Fritz))
    (VP
        (VP
            (V fischt)
            (NP (DET die) (ADJ frischen) (N Fische))
        )
        (PP 
            (P aus)
            (NP (DET dem) (N Fluss))
        )
    )
)
""")

tree.pretty_print(unicodelines=True)

                                     S                             
          ┌──────────────────────────┴───────┐                      
          │                                  VP                    
          │                    ┌─────────────┴─────────┐            
          │                    VP                      PP          
          │          ┌─────────┴─────┐             ┌───┴───┐        
          NP         │               NP            │       NP      
   ┌──────┴────┐     │     ┌─────────┼───────┐     │   ┌───┴────┐   
 PROPN       PROPN   V    DET       ADJ      N     P  DET       N  
   │           │     │     │         │       │     │   │        │   
Fischers     Fritz fischt die     frischen Fische aus dem     Fluss



## *Aufgabe 7 - Eine erste Phrasenstrukturgrammatik*

#### (a) Betrachten Sie folgende einfache kontextfreie Grammatik (CFG) und erklären Sie deren Funktionsweise anhand der in der Vorlesung besprochenen Konzepte von CFGs.

#### Gehen Sie dabei besonders auf folgende Konzepte ein:

- Non-Terminale vs. Terminale
- Regelaufbau von CFGS (LHS vs. RHS usw.)
- Startsymbol
- syntaktische vs. lexikalische Regeln


In [21]:
grammar = nltk.CFG.fromstring("""
    S -> NP VP
    NP -> PROPN
    VP -> V NP
    PROPN -> "Maria" | "Moritz"
    V -> "kennt"
""")

In [None]:
# Syntaktische Regeln:
    S -> NP VP  # Satzregel mit S als Startsymbol auf der linken Seite (LHS), erweitert nach NP VP (RHS = rechte Seite)
    NP  -> PROPN 
    VP -> V NP # VP, V und NP sind Nichtterminale Kategorien (V als POS-Kategorie auch 'Präterminal')

# Lexikalische Regeln:
    PROPN -> "Maria" | "Moritz" # hier 2 verschiedene RHS, entspricht 2 Regeln mit der LHS: PROPN -> "Maria", PROPN -> "Moritz"
    V -> "kennt" # auf RHS hier Terminalsymbole (Wörter); werden im NLTK als Strings geschrieben!

In [23]:
# Erläuterungen:

# Die CFG beschreibt die Struktur von Sätzen in einer formalen Sprache, 
# indem sie die Verbindungen zwischen den syntaktischen und lexikalischen Kategorien und den Wörtern 
# durch Ableitungsregeln festlegt.

# Regeln haben linke und rechte Seite (LHS/RHS: left/right-hand side)
# Ableitungsregeln: RHS aus LHS ableitbar
    # LHS besteht aus genau 1 Non-Terminal-Symbol (Phrasen- oder POS-Kategorien)
    # RHS besteht aus 1 oder mehreren Non-Terminalen und/oder Terminalen (Wörter)
    # Startsymbol: S als LHS (Satz als Wurzelknoten, Ausgangspunkt für Ableitungen)

# Es kann in der Modellierung natürlichsprachlicher Syntax mit CFGS
# zwischen syntaktischen und lexikalischen Regeln unterschieden werden:
    # syntaktischen Regeln leiten Phrasen-Kategorien (Non-Terminale) auf Phrasen- oder POS-Kategorien (Non-Terminale) ab (VP -> V NP)
    # lexikalische Regeln leiten POS-Kategorien (Non-Terminale) auf Wörter (Terminale) ab. (V -> "kennt")

#### (b) Parsen Sie den gegebenen Satz mit Hilfe der Grammatik, indem Sie das folgende Python-Skript ausführen. Erläutern Sie die Funktionsweise des Codes durch Kommentare.

In [24]:
# Der zu parsende Satz:
sent = "Maria kennt Moritz"

# Erzeugen eines Chart-Parsers mit der definierten Grammatik:
parser = nltk.ChartParser(grammar)

# Durchlaufen und Parsen des Satzes:
for tree in parser.parse(sent.split()): #Parser liefert Sequenz zurück, da potentiell mehr als ein Parsebaum möglich (Ambiguität)
    print(tree) # unformatierten Syntaxbaum ausgeben (Klammerausdruck)
    tree.pretty_print(unicodelines=True) # formatierten Syntaxbaum ausgeben

(S (NP (PROPN Maria)) (VP (V kennt) (NP (PROPN Moritz))))
        S             
  ┌─────┴────┐         
  │          VP       
  │     ┌────┴────┐    
  NP    │         NP  
  │     │         │    
PROPN   V       PROPN 
  │     │         │    
Maria kennt     Moritz



### (c) Überlegen Sie zunächst, wie viele Sätze von dieser Grammatik generiert werden können, bevor Sie den folgenden Codeblock ausführen:

In [25]:
for sentence in generate(grammar, depth=5):
    print(' '.join(sentence))

Maria kennt Maria
Maria kennt Moritz
Moritz kennt Maria
Moritz kennt Moritz


In [None]:
# 4 mögliche Ableitungen

## Aufgabe 8 - Erweiterung Phrasenstrukturgrammatik
#### Erweitern Sie die Grammatik aus der vorherigen Aufgabe um syntaktische sowie lexikalische Regeln für eine adverbiale Ergänzung mit *(sehr) gut*.

#### Testen Sie dazu mit untenstehenden Beispielsätzen, ob Ihre Grammatik den Satz ableitet:

In [26]:
sents = [
    "Maria kennt Moritz gut",
    "Maria kennt Moritz sehr gut",
]

In [27]:
grammar = nltk.CFG.fromstring("""
#gegebene Grammatik:
    S -> NP VP
    NP -> PROPN
    VP -> V NP
    PROPN -> "Maria" | "Moritz"
    V -> "kennt"

# neue Regeln:
    VP -> V NP ADJP
    ADJP -> ADJ | PRT ADJ
    ADJ -> "gut"
    PRT -> "sehr"
""")

parser = nltk.ChartParser(grammar)
for sent in sents:
    trees = list(parser.parse(sent.split()))
    if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
    else: print(f"no parse found for: {sent}")

             S             
  ┌──────────┴────┐         
  │               VP       
  │     ┌─────────┼─────┐   
  NP    │         NP   ADJP
  │     │         │     │   
PROPN   V       PROPN  ADJ 
  │     │         │     │   
Maria kennt     Moritz gut 

        S                       
  ┌─────┴─────┐                  
  │           VP                
  │     ┌─────┼──────────┐       
  NP    │     NP        ADJP    
  │     │     │     ┌────┴────┐  
PROPN   V   PROPN  PRT       ADJ
  │     │     │     │         │  
Maria kennt Moritz sehr      gut

