Syntax natürlicher Sprachen, WS 2023/24

# 03 - Aufgabenblatt

In [1]:
import nltk
from nltk.tree import Tree
from nltk import CFG, Production, Nonterminal
import copy

## Aufgabe 1 - Phrasenstrukturgrammatik in X-Bar-Struktur

#### Wandeln Sie die gegebene minimale CFG mit flachen Regeln gemäß den folgenden Anweisungen schrittweise in X-Bar-Struktur um. Kopieren Sie jeweils die Grammatik von der vorherigen Teilaufgabe.


In [2]:
sent = 'der Hund jagt den langsamen Briefträger'

In [3]:
grammar = nltk.CFG.fromstring("""
    S   -> NP VP
    VP  -> V NP
    NP  -> DET N
    NP  -> DET ADJ N

    DET -> "der" | "den"
    N   -> "Hund" | "Briefträger"
    ADJ -> "langsamen"
    V   -> "jagt"
""")

parser = nltk.ChartParser(grammar)
for tree in parser.parse(sent.split()):
    tree.pretty_print(unicodelines=True)

              S                                
     ┌────────┴────────┐                        
     │                 VP                      
     │        ┌────────┴──────┐                 
     NP       │               NP               
 ┌───┴───┐    │    ┌──────────┼──────────┐      
DET      N    V   DET        ADJ         N     
 │       │    │    │          │          │      
der     Hund jagt den     langsamen Briefträger



### a) NP-Adjunkt (ADJ) und NP-Spezifizierer (DET)

#### Wandeln Sie die NP-Regeln in X-Bar-Struktur um, um rekursive Erweiterung um Adjektive zu ermöglichen.


In [4]:
sent = 'der Hund jagt den langsamen schreienden Briefträger'

In [None]:
grammar = nltk.CFG.fromstring("""
#Grammatik von oben herunterkopieren
""")

parser = nltk.ChartParser(grammar)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

#### Gleichzeitig sollen (durch Verwendung einer nominalen X-Bar-Zwischenebene NOM) Überproduktionen folgender Art vermieden werden:

In [5]:
neg_sent = 'der Hund jagt den langsamen schreienden den Briefträger'

In [None]:
parser = nltk.ChartParser(grammar)
trees = list(parser.parse(neg_sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {neg_sent}")

### b) VP-Komplement (Objekt-NP) und NP-Komplement (Genitiv-NP)

#### Wandeln Sie die VP-Regeln in X-Bar-Struktur um. 

#### Ergänzen Sie außerdem eine NP-Regel in X-Bar-Struktur für eine Genitiv-NP als Komplement der NP.

In [7]:
sent = 'der Hund jagt den Briefträger der Stadt der Briefträger'

In [None]:
grammar = nltk.CFG.fromstring("""
#Grammatik von oben herunterkopieren
""")

parser = nltk.ChartParser(grammar)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

### c) mehr VP-Komplemente (Objekt und indirektes Objekt)

#### Ergänzen Sie eine VP-Komplement-Regel für das (fakultativ) ditransitive Verb *jemandem etwas übergeben*.

##### Beachten Sie, dass die hier auftretende Ambiguität (*der Stadt* als Dativ-VP-Komplement bzw. als Genitiv-NP-Komplement) auch in Ihrem Parsingresultat sichtbar wird (2 Ableitungsbäume).

In [8]:
sent = 'der Briefträger übergibt den Hund der Stadt'

In [None]:
grammar = nltk.CFG.fromstring("""
#Grammatik von oben herunterkopieren
""")

parser = nltk.ChartParser(grammar)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

### d) VP-Spezifizierer (AUX) mit Zusatzregel für invertiertes Komplement

#### Ergänzen Sie Regeln für ein Auxiliar als Spezifizierer der VP sowie für die dann notwendige invertierte Wortstellung von Objekt-NP und Vollverb.


In [9]:
sent = 'der Briefträger hat den Hund übergeben'

In [None]:
grammar = nltk.CFG.fromstring("""
#Grammatik von oben herunterkopieren
""")

parser = nltk.ChartParser(grammar)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

## Aufgabe 2 - Transformation in X-Bar-Struktur

### a) Transformieren Sie die Grammatik von Aufgabenblatt 02 im nominale Bereich in X-Bar-Struktur und testen Sie anschließend mit den Positiv- und Negativ-Sätzen. Geben Sie dabei jeweils den X-Bar-Regeltyp an.

#### HINWEIS: Alle PP-Attribute (inkl. *von*-PPs, die man - analog zu den  Genitiv-NPs - auch als Komplement auffassen kann) sollen hier vereinfacht als rekursive Adjunkte modelliert werden.

In [10]:
grammar = nltk.CFG.fromstring("""
    S -> NP VP
    VP -> V NP NP
    PP -> P NP
    NP -> PROPN | PROPN PROPN
    NP -> PRON

    NP -> DET N
    NP -> NP PP

    DET -> "die" | "ein"
    PROPN -> "Chomsky" | "Noam" | "Maria" | "Moritz"
    N -> "Studierende" | "Buch"
    PRON -> "ihnen"
    V -> "schenkte"
    P -> "von"
""")

In [11]:
sents = [
    "die Studierende schenkte ihnen ein Buch",
    "Maria schenkte ihnen ein Buch von Noam Chomsky"
]

parser = nltk.ChartParser(grammar)
for sent in sents:
    trees = list(parser.parse(sent.split()))
    if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
    else: print(f"no parse found for: {sent}")

                       S                       
     ┌─────────────────┴───────┐                
     │                         VP              
     │                 ┌───────┼────────┐       
     NP                │       NP       NP     
 ┌───┴───────┐         │       │    ┌───┴───┐   
DET          N         V      PRON DET      N  
 │           │         │       │    │       │   
die     Studierende schenkte ihnen ein     Buch

                      S                                
  ┌───────────────────┴───────┐                         
  │                           VP                       
  │      ┌───────┬────────────┴────┐                    
  │      │       │                 NP                  
  │      │       │        ┌────────┴────┐               
  │      │       │        │             PP             
  │      │       │        │        ┌────┴────┐          
  NP     │       NP       NP       │         NP        
  │      │       │    ┌───┴───┐    │    ┌────┴─────┐   

In [None]:
neg_sents = [
    "Studierende schenkte ihnen ein Buch",
    "die Maria schenkte ihnen ein Buch"
]

parser = nltk.ChartParser(grammar)
for sent in neg_sents:
    trees = list(parser.parse(sent.split()))
    if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
    else: print(f"no parse found for: {sent}")

### b) Ergänzen Sie die lexikalischen Regeln für einen entsprechenden Beispielsatz mit mehreren PP-Adjunkten. Erklären Sie die Ambiguität des Parsing-Ergebnisses.

#### Wählen Sie die PPs in Ihrem Beispielsatz so, dass die aus den syntaktischen Regeln folgende Ambiguität auch eine semantisch sinnvolle Interpretation hat.

In [None]:
sent = "TODO"

In [None]:
new_productions = [
    Production(Nonterminal('P'), ['TODO']),
]

productions = copy.copy(grammar.productions())

for new_production in new_productions:
    productions.append(new_production)
    grammar_b = nltk.grammar.CFG(grammar.start(), productions)

print(grammar_b)

In [None]:
parser = nltk.ChartParser(grammar_b)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

### c) Erweitern Sie die Grammatik abschließend um Regeln für rekursive PP-Adjunkte an die VP, um folgenden Beispielsatz parsen zu können. Halten Sie sich dabei an das X-Bar-Schema.

In [14]:
sent = "Maria schickte ihnen ein Buch aus München"

In [None]:
new_productions = [
    Production(Nonterminal('V'), ['schickte']),
    Production(Nonterminal('P'), ['aus']),
    Production(Nonterminal('PROPN'), ['München']),
    Production(Nonterminal('VP'), [Nonterminal('TODO')]),
]

productions = copy.copy(grammar_b.productions())

for new_production in new_productions:
    productions.append(new_production)
    grammar_c = nltk.grammar.CFG(grammar.start(), productions)

print(grammar_c)