Syntax natürlicher Sprachen, WS 2024/25

# 03 - Aufgabenblatt

In [139]:
import nltk
from nltk.tree import Tree
from nltk import CFG, Production, Nonterminal
import copy

## Aufgabe 1 - Phrasenstrukturgrammatik in X-Bar-Struktur

#### Wandeln Sie die gegebene minimale CFG mit flachen Regeln gemäß den folgenden Anweisungen schrittweise in X-Bar-Struktur um. Kopieren Sie jeweils die Grammatik von der vorherigen Teilaufgabe.


In [140]:
sent = 'der Hund jagt den langsamen Briefträger'

In [141]:
grammar = nltk.CFG.fromstring("""
    S   -> NP VP
    VP  -> V NP
    NP  -> DET N
    NP  -> DET ADJ N

    DET -> "der" | "den"
    N   -> "Hund" | "Briefträger"
    ADJ -> "langsamen"
    V   -> "jagt"
""")

parser = nltk.ChartParser(grammar)
for tree in parser.parse(sent.split()):
    tree.pretty_print(unicodelines=True)

              S                                
     ┌────────┴────────┐                        
     │                 VP                      
     │        ┌────────┴──────┐                 
     NP       │               NP               
 ┌───┴───┐    │    ┌──────────┼──────────┐      
DET      N    V   DET        ADJ         N     
 │       │    │    │          │          │      
der     Hund jagt den     langsamen Briefträger



### a) NP-Adjunkt (ADJ) und NP-Spezifizierer (DET)

#### Wandeln Sie die NP-Regeln in X-Bar-Struktur um, um rekursive Erweiterung um Adjektive zu ermöglichen.


In [142]:
sent = 'der Hund jagt den langsamen schreienden Briefträger'

In [143]:
grammar = nltk.CFG.fromstring("""
    S   -> NP VP
    VP  -> V NP
    NP  -> NOM | DET NOM
    NOM -> ADJ NOM | N

    DET -> "der" | "den"
    N   -> "Hund" | "Briefträger"
    ADJ -> "langsamen" | "schreienden"
    V   -> "jagt"
""")

parser = nltk.ChartParser(grammar)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

                   S                                           
     ┌─────────────┴──────┐                                     
     │                    VP                                   
     │        ┌───────────┴──────┐                              
     │        │                  NP                            
     │        │    ┌─────────────┴───────┐                      
     │        │    │                    NOM                    
     │        │    │      ┌──────────────┴───────┐              
     NP       │    │      │                     NOM            
 ┌───┴───┐    │    │      │              ┌───────┴───────┐      
 │      NOM   │    │      │              │              NOM    
 │       │    │    │      │              │               │      
DET      N    V   DET    ADJ            ADJ              N     
 │       │    │    │      │              │               │      
der     Hund jagt den langsamen     schreienden     Briefträger



#### Gleichzeitig sollen (durch Verwendung einer nominalen X-Bar-Zwischenebene NOM) Überproduktionen folgender Art vermieden werden:

In [144]:
neg_sent = 'der Hund jagt den langsamen schreienden den Briefträger'

In [145]:
parser = nltk.ChartParser(grammar)
trees = list(parser.parse(neg_sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {neg_sent}")

no parse found for: der Hund jagt den langsamen schreienden den Briefträger


### b) VP-Komplement (Objekt-NP) und NP-Komplement (Genitiv-NP)

#### Wandeln Sie die VP-Regeln in X-Bar-Struktur um. 

#### Ergänzen Sie außerdem eine NP-Regel in X-Bar-Struktur für eine Genitiv-NP als Komplement der NP.

In [146]:
sent = 'der Hund jagt den Briefträger der Stadt der Briefträger'

In [147]:
grammar = nltk.CFG.fromstring("""
    S   -> NP VP
    VP  -> VERBAL 
    VERBAL -> V NP
    NP  -> NOM | DET NOM
    NOM -> ADJ NOM | N | N NP

    DET -> "der" | "den"
    N   -> "Hund" | "Briefträger" | "Stadt"
    ADJ -> "langsamen" | "schreienden"
    V   -> "jagt"
""")

parser = nltk.ChartParser(grammar)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

         S                                                            
     ┌───┴──────────┐                                                  
     │              VP                                                
     │              │                                                  
     │            VERBAL                                              
     │        ┌─────┴─────────────────┐                                
     │        │                       NP                              
     │        │     ┌─────────────────┴────┐                           
     │        │     │                     NOM                         
     │        │     │         ┌────────────┴────┐                      
     │        │     │         │                 NP                    
     │        │     │         │       ┌─────────┴───┐                  
     │        │     │         │       │            NOM                
     │        │     │         │       │    ┌────────┴───┐              

### c) mehr VP-Komplemente (Objekt und indirektes Objekt)

#### Ergänzen Sie eine VP-Komplement-Regel für das (fakultativ) ditransitive Verb *jemandem etwas übergeben*.

##### Beachten Sie, dass die hier auftretende Ambiguität (*der Stadt* als Dativ-VP-Komplement bzw. als Genitiv-NP-Komplement) auch in Ihrem Parsingresultat sichtbar wird (2 Ableitungsbäume).

In [148]:
sent = 'der Briefträger übergibt den Hund der Stadt'

In [149]:
grammar = nltk.CFG.fromstring("""
    S   -> NP VP
    VP  -> VERBAL 
    VERBAL -> V NP | V NP NP
    NP  -> NOM | DET NOM
    NOM -> ADJ NOM | N | N NP

    DET -> "der" | "den"
    N   -> "Hund" | "Briefträger" | "Stadt"
    ADJ -> "langsamen" | "schreienden"
    V   -> "jagt" | "übergibt"
""")

parser = nltk.ChartParser(grammar)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

                              S                          
     ┌────────────────────────┴────────┐                  
     │                                 VP                
     │                                 │                  
     │                               VERBAL              
     │                 ┌──────────┬────┴─────────┐        
     NP                │          NP             NP      
 ┌───┴───────┐         │      ┌───┴────┐     ┌───┴────┐   
 │          NOM        │      │       NOM    │       NOM 
 │           │         │      │        │     │        │   
DET          N         V     DET       N    DET       N  
 │           │         │      │        │     │        │   
der     Briefträger übergibt den      Hund  der     Stadt

                              S                          
     ┌────────────────────────┴────┐                      
     │                             VP                    
     │                             │                      
     

### d) VP-Spezifizierer (AUX) mit Zusatzregel für invertiertes Komplement

#### Ergänzen Sie Regeln für ein Auxiliar als Spezifizierer der VP sowie für die dann notwendige invertierte Wortstellung von Objekt-NP und Vollverb.


In [150]:
sent = 'der Briefträger hat den Hund übergeben'

In [151]:
grammar = nltk.CFG.fromstring("""
    S   -> NP VP
    VP  -> VERBAL | AUX VERBAL
    VERBAL -> V NP | V NP NP | NP V
    NP  -> NOM | DET NOM
    NOM -> ADJ NOM | N | N NP

    DET -> "der" | "den"
    N   -> "Hund" | "Briefträger" | "Stadt"
    ADJ -> "langsamen" | "schreienden"
    V   -> "jagt" | "übergibt" | "übergeben"
    AUX -> "hat"
""")

parser = nltk.ChartParser(grammar)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

                     S                          
     ┌───────────────┴───────┐                   
     │                       VP                 
     │               ┌───────┴────┐              
     │               │          VERBAL          
     │               │       ┌────┴────────┐     
     NP              │       NP            │    
 ┌───┴───────┐       │   ┌───┴────┐        │     
 │          NOM      │   │       NOM       │    
 │           │       │   │        │        │     
DET          N      AUX DET       N        V    
 │           │       │   │        │        │     
der     Briefträger hat den      Hund  übergeben



## Aufgabe 2 - Transformation in X-Bar-Struktur

### a) Transformieren Sie die Grammatik von Aufgabenblatt 02 im nominale Bereich in X-Bar-Struktur und testen Sie anschließend mit den Positiv- und Negativ-Sätzen. Geben Sie dabei jeweils den X-Bar-Regeltyp an.

#### HINWEIS: Alle PP-Attribute (inkl. *von*-PPs, die man - analog zu den  Genitiv-NPs - auch als Komplement auffassen kann) sollen hier vereinfacht als rekursive Adjunkte modelliert werden.

In [152]:
grammar = nltk.CFG.fromstring("""
    S -> NP VP
    VP -> V NP NP
    PP -> P NP
    NP -> PROPN | PROPN PROPN
    NP -> PRON

    NP -> DET NOM
    NOM -> NOM PP
    NOM -> N
    
    DET -> "die" | "ein"
    PROPN -> "Chomsky" | "Noam" | "Maria" | "Moritz"
    N -> "Studierende" | "Buch"
    PRON -> "ihnen"
    V -> "schenkte"
    P -> "von"
""")

In [153]:
sents = [
    "die Studierende schenkte ihnen ein Buch",
    "Maria schenkte ihnen ein Buch von Noam Chomsky"
]

parser = nltk.ChartParser(grammar)
for sent in sents:
    trees = list(parser.parse(sent.split()))
    if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
    else: print(f"no parse found for: {sent}")

                       S                       
     ┌─────────────────┴───────┐                
     │                         VP              
     │                 ┌───────┼────────┐       
     NP                │       │        NP     
 ┌───┴───────┐         │       │    ┌───┴───┐   
 │          NOM        │       NP   │      NOM 
 │           │         │       │    │       │   
DET          N         V      PRON DET      N  
 │           │         │       │    │       │   
die     Studierende schenkte ihnen ein     Buch

                      S                                
  ┌───────────────────┴───┐                             
  │                       VP                           
  │      ┌───────┬────────┴────┐                        
  │      │       │             NP                      
  │      │       │    ┌────────┴───┐                    
  │      │       │    │           NOM                  
  │      │       │    │   ┌────────┴────┐               
  │      │    

In [154]:
neg_sents = [
    "Studierende schenkte ihnen ein Buch",
    "die Maria schenkte ihnen ein Buch"
]

parser = nltk.ChartParser(grammar)
for sent in neg_sents:
    trees = list(parser.parse(sent.split()))
    if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
    else: print(f"no parse found for: {sent}")

no parse found for: Studierende schenkte ihnen ein Buch
no parse found for: die Maria schenkte ihnen ein Buch


### b) Ergänzen Sie die lexikalischen Regeln für einen entsprechenden Beispielsatz mit mehreren PP-Adjunkten. Erklären Sie die Ambiguität des Parsing-Ergebnisses.

#### Wählen Sie die PPs in Ihrem Beispielsatz so, dass die aus den syntaktischen Regeln folgende Ambiguität auch eine semantisch sinnvolle Interpretation hat.

In [155]:
sent = "Maria schenkte ihnen ein Buch von Noam Chomsky von der Bibliotheke"

In [156]:
new_productions = [
    Production(Nonterminal('DET'), ['der']),
    Production(Nonterminal('N'), ['Bibliotheke'])
]

productions = copy.copy(grammar.productions())

for new_production in new_productions:
    productions.append(new_production)
    grammar_b = nltk.grammar.CFG(grammar.start(), productions)

print(grammar_b)

Grammar with 22 productions (start state = S)
    S -> NP VP
    VP -> V NP NP
    PP -> P NP
    NP -> PROPN
    NP -> PROPN PROPN
    NP -> PRON
    NP -> DET NOM
    NOM -> NOM PP
    NOM -> N
    DET -> 'die'
    DET -> 'ein'
    PROPN -> 'Chomsky'
    PROPN -> 'Noam'
    PROPN -> 'Maria'
    PROPN -> 'Moritz'
    N -> 'Studierende'
    N -> 'Buch'
    PRON -> 'ihnen'
    V -> 'schenkte'
    P -> 'von'
    DET -> 'der'
    N -> 'Bibliotheke'


In [157]:
parser = nltk.ChartParser(grammar_b)
trees = list(parser.parse(sent.split()))
if trees: [tree.pretty_print(unicodelines=True) for tree in trees]
else: print(f"no parse found for: {sent}")

                 S                                                             
  ┌──────────────┴─────────────┐                                                
  │                            VP                                              
  │      ┌───────┬─────────────┴────────┐                                       
  │      │       │                      NP                                     
  │      │       │    ┌─────────────────┴──────────┐                            
  │      │       │    │                           NOM                          
  │      │       │    │            ┌───────────────┴─────────┐                  
  │      │       │    │           NOM                        PP                
  │      │       │    │   ┌────────┴────┐                ┌───┴───┐              
  │      │       │    │   │             PP               │       NP            
  │      │       │    │   │    ┌────────┴────┐           │   ┌───┴───────┐      
  NP     │       NP   │  NOM   │  

### c) Erweitern Sie die Grammatik abschließend um Regeln für rekursive PP-Adjunkte an die VP, um folgenden Beispielsatz parsen zu können. Halten Sie sich dabei an das X-Bar-Schema.

In [162]:
sent = "Maria schickte ihnen ein Buch aus München"

In [164]:
new_productions = [
    Production(Nonterminal('V'), ['schickte']),
    Production(Nonterminal('P'), ['aus']),
    Production(Nonterminal('PROPN'), ['München']),
    Production(Nonterminal('VP'), [Nonterminal('VERBAL')]),
    Production(Nonterminal('VERBAL'), [Nonterminal('VERBAL'), Nonterminal('PP')]),
    Production(Nonterminal('VERBAL'), [Nonterminal('VERBAL'), Nonterminal('NP'), Nonterminal('NP')]),
    Production(Nonterminal('VERBAL'), [Nonterminal('V')]),
]

productions = copy.copy(grammar_b.productions())

for new_production in new_productions:
    productions.append(new_production)
    grammar_c = nltk.grammar.CFG(grammar.start(), productions)

print(grammar_c)

Grammar with 29 productions (start state = S)
    S -> NP VP
    VP -> V NP NP
    PP -> P NP
    NP -> PROPN
    NP -> PROPN PROPN
    NP -> PRON
    NP -> DET NOM
    NOM -> NOM PP
    NOM -> N
    DET -> 'die'
    DET -> 'ein'
    PROPN -> 'Chomsky'
    PROPN -> 'Noam'
    PROPN -> 'Maria'
    PROPN -> 'Moritz'
    N -> 'Studierende'
    N -> 'Buch'
    PRON -> 'ihnen'
    V -> 'schenkte'
    P -> 'von'
    DET -> 'der'
    N -> 'Bibliotheke'
    V -> 'schickte'
    P -> 'aus'
    PROPN -> 'München'
    VP -> VERBAL
    VERBAL -> VERBAL PP
    VERBAL -> VERBAL NP NP
    VERBAL -> V
