***Vorlesung 'Syntax natürlicher Sprachen'***

--- 
# \**Zusatz Vorlesung 4: Phrasen- und CFG-Regeltypen sowie weitere Beispiele*


In [1]:
import nltk


## 1 Phrasenstrukturgrammatik als Erweiterungsregeln


---

### Phrasen: Erweiterungen um Kopf (*bottom-up*):
- phrasenbildende Wortarten (im Deutschen): `V, N, P, ADJ, ADV`
- Phrasentypen: **`VP, NP, PP, ADJP, ADVP`**
- Erweiterung um: 
    - *lexikalische Kategorien*: `ADJP -> `*`PART`*` ADJ`
    - *Phrasen*: `NP -> NP `*`PP`*

---

### Satzglieder als Hauptkonstituenten des Satzes (***top-down***)

*Syntaktische Funktionen der Satzglieder: **Prädikat, Subjekt, Objekt, Adverbial***


#### `VP` und `NP` als *prototypische Realisierungen* der zentralen Satzfunktionen (Satzglieder):
- `S` (Satz): Prädikat (`VP`) + Subjekt (`NP`)
    - semantisch: `VP` = Ereignis/Sachverhalt, `NP` = Objekt/Gegenstand 
- `VP`: besteht aus Verb + dessen Argumente (`NP`-*Komplemente*) + optionale Erweiterungen (*Adjunkte*)


- Regeln für Subjekt-Prädikat:
`S -> NP VP | SBAR VP`  (Beispiele siehe unten: 3.)

- Regeln für VP-Komplemente (primär Objekte):
`VP -> V | V NP | V NP NP | V PP | V SBAR`

- Regeln für VP-Adjunkte (Adverbiale):
`VP -> VP ADVP | VP PP` (noch kein X-Bar-Schema!)



---

### Zwei Erweiterungstypen: Komplemente und Adjunkte 

- **Komplemente: *notwendige, vom Kopf geforderte Erweiterungen*** (Auftreten und Form valenzgefordert)
    - ***prototypische Realisierung*** durch:
      - `NP` für Objekt(e), Subjekt (gefordert vom Verb `V` bzw. vom Satz `S`)
- **Adjunkte: *optionale Erweiterungen (sog. Modifikatoren; syntaktische Funktion: Adverbiale)***
    - ***prototypische Realisierung*** durch:
      - `PP` (semantisch: Relationierung Objekt/Sachverhalt mit Objekt; Erweiterung `NP` oder `VP`)
      - `ADVP` (semantisch: Umstände eines Sachverhalts; Erweiterung `VP`)
      - `ADJP` (semantisch: Eigenschaft von Objekt/Sachverhalt; Erweiterung `NP`)


---

## 2. Typen von Erweiterungsregeln (Komplement- vs. Adjunkt vs. Spezifizierer-Regeln)


*unterschiedliche Regelschemata für die verschiedenen Erweiterungstypen:*

- **Komplement: *Anzahl und Art/Form von Kopf (X) gefordert* (0 / 1 / 2 /... Komplemente): `XP -> X KOMPLEMENT`**
    - Komplement-Regel bestimmt Anzahl und Art der Erweiterungen (Phrasentyp, z.B. `PP` oder `NP`)
    - Position im Strukturbaum: kopfnah (bildet mit Kopf Kernphrase `X'`)
    - **X-BAR: `X' -> X KOMPLEMENT`**, z.B.:
        - `VERBAL/V' -> V NP` (transitive Verben wie *jmd. sehen*)
        - `VERBAL/V' -> V NP NP` (ditransitives Verben wie *jmd. etwas geben*)


- **Adjunkt: *beliebige Anzahl, Art/Form unabhängig von Kopf (=Modifikator)*: `XP -> XP ADJUNKT`**
    - rekursive Adjunkt-Regel für 0-n Erweiterungen
    - Position im Strukturbaum: an Kernphrase (Kopf + Komplemente) angehängt
    - also: rekursive Erweiterungen der Kernphrase (`X'`)
    - **X-BAR: `X' -> X' ADJUNKT`**, z.B.:
        - `VERBAL/V' -> VERBAL/V' PP` (durch Wiederholung rekursive Adjunktion einer PP: *läuft im Park in München*)


---

- X-Bar: **Komplement-Adjunkt**-Unterscheidung anhand **Strukturposition** 
    - schrittweise (binäre) Erweiterungsregeln 
    - `X'`(X-Bar) als phrasale Zwischenebene für Adjunkt-Erweiterung:
        - `NOM` = nominale Zwischenebene
        - `VERBAL`= verbale Zwischenebene

    - Komplementregeln, u.a.: `VERBAL -> V NP` (transitives Verb: 1 Komplement, Phrasentyp des Komplements: NP)
        - **`VERBAL` (ebenso `NOM`) ist Eltern-Knoten, der Kopf (hier `V`) ist Geschwisterknoten des Komplements
        - Kernphrase**

    - rekursive Adjunktregeln, u.a.: `NOM -> NOM PP`, `NOM -> NOM SREL`, `VERBAL -> VERBAL PP`
        - **`NOM/VERBAL` ist Geschwister- sowie Eltern-Knoten des Adjunkts**


---
### weiterer Erweiterungstyp: Spezifizierer

- im X-Bar-Regel-Schema ist noch eine Regel für den Phrasenabschluss notwendig
    - z.B. `VP -> VERBAL`
- insbesondere bei NP kann hier noch eine phrasenabschließende Erweiterung hinzukommen = **Spezifizierer**

---

- **Spezifizierer: *Anzahl: 0-1, Art/Form abhängig von Kopf*: `XP -> X' SPEZIFIZIERER`**
    - z.B. `VP -> VERBAL/V' AUX`, `NP -> DET NOM/N'`
    - Spezifizierer-Regel für 0-1 Erweiterungen
    - Position im Strukturbaum: phrasenabschließend (unterhalb Phrasenknoten)
    - also: Erweiterung des um Komplemente und Adjunkte erweiterten Kopfes
    - z.B.: `NP -> DET NOM`
    - **`NP` ist Eltern-Knoten, die (evtl. um Adjunkte erweiterte) `NOM`-Kernphrase ist Geschwisterknoten des Spezifizierers**


---

## 3. Realisierungstypen der verschiedenen Erweiterungen

*Verschiedene Phrasentypen können jeweils Erweiterungen sein:*


--- 

### S-Komplemente:

#### Subjekt:

- `NP`: *(der Hund) läuft*
- `SBAR`: *(wer anderen eine Grube gräbt,) fällt selbst hinein* (= Subjektsatz)


#### Prädikat:
- `VP`: *er (läuft nach Hause)*



---

### VP- und NP-Komplemente:

#### `VP-Komplemente` (Funktion: Objekt, z.T. auch Adverbial):
  - `NP`: *sieht (den Hund)*
  - `PP`: *glaubt (an Geister)* (= Präpositionalobjekt)
    - **SONDERFALL: *adverbiales Komplement***: *stellt (auf/neben den Tisch)* 
        - Form nicht vom Verb gefordert, aber Auftreten einer adverbialen Näherbestimmung notwendig
  - `SBAR`: *glaubt (, dass es Geister gibt)* (= Objektsatz)




#### `NP-Komplemente` (bei deverbalen Substantiven):
  - `Genititv-NP`: *das Heulen (des Motors)*; *der Beweis (des Theorems)*




---


### VP- und NP-Adjunkte:

#### `VP-Adjunkte` (Funktion: Adverbial): 
  - `PP`: *läuft (im Park)*
  - `ADVP`: *läuft (gerne)*
  - `ADJP`: *läuft (schnell)*
  - `NP`: *läuft (den ganzen Tag)* (= Kasusadverbial)




#### `NP-Adjunkte` (Attribute, nominale Modifizierer):
  - `ADJP`: *(sehr großer) Hund*
  - `PP`: *Hund (im Park)*
  - `NP`: *Hund (Brutus)* (= enge Apposition)
  - `Genitiv-NP`: *Hund (des Mannes)* (= Genitiv-NP)
  - `DET`: *(der) Hund*
  - `SREL`: *Hund (, der läuft)*



---


### VP- und NP-Spezifizierer:

#### `VP-Spezifizierer` : 
  - `AUX`: *(hat) den Hund gesehen*


#### `NP-Spezifizierer`: 
  - `DET`:
      - `ART`: *(der/ein) Hund*
      - `pronominaler DET`: *(kein/dieser) Hund*, *(alle/irgendwelche) Hunde*
      - `Possessiv-DET`: *(mein) Hund* 
  - `NUM`: *(vier) Hunde*
  - `sächsicher Genitiv`: *(seines Glückes) Schmied*



---

## 4. Beispiele (Regeltypen und Realisierungstypen für die unterschiedlichen Erweiterungen) 

--- 

### 4.1 NP-Adjunkte:

In [2]:
## PPs als NP-Adjunkte:
grammar = nltk.CFG.fromstring("""
    NP -> NOM
#NP-Adjunkt-Regel:    
    NOM -> NOM PP
    NOM -> N

    PP -> P NP

###LEXIKALISCHE REGELN:    
    N -> "Franz" | "München" | "Bayern"
    P ->  "aus" | "in"
""")

parser = nltk.ChartParser(grammar,trace=0)

In [3]:
sent = 'Franz aus München in Bayern'.split()
for tree in parser.parse(sent):
    tree.pretty_print(unicodelines=True)    

                 NP                 
                 │                   
                NOM                 
       ┌─────────┴─────────┐         
      NOM                  │        
  ┌────┴───┐               │         
  │        PP              PP       
  │    ┌───┴─────┐     ┌───┴────┐    
  │    │         NP    │        NP  
  │    │         │     │        │    
 NOM   │        NOM    │       NOM  
  │    │         │     │        │    
  N    P         N     P        N   
  │    │         │     │        │    
Franz aus     München  in     Bayern

             NP                     
             │                       
            NOM                     
  ┌──────────┴─────┐                 
  │                PP               
  │    ┌───────────┴───┐             
  │    │               NP           
  │    │               │             
  │    │              NOM           
  │    │     ┌─────────┴───┐         
  │    │     │             PP       
  │    │     │         ┌─

---

### 4. 2 VP-Komplemente vs. VP-Adjunkte (jeweils realisiert durch PP):

In [4]:
## PP-Adverbial (Adjunkt) vs PP-Objekt (Komplement):
grammar = nltk.CFG.fromstring("""
    S -> NP VP

#####VP-X-BAR-REGELN:

##PHRASENABSCHLUSS:
    VP -> VERBAL
    
##VP-ADJUNKT: PP (Adverbial)
    VERBAL -> VERBAL PP
    
##VP-KOMPLEMENT: PP (Präpositionalobjekt)
    VERBAL -> V PP

######WEITERE SYNTAKTISCHE REGELN:
    PP -> P NP
    
    NP -> DET N
    NP -> N
    
###LEXIKALISCHE REGELN:    
    DET -> "dem" | "die"
    N -> "ich" | "Berg" | "Sonne" | "Park"
    V -> "warte"
    P ->  "auf" | "im"
""")

parser = nltk.ChartParser(grammar,trace=0)

In [5]:
sent = 'ich warte auf die Sonne im Park'.split()
for tree in parser.parse(sent):
    tree.pretty_print(unicodelines=True)    

      S                                           
 ┌────┴────────────────┐                           
 │                     VP                         
 │                     │                           
 │                   VERBAL                       
 │              ┌──────┴───────────────────┐       
 │            VERBAL                       │      
 │    ┌─────────┴──────┐                   │       
 │    │                PP                  PP     
 │    │    ┌───────────┴─────┐         ┌───┴───┐   
 NP   │    │                 NP        │       NP 
 │    │    │           ┌─────┴────┐    │       │   
 N    V    P          DET         N    P       N  
 │    │    │           │          │    │       │   
ich warte auf         die       Sonne  im     Park



---

### 4.3 Beispielgrammatik (Adjunkt, Komplement und Spezifizierer-Regeln, verschieden Realisierungstypen):

In [6]:
grammar = nltk.CFG.fromstring("""

#########SYNTAKTISCHE REGELN (X-BAR-SCHEMA):


##S (Startsymbol)###########
S -> NP VP



###VP (X-Bar)###########

##VP-SPEZIFIZIERER (0-1: -,Aux):
VP -> VERBAL
VP -> Aux VERBAL

##VP-ADJUNKTE (ADVP,PP):
VERBAL -> VERBAL ADVP
VERBAL -> VERBAL PP

##VP-KOMPLEMENTE (0-2: -,intransitiv, transitiv):
VERBAL -> V
VERBAL -> V NP




###NP (X-Bar)###########

##NP-SPEZIFIZIERER (0-1: -,Det):
NP -> NOM
NP -> Det NOM

##NP-ADJUNKT (ADJP, PP):
NOM -> ADJP NOM
NOM -> NOM PP


##NP-KOMPLEMENTE (0-1: -, [Genitiv-]NP):
NOM -> N
NOM -> N NP




###PP (nicht X-Bar)###########
PP -> P NP

### ADJP (rekursive Regel, aber nicht X-Bar)###########
ADJP -> Prt ADJP
ADJP -> Adj

### ADVP (rekursive Regel, aber nicht X-Bar)###########
ADVP -> Prt ADVP
ADVP -> Adv



#########LEXIKALISCHE REGELN:
##Lexikalische Regeln:
    Det -> 'die' | 'der' |'das' | 'des'
    N -> 'Katze' | 'Stadt' | 'Ecke' | 'Heulen' | 'Auto' | 'Autos'
    V -> 'lief' | 'bemerkte'
    P -> 'durch' | 'an'
    Adj -> 'schlaue' | 'schnelle'
    Prt -> 'sehr'
    Adv -> 'dort'
""")

parser = nltk.ChartParser(grammar,trace=0)

In [7]:
##minimaler Satz: nur Komplemente und Spezifizierer:
sent = 'die Katze bemerkte das Auto'.split()
for tree in parser.parse(sent):
    tree.pretty_print(unicodelines=True)    

                 S                    
     ┌───────────┴───────┐             
     │                   VP           
     │                   │             
     │                 VERBAL         
     │           ┌───────┴─────┐       
     NP          │             NP     
 ┌───┴────┐      │       ┌─────┴───┐   
 │       NOM     │       │        NOM 
 │        │      │       │         │   
Det       N      V      Det        N  
 │        │      │       │         │   
die     Katze bemerkte  das       Auto



In [8]:
#Satz mit NP-Adjunkten (ADJPs) und VP-Adjunkten (ADVP, PP):
sent = 'die sehr sehr schlaue schnelle Katze lief dort durch die Stadt'.split()
for tree in parser.parse(sent):
    tree.pretty_print(unicodelines=True)    

                                          S                                          
          ┌───────────────────────────────┴────────────────────────┐                  
          NP                                                       VP                
 ┌────────┴───────────┐                                            │                  
 │                   NOM                                         VERBAL              
 │        ┌───────────┴──────────────┐                 ┌───────────┴─────┐            
 │       ADJP                        │                 │                 PP          
 │   ┌────┴────┐                     │                 │           ┌─────┴───┐        
 │   │        ADJP                  NOM              VERBAL        │         NP      
 │   │    ┌────┴──────┐       ┌──────┴────┐     ┌──────┴─────┐     │     ┌───┴────┐   
 │   │    │          ADJP    ADJP        NOM  VERBAL        ADVP   │     │       NOM 
 │   │    │           │       │           │     │

In [9]:
##Satz mit NP-Komplement (Genitiv-NP von deverbalem Substantiv) sowie mehrfach strukturell ambiger PP (Adjunkt):
sent = 'die Katze bemerkte das Heulen des Autos an der Ecke'.split()
for tree in parser.parse(sent):
    tree.pretty_print(unicodelines=True)    

                             S                                         
     ┌───────────────────────┴──────────┐                               
     │                                  VP                             
     │                                  │                               
     │                                VERBAL                           
     │                       ┌──────────┴───────────────────┐           
     │                     VERBAL                           │          
     │           ┌───────────┴─────┐                        │           
     │           │                 NP                       │          
     │           │      ┌──────────┴────┐                   │           
     │           │      │              NOM                  PP         
     │           │      │    ┌──────────┴─────┐         ┌───┴───┐       
     NP          │      │    │                NP        │       NP     
 ┌───┴────┐      │      │    │          ┌─────┴────┐    │ 

---

## 5. Vergleich CFG-Analysen (Stanford: PennTreebank-Schema=en bzw TIGER=dt)

In [10]:
from nltk.parse.stanford import StanfordParser
import os

PATH_TO_CORE = os.path.join(os.getenv("HOME"), "nltk_data", "stanford-corenlp-full-2018-10-05")
PATH_TO_GERMAN_MODEL = os.path.join(os.getenv("HOME"), "nltk_data", "stanford-models-2018-10-05")

jar = os.path.join(PATH_TO_CORE, "stanford-corenlp-3.9.2.jar")
model = os.path.join(PATH_TO_GERMAN_MODEL, "stanford-german-corenlp-2018-10-05-models.jar")

In [11]:
#Stanford German-PCFG:
parser = StanfordParser(jar, model,model_path="edu/stanford/nlp/models/lexparser/germanPCFG.ser.gz")

In [12]:
sent = 'Die Katze bemerkte das Heulen des Autos an der Ecke.'
tree_list = list(parser.raw_parse(sent)) 
tree_list[0].pretty_print(unicodelines=True)

                                  ROOT                            
                                   │                               
                                   S                              
     ┌───────────┬───────────┬─────┴───────────────────┬────────┐  
     │           │           NP                        │        │ 
     │           │      ┌────┼──────────┐              │        │  
     NP          │      │    │          NP             PP       │ 
 ┌───┴────┐      │      │    │     ┌────┴────┐    ┌────┼───┐    │  
ART       NN   VVFIN   ART   NN   ART        NN  APPR ART  NN   $.
 │        │      │      │    │     │         │    │    │   │    │  
Die     Katze bemerkte das Heulen des      Autos  an  der Ecke  . 



In [13]:
#Stanford English-PCFG:
parser=StanfordParser(jar,model,model_path="edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz")

In [14]:
sent = 'the cat noticed the roar of the car on the corner'
tree_list = list(parser.raw_parse(sent)) 
tree_list[0].pretty_print(unicodelines=True)


                                 ROOT                               
                                  │                                  
                                  S                                 
     ┌────────────────────────────┴────┐                             
     │                                 VP                           
     │         ┌──────────────────┬────┴───────────────┐             
     │         │                  NP                   │            
     │         │         ┌────────┴────┐               │             
     │         │         │             PP              PP           
     │         │         │        ┌────┴───┐       ┌───┴───┐         
     NP        │         NP       │        NP      │       NP       
 ┌───┴───┐     │     ┌───┴───┐    │    ┌───┴───┐   │   ┌───┴────┐    
 DT      NN   VBD    DT      NN   IN   DT      NN  IN  DT       NN  
 │       │     │     │       │    │    │       │   │   │        │    
the     cat noticed the    