# Parsers

Antes de correr esta notebook hay que instalar Python 3, nltk para Python 3 y matplotlib para Python 3. cuidado al instalar, porque si tienen Python 2 en la computadora, instala todo por defecto para esa versión y entonces no funciona para la 3. Si se usa pip para instalar, usar el comando pip3. Pueden encontrar información sobre instalación en la página del Grupo de Lingüística Computacional Para que algunos comandos funcionen, además de hacer las instalaciones correspondientes, hay que descargar algunos archivos. En todos los casos, el código está armado para que esos archivos se descarguen en la misma carpeta en la que está la jupyter notebook. En caso de que se utilice otra ubicación, hay que editar el código.

# Gramáticas 

Las gramáticas se expresan usualmente en forma de reglas de reescritura de la forma X -> Z (X se reescribe como Z), aunque estas  reglas pueden concebirse también como árboles parcialmente construidos o como restricciones combinatorias. Las gramáticas típicamente permiten construir grafos dirigidos, coloquialmente denominados ''árboles''.
Existen tres grandes formas de construir las gramáticas según cómo se conciba la representación de la estructura jerárquica:
* Gramáticas basadas en constituyentes
* Gramáticas basadas en dependencias
* Gramáticas categoriales

![Gramática basada en constituyentes](constituyentes.png)
![Gramática basada en dependencias](dependencias.png)
![Gramática categorial](categorial.png)

# Gramáticas basadas en constituyentes

Poseen distinción entre nodos terminales y nodos no terminales, que especifican la categoría a la que pertenece una determinada subcadena.

In [1]:
import nltk 
import re 
import os, sys
import matplotlib 

## Recursive descent Parser

- **Top-down**
- Parte del símbolo de inicio y aplica las reglas para obtener los constituyentes inmediatos y armar el árbol hasta llegar a los símbolos terminales. Chequea coincidencia con la secuencia del input. Si no hay coincidencia, tiene que retroceder y buscar diferentes alternativas de parseo. 

In [2]:
# Recursive Descent Parser

def rd_parser(sentence, grammar):                   # define una función llamada rd_parser con dos argumentos
    print(grammar)                                  # imprime mi gramática
    sentence = sentence.lower()                     # convierte a minúscula la oración
    if sentence.endswith('.'):                      # si la oración termina con un punto
        sent = re.sub('\.',' ',sentence)            # se lo quita
    else:                                           # si no
        sent = sentence                             # la toma como está
    sent = sent.split()                             # divide la oración en palabras
    rd_parser = nltk.RecursiveDescentParser(grammar) # proceso esas palabras
    for tree in rd_parser.parse(sent):              # para cada árbol posible en mi gramática para esa oración
        print(tree)                                 # lo imprimo


In [None]:
#Para correr el Recursive Descent Parser

print('Escribí una oración:')                          #Para que me pida que escriba una oración
oracion1 = input()                                     #Para que me abra un campo en el que escriba la oración
grammar = nltk.data.load('gramaticas/ContextFreeGrammar.cfg')     # establece cuál va a ser mi gramática
rd_parser(oracion1, grammar)                           #Para correr la función

**Demo del Right Descent Parser**

In [3]:
nltk.app.rdparser()

In /home/carranza/.local/lib/python3.6/site-packages/matplotlib/mpl-data/stylelib/_classic_test.mplstyle: 
The text.latex.preview rcparam was deprecated in Matplotlib 3.3 and will be removed two minor releases later.
In /home/carranza/.local/lib/python3.6/site-packages/matplotlib/mpl-data/stylelib/_classic_test.mplstyle: 
The mathtext.fallback_to_cm rcparam was deprecated in Matplotlib 3.3 and will be removed two minor releases later.
In /home/carranza/.local/lib/python3.6/site-packages/matplotlib/mpl-data/stylelib/_classic_test.mplstyle: Support for setting the 'mathtext.fallback_to_cm' rcParam is deprecated since 3.3 and will be removed two minor releases later; use 'mathtext.fallback : 'cm' instead.
In /home/carranza/.local/lib/python3.6/site-packages/matplotlib/mpl-data/stylelib/_classic_test.mplstyle: 
The validate_bool_maybe_none function was deprecated in Matplotlib 3.3 and will be removed two minor releases later.
In /home/carranza/.local/lib/python3.6/site-packages/matplotlib/

### Shift Reduce Parse

In [None]:
#Shift Reduce Parser

def sr_parser(sentence, grammar):                      # define la función sr_parser con dos argumentos
    print(grammar)                                     # imprimte la gramática
    sentence = sentence.lower()                        # convierte a minúscula
    if sentence.endswith('.'):                         # si la oración termina con un punto
        sent = re.sub('\.',' ',sentence)               # se lo quita
    else:                                              # si no
        sent = sentence                                # la toma como está
    sent = sent.split()                                # divide la oración en palabras
    sr_parser = nltk.ShiftReduceParser(grammar)        # proceso esas palabras
    for tree in sr_parser.parse(sent):                 # para cada árbol posible en mi gramática para esa oración
        print(tree)                                    # lo imprimo


In [None]:
print('Escribí una oración:')                           # imprime un mensaje pidiendo que escriba una oración
oracion2 = input()                                      # asigna a una variable mi oración como valor
grammar = nltk.data.load('gramaticas/ContextFreeGrammar.cfg')      # asigna a una variable mi gramática como valor
sr_parser(oracion2, grammar)   

**Desventajas:**

- La recursividad a la izquierda (NP -> NP PP) lo lleva al loop infinito

- Pierde mucho tiempo considerando las estructuras que no se corresponden con el input

- En el proceso de backtracking se descartan los parseos anteriores y tiene que volver a construirlos 




**Demo del Shift and Reduce parser**

In [4]:
nltk.app.srparser()



## Chart Parser (solo demo)

In [5]:
#Demo para el Chart Parser
nltk.app.chartparser()

grammar= (
('    ', 'S -> NP VP,')
('    ', 'VP -> VP PP,')
('    ', 'VP -> V NP,')
('    ', 'VP -> V,')
('    ', 'NP -> Det N,')
('    ', 'NP -> NP PP,')
('    ', 'PP -> P NP,')
('    ', "NP -> 'John',")
('    ', "NP -> 'I',")
('    ', "Det -> 'the',")
('    ', "Det -> 'my',")
('    ', "Det -> 'a',")
('    ', "N -> 'dog',")
('    ', "N -> 'cookie',")
('    ', "N -> 'table',")
('    ', "N -> 'cake',")
('    ', "N -> 'fork',")
('    ', "V -> 'ate',")
('    ', "V -> 'saw',")
('    ', "P -> 'on',")
('    ', "P -> 'under',")
('    ', "P -> 'with',")
)
tokens = ['John', 'ate', 'the', 'cake', 'on', 'the', 'table']
Calling "ChartParserApp(grammar, tokens)"...
[('under',)]
[('with',)]
[('on',)]
[('under',), ('with',)]
[('ate',)]
[('saw',)]
[('cake',)]
[('fork',)]
[('table',)]
[('cake',), ('fork',)]
[('cookie',)]
[('table',), ('cake',), ('fork',)]
[('dog',)]
[('cookie',), ('table',), ('cake',), ('fork',)]
[('my',)]
[('a',)]
[('the',)]
[('my',), ('a',)]
[('John',)]
[('I',)]
[(Det, N)]
[(NP, PP)]

## Bllip Parser

Antes hay que instalar el bllip parser. 

Para hacerlo, correr el siguiente comando en la terminal:

    pip3 install --user bllipparser

Brown Laboratory for Linguistic Information Processing

Introduce gramáticas a partir de un corpus

In [2]:
from bllipparser import RerankingParser                             #Importa el parser
from bllipparser.ModelFetcher import download_and_install_model     # Descarga e instala el "modelo"

model_dir = download_and_install_model('WSJ', 'tmp/models')         #Crea una variable con el "modelo"
rrp = RerankingParser.from_unified_model_dir(model_dir)

In [4]:
oracion2 = "john runs through the hill"
rrp.simple_parse(oracion2)

'(S1 (S (NP (NNP john)) (VP (VBZ runs) (PP (IN through) (NP (DT the) (NN hill))))))'

In [5]:
oracion3 = "No one saw him disembark in the unanimous night, no one saw the bamboo canoe sink into the sacred mud, but in a few days there was no one who did not know that the taciturn man came from the South"
rrp.simple_parse(oracion3)

'(S1 (S (S (NP (DT No) (NN one)) (VP (VBD saw) (S (NP (PRP him)) (VP (VBP disembark) (PP (IN in) (NP (DT the) (JJ unanimous) (NN night))))))) (, ,) (S (NP (DT no) (NN one)) (VP (VBD saw) (S (NP (DT the) (NN bamboo) (NN canoe)) (VP (VB sink) (PP (IN into) (NP (DT the) (JJ sacred) (NN mud))))))) (, ,) (CC but) (S (PP (IN in) (NP (DT a) (JJ few) (NNS days))) (NP (EX there)) (VP (VBD was) (NP (NP (DT no) (NN one)) (SBAR (WHNP (WP who)) (S (VP (VBD did) (RB not) (VP (VB know) (SBAR (IN that) (S (NP (DT the) (JJ taciturn) (NN man)) (VP (VBD came) (PP (IN from) (NP (DT the) (NNP South)))))))))))))))'

In [None]:
print('Escribí una oración en inglés')
oracion4 = input()
rrp.simple_parse(oracion4)

# Gramáticas basadas en dependencias

No poseen distinción entre símbolos no terminales y terminales. Las estructuras representan relaciones de dependencia entre terminales.
Ejemplos de parsers de dependencias:
* Maltparser (http://www.maltparser.org/)
* SyntaxNet (Estaba alojado en https://opensource.google.com/projects/syntaxnet, como parte de los recursos de la librería para Inteligencia Artificial TensorFlow de Google, pero en este momento no está disponible y se [rumorea](https://github.com/tensorflow/models/issues/8411) que se lo va a mover al github de [google-research](https://github.com/google-research/google-research))
* Dependency parser de Spacy (https://spacy.io/usage/linguistic-features#dependency-parse)

## Spacy - Dependency parser

### Nota para quien no tenga la MV: 

Antes de correr hay que instalar spacy. Con pip3, eso se puede hacer con el comando 

`pip3 install spacy`

Hay que instalar también es_core_news_sm, un modelo entrenado mediante un corpus del español, con el comando

`python3 -m spacy download es_core_news_sm`

Alternativamente puede probarse de instalar es_core_news_md.

`python3 -m spacy download es_core_news_md`

En ese caso, para correrlo hay que cambiar en el código de abajo `es_core_news_sm` por `es_core_news_md`

In [6]:
import spacy
from nltk import Tree
from spacy import displacy 

def gramaticadependencias(sentence):       #Define la función
    nlp = spacy.load('es_core_news_sm')    #Carga el modelo entrenado
    doc = nlp(sentence)                    #define una variable doc con la oración procesada por el modelo
    #for token in doc:               
        #print(token.text, token.dep_, token.head.text, token.head.pos_,
        #    [child for child in token.children])
    displacy.render(doc, style='dep', jupyter=True)


In [7]:
print('Escribí una oración')
oracion5 = input()
gramaticadependencias(oracion5)

Escribí una oración
Fernando nos aprueba a todos.


# Gramáticas Categoriales

Las gramáticas categoriales están conformadas principalmente por un conjunto reducido de reglas y un léxico sumamente rico.
Las reglas que utiliza OpenCCG, que es el parser categorial que vamos a ver son las siguientes:

![reglas categoriales](reglascategorialesopenccg.png)

Construir una gramática categorial consiste principalmente en elaborar un léxico lo suficientemente rico, ya que las gramáticas categoriales son fuertemente lexicalistas. En ellas, la categoría a la que pertenece cada entrada léxica codifica sus posibilidades combinatorias.

## Combinatory Categorial Grammar

In [None]:
#Combinatory Categorial Grammar

from nltk.ccg import chart, lexicon

def combinatory_parser(sentence):   
    sentence = sentence.lower()                                     # convierte a minúscula
    if sentence.endswith('.'):                                      # si la oración termina con un punto
        sent = re.sub('\.',' ',sentence)                            # se lo quita
    else:                                                           # si no
        sent = sentence                                             # la toma como está
    sent = sent.split()                                             # divide la oración en palabras
    archivo = open('gramaticas/CategorialGrammar2.txt', 'r')
    codigogram = archivo.read()
    lex = lexicon.fromstring(codigogram)
    print(lex)
    parser = chart.CCGChartParser(lex, chart.DefaultRuleSet)
    archivo.close()
    for parse in parser.parse(sent):  # doctest: +SKIP
         chart.printCCGDerivation(parse)
         #break       


In [None]:
print('Escribí una oración')
oracion5 = input()
combinatory_parser(oracion5)

# Gramáticas basadas en rasgos

Las gramáticas se pueden enriquecer con el uso de rasgos. Los rasgos son pares de atributo valor. En una gramática con rasgos, los rasgos se heredan de las entradas léxicas a los nodos superiores. Las reglas especifican los rasgos que sus nodos hijos deben compartir.

In [2]:
nltk.data.show_cfg('gramaticas/GramaticaDeRasgos.fcfg')

% start S
#Adaptado al español de la gramática elaborada por Klein para el libro de NLTK
#
# ###################
# Reglas de la Gramática
# ###################
# Reescritura de la Raíz
S -> NP[NUM=?n] VP[NUM=?n]
# Reescritura de NP
NP[NUM=?n] -> PropN[NUM=?n] 
NP[NUM=?n,GEN=?g] -> Det[NUM=?n,GEN=?g] N[NUM=?n,GEN=?g]
# Reescritura de VP
VP[TENSE=?t, NUM=?n] -> V[TENSE=?t, NUM=?n]
# ###################
# Lexical Productions
# ###################
Det[NUM=sg,GEN=masc] -> 'este' | 'el'
Det[NUM=pl,GEN=masc] -> 'estos' | 'los'
Det[NUM=sg,GEN=fem] -> 'esta' | 'la'
Det[NUM=pl,GEN=fem] -> 'estas' | 'las'
PropN[NUM=sg]-> 'Cata' | 'Julia' | 'Fede' | 'Fer' | 'Martín' | 'Maca' | 'Vicky' | 'Pablo'
N[NUM=sg,GEN=fem] -> 'chica' | 'mujer' | 'persona' | 'criatura'
N[NUM=sg,GEN=masc] -> 'chico' | 'hombre' | 'sujeto' 
N[NUM=pl,GEN=fem] -> 'chicas' | 'mujeres' | 'personas' | 'criaturas'
N[NUM=pl,GEN=masc] -> 'chicos' | 'hombres' | 'sujetos' 
V[TENSE=pres,NUM=sg] -> 'desaparece' | 'camina' | 'muerde' | 'llor

In [6]:
sentence = 'los chicas caminan'
tokens = sentence.split()
print(sentence)
print(type(sentence))
print(tokens)
print(type(tokens))

los chicas caminan
<class 'str'>
['los', 'chicas', 'caminan']
<class 'list'>


In [7]:
from nltk import load_parser
cp = load_parser('gramaticas/GramaticaDeRasgos.fcfg', trace=2)
for tree in cp.parse(tokens):
     print(tree)

|.los .chic.cami.|
Leaf Init Rule:
|[----]    .    .| [0:1] 'los'
|.    [----]    .| [1:2] 'chicas'
|.    .    [----]| [2:3] 'caminan'
Feature Bottom Up Predict Combine Rule:
|[----]    .    .| [0:1] Det[GEN='masc', NUM='pl'] -> 'los' *
Feature Bottom Up Predict Combine Rule:
|[---->    .    .| [0:1] NP[GEN=?g, NUM=?n] -> Det[GEN=?g, NUM=?n] * N[GEN=?g, NUM=?n] {?g: 'masc', ?n: 'pl'}
Feature Bottom Up Predict Combine Rule:
|.    [----]    .| [1:2] N[GEN='fem', NUM='pl'] -> 'chicas' *
Feature Bottom Up Predict Combine Rule:
|.    .    [----]| [2:3] V[NUM='pl', TENSE='pres'] -> 'caminan' *
Feature Bottom Up Predict Combine Rule:
|.    .    [----]| [2:3] VP[NUM='pl', TENSE='pres'] -> V[NUM='pl', TENSE='pres'] *


Para ver una aplicación de las gramáticas de rasgos para dar cuenta de la intepretación semántica, ver carpeta de semántica de este mismo repositorio.

## Gramática con slash y rasgo subcat

In [6]:
nltk.data.show_cfg('gramaticas/GramaticaSlash.fcfg')

% start S
# Gramática para ilustrar rasgo SUBCAT y la categoría SLASH
#
# ###################
# Reglas de la Gramática
# ###################
# Reescritura de la Raíz
S -> NP[NUM=?n] VP[NUM=?n]
S -> Wh[NUM=?n] VP/Wh[NUM=?n]
# Reescritura de NP
NP[NUM=?n] -> PropN[NUM=?n] 
NP[NUM=?n,GEN=?g] -> Det[NUM=?n,GEN=?g] N[NUM=?n,GEN=?g]
# Reescritura de VP
VP[NUM=?n] -> V[SUBCAT='intrans', TENSE=?t, NUM=?n]
VP[NUM=?n] -> V[SUBCAT='decir', TENSE=?t, NUM=?n] CP
VP/?x[NUM=?n] -> V[SUBCAT='decir', TENSE=?t, NUM=?m] NP[NUM=?m] CP/?x[NUM=?n]
# Reescritura de CP
CP -> C IP
CP/?x[NUM=?n] -> C IP/?x[NUM=?n]
# Reescritura de C
C -> 'que'
# Reescritura de IP
IP -> NP[NUM=?n] VP[NUM=?n]
IP/?x[NUM=?n] -> N/?x[NUM=?n] VP[NUM=?n]
# ###################
# Lexical Productions
# ###################
# Reescritura de determinativos
Det[NUM=sg,GEN=masc] -> 'este' | 'el'
Det[NUM=pl,GEN=masc] -> 'estos' | 'los'
Det[NUM=sg,GEN=fem] -> 'esta' | 'la'
Det[NUM=pl,GEN=fem] -> 'estas' | 'las'
# Reescritura de Nombres propios


In [9]:
sentence_slash_grammar = 'quién dice el chico que estornuda'
sentence = sentence_slash_grammar.split()
from nltk import load_parser
cp = load_parser('gramaticas/GramaticaSlash.fcfg', trace=2)
for tree in cp.parse(sentence):
     print(tree)

|.q.d.e.c.q.e.|
Leaf Init Rule:
|[-] . . . . .| [0:1] 'quién'
|. [-] . . . .| [1:2] 'dice'
|. . [-] . . .| [2:3] 'el'
|. . . [-] . .| [3:4] 'chico'
|. . . . [-] .| [4:5] 'que'
|. . . . . [-]| [5:6] 'estornuda'
Feature Empty Predict Rule:
|# . . . . . .| [0:0] N[]/Wh[NUM='sg'] -> *
|. # . . . . .| [1:1] N[]/Wh[NUM='sg'] -> *
|. . # . . . .| [2:2] N[]/Wh[NUM='sg'] -> *
|. . . # . . .| [3:3] N[]/Wh[NUM='sg'] -> *
|. . . . # . .| [4:4] N[]/Wh[NUM='sg'] -> *
|. . . . . # .| [5:5] N[]/Wh[NUM='sg'] -> *
|. . . . . . #| [6:6] N[]/Wh[NUM='sg'] -> *
|# . . . . . .| [0:0] N[]/Wh[NUM='pl'] -> *
|. # . . . . .| [1:1] N[]/Wh[NUM='pl'] -> *
|. . # . . . .| [2:2] N[]/Wh[NUM='pl'] -> *
|. . . # . . .| [3:3] N[]/Wh[NUM='pl'] -> *
|. . . . # . .| [4:4] N[]/Wh[NUM='pl'] -> *
|. . . . . # .| [5:5] N[]/Wh[NUM='pl'] -> *
|. . . . . . #| [6:6] N[]/Wh[NUM='pl'] -> *
Feature Bottom Up Predict Combine Rule:
|[-] . . . . .| [0:1] Wh[NUM='sg'] -> 'quién' *
Feature Bottom Up Predict Combine Rule:
|[-> . . . . .| [0