# Parsers

## Qué?

Un parser es un algoritmo computacional que **recibe un *input*, lo analiza y lo devuelve ordenado de acuerdo a reglas** que conoce previamente, generalmente en forma de árbol.
Tiene cargado un conjunto de reglas que le indican cómo dar formato al *input*. Suele ser parte de un proceso más complejo (lectura de archivos, compilador, etc) 

Analizar una cadena de símbolos de acuerdo a una serie de reglas definidas previamente

**En NLP:**

● Recibe información no estructurada: una cadena (*string*) en lenguaje natural 

● Consta de una gramática que contiene instrucciones de reescritura

● Devuelve información estructurada: una representación formal de la estructura sintáctica


Un parser, entonces, procesa oraciones de acuerdo a una **gramática**, pero esta no es un programa en sí mismo sino **un conjunto de reglas que le sirven de *input*** para saber cómo analizar las oraciones.


## **Para qué?**

Una motivación científica para la creación y el uso de los parsers es principalmente el entendimiento. 

¿Cómo podemos acceder a niveles más profundos del significado a partir del acceso a la estructura sintáctica de una oración. 

Aunque sepamos la categoría de una palabra, es decir su POS, no tenemos información sobre las relaciones jerárquicas que se establecen entre ellas.

El proceso de parsing nos devuelve esa información.

**El proceso se divide en dos instancias:** 
    
    
#### Shallow Parsing: 
 Consiste en "cortar" el input en "pedazos" y asignarles una etiqueta. El proceso recorre e identifica cada palabra como Vb, N, etc. y luego las agrupa en estructuras mayores (VP, NP, etc). Similar a lo que vimos con POS tagging


#### Full Parsing: 
Consiste en producir una representación formal de la estructura sintáctica del input, en general en forma de árboles.

## Las Gramáticas

En la primera clase examinamos distintos tipos de lenguajes entendidos como conjuntos de cadenas. Estos lenguajes pueden ser caracterizados por intensión por distintos mecanismos. Uno de estos mecanismos es la elaboración de gramáticas. Además de generar/reconocer/describir lenguajes, las gramáticas poseen la característica adicional de que son capaces de asignar estructura a las cadenas.
Existen distintos tipos de gramáticas según el lenguaje que generan.

| Lenguajes | Gramáticas |
| ------ | -----: |
| Lenguajes tipo 0 | Gramáticas irrestrictas |
| Lenguajes tipo 1 | Gramáticas sensibles al contexto |
| Lenguajes tipo 2 | Gramáticas independientes de contexto |
| Lenguajes tipo 3 | Gramáticas regulares |

Las gramáticas se expresan usualmente en forma de reglas de reescritura de la forma X -> Z (X se reescribe como Z), aunque estas  reglas pueden concebirse también como árboles parcialmente construidos o como restricciones combinatorias. Las gramáticas típicamente permiten construir grafos dirigidos, coloquialmente denominados ''árboles''.
Existen tres grandes formas de construir las gramáticas según cómo se conciba la representación de la estructura jerárquica:
* Gramáticas basadas en constituyentes
* Gramáticas basadas en dependencias
* Gramáticas categoriales

![Gramática basada en constituyentes](constituyentes.png)

![gramática de dependencias](dependencias.png)

![Gramática categorial](categorial.png)

## Cómo?

El objetivo principal es determinar si el string que recibe como imput puede derivarse del símbolo de inicio de la gramática.

**Hay dos maneras de hacer esto:**

- _bottom-up (Análisis ascendente)_: Parte desde el *input* e intenta llegar a la raíz (O) desde la gramática

- _top-down (Análisis descendente)_:  Parte desde la raíz (O) y aplica las reglas para chequear si es capaz de predecir el *input* .

# Gramáticas basadas en constituyentes

Poseen distinción entre nodos terminales y nodos no terminales, que especifican la categoría a la que pertenece una determinada subcadena.

In [1]:
import sys
sys.path.append("/home/dipa/proyectos/2019_cursoNLP/lib/python3.6/site-packages")
import nltk
import re

## Recursive descent Parser

- **Top-down**
- Parte del símbolo de inicio y aplica las reglas para obtener los constituyentes inmediatos y armar el árbol hasta llegar a los símbolos terminales. Chequea coincidencia con la secuencia del input. Si no hay coincidencia, tiene que retroceder y buscar diferentes alternativas de parseo. 

In [2]:
# Recursive Descent Parser

def rd_parser(sentence, grammar):                   # define una función llamada rd_parser con dos argumentos
    print(grammar)                                  # imprime mi gramática
    sentence = sentence.lower()                     # convierte a minúscula la oración
    if sentence.endswith('.'):                      # si la oración termina con un punto
        sent = re.sub('\.',' ',sentence)            # se lo quita
    else:                                           # si no
        sent = sentence                             # la toma como está
    sent = sent.split()                             # divide la oración en palabras
    rd_parser = nltk.RecursiveDescentParser(grammar) # proceso esas palabras
    for tree in rd_parser.parse(sent):              # para cada árbol posible en mi gramática para esa oración
        print(tree)                                 # lo imprimo


In [7]:
#Para correr el Recursive Descent Parser

print('Escribí una oración:')                          #Para que me pida que escriba una oración
oracion1 = input()                                     #Para que me abra un campo en el que escriba la oración
grammar = nltk.data.load('ContextFreeGrammar.cfg')     # establece cuál va a ser mi gramática
rd_parser(oracion1, grammar)                           #Para correr la función

Escribí una oración:
martín fuma en la plaza
Grammar with 40 productions (start state = O)
    O -> SN SV
    SN -> PRO
    SN -> NP
    SN -> D NC
    NP -> 'martín'
    NP -> 'cata'
    NP -> 'julia'
    NP -> 'fede'
    NP -> 'maca'
    NP -> 'pablo'
    NC -> 'plaza'
    NC -> 'facultad'
    NC -> 'regalo'
    NC -> 'globo'
    NC -> 'tabaco'
    D -> 'el'
    D -> 'la'
    D -> 'un'
    D -> 'una'
    PRO -> 'ella'
    PRO -> 'él'
    SV -> FV SN SP
    SV -> FV SP
    SV -> FV
    SV -> FV SN
    FV -> AUX PART
    FV -> V
    AUX -> 'fue'
    PART -> 'entregado'
    PART -> 'enviado'
    PART -> 'fumado'
    PART -> 'explotado'
    V -> 'entregó'
    V -> 'envió'
    V -> 'explotó'
    V -> 'fuma'
    SP -> P SN
    P -> 'por'
    P -> 'en'
    P -> 'a'
(O
  (SN (NP martín))
  (SV (FV (V fuma)) (SP (P en) (SN (D la) (NC plaza)))))


**Demo del Right Descent Parser**

In [9]:
import tkinter
nltk.app.rdparser()

**Desventajas:**

- La recursividad a la izquierda (NP -> NP PP) lo lleva al loop infinito

- Pierde mucho tiempo considerando las estructuras que no se corresponden con el input

- En el proceso de backtracking se descartan los parseos anteriores y tiene que volver a construirlos 




## Bllip Parser

Antes hay que instalar el bllip parser. 

Para hacerlo, correr el siguiente comando en la terminal:

    pip install --user bllipparser

Brown Laboratory for Linguistic Information Processing

Introduce gramáticas a partir de un corpus

In [10]:
from bllipparser import RerankingParser                             #Importa el parser
from bllipparser.ModelFetcher import download_and_install_model     # Descarga e instala el "modelo"

model_dir = download_and_install_model('WSJ', 'tmp/models')         #Crea una variable con el "modelo"
rrp = RerankingParser.from_unified_model_dir(model_dir)

In [11]:
oracion2 = "jonh smokes a cigarrete"
rrp.simple_parse(oracion2)

'(S1 (S (NP (NNP jonh)) (VP (VBZ smokes) (NP (DT a) (NN cigarrete)))))'

In [12]:
oracion3 = "No one saw him disembark in the unanimous night, no one saw the bamboo canoe sink into the sacred mud, but in a few days there was no one who did not know that the taciturn man came from the South"
rrp.simple_parse(oracion3)

'(S1 (S (S (NP (DT No) (NN one)) (VP (VBD saw) (S (NP (PRP him)) (VP (VBP disembark) (PP (IN in) (NP (DT the) (JJ unanimous) (NN night))))))) (, ,) (S (NP (DT no) (NN one)) (VP (VBD saw) (S (NP (DT the) (NN bamboo) (NN canoe)) (VP (VB sink) (PP (IN into) (NP (DT the) (JJ sacred) (NN mud))))))) (, ,) (CC but) (S (PP (IN in) (NP (DT a) (JJ few) (NNS days))) (NP (EX there)) (VP (VBD was) (NP (NP (DT no) (NN one)) (SBAR (WHNP (WP who)) (S (VP (VBD did) (RB not) (VP (VB know) (SBAR (IN that) (S (NP (DT the) (JJ taciturn) (NN man)) (VP (VBD came) (PP (IN from) (NP (DT the) (NNP South)))))))))))))))'

In [13]:
print('Escribí una oración en inglés')
oracion4 = input()
rrp.simple_parse(oracion4)

Escribí una oración en inglés
the sun is yellow


'(S1 (S (NP (DT the) (NN sun)) (VP (VBZ is) (ADJP (JJ yellow)))))'

# Gramáticas basadas en dependencias

No poseen distinción entre símbolos no terminales y terminales. Las estructuras representan relaciones de dependencia entre terminales.
Ejemplos de parsers de dependencias:
* Maltparser (http://www.maltparser.org/)
* SyntaxNet (https://opensource.google.com/projects/syntaxnet)
* Dependency parser de Spacy (https://spacy.io/usage/linguistic-features#dependency-parse)

## Spacy - Dependency parser

In [14]:
import spacy
from nltk import Tree
from spacy import displacy 

def gramaticadependencias(sentence):       #Define la función
    nlp = spacy.load('es_core_news_sm')    #Carga el modelo entrenado
    doc = nlp(sentence)                    #define una variable doc con la oración procesada por el modelo
    #for token in doc:               
        #print(token.text, token.dep_, token.head.text, token.head.pos_,
        #    [child for child in token.children])
    displacy.render(doc, style='dep', jupyter=True)


In [16]:
print('Escribí una oración')
oracion5 = input()
gramaticadependencias(oracion5)

Escribí una oración
el peronismo es el cancer de la Argentina


# Gramáticas Categoriales

Las gramáticas categoriales están conformadas principalmente por un conjunto reducido de reglas y un léxico sumamente rico.
Las reglas que utiliza OpenCCG, que es el parser categorial que vamos a ver son las siguientes:

![reglas categoriales](reglascategorialesopenccg.png)

Construir una gramática categorial consiste principalmente en elaborar un léxico lo suficientemente rico, ya que las gramáticas categoriales son fuertemente lexicalistas. En ellas, la categoría a la que pertenece cada entrada léxica codifica sus posibilidades combinatorias.

## Combinatory Categorial Grammar

In [24]:
#Combinatory Categorial Grammar

from nltk.ccg import chart, lexicon

def combinatory_parser(sentence):   
    sentence = sentence.lower()                                     # convierte a minúscula
    if sentence.endswith('.'):                                      # si la oración termina con un punto
        sent = re.sub('\.',' ',sentence)                            # se lo quita
    else:                                                           # si no
        sent = sentence                                             # la toma como está
    sent = sent.split()                                             # divide la oración en palabras
    archivo = open('CategorialGrammar2.txt', 'r')
    codigogram = archivo.read()
    lex = lexicon.fromstring(codigogram)
    print(lex)
    parser = chart.CCGChartParser(lex, chart.DefaultRuleSet)
    archivo.close()
    for parse in parser.parse(sent):  # doctest: +SKIP
         chart.printCCGDerivation(parse)
         #break


In [26]:
print('Escribí una oración')
oracion5 = input()
combinatory_parser(oracion5)

Escribí una oración
el globo
a => (PP/NP)
cata => NP
el => (NP/NC)
ella => NP
en => (PP/NP)
entregado => (PARTP/PP)
entregó => (((S\NP)/NP)/PP)
enviado => (PARTP/PP)
envió => (((S\NP)/NP)/PP)
explotado => (PARTP/PP)
explotó => ((S\NP)/NP) | (S\NP)
facultad => NC
fede => NP
fer => NP
fue => ((S\NP)/PARTP)
fuma => (S\NP)
fumado => (PARTP/PP)
fumó => ((S\NP)/NP)
globo => NC
habla => (S\NP)
julia => NP
la => (NP/NC)
martín => NP
pablo => NP
plaza => NC
por => (PP/NP)
regalo => NC
tabaco => NC
un => (NP/NC)
una => (NP/NC)
vicky => NP
él => NP


# Gramáticas basadas en rasgos e interpretación semántica

Las gramáticas se pueden enriquecer con el uso de rasgos. Los rasgos son pares de atributo valor. En una gramática con rasgos, los rasgos se heredan de las entradas léxicas a los nodos superiores. Las reglas especifican los rasgos que sus nodos hijos deben compartir.

In [27]:
nltk.data.show_cfg('GramaticaDeRasgos.fcfg')

% start S
#Adaptado al español de la gramática elaborada por Klein para el libro de NLTK
#
# ###################
# Reglas de la Gramática
# ###################
# Reescritura de la Raíz
S -> NP[NUM=?n] VP[NUM=?n]
# Reescritura de NP
NP[NUM=?n] -> PropN[NUM=?n] 
NP[NUM=?n,GEN=?g] -> Det[NUM=?n,GEN=?g] N[NUM=?n,GEN=?g]
# Reescritura de VP
VP[TENSE=?t, NUM=?n] -> V[TENSE=?t, NUM=?n]
# ###################
# Lexical Productions
# ###################
Det[NUM=sg,GEN=masc] -> 'este' | 'el'
Det[NUM=pl,GEN=masc] -> 'estos' | 'los'
Det[NUM=sg,GEN=fem] -> 'esta' | 'la'
Det[NUM=pl,GEN=fem] -> 'estas' | 'las'
PropN[NUM=sg]-> 'Cata' | 'Julia' | 'Fede' | 'Fer' | 'Martín' | 'Maca' | 'Vicky' | 'Pablo'
N[NUM=sg,GEN=fem] -> 'chica' | 'mujer' | 'persona' | 'criatura'
N[NUM=sg,GEN=masc] -> 'chico' | 'hombre' | 'sujeto' 
N[NUM=pl,GEN=fem] -> 'chicas' | 'mujeres' | 'personas' | 'criaturas'
N[NUM=pl,GEN=masc] -> 'chicos' | 'hombres' | 'sujetos' 
V[TENSE=pres,NUM=sg] -> 'desaparece' | 'camina' | 'muerde' | 'llor

In [28]:
tokens = 'las criaturas estornudan'.split()
from nltk import load_parser
cp = load_parser('GramaticaDeRasgos.fcfg', trace=2)
for tree in cp.parse(tokens):
     print(tree)

|.las .cria.esto.|
Leaf Init Rule:
|[----]    .    .| [0:1] 'las'
|.    [----]    .| [1:2] 'criaturas'
|.    .    [----]| [2:3] 'estornudan'
Feature Bottom Up Predict Combine Rule:
|[----]    .    .| [0:1] Det[GEN='fem', NUM='pl'] -> 'las' *
Feature Bottom Up Predict Combine Rule:
|[---->    .    .| [0:1] NP[GEN=?g, NUM=?n] -> Det[GEN=?g, NUM=?n] * N[GEN=?g, NUM=?n] {?g: 'fem', ?n: 'pl'}
Feature Bottom Up Predict Combine Rule:
|.    [----]    .| [1:2] N[GEN='fem', NUM='pl'] -> 'criaturas' *
Feature Single Edge Fundamental Rule:
|[---------]    .| [0:2] NP[GEN='fem', NUM='pl'] -> Det[GEN='fem', NUM='pl'] N[GEN='fem', NUM='pl'] *
Feature Bottom Up Predict Combine Rule:
|[--------->    .| [0:2] S[] -> NP[NUM=?n] * VP[NUM=?n] {?n: 'pl'}
Feature Bottom Up Predict Combine Rule:
|.    .    [----]| [2:3] V[NUM='sg', TENSE='pres'] -> 'estornudan' *
|.    .    [----]| [2:3] V[NUM='pl', TENSE='pres'] -> 'estornudan' *
Feature Bottom Up Predict Combine Rule:
|.    .    [----]| [2:3] VP[NUM='pl', T

Los rasgos se pueden utilizar para producir una intepretación semántica de las oraciones. Para ello se utilizan herramientas de la lógica. Las más importantes son: 
* Los cuantificadores universal y existencial
* El cálculo lambda.

Lambda es un operador que introduce una variable.

\x. fumar(x)

significa

'Dame un x y el resultado va a ser que x es argumento de fumar'


Esto significa que 

\x. fumar(x)(julia) 

es igual a 

fumar(julia)


Usamos x, y, z para variables y P, Q para predicados

Así, un nombre propio puede concebirse como una función que toma un predicado.

\P P(julia)

Si tenemos las siguientes reglas:

S\[SEM=<?subj(?vp)>\] -> N\[SEM=?subj\] V\[SEM=<?vp\]

V\[SEM=<\\x. fuma(x)>\] -> 'fuma'

N\[SEM=<\\P P(julia)>\] -> 'julia'


Es posible hacer las siguientes equivalencias

\P P(julia)(\x fuma(x)) = \x fuma(x)(julia) = \x fuma(julia)


Mediante el agregado de este rasgo SEM a una gramática, es posible devolver no solo la estructura sintáctica sino también el significado.

In [29]:
sents = ['Cata envió un paquete a Fede']
grammar = 'pruebasemantica.fcfg'
for results in nltk.interpret_sents(sents, grammar):
    for (synrep, semrep) in results:
             print(synrep)

(S[SEM=<exists z2.(paquete(z2) & enviar(cata,z2,fede))>]
  (NP[GEN='fem', -LOC, NUM='sg', SEM=<\P.P(cata)>]
    (PropN[GEN='fem', -LOC, NUM='sg', SEM=<\P.P(cata)>] Cata))
  (VP[NUM='sg', SEM=<\x.exists z2.(paquete(z2) & enviar(x,z2,fede))>]
    (DTV[NUM='sg', SEM=<\Y X x.X(\z.Y(\y.enviar(x,y,z)))>, TNS='pas']
      envió)
    (NP[GEN='masc', NUM='sg', SEM=<\Q.exists x.(paquete(x) & Q(x))>]
      (Det[GEN='masc', NUM='sg', SEM=<\P Q.exists x.(P(x) & Q(x))>]
        un)
      (Nom[GEN='masc', NUM='sg', SEM=<\x.paquete(x)>]
        (N[GEN='masc', NUM='sg', SEM=<\x.paquete(x)>] paquete)))
    (PP[+A, SEM=<\P.P(fede)>]
      (P[+a] a)
      (NP[GEN='masc', -LOC, NUM='sg', SEM=<\P.P(fede)>]
        (PropN[GEN='masc', -LOC, NUM='sg', SEM=<\P.P(fede)>] Fede)))))
