# Gramáticas basadas en rasgos

## Motivaciones para la introducción de rasgos

<div style="text-align: justify">A comienzos de los años ochenta se sabía perfectamente que las gramáticas regulares eran insuficientes para dar cuenta del lenguaje natural y se sabía también que las gramáticas transformacionales eran computacionalmente inadecuadas. Por el momento, los argumentos en contra de las gramáticas independientes de contexto eran más bien conceptuales:</div>

- <div style="text-align: justify">eran "torpes", ya que para dar cuenta de fenómenos relativamente sencillos como la concordancia y la subcategorización, era necesario recurrir a un número enorme de nodos no categoriales</div>
- <div style="text-align: justify">no daban cuenta de la relatedness entre construcciones.</div>


Earley [1970](http://ra.adm.cs.cmu.edu/anon/home/anon/usr/ftp/scan/CMU-CS-68-earley.pdf) había demostrado que existía la posibilidad de parsear lenguajes independientes de contexto en tiempos computacionalmente tratables. Esto hizo que las Gramáticas Independientes resultaran nuevamente tentadoras. Para resolver el problema de la "torpeza" de las Gramáticas Independientes de Contexto", los autores empezaron a utilizar una estrategia que, si bien se conocía hacía mucho tiempo (al menos desde Harris 1946, pasando por Harman 1963 y Chomsky 1965), no se había explotado explícitamente: descomponer la información de los nodos no terminales en rasgos. Se creía en aquel momento que este agregado no cambiaba el lenguaje generado por una gramática:

<div style="text-align: justify">"For reasons put very nicely by Halle (1969) with respect to phonology, there is an exact equivalence between generative systems that use complex symbols (matrices of distinctive feature specifications) and those that do not. The proof is trivial. Basically, only the way the symbols are interpreted is at issue. A nonterminal symbol [x<sub>1</sub>,x<sub>2</sub>,x<sub>3</sub>..., x<sub>n</sub>], where each xt is some feature specification, can be treated as having internal structure to which statements in the grammar can refer to capture generalizations, or it can be regarded as a calligraphically ornate representation of an atomic symbol distinct from all other symbols". (Gazdar et al 1985)</div>


## Gramáticas basadas en rasgos en la jerarquía de Chomsky

<div style="text-align: justify">Supongamos un lenguaje formado solamente por las siguientes cadenas:</div>

- ab, aabb, aaabbb, aaaabbbb

<div style="text-align: justify">Las cadenas de este lenguaje siguen un patrón típico de las gramáticas independientes de contexto: tienen recursividad central. Si embargo, puesto que este lenguaje es finito, puede ser generado por un autómata de estados finitos o por una expresión regular:</div>

- a(a(ab)?b)?b

<div style="text-align: justify">Es decir que, si nos atenemos a un lenguaje finito, podemos emular operaciones típicas de lenguajes más complejos utilizando más estados en el autómata o más símbolos no terminales en una gramática regular.</div>

<div style="text-align: justify">Del mismo modo, una gramática independiente de contexto puede emular lo que típicamente hace una gramática con rasgos extendiendo su número de símbolos no terminales:</div>

- N[Gen=fem, Num=sg, etc.] = NCFSVO

<div style="text-align: justify">De un modo similar a lo que pasaba con los autómatas de estados finitos, esto se puede hacer en la medida en que tengamos un número finito de rasgos con un número finito de valores. En cuanto tenemos un número infinito de valores (la recursividad de rasgos, i.e., rasgos complejos, dispara esta posibilidad), se vuelve imposible capturar lo que puede hacer una gramática basada en rasgos mediante una gramática independiente de contexto. En conclusión: se sabe que las gramáticas basadas en rasgos incluyen propiamente a las gramáticas independientes de contexto.</div>

## La implementación

Las gramáticas basadas en rasgos se implementaron en diversos lenguajes. Inicialmente, el más desarrollado fue [PC-PATR](https://software.sil.org/pc-patr/), que actualmente está discontinuado y ya no tiene soporte.

A partir de los trabajos de Pereira y Warren (1980, 1983), se fue popularizando también la implementación en [Prolog](https://www.swi-prolog.org/).

Para Python se pueden construir gramáticas basadas en rasgos en [NLTK](https://www.nltk.org/book/ch09.html). 

## PC-PATR

PC-PATR se especializó en herramientas para procesamiento del lenguaje natural y en particular, se especializó en ser el lenguaje para implementar diferentes teorías gramaticales. Por esta razón, este lenguaje proveía soporte para implementar reglas típicas de la teoría sintáctica del momento. Esto incluía las siguientes cosas:

- Gramáticas de reglas de reescritura
- Reglas léxicas
- Metarreglas
- Postulados de significado
- Agregado de rasgos y la operación de unificación.


## Prolog

Prolog se popularizó para procesamiento del lenguaje natural. También en él se implementaron distintas teorías gramaticales. Algunas de las gramáticas que se desarrollaron en él fueron ProfGlot, [Definite Clause Grammars](http://www.pathwayslms.com/swipltuts/dcg/), [ALE](https://www.cs.toronto.edu/~gpenn/ale.html), Gramáticas Minimalistas (ver página de [Stabler](https://linguistics.ucla.edu/people/stabler/coding.html)), la [Gramática de Montague](http://www.sfs.uni-tuebingen.de/~keberle/SemParsing/Slides/slidesPrMS.pdf), [HPSG](http://www.cs.toronto.edu/~gpenn/ale/files/grammars/hpsg.pl), etc. 

Uno de los motivos que hizo que se utilizara es que es un lenguaje de programación declarativo antes que procedural. Se basa principalmente en la declaración de hechos (facts), que son declaraciones de verdad no condicionadas, y reglas (rules), que son declaraciones de verdad condicionadas. A partir de estos dos tipos de reglas, Prolog hace inferencias y el usuario normalmente interactúa con Prolog haciéndole preguntas de si determinada inferencia tiene lugar o no. Este comportamiento cuadraba perfectamente con el fuerte carácter declarativo antes que procedimental de la teoría lingüística de los años ochenta.

Por ejemplo, se le puede preguntar a Prolog cuáles son las cadenas que se pueden generar a partir del nodo s en dcg1.pl

`phrase(s, Sentence).`

`s(X,[]).`

También se le puede preguntar si tal o cual frase es correcta:

`phrase(s, [el, lingüista, piensa]).`

`s([el, lingüista, piensa],[]).`


## FCFG en NLTK

Dato importante para no perder tiempo: cuando se modifica una fcfg y se la quiere correr desde la Jupyter, si no se resetea el kernel, sigue corriendo la gramática previa al cambio.

In [1]:
import nltk

nltk.data.show_cfg('Ej1GramaticaDeRasgos.fcfg')

% start S
#Adaptado al español de la gramática elaborada por Klein para el libro de NLTK
#
# ###################
# Reglas de la Gramática
# ###################
# Reescritura de la Raíz
S -> NP[NUM=?n] VP[NUM=?n]
# Reescritura de NP
NP[NUM=?n] -> PropN[NUM=?n] 
NP[NUM=?n,GEN=?g] -> Det[NUM=?n,GEN=?g] N[NUM=?n,GEN=?g]
# Reescritura de VP
VP[TENSE=?t, NUM=?n] -> V[TENSE=?t, NUM=?n]
# ###################
# Léxico
# ###################
Det[NUM=sg,GEN=masc] -> 'este' | 'el'
Det[NUM=pl,GEN=masc] -> 'estos' | 'los'
Det[NUM=sg,GEN=fem] -> 'esta' | 'la'
Det[NUM=pl,GEN=fem] -> 'estas' | 'las'
PropN[NUM=sg]-> 'Cata' | 'Julia' | 'Fede' | 'Fer' | 'Martín' | 'Maca' | 'Vicky' | 'Pablo'
N[NUM=sg,GEN=fem] -> 'chica' | 'mujer' | 'persona' | 'criatura'
N[NUM=sg,GEN=masc] -> 'chico' | 'hombre' | 'sujeto' 
N[NUM=pl,GEN=fem] -> 'chicas' | 'mujeres' | 'personas' | 'criaturas'
N[NUM=pl,GEN=masc] -> 'chicos' | 'hombres' | 'sujetos' 
V[TENSE=pres,NUM=sg] -> 'desaparece' | 'camina' | 'muerde' | 'llora' | 'aparece

In [2]:
tokens = 'este chico desaparece'.split()
from nltk import load_parser
cp = load_parser('Ej1GramaticaDeRasgos.fcfg', trace=2)
for tree in cp.parse(tokens):
     print(tree)

|.este.chic.desa.|
Leaf Init Rule:
|[----]    .    .| [0:1] 'este'
|.    [----]    .| [1:2] 'chico'
|.    .    [----]| [2:3] 'desaparece'
Feature Bottom Up Predict Combine Rule:
|[----]    .    .| [0:1] Det[GEN='masc', NUM='sg'] -> 'este' *
Feature Bottom Up Predict Combine Rule:
|[---->    .    .| [0:1] NP[GEN=?g, NUM=?n] -> Det[GEN=?g, NUM=?n] * N[GEN=?g, NUM=?n] {?g: 'masc', ?n: 'sg'}
Feature Bottom Up Predict Combine Rule:
|.    [----]    .| [1:2] N[GEN='masc', NUM='sg'] -> 'chico' *
Feature Single Edge Fundamental Rule:
|[---------]    .| [0:2] NP[GEN='masc', NUM='sg'] -> Det[GEN='masc', NUM='sg'] N[GEN='masc', NUM='sg'] *
Feature Bottom Up Predict Combine Rule:
|[--------->    .| [0:2] S[] -> NP[NUM=?n] * VP[NUM=?n] {?n: 'sg'}
Feature Bottom Up Predict Combine Rule:
|.    .    [----]| [2:3] V[NUM='sg', TENSE='pres'] -> 'desaparece' *
Feature Bottom Up Predict Combine Rule:
|.    .    [----]| [2:3] VP[NUM='sg', TENSE='pres'] -> V[NUM='sg', TENSE='pres'] *
Feature Single Edge Funda

In [None]:
import pandas as pd
import re

adjs_freeling = pd.read_csv('freeling/MM.adj.txt', delimiter=' ')
adjs_freeling.head(10)
#print(adjs_freeling)

In [None]:
nltk.data.show_cfg('gram_para_fcfg.fcfg')

In [None]:
tokens = 'la gata camina'.split()
from nltk import load_parser
cp = load_parser('gram_para_fcfg.fcfg', trace=2)
for tree in cp.parse(tokens):
     print(tree)

## Uso de rasgos para significado

Los rasgos pueden utilizarse a su vez para construir una representación semántica de las oraciones.

En semántica formal existe una función particular, que se conoce con el nombre de función interpretación, y que se anota con corchetes dobles. La función interpretación devuelve por cada expresión lingüística su denotación. Las denotaciones pueden ser de dos tipos: 

- elementos atómicos (típicamente objetos o proposiciones, pero también hay otras ontologías que incluyen mundos posibles, eventos y tiempos, entre otras cosas)
- funciones. 

El uso de rasgos para dar cuenta del significado consiste en que la función denotación sea el valor de un rasgo semántico.

Ver [Smith 2004](http://www.inf.ed.ac.uk/teaching/courses/aipp/lecture_slides/11_PS_DCGs.pdf)

Puede pedírsele a Prolog que genere las oraciones y los significados que reescriben al nodo no terminal s de acuerdo a la gramática gram_sem,pl.

`s(X,Y,[]).`

También puede pedírsele que genere la oración correspondiente a determinado significado

`s(fumar(juan),Y,[]).`

O que devuelva el significado de una oración en particular:

`s(X,[juan, fuma],[]).`

También se le puede pedir a Prolog que genere las oraciones, los significados y el parseo que reescriben al nodo no terminal s de acuerdo a la gramática gram_parseo_sem.pl

`s(X,Y,Z,[]).`

Puede reemplazarse cada una de las variables con el valor que querramos para saber el valor de las demás variables. Si se da un valor a todas las variables, Prolog nos devolverá un valor booleano. Por ejemplo:

`s(s(n(juan),v(nada)),nadar(juan),[juan, nada],[]).`





En el [libro de NLTK](https://www.nltk.org/book/ch10.html) y en la [documentación de NLTK](http://nltk.sourceforge.net/doc/en/ch11.html) hay información sobre cómo implementar esto mediante una gramática de rasgos en NLTK.


Las funciones equivalen a conjuntos y se expresan en el llamado cálculo lambda. 

\x. x fuma

Esta es una función que toma un x y devuelve verdadero si x fuma y falso si x no fuma. En términos de conjuntos equivale al conjunto de todos los fumadores (ténicamente equivale al conjunto característico de todos los fumadores, que es el que devuelve verdadero si x fuma y falso si x no fuma).

Hay dos operaciones básicas de cálculo lambda que son particularmente relevantes (una tercera no tuvo tanta repercusión en la semántica formal):

- Conversión alpha (o reducción alpha): cambiar el nombre de una variable y, conjuntamente, el de todas las variables ligadas con ella.
`[\x. x fuma] = [\y. y fuma] = [\z. z fuma] = ...`
- Conversión lambda (o reducción beta): cuando combinamos una función con un argumento, eliminar el prefijo lambda y reemplazar todas las ocurrencias de la variable que introduce ese prefijo por el argumento.

- `[\x. x fuma](cata) = cata fuma`
- `[\f. f](\x. x fuma) = \x. x fuma`
- `[\f. [\g. [\x. g(x)=f(x)=1]]](\x. x fuma)(\x. x baila) = [\x. [\x. x fuma](x)=[\x. x baila](x)=1] = [\x x fuma y x baila]` 

Las interpretación semántica de las expresiones lingüísticas se da a partir del significado de sus partes y su combinación mediante reglas que dependen de la forma del árbol y de los tipos de las funciones. Las reglas más frecuentes son: 

- Aplicación funcional: Si un nodo A domina a dos nodos B y C tales que B es una función cuyo dominio incluye a C, entonces [[A]]=[[B]]([[C]])
- Modificación de predicados: Si un nodo A domina a dos nodos B y C tales que los dos nodos son funciones que van del dominio de los individuos al dominio de los valores de verdad, entonces [[A]] = \x. [[B]]=[[C]]=1

Las fcfg implementan la función intepretación como valor de un rasgo semántico y reemplazando las reglas que dependen de la forma del árbol directamente por restricciones en las reglas de reescritura. Estas restricciones consisten básicamente en la unificación mediante variables idénticas.

In [3]:
nltk.data.show_cfg('pruebasemantica.fcfg')

% start S
# Grammar Rules
S[SEM = <?subj(?vp)>] -> NP[NUM=?n,GEN=?g,SEM=?subj] VP[NUM=?n,GEN=?g,SEM=?vp]
NP[NUM=?n,GEN=?g,SEM=<?det(?nom)>] -> Det[NUM=?n,GEN=?g,SEM=?det]  Nom[NUM=?n,GEN=?g,SEM=?nom]
NP[LOC=?l,NUM=?n,GEN=?g,SEM=?np] -> PropN[LOC=?l,NUM=?n,GEN=?g,SEM=?np]
Nom[NUM=?n,GEN=?g,SEM=?nom] -> N[NUM=?n,GEN=?g,SEM=?nom]
VP[NUM=?n,SEM=?v] -> IV[NUM=?n,SEM=?v]
VP[NUM=?n,SEM=<?v(?obj)>] -> TV[NUM=?n,SEM=?v] NP[SEM=?obj]
VP[NUM=?n,SEM=<?v(?obj,?pp)>] -> DTV[NUM=?n,SEM=?v] NP[SEM=?obj] PP[+A,SEM=?pp]
VP[NUM=?n,GEN=?g,SEM=<?v(?a)>] -> VCOP[NUM=?n] A[NUM=?n,GEN=?g,SEM=?a]
PP[+A, SEM=?np] -> P[+A] NP[SEM=?np]
# Lexical Rules
PropN[-LOC,NUM=sg,GEN=masc,SEM=<\P.P(martin)>] -> 'Martín'
PropN[-LOC,NUM=sg,GEN=fem,SEM=<\P.P(cata)>] -> 'Cata'
PropN[-LOC,NUM=sg,GEN=masc,SEM=<\P.P(fede)>] -> 'Fede'
PropN[-LOC,NUM=sg,GEN=masc,SEM=<\P.P(pablo)>] -> 'Pablo'
PropN[-LOC,NUM=sg,GEN=fem,SEM=<\P.P(julia)>] -> 'Julia'
PropN[-LOC,NUM=sg,GEN=masc,SEM=<\P.P(fer)>] -> 'Fer'
PropN[-LOC,NUM=sg,GEN=fem,SEM=<\P.

In [3]:
sents = ['el globo fuma']
grammar = 'pruebasemantica.fcfg'
for results in nltk.interpret_sents(sents, grammar):
    for (synrep, semrep) in results:
             print(synrep)

(S[SEM=<exists x.(unico_ind_relevante_en_contexto(x) & globo(x) & fumar(x))>]
  (NP[GEN='masc', NUM='sg', SEM=<\Q.exists x.(unico_ind_relevante_en_contexto(x) & globo(x) & Q(x))>]
    (Det[GEN='masc', NUM='sg', SEM=<\P Q.exists x.(unico_ind_relevante_en_contexto(x) & P(x) & Q(x))>]
      el)
    (Nom[GEN='masc', NUM='sg', SEM=<\x.globo(x)>]
      (N[GEN='masc', NUM='sg', SEM=<\x.globo(x)>] globo)))
  (VP[NUM='sg', SEM=<\x.fumar(x)>]
    (IV[NUM='sg', SEM=<\x.fumar(x)>, TNS='pres'] fuma)))


## Los postulados de significado

Los postulados de significado permiten definir relaciones de sinonimia entre distintos predicados que no están léxicamente relacionados. Algunos ejemplos clásicos son:

- ser soltero = ser no casado
- ser oculista = ser médico de ojos
- patear = pegar con el pie

El siguiente es un ejemplo en prolog extraído de Profglot:

`mean(eng, [[kiss], [act],[[[anim],X1,[ag]],[[anim],X2,[pt]]]],
[_,[[touch],[act],[[[anim],X1,[ag]],[[concr],X2,[pt]]]],
[_,[[idiom],'the lips',[instr]],_,J]).`

No encontré que se usen en Python (no le puse toda la onda tampoco).

## Semántica eventiva

Un tipo de semántica formal que hoy ha ganado mucha popularidad es la semántica eventiva. La semántica eventiva concibe el significado de las oraciones como cuantificación sobre eventos: 

- Juan le dio ayer el libro a Pedro en la casa.
- Existe un e tal que Agente(e, Juan) & Tema(e, el libro) & Meta(e, Pedro) & en(e, la casa) & Pasado(e)

La semántica neodavidsoniana permite dispensar de grandes listas de subclases (verbos transitivos, verbos intransitivos, verbos ditransitivos, verbos bivalentes, verbos impersonales, verbos que toman distintos tipos de sintagmas preposicionales) y simplificar, en consecuencia, el léxico. Esto se hace al costo de dar una denotación más compleja a las entradas léxicas (que sin embargo, se puede automatizar si se tienen listas léxicas como las de freeling) y a las reglas de reescritura. Este tipo de enfoques propenden a sobregenerar, pero, naturalmente, este no es un problema si lo que nos interesa es parsear oraciones.

In [11]:
#import nltk
#sents = ['Cata fuma']
#sents = ['Fede leyó Ficciones']
sents = ['Cata dio Ficciones a Chafa']
grammar = 'semantica_eventiva_base.fcfg'
for results in nltk.interpret_sents(sents, grammar):
    for (synrep, semrep) in results:
             print(synrep)

(S[SEM=<(exists e.agente(e,cata) & dar(e) & pasado(e) & tema(e,ficciones) & meta(e,chafa))>]
  (NP[+ANIM, GEN='fem', NUM='sg', SEM=<\P.P(cata)>]
    (PropN[+ANIM, GEN='fem', NUM='sg', SEM=<\P.P(cata)>] Cata))
  (VP[NUM='sg', SEM=<\e.(dar(e) & pasado(e) & tema(e,ficciones) & meta(e,chafa))>]
    (V[NUM='sg', SEM=<\e.(dar(e) & pasado(e))>, TNS='pas'] dio)
    (NP[-ANIM, GEN='masc', NUM='sg', SEM=<\P.P(ficciones)>]
      (PropN[-ANIM, GEN='masc', NUM='sg', SEM=<\P.P(ficciones)>]
        Ficciones))
    (PP[+A, SEM=<\P.P(chafa)>]
      (P[+a] a)
      (NP[+ANIM, GEN='masc', NUM='sg', SEM=<\P.P(chafa)>]
        (PropN[+ANIM, GEN='masc', NUM='sg', SEM=<\P.P(chafa)>] Chafa)))))
