### Tagsets

En general, cuando hablamos de tagsets en NLP nos referimos a etiquetas que o bien nos brindan información morfosintactica de cada palabra (POSTag) o bien nos sirven para identificar determinadas entidades (NER). 
En cada caso, el tagset será el conjunto de etiquetas posibles con las que voy a taguear mi corpus y la información que estas traen asociada.

#### Esquemas de Anotación
Los esquemas de anotación describen el conjunto de objetos y etiquetas a utilizar para representar anotaciones lingüísticas de diferentes niveles, es decir, anotaciones de tokens, análisis morfosintáctico, semántico, etc.


> La adopción de modelos o esquemas de anotación ofrecen una solución a la llamada **interoperabilidad estructural**, que permite que diferentes módulos PLN puedan compartir las anotaciones utilizando un modelo de datos común. 

> Por desgracia, la interoperabilidad estructural por sí sola no es suficiente para conseguir una integración real de componentes PLN. En efecto, el contenido de propias anotaciones y su significado concreto debe ser también compartido por las distintas aplicaciones, la llamada **interoperabilidad conceptual**. 

> La interoperabilidad conceptual está directamente relacionada con el modelo lingüístico de análisis y su representación. 

> Un analizador morfosintáctico puede, por ejemplo, anotar la palabra “llegó” como una forma de la tercera persona del pretérito indefinido del verbo “llegar”, y los subsiguientes módulos PLN deben conocer el significado de estas anotaciones

#### Estándares para la anotación

Uno de los problemas más importantes que limita la interoperabilidad y reusabilidad de herramientas y recursos es la heterogeneidad de las anotaciones lingüísticas. Pero una integración real de componentes para el procesamiento de lenguaje requiere también que el significado de las etiquetas usadas en la anotación lingüística sea compartida por todos los componentes.

La comunidad PLN ha desarrollado diferentes repositorios terminológicos para anotaciones PLN, que ofrecen una suerte de terminología común para representar las anotaciones. Entre ellas, cabe destacar las siguientes.

### - Penn Treebank: 


#### Etiquetas Penn TreeBank

> Son un conjunto de etiquetas orientadas al análisis morfológico y morfosintáctico para el inglés, y describen las principales categorías gramaticales de las palabras. Las etiquetas de Penn
Treebank representan un estándar de facto en muchas herramientas PLN que trabajan en inglés. Así, herramientas como CoreNLP  o Freeling para el inglés utilizan estas categorías para el etiquetado morfosintáctico. Además, existen multitud de corpus anotados utilizando este conjunto de etiquetas.

> Observermos que PTB contiene 36 etiquetas de las cuales 'TO' corresponde a la particula homonima,  'UH', a las interjecciones e 'IN' al resto de las preposiciones. 

Number  Tag Description
1.	CC	Coordinating conjunction
2.	CD	Cardinal number
3.	DT	Determiner
4.	EX	Existential there
5.	FW	Foreign word
6.	**IN**	Preposition or subordinating conjunction
7.	JJ	Adjective
8.	JJR	Adjective, comparative
9.	JJS	Adjective, superlative
10.	LS	List item marker
11.	MD	Modal
12.	NN	Noun, singular or mass
13.	NNS	Noun, plural
14.	NNP	Proper noun, singular
15.	NNPS	Proper noun, plural
16.	PDT	Predeterminer
17.	POS	Possessive ending
18.	PRP	Personal pronoun
19.	PRP\$	Possessive pronoun
20.	RB	Adverb
21.	RBR	Adverb, comparative
22.	RBS	Adverb, superlative
23.	RP	Particle
24.	SYM	Symbol
25.	**TO**	to
26.	**UH**	Interjection
27.	VB	Verb, base form
28.	VBD	Verb, past tense
29.	VBG	Verb, gerund or present participle
30.	VBN	Verb, past participle
31.	VBP	Verb, non-3rd person singular present
32.	VBZ	Verb, 3rd person singular present
33.	WDT	Wh-determiner
34.	WP	Wh-pronoun
35.	WP\$	Possessive wh-pronoun
36.	WRB	Wh-adverb

### Etiquetas EAGLES
> El proyecto EAGLES [Uszkoreit et al., 1996] fue pionero en la identificación de los problemas de interoperabilidad entre plataformas y recursos NLP. Al contrario que las etiquetas Penn Treebank, fueron diseñadas específicamente para representar fenómenos lingüísticos en varios idiomas (básicamente europeos). 

> Las recomendaciones EAGLES para la codificación de etiquetas morfosintácticas se convirtieron en un estándar y fueron ampliadas por proyectos posteriores. 


> Por ejemplo, en el proyecto PAROLE [Ruimy et al., 1998] se ampliaron las etiquetas EAGLES para cubrir 12 lenguas europeas, y se diseñaron guías de anotación para el etiquetado de corpus textuales en esas lenguas.


> Además, se han hecho adaptaciones de las etiquetas eagles para el español rioplantese, sobre todo, para las segundas personas. Lo veremos más adelante. 



### **Eagles**

_EXPERT ADVISORY GROUP ON LANGUAGE ENGINEERING STANDARDS_

> _In the past, progress in producing Natural Language (NL) applications has been hampered by the high cost of developing language resources, since it has seldom been possible to build on the results of past work. Users have also often found that they cannot easily integrate these applications, even different ones from the same company. Evaluation of products is almost impossible due to the lack of standards against which to compare them. Coupled with this is the increasing demand for NL services, especially speech based products with their costly, high quality corpora. EAGLES will ameliorate this situation by providing standards so that language engineering components can be reused, reducing system costs and speeding up their time to market._




- Página del Grupo EAGLES: 
    - http://www.ilc.cnr.it/EAGLES96/home.html

- Index
    - http://www.ilc.cnr.it/EAGLES96/layout/node1.html#SECTION00100000000000000000


- Página con las etiquetas EAGLES: 
    - https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html



- Cada etiqueta Eagle se compone de un minimo de 2 'posiciones', para los rasgos de Categorìa y Tipo 
    - RG = Adverbio, Genérico; RN = Adverbio, Negación) 


- a 7 en el caso de los verbos, para los que se tienen en cuenta los rasgos de Modo, Tiempo, Persona y Número
    - VMIS1S0 = Verbo, Main, Indicativativo, Perfecto, 1S, basta para mi, basta para todos


- Si un atributo no se especifica significa que:
    - o bien expresa un tipo de información que no existe en la lengua 
    - o que la información no se considera relevante. 

- La No especificaciòn de un atributo se marca con el 0.
    - AQ**0**FS**0** vs AQ**D**FP**0** vs AQ**0**FS**P** // VMP00SF
    - buena          vs  buenita       vs  vestida 


- Se supone que recojen la mayoría de los accidentes gramaticales de las lenguas europeras, por lo tanto, habría atributos que dependiendo de la lengua pueden no especificarse. En otras palabras, a veces son muy largos al pedo y meten ruido. 


> Los diccionarios de Freeling trabajan con estas etiquetas


![alt text](verbos_eagles.png)

### Freeling: 

FreeLing es una librería en C++ que porvee info morfológica y otras cosas (NE, etc) para el inglés, español, portugués, italiano, Catalán, etc
Creadores: Universidad Politécnica de Catalunya, y la Pompeu Fabra desarrolló una versión online que ya conocemos. 

http://nlp.lsi.upc.edu/freeling/demo/demo.php

In [1]:
freeling = "freeling_es_sm.dict"   #Ojo no es el freeling posta

with open(freeling, 'r', encoding='utf-8') as f:
    freeling_pars = []
    for line in f:
        line = line.replace("\n",'')
        parsedLine = line.split("\t")
        freeling_pars.append(parsedLine)

        
freeling_pars

[['añada', 'añada', 'NCFS000'],
 ['añadido', 'añadido', 'NCMS000'],
 ['añadidura', 'añadidura', 'NCFS000'],
 ['añadir', 'añadir', 'VMN0000'],
 ['añagaza', 'añagaza', 'NCFS000'],
 ['añal', 'añal', 'AQ0CS0', 'añal', 'NCMS000'],
 ['a', 'a', 'SPS00', '//a', 'NCFS000'],
 ['abacá', 'abacá', 'NCMS000'],
 ['abacial', 'abacial', 'AQ0CS0'],
 ['abadía', 'abadía', 'NCFS000'],
 ['abad', 'abad', 'NCMS000'],
 ['abadejo', 'abadejo', 'NCMS000'],
 ['abadengo', 'abadengo', 'AQ0MS0'],
 ['abadesa', 'abadesa', 'NCFS000'],
 ['abajar', 'abajar', 'VMN0000'],
 ['abajo', 'abajo', 'RG'],
 ['abalanzar', 'abalanzar', 'VMN0000'],
 ['abalear', 'abalear', 'VMN0000'],
 ['aballar', 'aballar', 'VMN0000'],
 ['abalorio', 'abalorio', 'NCMS000'],
 ['abanar', 'abanar', 'VMN0000'],
 ['abanderado', 'abanderado', 'NCMS000'],
 ['abanderamiento', 'abanderamiento', 'NCMS000'],
 ['abanderar', 'abanderar', 'VMN0000'],
 ['abandonar', 'abandonar', 'VMN0000'],
 ['abandono', 'abandono', 'NCMS000'],
 ['abanicar', 'abanicar', 'VMN0000'],
 

Veremos un tagger bobo que toma freeling adaptado y devuelve el msi y el lema. Si no lo encuentra en freeling, no hace naada

In [4]:
import cleaner
import nltk

Concepto: aÃ±ada msi: NCFS000


In [5]:
#sent = "la casa de mi madre tiene una ventana rota"
#sent = "el ora por un milagro"
sent = "esta dudoso"
sent = sent.split()


for word in sent:
    for freelingLine in cleaner.freelingList:
        if freelingLine.word() == word:
            print(word, freelingLine.lemmas()[0].msi(), freelingLine.lemmas()[0].concept())


esta DD0FS0 este
dudoso AQ0MS0 dudoso


Y ahora un corpus taggeado con freeling

In [6]:
#nltk.download('all')
from nltk.corpus import cess_esp as cess #
from nltk import UnigramTagger as ut 

In [7]:
cess_sents = cess.tagged_sents() 
#print(cess_sents)

In [9]:
uni_tag = ut(cess_sents)

In [11]:
sentence = "la casa de mi madre tiene sus ventanas rotas. El viento ha roto sus cristales"
#sentence = "Mi vestido es azul El ha vestido su mejor traje"
#sentence = "Yo compre un helado de crema batida"
uni_tag.tag(sentence.split(" "))

[('la', 'da0fs0'),
 ('casa', 'ncfs000'),
 ('de', 'sps00'),
 ('mi', 'dp1css'),
 ('madre', 'ncfs000'),
 ('tiene', 'vmip3s0'),
 ('sus', 'dp3cp0'),
 ('ventanas', 'ncfp000'),
 ('rotas.', None),
 ('El', 'da0ms0'),
 ('viento', 'ncms000'),
 ('ha', 'vaip3s0'),
 ('roto', 'vmp00sm'),
 ('sus', 'dp3cp0'),
 ('cristales', 'ncmp000')]

Por otro lado, NLTK permite mappear los tags de (algunos) corpus pre cargados con los UPOS. Esto no funciona para la mayorìa de los corpus en ES, incluso aquellos que usa el mismo nltk, por eso me parece que es mejor Spacy.

In [13]:
from nltk.corpus import conll2000 #Importo este porque el 2002 y el cess_esp pinchan con el mapper
print(conll2000.tagged_words())
print(conll2000.tagged_words(tagset='universal'))

[('Confidence', 'NN'), ('in', 'IN'), ('the', 'DT'), ...]
[('Confidence', 'NOUN'), ('in', 'ADP'), ('the', 'DET'), ...]


### Ampliación de Eagles 

En KC hicimos una extensión del modelo EAGLES (es decir, no es interoperable con los demás componetes que usen el modelo original) para adaptarlo a una necesidad particular del producto. 



Lo que se hizo, en resumidas cuentas fue:


- Agregar información dialectal de la forma lexica ampliando la etiqueta con una posiciòn 8: 
- VMIP1S0 >> 

    -VMIP1S0V0 para voseante, 
    
    -VMIP1S0T0 para Tuteante, 
    
    -VMIP1S0U0 para ... 'Ustedeante'


- Agregar Informaciòn relativa al aspecto verbal para detectar tiempos compuestos y lemas correctos:
        
        
        
 - **Ha roto** : 
         Compuesto de lemma:haber & MSI:VMIS1S0 +  Lemma:romper & MSI:VMP0000
 
             - Msi: VMIX1S000 Lemma Romper     
  
    
 - **Estaba Jugando** : VMII1S00C Lemma Jugar
    
    
 - **Voy a Jugar** : VMIF1S00P Lemma Jugar

### Adaptaciones de Freeling/Eagles: Gravano

Gravano hizo una ampliación de freeling (el posta) para adaptarlo al español rioplatense. Aplica una serie de Regex al Freeling original

http://habla.dc.uba.ar/gravano/freeling-ar-es.php

In [11]:
with open("casos-de-voseo.txt") as file:
    archivo = file.read()
    print(archivo)

# Copyright 2015 Universidad de Buenos Aires
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#

Los casos más frecuentes de voseo son el imperativo (ej, "tocá el timbre") 
y el presente indicativo (ej, "tocás el botón").
El caso presente subjuntivo es menos frecuente (ej, "no lo toqués!").

Los análisis siguientes fueron hechos sobre el archivo MM.verb de 
la versión 3.1 de FreeLing:
VERB=/proj/tools/freeling-3.1/data/es/dictionary/entries/MM.verb

Cuidado, que hay algunos verbos que terminan en -í

### Universal Dependencies
> UD es un intento impulsado por Google de proveer etiquetas sintácticas unificadas (incluyendo las etiquetas morfosintácticas) para el etiquetado consistente de corpus a nivel sintáctico (los llamados treebanks) siguiendo el formalismo del análisis de dependencias sintácticas. Actualmente existen corpus anotados sintácticamente utilizando las etiquetas UD en más de 40 idiomas, incluyendo muchos de los idiomas europeos e idiomas como el coreano, japonés o chino

La taxonomìa consta de 17 UPOS, expande el Universal Tagset de Google (Petrov, 2012) y de la misma forma que EAGLES, todas las lenguas usan el mismo tagset aunque no todos los tags sean usados por todas las lenguas 



#### Tagset UD

    ADJ: adjective
    ADP: adposition
    ADV: adverb
    AUX: auxiliary
    CCONJ: coordinating conjunction
    DET: determiner
    INTJ: interjection
    NOUN: noun
    NUM: numeral
    PART: particle
    PRON: pronoun
    PROPN: proper noun
    PUNCT: punctuation
    SCONJ: subordinating conjunction
    SYM: symbol
    VERB: verb
    X: other
    
    
### Dependency	Relations

Ademàs, contiene al rededor de 40 universal grammatical relations
Dependency	Relations (siguiendo a de	Marneffe	et	al.,	2014). 

Esta ultima se organiza en 3 tipos de estructuras: Nominales, 'Clauses' y modificadores

Para ver màs: http://depling.org/depling2015/ChrisManning.pdf

#### Para el español?, posta?

Exclusivamente, el español usa las 17 UPOS, incluyendo "particulas" (PART) --> 'no'

   - _TODO: rules for the PRON vs. DET distinction_ 

Precisiones conceptuales: 

    Lemma: Representacion del contenido semantico de la palabra
    POS: Representacion de la categorìa lexica asociada a la palabra
    Features: Representa propiedades lexicas / gramaticales asociadas al lema o una forma particular de la palabra

In [13]:
sentence = "Yo compré un helado de crema batida"
uni_tag.tag(sentence.split(" "))

[('Yo', 'pp1csn00'),
 ('compré', 'vmis1s0'),
 ('un', 'di0ms0'),
 ('helado', 'ncms000'),
 ('de', 'sps00'),
 ('crema', None),
 ('batida', 'aq0fsp')]

In [1]:
import spacy
nlp = spacy.load("es_core_news_sm")

In [2]:
doc = nlp("Yo compre un helado de crema batida")

In [3]:
for token in doc:
    print('{texto}\t{pos}\t{tag}'.format(
           texto=token.text, pos=token.pos_, tag=token.tag_))

Yo	PRON	PRON__Case=Nom|Number=Sing|Person=1|PronType=Prs
compre	VERB	VERB__Mood=Imp|Number=Sing|Person=3|VerbForm=Fin
un	DET	DET__Definite=Ind|Gender=Masc|Number=Sing|PronType=Art
helado	NOUN	NOUN__Gender=Masc|Number=Sing
de	ADP	ADP__AdpType=Prep
crema	NOUN	NOUN__Gender=Masc|Number=Sing
batida	ADJ	ADJ__Gender=Fem|Number=Sing|VerbForm=Part
