![agents](images/header.jpg)
# Etiquetado gramatical
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/nlp/blob/master/10.%20Etiquetado.ipynb)

## Definición

El **etiquetado gramatical** es el proceso de asignar a cada una de las palabras de un texto una etiqueta que describe su categoría gramatical. Se suele denominar como **POS tagging** o **POST** (por las siglas en inglés *part-of-speech tagging*). 

El etiquetado gramatical es una actividad muy costosa que actualmente se realiza con buen nivel de éxito (97% en inglés, aproximadamente) utilizando métodos de aprendizaje automático. Por otra parte, esta identificación de palabras permite hacer un análisis más profundo del texto. Consideremos, por ejemplo, el siguiente modelo de lexicón:

![](images/lexicon.png)

Aquí, representamos un registro léxico $Lx$ como:

$$Lx = <l,c,A>$$	

donde $l$ es el lexema/token que estamos registrando, $c$ es la *clase semántica* a la que pertenece $l$ y $A = (a, e, g)$ es una tercia que define las actitudes (polaridad) asociadas al lexema: ($a$) es la actitud del actor que expresa la opinión, ($e$) es la opinión, posiblemente nula, del escritor que publica o comenta la opinión del actor y ($g$) la actitud general de la comunidad hacia la opinión. $a$,$e$ y $g$ toman los siguientes posibles valores en escala de Likert:

$$a,e,g ∈〈neg-,neg,neutral,pos,pos+〉$$

y éstas, a su vez, pueden expresarse de manera difusa:

![](images\fuzzy_opinion5.png)

Esta estructura permite hacer un análisis de polaridad desde puntos de vista semántico y pragmático, pero requiere identificar el tipo de palabra utilizada.

Existen diferentes algoritmos para realizar el etiquetado gramatical de un corpus. Algunos de estos métodos se basan en el uso de lexicones formados por palabras ya documentadas, siendo el más famoso el **[Corpus Penn Treebank](https://web.archive.org/web/19970614160127/http://www.cis.upenn.edu:80/~treebank/)**, desarrollado por la Universidad de Pensilvania. Otros métodos utilizan reglas gramaticales para identificar el tipo de palabra, dependiendo de su posición en el texto. En cualquier caso, se suele utilizar el estándar de etiquetado utilizado en el corpus Penn Treebank. Este estándar se basa en una colección de conceptos gramaticales no bien ordenados, como se muestra a continuación.

### Categorías gramaticales

Las categorías gramaticales permiten clasificar las palabras en tanto componentes de una oración. En español se reconocen nueve partes de la oración:

1. Sustantivo (o nombre): es una clase de palabra cuyos referentes son clases de entidades fijas: personas, seres vivos, cosas o conceptos abstractos.
2. Adjetivo: es una clase de palabra que actúa como modificador de un sustantivo o como atributo.
3. Artículo: es una clase de palabra utilizada para actualizar o precisar la referencia de un sustantivo, transformándolo de desconocido y abstracto a conocido y concreto ("*un libro*" vs. "*el libro*"). 
4. Pronombre:  es una clase de palabra que sustituye a un sustantivo y realiza sus mismas funciones.
5. Verbo: El Verbo es una clase de palabra que funciona como núcleo del predicado de una oración. Expresa acción, movimiento, existencia, consecución, condición o estado del sujeto. 
6. Adverbio: es una clase de palabra que tiene la función de modificar verbos (ven **aquí**), adverbios (**demasiado** tarde) o adjetivos (**muy** inteligente). Expresan circunstancias, como pueden ser modo, lugar, tiempo, cantidad, afirmación, duda, etc.
7. Interjección: es una clase de palabra que equivale a una oración completa que expresa un sentimiento vivo (¡*ay*!), una llamada enérgica (¡*hey*!) o que describen, elementalmente, una acción (¡*zas*!, ¡*pum*!).
8. Preposición: es una clase de palabra que une palabras o sintagmas dentro de una oración: *a, ante, bajo, cabe, con, contra, de, desde, entre, hacia*, etc.
9. Conjunción: es una clase de palabra que funciona como enlace entre palabras (José **y** María), sintagmas (Mi perro **y** el tuyo) u oraciones (luchar **para** ganar).

En la lingüística moderna, esta clasificación se considera obsoleta y se ha reemplazado por una clasificación funcional, basada en conceptos como:

1. Sintagma nominal: es un grupo de palabras cuyo núcleo es un sustantivo, un pronombre o una palabra sustantivada (el **azul** del mar).
2. Sintagma determinante: es un tipo de sintagma en el que el núcleo sintáctico es un determinante. El complemento de un sintagma determinante es un sintagma nominal: `Sintagma determinante` $\to$ (`Determinante`) + `Sintagma nominal`.
3. Sintagma verbal: es un sintagma cuyo núcleo es un verbo.
4. Complemento sintáctico: es un sintagma que completa, precisa, aclara, extiende o incrementa el significado del núcleo de otro sintagma.
5. Determinante: es un tipo de palabra que identifica al sustantivo y precisa su significado (**aquel** gato negro).
6. Construcción preposicional: es un sintagma constituido por una preposición (u otro tipo de adposición) que funciona como núcleo sintáctico y asigna caso al sintagma (típicamente nominal o determinante) que le sigue, como en "libro **de física**" o en "viento **del norte**".



### Etiquetas utilizadas en el proyecto *Penn Treebank*

El corpus *Penn Treebank* utiliza una combinación de conceptos para derivar una nomenclatura de etiquetas en forma de árbol, siendo las principales etiquetas las que se meustran a continuación:

1.	**CC** - Conjunciones coordinantes
2.	**CD** - Número cardinal
3.	**DT** - Determinante
4.	**EX** - Existencial (haber)
5.	**FW** - Palabra extranjera
6.	**IN** - Preposiciones o conjunciones subordinantes 
7.	<span style="background-color:blue; color:white; width:100%; padding: 0 10px 0 10px;"> **JJ** - Adjetivo</span>
8.	**JJR** - Adjetivo comparativo
9.	**JJS** - Adjetivo superlativo
10.	**LS** - Marcador de elemento de lista
11.	**MD** - Elemento auxiliar Modal
12.	<span style="background-color:blue; color:white; width:100%; padding: 0 10px 0 10px;"> **NN** - Sustantivo singular o colectivo</span>
13.	**NNS** - Sustantivo plural
14.	**NNP** - Nombre propio, singular
15.	**NNPS** - Nombre propio, plural
16.	**PDT** - Pre Determinante
17.	**POS** - Marcador de genitivo posesivo
18.	**PRP** - Pronombre personal
19.	**PRP\$** - Pronombre posesivo
20.	**RB** - Adverbio
21.	**RBR** - Adverbio comparativo
22.	**RBS** - Adverbio superlativo
23.	**RP** - Participio
24.	**SYM** - Símbolo
25.	**TO** - La palabra "*to*", como preposición o como marcador del infinitivo
26.	**UH** - Interjección
27.	<span style="background-color:blue; color:white; width:100%; padding: 0 10px 0 10px;"> 
**VB** - Verbo, forma base </span>
28.	**VBD** - Verbo, pretérito
29.	**VBG** - Verbo, gerundio
30.	**VBN** - Verbo, pasado participio
31.	**VBP** - Verbo, singular presente, no 3a persona
32.	**VBZ** - Verbo, 3a persona singular presente
33.	**WDT** - Determinante Wh, palabra usada como determinante
34.	**WP** - Pronombre Wh 
35.	**WP\$** - Pronombre Wh  posesivo
36.	**WRB** - Adverbio Wh


### Etiquetado utilizando *NLTK*
A continuación, emplearemos un etiquetador gramatical basado en reglas incluido en el paquete **NLTK** de Python para etiquetar las palabras contenidas en la colección de revisiones de películas.

In [1]:
import numpy as np
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords 
from bs4 import BeautifulSoup

from IPython.display import display

In [2]:
movies_reviews = pd.read_csv("Data sets/Movies Reviews/labeledTrainData.tsv", sep='\t')
movies_reviews.review = list(map(lambda row: re.sub("[^a-zA-Z]", " ", 
                                BeautifulSoup(row, "lxml").get_text().lower()), 
                                 movies_reviews.review))
stops = set(stopwords.words("english"))                  
movies_reviews["words"] = list(map(lambda row: [w for w in row.split() if not w in stops], 
                                   movies_reviews.review))
display(movies_reviews.head())

Unnamed: 0,id,sentiment,review,words
0,5814_8,1,with all this stuff going down at the moment w...,"[stuff, going, moment, mj, started, listening,..."
1,2381_9,1,the classic war of the worlds by timothy hi...,"[classic, war, worlds, timothy, hines, enterta..."
2,7759_3,0,the film starts with a manager nicholas bell ...,"[film, starts, manager, nicholas, bell, giving..."
3,3630_4,0,it must be assumed that those who praised this...,"[must, assumed, praised, film, greatest, filme..."
4,9495_8,1,superbly trashy and wondrously unpretentious ...,"[superbly, trashy, wondrously, unpretentious, ..."


A continuación, realizamos el etiquetado a partir del texto completo, para mantener la posición de las palabras, pero reservamos solamente las palabras que aparecen en nuestro lexicón (que, en este caso, es muy simple, pero que tratándose del lexicón de Comics, aprovecharíamos el trabajo de limpieza ya realizado). Además, eliminamos duplicados *palabra-etiqueta*.

In [3]:
movies_reviews["tagged_words"] = list(map(lambda row, words: list(set([w for w in 
                                                       nltk.pos_tag(nltk.word_tokenize(row))
                                                       if w[0] in words])), 
                                   movies_reviews.review, movies_reviews.words))
display(movies_reviews.head())

Unnamed: 0,id,sentiment,review,words,tagged_words
0,5814_8,1,with all this stuff going down at the moment w...,"[stuff, going, moment, mj, started, listening,...","[(ironically, RB), (jackson, VBP), (different,..."
1,2381_9,1,the classic war of the worlds by timothy hi...,"[classic, war, worlds, timothy, hines, enterta...","[(entertained, VBN), (war, NN), (different, JJ..."
2,7759_3,0,the film starts with a manager nicholas bell ...,"[film, starts, manager, nicholas, bell, giving...","[(middling, VBG), (majority, NN), (rating, NN)..."
3,3630_4,0,it must be assumed that those who praised this...,"[must, assumed, praised, film, greatest, filme...","[(singers, NNS), (imperfections, NNS), (repres..."
4,9495_8,1,superbly trashy and wondrously unpretentious ...,"[superbly, trashy, wondrously, unpretentious, ...","[(rough, IN), (sleazy, JJ), (valuable, JJ), (a..."


Las palabras ya etiquetadas, para una de las revisiones, son:

In [4]:
print(movies_reviews["tagged_words"][0])

[('ironically', 'RB'), ('jackson', 'VBP'), ('different', 'JJ'), ('would', 'MD'), ('mj', 'NN'), ('hope', 'VBP'), ('going', 'VBG'), ('really', 'RB'), ('behind', 'IN'), ('started', 'VBD'), ('complex', 'JJ'), ('doors', 'NNS'), ('may', 'MD'), ('supplying', 'VBG'), ('subject', 'NN'), ('sickest', 'JJ'), ('car', 'NN'), ('egotist', 'NN'), ('consenting', 'VBG'), ('beyond', 'IN'), ('bit', 'NN'), ('give', 'VB'), ('saint', 'NN'), ('call', 'VB'), ('gave', 'VBD'), ('nah', 'VBP'), ('boring', 'VBG'), ('filming', 'VBG'), ('remotely', 'VBP'), ('bunch', 'NN'), ('patience', 'NN'), ('true', 'JJ'), ('part', 'NN'), ('movie', 'NN'), ('alone', 'RB'), ('girl', 'NN'), ('latter', 'NN'), ('pesci', 'NN'), ('level', 'NN'), ('obvious', 'JJ'), ('directors', 'NNS'), ('finally', 'RB'), ('liars', 'NNS'), ('buddy', 'NN'), ('grace', 'VB'), ('documentary', 'NN'), ('certain', 'JJ'), ('truly', 'RB'), ('know', 'VBP'), ('ranted', 'VBD'), ('let', 'VB'), ('innocent', 'JJ'), ('press', 'NN'), ('impressive', 'JJ'), ('turning', 'VBG')

El significado de cada etiqueta puede obtenerse mediante el método `nltk.help.upenn_tagset`:

In [5]:
nltk.help.upenn_tagset('NN')
nn = []
for word in movies_reviews["tagged_words"][0]: 
    if 'NN' in word[1]: 
        nn.append(word[0])
print(nn, "\n")

nltk.help.upenn_tagset('VB')
vbg = []
for word in movies_reviews["tagged_words"][0]: 
    if 'VB' in word[1]: 
        vbg.append(word[0])
print(vbg, "\n")

nltk.help.upenn_tagset('JJ')
jj = []
for word in movies_reviews["tagged_words"][0]: 
    if 'JJ' in word[1]: 
        jj.append(word[0])
print(jj, "\n")

nltk.help.upenn_tagset('RB')
rb = []
for word in movies_reviews["tagged_words"][0]: 
    if 'RB' in word[1]: 
        rb.append(word[0])
print(rb, "\n")


NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...
['mj', 'doors', 'subject', 'car', 'egotist', 'bit', 'saint', 'bunch', 'patience', 'part', 'movie', 'girl', 'latter', 'pesci', 'level', 'directors', 'liars', 'buddy', 'documentary', 'press', 'things', 'message', 'eighties', 'character', 'lots', 'attention', 'robot', 'music', 'director', 'joe', 'fact', 'wiz', 'demon', 'messages', 'michael', 'michael', 'scene', 'guy', 'dance', 'mind', 'lord', 'drug', 'moonwalker', 'minutes', 'people', 'line', 'insight', 'drugs', 'stuff', 'speed', 'making', 'biography', 'cinema', 'sequence', 'kiddy', 'moment', 'plans', 'feeling', 'course', 'film', 'kay', 'fans', 'kid', 'jackson', 'feature', 'planet', 'dunno'] 

VB: verb, base form
    ask assemble assess assign assume atone attention avoid bake balkanize
    bank begin behold believe bend benefit bevel beware b