**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 


# Etiquetado Morfosintáctico - POS Tagging

Implementación de un etiquetador morfosintáctico (PoS tagging) utilizando **Natural Language Toolkit (NLTK)**. 


## Etiquetado morfosintáctico

NLTK implementa un **etiquetado morfosintáctico (PoS tagger)** para identificar las partes de la oración (categorías gramaticales) de una oración en inglés. Este etiquetador utiliza las etiquetas descritas en el Penn Treebank y como salida los tokens etiquedos se representan como tuplas (token, tag). 

Código fuente disponible en: https://www.nltk.org/_modules/nltk/tag.html 

Información sobre el conjunto de etiquetas Penn Treebank: M. Marcus, Beatrice Santorini and M.A. Marcinkiewicz: Building a large annotated corpus of English: The Penn Treebank. In Computational Linguistics, volume 19, number 2, pp.313-330.

In [1]:
import nltk
from nltk import word_tokenize

In [2]:
text = word_tokenize("They refuse to permit us to obtain the permit") 

In [3]:
nltk.pos_tag(text)

[('They', 'PRP'),
 ('refuse', 'VBP'),
 ('to', 'TO'),
 ('permit', 'VB'),
 ('us', 'PRP'),
 ('to', 'TO'),
 ('obtain', 'VB'),
 ('the', 'DT'),
 ('permit', 'NN')]

Es posible elegir el **conjunto de etiquetas** que utiliza el etiquetador morfosintático.

In [4]:
nltk.pos_tag(text, tagset='universal')

[('They', 'PRON'),
 ('refuse', 'VERB'),
 ('to', 'PRT'),
 ('permit', 'VERB'),
 ('us', 'PRON'),
 ('to', 'PRT'),
 ('obtain', 'VERB'),
 ('the', 'DET'),
 ('permit', 'NOUN')]

## Corpus etiquetados con información morfosintáctica

NLTK proporciona acceso a varios corpus.

Información sobre los corpus: http://www.nltk.org/nltk_data/

Información sobre el acceso a los corpus: http://www.nltk.org/howto/corpus.html

###  Penn Treebank - Wall Street Journal Corpus

Fragmento del Penn Treebank, un corpus de artículos del Wall Street Journal. Concretamente esta parte del corpus está formada por 1650 frases (contenidas en 99 archivos wsj_0001 .. wsj_0099).

El corpus contiene diferentes tipos de datos, entre ellos: textos sin etiquetar (raw) y textos etiquetados (tagged). 

Un ejemplo, se muestra a continuación: 

----raw---- 

Pierre Vinken, 61 years old, will join the board as a nonexecutive director Nov. 29. 

----tagged----

[ Pierre/NNP Vinken/NNP ]

,/, 

 [ 61/CD years/NNS ]

old/JJ ,/, will/MD join/VB 

[ the/DT board/NN ]

as/IN 

[ a/DT nonexecutive/JJ director/NN Nov./NNP 29/CD ]

./. 

In [5]:
from nltk.corpus import treebank

Obtener el **corpus sin etiquetar**

In [6]:
treebank.words()

['Pierre', 'Vinken', ',', '61', 'years', 'old', ',', ...]

Obtener el **corpus etiquetado**

In [7]:
treebank.tagged_words()

[('Pierre', 'NNP'), ('Vinken', 'NNP'), (',', ','), ...]

Es posible visualizar los datos del corpus etiquetado utilizando **otro tipo de etiquetas**:

In [8]:
treebank.tagged_words(tagset='universal')

[('Pierre', 'NOUN'), ('Vinken', 'NOUN'), (',', '.'), ...]

###  Corpus de Brown

Corpus en inglés que contiene 1.014.312 palabras de textos en prosa publicados en 1961.

Más información sobre el Corpus de Brown: http://korpus.uib.no/icame/brown/bcm.html

In [9]:
from nltk.corpus import brown

In [10]:
brown_news_tagged = brown.tagged_words(categories='news', tagset='universal')

In [11]:
brown.tagged_words()

[('The', 'AT'), ('Fulton', 'NP-TL'), ...]

Obtener las **etiquetas más repetidas** en el Corpus de Brown:

In [12]:
tag_fd = nltk.FreqDist(tag for (word, tag) in brown_news_tagged)
tag_fd.most_common()

[('NOUN', 30654),
 ('VERB', 14399),
 ('ADP', 12355),
 ('.', 11928),
 ('DET', 11389),
 ('ADJ', 6706),
 ('ADV', 3349),
 ('CONJ', 2717),
 ('PRON', 2535),
 ('PRT', 2264),
 ('NUM', 2166),
 ('X', 92)]

Obtener las **etiquetas más repetidas** en el Corpus de Brown para el caso de las etiquetas originales (Penn Treebank):

In [13]:
tag_fd1 = nltk.FreqDist(tag for (word, tag) in brown.tagged_words(categories='news'))
tag_fd1.most_common()

[('NN', 13162),
 ('IN', 10616),
 ('AT', 8893),
 ('NP', 6866),
 (',', 5133),
 ('NNS', 5066),
 ('.', 4452),
 ('JJ', 4392),
 ('CC', 2664),
 ('VBD', 2524),
 ('NN-TL', 2486),
 ('VB', 2440),
 ('VBN', 2269),
 ('RB', 2166),
 ('CD', 2020),
 ('CS', 1509),
 ('VBG', 1398),
 ('TO', 1237),
 ('PPS', 1056),
 ('PP$', 1051),
 ('MD', 1031),
 ('AP', 923),
 ('NP-TL', 741),
 ('``', 732),
 ('BEZ', 730),
 ('BEDZ', 716),
 ("''", 702),
 ('JJ-TL', 689),
 ('PPSS', 602),
 ('DT', 589),
 ('BE', 525),
 ('VBZ', 519),
 ('NR', 495),
 ('RP', 482),
 ('QL', 468),
 ('PPO', 412),
 ('WPS', 395),
 ('NNS-TL', 344),
 ('WDT', 343),
 ('BER', 328),
 ('WRB', 328),
 ('OD', 309),
 ('HVZ', 301),
 ('--', 300),
 ('NP$', 279),
 ('HV', 265),
 ('HVD', 262),
 ('*', 256),
 ('BED', 252),
 ('NPS', 215),
 ('BEN', 212),
 ('NN$', 210),
 ('DTI', 205),
 ('NP-HL', 186),
 ('ABN', 183),
 ('NN-HL', 171),
 ('IN-TL', 164),
 ('EX', 161),
 (')', 151),
 ('(', 148),
 ('JJR', 145),
 (':', 137),
 ('DTS', 136),
 ('JJT', 100),
 ('CD-TL', 96),
 ('NNS-HL', 92),
 ('

## Entrenar un etiquetador con un corpus etiquetado

Un corpus etiquetado se puede usar para **entrenar un etiquetador morfosintáctico**.


### Unigram Tagger

El **unigram tagger** etiqueta cada palabra verificando cuál fue la etiqueta más frecuente para esa palabra en el corpus de entrenamiento.

In [14]:
from nltk.tag import UnigramTagger

In [15]:
brown_tagged_sents = brown.tagged_sents()
size = int(len(brown_tagged_sents) * 0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]

In [16]:
tagger = UnigramTagger(train_sents)

In [17]:
sent = ['Mitchell', 'decried', 'the', 'high', 'rate', 'of', 'unemployment']

In [18]:
tagger.tag(sent)

[('Mitchell', 'NP'),
 ('decried', 'VBD'),
 ('the', 'AT'),
 ('high', 'JJ'),
 ('rate', 'NN'),
 ('of', 'IN'),
 ('unemployment', 'NN')]

In [19]:
tagger.evaluate(test_sents)

0.8849353534083527

### Ngram Tagger

El **bigram tagger** etiqueta una palabra considerando la etiqueta de la palabra anterior y la palabra a etiquetar. 

In [20]:
from nltk.tag import BigramTagger

In [21]:
bigram_tagger = nltk.BigramTagger(train_sents)

In [22]:
bigram_tagger.tag(sent)

[('Mitchell', 'NP'),
 ('decried', 'VBD'),
 ('the', 'AT'),
 ('high', 'JJ'),
 ('rate', 'NN'),
 ('of', 'IN'),
 ('unemployment', 'NN')]

In [23]:
bigram_tagger.evaluate(test_sents)

0.3515747783994468

## Etiquetado morfosintáctico en español

### CESS-ESP Treebank

M. Antonia Martí, MarionaTaulé, Lluís Márquez, Manuel Bertran (2007), CESS-ECE: A Multilingual and Multilevel Annotated Corpus. 

In [24]:
from nltk.corpus import cess_esp

In [25]:
cess_words = cess_esp.words()

In [26]:
cess_words

['El', 'grupo', 'estatal', 'Electricité_de_France', ...]

In [27]:
cess_sents = cess_esp.tagged_sents()

In [28]:
cess_sents

[[('El', 'da0ms0'), ('grupo', 'ncms000'), ('estatal', 'aq0cs0'), ('Electricité_de_France', 'np00000'), ('-Fpa-', 'Fpa'), ('EDF', 'np00000'), ('-Fpt-', 'Fpt'), ('anunció', 'vmis3s0'), ('hoy', 'rg'), (',', 'Fc'), ('jueves', 'W'), (',', 'Fc'), ('la', 'da0fs0'), ('compra', 'ncfs000'), ('del', 'spcms'), ('51_por_ciento', 'Zp'), ('de', 'sps00'), ('la', 'da0fs0'), ('empresa', 'ncfs000'), ('mexicana', 'aq0fs0'), ('Electricidad_Águila_de_Altamira', 'np00000'), ('-Fpa-', 'Fpa'), ('EAA', 'np00000'), ('-Fpt-', 'Fpt'), (',', 'Fc'), ('creada', 'aq0fsp'), ('por', 'sps00'), ('el', 'da0ms0'), ('japonés', 'aq0ms0'), ('Mitsubishi_Corporation', 'np00000'), ('para', 'sps00'), ('poner_en_marcha', 'vmn0000'), ('una', 'di0fs0'), ('central', 'ncfs000'), ('de', 'sps00'), ('gas', 'ncms000'), ('de', 'sps00'), ('495', 'Z'), ('megavatios', 'ncmp000'), ('.', 'Fp')], [('Una', 'di0fs0'), ('portavoz', 'nccs000'), ('de', 'sps00'), ('EDF', 'np00000'), ('explicó', 'vmis3s0'), ('a', 'sps00'), ('EFE', 'np00000'), ('que', 'c

In [29]:
bi_tag = BigramTagger(cess_sents)

In [30]:
bi_tag.tag(word_tokenize("La casa tiene una ventana."))

[('La', 'da0fs0'),
 ('casa', 'ncfs000'),
 ('tiene', 'vmip3s0'),
 ('una', 'di0fs0'),
 ('ventana', 'ncfs000'),
 ('.', 'Fp')]

In [65]:
bi_tag.tag(word_tokenize("Las casas tienen muchas ventanas."))

[('Las', 'da0fp0'),
 ('casas', 'ncfp000'),
 ('tienen', 'vmip3p0'),
 ('muchas', 'di0fp0'),
 ('ventanas', None),
 ('.', None)]