# Parte del Discurso - Part of Speech

Este lab se enfoca en aplicar el tagging (marcado o etiquetado, en español) Part of Speech
(POS) y de explorar los métodos que ofrece NLTK para asingar POS automáticamente.
Para más prácticas e información sobre este tópico, puede visitar:
http://www.nltk.org/book/ch05.html

## NLTK Environment
El primer paso es importar NLTK y algún corpora.

In [1]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [2]:
from nltk.book import *

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


## Part of Speech tagsets:

Los POS tagger asignan etiquetas a palabras. Los tags son tomados de un tagset. Vimos dos tagsets utilizados en la clase.

- Penn Treebank
- Brown

`nltk.help.upenn_tagset(".*")` Desplegará el Penn Treebank tagset, el cual contiene 45 tags.

In [3]:
nltk.help.upenn_tagset(".*")

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

Se pueden usar expresiones regulares para mostrar un subset de los tags. Por ejemplo, reemplazando `.*` en el comando de arriba con `NN*`, se filtran solo los tags de Nouns (sustantivos). Usando `VB*` se obtienen todas las categorías de verbos.

Cuántas categorías de verbos y sustantivos hay?. Recordar que tienen significados distintos. Escribí todas las categorías de tipo Noun (Sustantivo) y una breve frase describiendo qué es.

In [4]:
nltk.help.upenn_tagset("NN*")


NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...
NNP: noun, proper, singular
    Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
    Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
    Shannon A.K.C. Meltex Liverpool ...
NNPS: noun, proper, plural
    Americans Americas Amharas Amityvilles Amusements Anarcho-Syndicalists
    Andalusians Andes Andruses Angels Animals Anthony Antilles Antiques
    Apache Apaches Apocrypha ...
NNS: noun, common, plural
    undergraduates scotches bric-a-brac products bodyguards facets coasts
    divestitures storehouses designs clubs fragrances averages
    subjectivists apprehensions muses factory-jobs ...


RTA: Existen 4 tipos de sustantivos.

- NN: Sustantivo común - Singular
- NNP: Sustantivo propio - Singular
- NNPS: Sustantivo propio - Plural
- NNS: Sustantivo común - Plural



In [5]:
nltk.help.brown_tagset("NN*")

NN: noun, singular, common
    failure burden court fire appointment awarding compensation Mayor
    interim committee fact effect airport management surveillance jail
    doctor intern extern night weekend duty legislation Tax Office ...
NN$: noun, singular, common, genitive
    season's world's player's night's chapter's golf's football's
    baseball's club's U.'s coach's bride's bridegroom's board's county's
    firm's company's superintendent's mob's Navy's ...
NN+BEZ: noun, singular, common + verb 'to be', present tense, 3rd person singular
    water's camera's sky's kid's Pa's heat's throat's father's money's
    undersecretary's granite's level's wife's fat's Knife's fire's name's
    hell's leg's sun's roulette's cane's guy's kind's baseball's ...
NN+HVD: noun, singular, common + verb 'to have', past tense
    Pa'd
NN+HVZ: noun, singular, common + verb 'to have', present tense, 3rd person singular
    guy's Knife's boat's summer's rain's company's
NN+IN: noun, singular, common

A diferencia de Penn Treebank, Brown contiene mayor cantidad de tags, y se pueden observar mayor cantidad de tipos de Nouns. Por ejemplo, la combinación de Sustantivos con Verb To Be, To Have, auxiliares, etc.

## Explorando el tagged corpora

Las probabilidades de un algoritmo de POS tagging son estimadas con un corpora.
Este corpora fue anotado (etiquetado) a mano por los lingüistas. Para visualizar cómo es un corpora de estos, hace lo siguiente.

In [6]:
from nltk.corpus import treebank

In [7]:
treebank.fileids()[0] # Pongo cero para que no me llene la pantalla de nombres de archivos ;)

'wsj_0001.mrg'

Esto despliega una lista de archivos con extensión `.mrg` que son los archivos anotados del Penn Treebank (NLTK solo contiene el 10% del corpus total de Penn Treebank, el corpus total tiene aproximadamente 1 millón de palabras)

Ahora para ver el archivo junto con los POS tags, se puede usar:


In [8]:
treebank.tagged_words("wsj_0001.mrg")[0:]

[('Pierre', 'NNP'),
 ('Vinken', 'NNP'),
 (',', ','),
 ('61', 'CD'),
 ('years', 'NNS'),
 ('old', 'JJ'),
 (',', ','),
 ('will', 'MD'),
 ('join', 'VB'),
 ('the', 'DT'),
 ('board', 'NN'),
 ('as', 'IN'),
 ('a', 'DT'),
 ('nonexecutive', 'JJ'),
 ('director', 'NN'),
 ('Nov.', 'NNP'),
 ('29', 'CD'),
 ('.', '.'),
 ('Mr.', 'NNP'),
 ('Vinken', 'NNP'),
 ('is', 'VBZ'),
 ('chairman', 'NN'),
 ('of', 'IN'),
 ('Elsevier', 'NNP'),
 ('N.V.', 'NNP'),
 (',', ','),
 ('the', 'DT'),
 ('Dutch', 'NNP'),
 ('publishing', 'VBG'),
 ('group', 'NN'),
 ('.', '.')]

El Penn Treebank está compuesto por noticias financieras del Wall Street Journal publicadas alrededor de 1989. Dado que este archivo es solo el primero ed los archivos anotados, todo el mundo académico que hace research en NLP está familiarizado con este contenido. 

Mirá todas las palabras taggeadas como sustantivos (NN). Basado en las distinciones que observaste en la sección previa, ¿Ves cómo diferentes tipos de tags de sustantivos fueron asignados a la data?

En este caso `[0:]` hace la query en el archivo entero `wsj_0001.mrg`. Para archivos más largos, usa un rango más corto. Trata de ver las primeras 100 palabras de `wsj_0003.mrg`

In [9]:
cien_palabras = treebank.tagged_words("wsj_0003.mrg")[0:100]

for palabra in cien_palabras:
    print(palabra)

('A', 'DT')
('form', 'NN')
('of', 'IN')
('asbestos', 'NN')
('once', 'RB')
('used', 'VBN')
('*', '-NONE-')
('*', '-NONE-')
('to', 'TO')
('make', 'VB')
('Kent', 'NNP')
('cigarette', 'NN')
('filters', 'NNS')
('has', 'VBZ')
('caused', 'VBN')
('a', 'DT')
('high', 'JJ')
('percentage', 'NN')
('of', 'IN')
('cancer', 'NN')
('deaths', 'NNS')
('among', 'IN')
('a', 'DT')
('group', 'NN')
('of', 'IN')
('workers', 'NNS')
('exposed', 'VBN')
('*', '-NONE-')
('to', 'TO')
('it', 'PRP')
('more', 'RBR')
('than', 'IN')
('30', 'CD')
('years', 'NNS')
('ago', 'IN')
(',', ',')
('researchers', 'NNS')
('reported', 'VBD')
('0', '-NONE-')
('*T*-1', '-NONE-')
('.', '.')
('The', 'DT')
('asbestos', 'NN')
('fiber', 'NN')
(',', ',')
('crocidolite', 'NN')
(',', ',')
('is', 'VBZ')
('unusually', 'RB')
('resilient', 'JJ')
('once', 'IN')
('it', 'PRP')
('enters', 'VBZ')
('the', 'DT')
('lungs', 'NNS')
(',', ',')
('with', 'IN')
('even', 'RB')
('brief', 'JJ')
('exposures', 'NNS')
('to', 'TO')
('it', 'PRP')
('causing', 'VBG')
('s

## Contando desde un corpora

A veces nos preguntamos (para entender mejor el texto que estamos procesando, entre otras cosas), si una palabra en particular, aparece más frecuentemente como sustantivo o como verbo. POdemos entonces contar la frecuencia en un corpora para ver los resultados empíricos de nuestra duda.

En este caso vamos a ver si la palabra inglesa `race` (carrera) aparece más veces como verbo o como sustantivo, ya que puede adoptar los dos significados.

En NLTK un par `word-tag` es representado como una tupla `(word, tag)`. Vamos a crear primero dos tuplas correspondiendo a nuestras dos hipótesis:

In [10]:
race1 = nltk.tag.str2tuple('race/NN')
race2 = nltk.tag.str2tuple('race/VB')

Por defecto, NLTK contiene solo ejemplos del corpus Penn Treebank, así que usaremos también el Brown corpus para los estimados.

In [11]:
from nltk.corpus import brown

In [12]:
print("El Brown Corpus tiene un tamaño de {} palabras".format(len(brown.tagged_words())))

El Brown Corpus tiene un tamaño de 1161192 palabras


Ahorá estimá cuán más frecuentemente aparecen estas tuplas en el Brown corpus.

In [13]:
race1_count = brown.tagged_words().count(race1)
race2_count = brown.tagged_words().count(race2)

print('Race aparece {} veces como Noun y {} veces como Verb'.format(race1_count, race2_count))

Race aparece 94 veces como Noun y 4 veces como Verb


Aparece más frecuentemente como Sustantivo que como Verbo, tal cual nos imaginamos.

El POS tagger HMM, usa dos fuentes de información. Una es la probabilidad de una palabra dado un tag particular P($w_{i}$|$t_{i}$). ¿Cuál es la otra fuente de información que te ayuda a taggear una oración?

La secuencia de estados más probables.

## Aplicando POS Tagging a una nueva oración

Estudiamos el algoritmo HMM Viterbi para POS Tagging. NLTK incluye una implementación del HMM tagger así como un par de otros.

El primer tagger que usaremos sería el  `UnigramTagger`. Basado en el nombre, podrías adivinar que va a estar haciendo algo realmente simple y probablemente no se usa en ningún contexto. Así es!. El `UnigramTagger` guarda el tag más frecuente para cada palabra sobre los datos de entrenamiento (training set). Cuando ve que una palabra en una oración, le asignará el tag más frecuente a la misma. Asi que, podemos decir que no tiene en cuenta el contexto.

Primero vamos a entregar un tagger de unigrams usando 5000 oraciones del Brown corpus como training data. Usando el argumento `categories = 'news'` seleccionamos solo los documentos de noticias de la colección diversa que tiene el corpus Brown.

In [14]:
from nltk.corpus import brown

In [15]:
unigram_tagger = nltk.tag.UnigramTagger(brown.tagged_sents(categories = 'news')[:])

Ahora `ungram_tagger` es un objeto que contiene el modelo entrenado. Aplicamos este modelo a nuestra frase de prueba `"The Secretatiat is expected to race tomorrow"`. **PARÁ!** Antes de ejecutar este código. qué tag te parece que le será asignado a la palabra `race` en nuestro modelo?

RTA: Dado que este modelo no tiene en cuenta el contexto y vimos que es más probable que aparezca como Noun que como Verb, entonces creería que aparecerá como Noun

In [16]:
from nltk import word_tokenize
sentence = "The secretariat is expected to race tomorrow"
tokenized_sentece = word_tokenize(sentence)
unigram_tagger.tag(tokenized_sentece)

[('The', 'AT'),
 ('secretariat', None),
 ('is', 'BEZ'),
 ('expected', 'VBN'),
 ('to', 'TO'),
 ('race', 'NN'),
 ('tomorrow', 'NR')]

Ahora vamos a usar HMM Tagger que toma en cuenta el **contexto**.

In [17]:
hmm_tagger = nltk.hmm.HiddenMarkovModelTrainer().train_supervised(brown.tagged_sents(categories = 'news')[:])
hmm_tagger.tag(tokenized_sentece)

[('The', 'AT'),
 ('secretariat', 'AT'),
 ('is', 'AT'),
 ('expected', 'AT'),
 ('to', 'AT'),
 ('race', 'AT'),
 ('tomorrow', 'AT')]

In [18]:
nltk.help.brown_tagset("AT") # Según esto AT es un artículo, no debería dar verb?

AT: article
    the an no a every th' ever' ye


Probá los dos modelos Unigram y HMM para otras sentencias ambiguas que se te ocurran (bank, duck, etc)

In [19]:
def get_tag(sent, word_index):
    tokenized = word_tokenize(sent)
    word, unigram_tag = unigram_tagger.tag(tokenized)[word_index]
    _, hmm_tag = hmm_tagger.tag(tokenized)[word_index]

    print('Según Unigram Tagger, la palabra {} es {} mientras que según HMM es un {}'.format(word, unigram_tag, hmm_tag))


In [20]:
get_tag('Her bank account was rarely over two hundred', 1)
get_tag('She sat on the river bank across from a series of wide, large steps leading up a hill to the park where the Arch stood, framed against a black sky', 5)
get_tag('He slid up right behind her before she could duck into a shop', 9)
get_tag('Among game birds are: wild duck and goose, partridge, francolin, some kinds of dove, and in the steppe the buzzard', 6)

Según Unigram Tagger, la palabra bank es NN mientras que según HMM es un NN
Según Unigram Tagger, la palabra bank es NN mientras que según HMM es un AT
Según Unigram Tagger, la palabra duck es None mientras que según HMM es un AT
Según Unigram Tagger, la palabra duck es None mientras que según HMM es un AT


Ahora hagamos este ejercicio con el NLTK Book. Es posible encontrar títulos de noticias ambiguos como este:
`Juvenile Court to Try Shooting Defendant`

Manualmente taggea este titular:

- `Juvenile` Adjetivo
- `Court` Sustantivo
- `to Try` Verb (También podrían separarse en preposición + verbo)
- `Shooting` Adjetivo
- `Defendant` Sustantivo


In [21]:
hmm_tagger.tag(word_tokenize('Juvenile Court to Try Shooting Defendant'))

[('Juvenile', 'JJ-TL'),
 ('Court', 'NN-TL'),
 ('to', 'IN'),
 ('Try', 'AT'),
 ('Shooting', 'AT'),
 ('Defendant', 'AT')]

In [22]:
nltk.help.brown_tagset("JJ")

JJ: adjective
    ecent over-all possible hard-fought favorable hard meager fit such
    widespread outmoded inadequate ambiguous grand clerical effective
    orderly federal foster general proportionate ...
