# 3. Part of Speech tagsets

### Cuántas categorías de verbos y de sustantivos hay?

In [2]:
import nltk
from nltk.book import *
nltk.help.upenn_tagset("VB*")
nltk.help.upenn_tagset("NN*")

VB: verb, base form
    ask assemble assess assign assume atone attention avoid bake balkanize
    bank begin behold believe bend benefit bevel beware bless boil bomb
    boost brace break bring broil brush build ...
VBD: verb, past tense
    dipped pleaded swiped regummed soaked tidied convened halted registered
    cushioned exacted snubbed strode aimed adopted belied figgered
    speculated wore appreciated contemplated ...
VBG: verb, present participle or gerund
    telegraphing stirring focusing angering judging stalling lactating
    hankerin' alleging veering capping approaching traveling besieging
    encrypting interrupting erasing wincing ...
VBN: verb, past participle
    multihulled dilapidated aerosolized chaired languished panelized used
    experimented flourished imitated reunifed factored condensed sheared
    unsettled primed dubbed desired ...
VBP: verb, present tense, not 3rd person singular
    predominate wrap resort sue twist spill cure lengthen brush terminate
 

**En el Penn Treebank tagset existen 6 categorias para verbos y 4 para sustantivos**

### Escribí todas las categorías de tipo Noun (sustantivo) y una breve frase describiendo qué es

- NN: sustantivo comun singular
- NNS: sustantivo comun plural
- NNP: sustantivo propio singular
- NNPS: sustantivo propio plural

### Repetí este ejercicio con el tagset de “Brown” que tiene 87 tags.

In [5]:
nltk.help.brown_tagset("NN*")

NN: noun, singular, common
    failure burden court fire appointment awarding compensation Mayor
    interim committee fact effect airport management surveillance jail
    doctor intern extern night weekend duty legislation Tax Office ...
NN$: noun, singular, common, genitive
    season's world's player's night's chapter's golf's football's
    baseball's club's U.'s coach's bride's bridegroom's board's county's
    firm's company's superintendent's mob's Navy's ...
NN+BEZ: noun, singular, common + verb 'to be', present tense, 3rd person singular
    water's camera's sky's kid's Pa's heat's throat's father's money's
    undersecretary's granite's level's wife's fat's Knife's fire's name's
    hell's leg's sun's roulette's cane's guy's kind's baseball's ...
NN+HVD: noun, singular, common + verb 'to have', past tense
    Pa'd
NN+HVZ: noun, singular, common + verb 'to have', present tense, 3rd person singular
    guy's Knife's boat's summer's rain's company's
NN+IN: noun, singular, common

**El Brown tagset posee los tags del Penn Treebank tagset en cuanto a sustantivos se refiere, pero le adiciona tags que matchean con palabras derivadas de aquellos tags base. Ofrece una mayor granularidad**

# 4. Explorando el tagged corpora

### Sustantivos taggeados del Penn Treebank tagset

In [56]:
from nltk.corpus import treebank
import re
tagged_words = treebank.tagged_words("wsj_0001.mrg")[0:]
tagged_nouns = [(word, tag) for (word, tag) in tagged_words if re.search("NN", tag)]

In [57]:
tagged_nouns

[('Pierre', 'NNP'),
 ('Vinken', 'NNP'),
 ('years', 'NNS'),
 ('board', 'NN'),
 ('director', 'NN'),
 ('Nov.', 'NNP'),
 ('Mr.', 'NNP'),
 ('Vinken', 'NNP'),
 ('chairman', 'NN'),
 ('Elsevier', 'NNP'),
 ('N.V.', 'NNP'),
 ('Dutch', 'NNP'),
 ('group', 'NN')]

# 5. Contando desde un corpora

### Cuál es el tamaño del Brown corpus?

In [79]:
from nltk.corpus import brown
tam_brown = len(brown.tagged_words())

In [80]:
tam_brown

1161192

### Cuál es el uso más frecuente [de la palabra "race"], como verbo o como sustantivo en el Brown corpus?

In [81]:
race1 = nltk.tag.str2tuple("race/NN")
race2 = nltk.tag.str2tuple("race/VB")
frec_race1 = brown.tagged_words().count(race1)
frec_race2 = brown.tagged_words().count(race2)

In [82]:
print("Frecuencia de 'race' como sustantivo:", frec_race1)
print("Frecuencia de 'race' como verbo:", frec_race2)

Frecuencia de 'race' como sustantivo: 94
Frecuencia de 'race' como verbo: 4


### El POS tagger HMM que se detalla en las diapositivas de la clase, usa dos fuentes de información. Una es la probabilidad de una palabra dado un tag particular, p(wi|ti). Cuál es la otra fuente de información que te ayuda a tagear una oración?

La otra fuente de informacion es la probabilidad de un tag dado el anterior: **P( ti | t(i-1) )**

# 6. Aplicando POS tagging a una nueva oración

### Qué tag le asigna UnigramTagger a la palabra “race”?

In [97]:
unigram_tagger = nltk.tag.UnigramTagger(brown.tagged_sents(categories="news")[:5000])
from nltk import word_tokenize
sent = "The Secretariat is expected to race tomorrow."
tokenized_sent = word_tokenize(sent)
unigram_tagger.tag(tokenized_sent)

[('The', 'AT'),
 ('Secretariat', 'NN-TL'),
 ('is', 'BEZ'),
 ('expected', 'VBN'),
 ('to', 'TO'),
 ('race', 'NN'),
 ('tomorrow', 'NR'),
 ('.', '.')]

**Sustantivo**, ya que **no** toma en cuenta el contexto

### Qué tag le asigna HMM a la palabra “race”?

In [99]:
hmm_tagger = nltk.hmm.HiddenMarkovModelTrainer().train_supervised(brown.tagged_sents(categories="news")[:5000])
hmm_tagger.tag(tokenized_sent)

[('The', 'AT'),
 ('Secretariat', 'NN-TL'),
 ('is', 'BEZ'),
 ('expected', 'VBN'),
 ('to', 'TO'),
 ('race', 'VB'),
 ('tomorrow', 'NR'),
 ('.', '.')]

**Verbo**, ya que **si** toma en cuenta el contexto

### Probá los dos modelos Unigram y HMM para otras sentencias ambiguas que se te ocurran (por ejemplo bank, duck, etc!)

In [113]:
sent1 = "I'll wait for your call."
sent2 = "I put the suit in the closet."
tokenized_sent1 = word_tokenize(sent1)
tokenized_sent2 = word_tokenize(sent2)

'call' en este caso es un sustantivo, pero en otro contexto podria ser un verbo (llamar)

In [114]:
unigram_tagger.tag(tokenized_sent1)

[('I', 'PPSS'),
 ("'ll", None),
 ('wait', 'VB'),
 ('for', 'IN'),
 ('your', 'PP$'),
 ('call', 'VB'),
 ('.', '.')]

In [115]:
hmm_tagger.tag(tokenized_sent1)

[('I', 'NN'),
 ("'ll", 'AT'),
 ('wait', 'AT'),
 ('for', 'AT'),
 ('your', 'AT'),
 ('call', 'AT'),
 ('.', 'AT')]

UnigramTagger falla y lo toma como una accion (verbo)

'suit' en este caso es un sustantivo, pero en otro contexto podria ser un verbo (adaptar). Por otro lado, 'closet' tambien es un sustantivo, pero en otro contexto podria ser un verbo (encerrarse)

In [116]:
unigram_tagger.tag(tokenized_sent2)

[('I', 'PPSS'),
 ('put', 'VBD'),
 ('the', 'AT'),
 ('suit', 'NN'),
 ('in', 'IN'),
 ('the', 'AT'),
 ('closet', None),
 ('.', '.')]

In [117]:
hmm_tagger.tag(tokenized_sent2)

[('I', 'PPSS'),
 ('put', 'VBD'),
 ('the', 'AT'),
 ('suit', 'NN'),
 ('in', 'IN'),
 ('the', 'AT'),
 ('closet', 'AT'),
 ('.', 'AT')]

UnigramTagger no falla porque es mas frecuente encontrar suit refiriendose a un armario que a la accion de adaptar

### Manualmente (a mano) taggea este titular [“Juvenile Court to Try Shooting Defendant”] para ver si tu conocimiento del Part of speech tagging remueve la ambigüedad

- Juvenile: JJ (adjetivo)
- Court: NN (sustantivo)
- to: IN (preposicion)
- Try: VB (verbo)
- Shooting: VB (verbo)
- Defendant: NN (sustantivo)

### Ahora corré el HMM tagger en esta oración, te dio los mismos tags?

In [123]:
sent = "Juvenile Court to Try Shooting Defendant"
tokenized_sent = word_tokenize(sent)
hmm_tagger.tag(tokenized_sent)

[('Juvenile', 'JJ-TL'),
 ('Court', 'NN-TL'),
 ('to', 'IN'),
 ('Try', 'AT'),
 ('Shooting', 'AT'),
 ('Defendant', 'AT')]

**A partir de try no coincide porque HMM los toma como articulos**