# Etiquetamento Morfológico com NLTK
Como as palavras variam de classe gramatical dependendo do contexto em que estão inseridas, vamos trabalhar com dados (etiquetados) em nível de sentença ao invés de palavras. Começaremos por carregar os dados que usaremos:

In [10]:
#Importa a biblioteca
import nltk.corpus
nltk.download('mac_morpho')
from nltk.corpus import mac_morpho
#Carrega as sentença rotuladas do Corpus
sentencas_etiquetadas = mac_morpho.tagged_sents()
print (sentencas_etiquetadas)


[[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')], [('Programe', 'V'), ('sua', 'PROADJ'), ('viagem', 'N'), ('a', 'PREP|+'), ('a', 'ART'), ('Exposição', 'NPROP'), ('Nacional', 'NPROP'), ('do', 'NPROP'), ('Zebu', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('começa', 'V'), ('dia', 'N'), ('25', 'N|AP')], ...]


[nltk_data] Downloading package mac_morpho to
[nltk_data]     C:\Users\Leonardo\AppData\Roaming\nltk_data...
[nltk_data]   Package mac_morpho is already up-to-date!


A etiquetagem mais simples é associar a mesma tag para cada token. Isso pode parecer um passo insignificante mas estabelece uma baseline importante para o desempenho do tagger. A fim de conseguir o melhor resultado, etiquetamos cada palavra com a tag mais provável/frequente usando o comando:

In [11]:
tags = [tag for (word, tag) in mac_morpho.tagged_words()]
nltk.FreqDist(tags).max()


'N'

In [17]:
print(tags[:500])

['N', 'V', 'N', 'PREP', 'CUR', 'NUM', 'N', 'PREP|+', 'ART', 'N', 'PREP|+', 'ART', 'NPROP', 'PREP', 'NPROP', 'NPROP', 'V', 'PROADJ', 'N', 'PREP|+', 'ART', 'NPROP', 'NPROP', 'NPROP', 'NPROP', ',', 'PRO-KS-REL', 'V', 'N', 'N|AP', 'N', 'ADJ', 'KC', 'N', 'PREP', 'N', 'V', 'N', 'PREP', 'N', 'ADJ', 'ART', 'N', 'PREP|+', 'ART', 'N', 'PREP|+', 'ART', 'ADJ', 'N', 'PREP|+', 'ART', 'N', 'V', 'PREP|+', 'ART', 'ART', 'N', 'V', 'ADJ', 'ART', 'N', 'PREP', 'NUM', 'NUM', 'N', 'PREP|+', 'ART', 'N', 'PREP|+', 'ART', 'N', 'N|AP', ',', 'NPROP', 'NPROP', 'NPROP', 'NPROP', 'NPROP', ',', 'ART', 'ADJ', 'N', 'PREP', 'V', 'VAUX', 'V', 'ART', 'NPROP', 'NPROP', 'NPROP', 'NPROP', 'ART', 'N', 'ADJ', 'PREP', 'N', 'PREP', 'N', 'V', ',', 'PREP', 'N', 'ADJ', ',', 'NUM', 'N', ',', 'N', 'NUM', 'N', 'ADJ', 'PREP|+', 'ART', 'N', 'PREP', 'N', 'PREP', 'N', ',', 'PREP', 'N', 'PREP|+', 'ART', 'NPROP', 'NPROP', 'NPROP', 'NPROP', 'NPROP', 'NPROP', 'NPROP', 'NPROP', '(', 'NPROP', ')', 'ART', 'NPROP', 'V', 'PREP', 'PROADJ', 'N', 'AD

Agora podemos criar um tagger que etiqueta qualquer coisa com N, considerando que a classe de substantivo é a mais frequente.

In [20]:
sentence = """Estou bem, mas não tenho certeza
... se viajarei amanhã às 8:30."""
tokens = nltk.word_tokenize(sentence)
etiqPadrao = nltk.tag.DefaultTagger('N')
etiqPadrao.tag(tokens)


[('Estou', 'N'),
 ('bem', 'N'),
 (',', 'N'),
 ('mas', 'N'),
 ('não', 'N'),
 ('tenho', 'N'),
 ('certeza', 'N'),
 ('se', 'N'),
 ('viajarei', 'N'),
 ('amanhã', 'N'),
 ('às', 'N'),
 ('8:30', 'N'),
 ('.', 'N')]

 O tagger padrão atribui sua tag a cada palavra, até mesmo palavras que nunca foram encontradas antes. Como na língua portuguesa a maioria das novas palavras são substantivos, o tagger padrão pode ajudar a melhor a robustez do sistema de processamento da linguagem.


# N-Gram Tagging
O unigram tagger é baseado em um simples algoritmo estatístico no qual para cada token é atribuído uma tag que seja a mais provável para aquele token em particular. Por exemplo, ele vai atribuir a tag N a qualquer ocorrência da palavra Piauí, desde que Piauí seja mais usada como um substantivo do que ser usado como um verbo. Um unigram tagger comporta-se apenas como um tagger de pesquisa, exceto que há uma técnica mais conveniente para configurá-lo, chamada treinamento. No exemplo de código a seguir, nós treinamos um unigram tagger, usando-o para etiquetar uma sentença.


In [23]:
tagged_sents = nltk.corpus.mac_morpho.tagged_sents()
texto = 'manhã está ensolarada'
tokens = nltk.word_tokenize(texto)
unigram_tagger = nltk.tag.UnigramTagger(tagged_sents)
unigram_tagger.tag(tokens)


[('manhã', 'N'), ('está', 'V'), ('ensolarada', 'ADJ')]

Por convenção do NLTK, um token etiquetado é representado por uma tupla consistindo do token e da etiqueta. Aqui nos vemos que A é ART, um artigo; manhã é N, um substantivo; está é V, um verbo (estar); e ensolarada é ADJ, um adjetivo.
Quando realizamos uma tarefa de processamento de linguagem baseada em unigramas, estamos usando apenas um item do contexto. Nos casos de etiquetagem, consideramos apenas o token corrente, isolado de qualquer contexto maior. Dado esse modelo, o melhor que podemos fazer é marcar cada palavra com a sua tag a priori mais provável. Isso significa que podemos etiquetar um token erroneamente, por exemplo, ao atribuir a palavra cedo como advérbio independentemente se ela aparece em um contexto como verbo.
Um n-gram tagger é uma generalização de um unigram tagger cujo contexto é a palavra corrente em conjunto com os n-1 tokens precedentes, portanto o n-gram tagger seleciona a tag que é mais provável no contexto dado. A classe n-gram tagger usa um Córpus de treinamento etiquetado para determinar qual tag da parte do discurso é mais provável para cada contexto. 
Aqui vemos casos especiais de n-gram tagger, ou seja, bigram tagger e trigram tagger. Primeiramente os treinamos:


In [26]:
import nltk
tagged_sents = nltk.corpus.mac_morpho.tagged_sents()
t0 = nltk.DefaultTagger('N')
t1 = nltk.UnigramTagger(tagged_sents, backoff=t0)
t2 = nltk.BigramTagger(tagged_sents, backoff=t1)
t3 = nltk.TrigramTagger(tagged_sents, backoff=t2)



In [33]:
t1.tag(tokens)

[('manhã', 'N'), ('está', 'V'), ('ensolarada', 'ADJ')]

In [34]:
t2.tag(tokens)

[('manhã', 'N'), ('está', 'V'), ('ensolarada', 'ADJ')]

Observe que estamos combinando vários taggers para aumentar a cobertura e precisão do modelo usando o algoritmo backoff. Note também que especificamos o backoff tagger quando o etiquetador é inicializado de modo que o treinamento pode tirar proveito dele. Assim, se o bigram tagger atribuir a mesma tag tal como unigram tagger em um determinado contexto, o bigram tagger descarta a instância de treinamento, isso mantém o modelo bigram tagger o menor possível, a mesma relação também ocorre entre o trigram tagger e o bigram tagger.

# Salvando um tagger
O treinamento de um etiquetador em um Corpus grande pode tomar um tempo significativo, então é mais conveniente salvar um modelo treinado em um arquivo para mais tarde usa-lo. Vamos salvar nosso tagger para o arquivo mac_morpho.pkl.


In [30]:
from pickle import dump
output = open('mac_morpho.pkl', 'wb')
dump(t3, output, -1)
output.close()


# Carregando um tagger treinado
Agora nos podemos carregar um modelo treinado usando:


In [32]:
from pickle import load
input = open('mac_morpho.pkl', 'rb')
tagger = load(input)
input.close()


In [35]:
tagger.tag(tokens)

[('manhã', 'N'), ('está', 'V'), ('ensolarada', 'ADJ')]