# Morphosyntax

In [None]:
import nltk

Download corpora:
- mac_morpho
- floresta

In [None]:
nltk.download('floresta')
nltk.download('mac_morpho')

In [None]:
from nltk.corpus import mac_morpho, floresta

# Mac_morpho

In [None]:
tagged_sentences = []

for sentence in mac_morpho.tagged_sents():
    tagged_sentences.append(sentence)
print(len(tagged_sentences))

# Floresta

In [None]:
tagged_sentences = []
def simplify_tag_floresta(t):
    if "+" in t:
        return t[t.index("+")+1:].upper()
    else:
        return t.upper()

for sentence in floresta.tagged_sents():
    sentence = [(text, simplify_tag_floresta(tag)) for text, tag in sentence]
    tagged_sentences.append(sentence)
print(len(tagged_sentences))

In [None]:
from collections import Counter

all_tags = []
for sent in tagged_sentences:
    for w, t in sent:
        all_tags.append(t)

tagset_freq = Counter(all_tags)
tagset_freq

# Training a tagger

In [None]:
#caso use a concatenacao do mac_morpho e do floresta sera necessario o embaralhamento dos dados 
#so apos isso realizar o cutoff.

#divide a quantidade total de dados para trabalho
cutoff = int(.80 * len(tagged_sentences))
#quatidade para treino 80% dos dados
training_sentences = tagged_sentences[:cutoff]
#quatidade para teste 20% dos dados
test_sentences = tagged_sentences[cutoff:]

print(len(training_sentences))
print(len(test_sentences))

# Always a noun

In [None]:
#taggea todo o texto como 'N', utilizado para criar um base_line
#base_line = diz que esta é o pior caso que vc consegue taggear, ou seja, seu modelo deve ser melhor que este
tagger_default = nltk.DefaultTagger('N')
tagger_default.evaluate(test_sentences)

# Most frequent tag

In [None]:
#taggeamento em nivel de unigrama, ou seja, olha apenas para a palavra atual e define o tag da palavra
#como o tag mais utilizado pelo programa

#backoff = comeca do tagger anterior
#utiliza as sentencas de treino para treinar o algoritmo
unigram_tagger = nltk.UnigramTagger(training_sentences, verbose=True, backoff=tagger_default)
#utiliza as sentencas de teste para analisar o resultado
unigram_tagger.evaluate(test_sentences)

# Bigram tagger

In [None]:
#semelhamente ao unigrama, porem olhando para o tag da palavra anterior(atual-1, atual) e depois para a 
#posterior(atual, atual+1) para atribuir o tag a para a palavra atual
bigram_tagger = nltk.BigramTagger(training_sentences, verbose=True, backoff=unigram_tagger)
bigram_tagger.evaluate(test_sentences)

# Trigram tagger

In [None]:
#semelhamente ao unigrama, porem olhando para o tag da janela de tres(atual-1, atual, atual+1) palavras para atribuir
#o tag a para a palavra atual
trigram_tagger = nltk.TrigramTagger(training_sentences, verbose=True, backoff=bigram_tagger)
trigram_tagger.evaluate(test_sentences)

# Tagging

In [None]:
#aconselhavel passar um "descontrator" no texto para que tenha um melhor resultado
#ex.: do = de + o
sentence = "Dê mais atenção ao que você tem de bom na sua vida".split()
print("Default")
tagged_sentence = tagger_default.tag(sentence)
print(tagged_sentence)
print("Unigram")
tagged_sentence = unigram_tagger.tag(sentence)
print(tagged_sentence)
print("Bigram")
tagged_sentence = bigram_tagger.tag(sentence)
print(tagged_sentence)
print("Trigram")
tagged_sentence = trigram_tagger.tag(sentence)
print(tagged_sentence)

In [None]:
import pickle

In [None]:
with open('bigram_tagger.pickle', 'wb') as p_file:
    p_file.write(pickle.dumps(bigram_tagger))

# Other corpus
http://www.nilc.icmc.usp.br/nilc/download/corpus100.txt

# Other taggers

In [None]:
import spacy

In [None]:
import subprocess
command = "python -m spacy download pt_core_news_sm".split()
subprocess.call(command)

In [None]:
nlp = spacy.load('pt_core_news_sm')
sentence = "O rato comeu a roupa do rei de roma"
doc = nlp(sentence)
for token in doc:
    print(token.text, token.pos_, token.tag_, token.lang_)

In [None]:
import nlpnet

Download model from http://nilc.icmc.usp.br/nlpnet/data/pos-pt.tgz

In [None]:
nlpnet.set_data_dir('pos-pt/')
sentence = "O rato comeu a roupa do rei de roma"
tagger = nlpnet.POSTagger()
tagger.tag(sentence)