# Morphosyntax

In [None]:
import nltk

Download corpora:
- Macmorpho
- Floresta

In [None]:
nltk.download("mac_morpho")
nltk.download("floresta")

In [None]:
from nltk.corpus import mac_morpho, floresta

# Mac_morpho

In [None]:
tagged_sentences = []

for sentence in mac_morpho.tagged_sents():
    tagged_sentences.append(sentence)
print(len(tagged_sentences))


In [None]:
mac_morpho.tagged_sents()[:20]

# Floresta

In [None]:
tagged_sentences_f = []
def simplify_tag_floresta(t):
    if "+" in t:
        return t[t.index("+")+1:].upper()
    else:
        return t.upper()

for sentence in floresta.tagged_sents():
    sentence = [(text, simplify_tag_floresta(tag)) for text, tag in sentence]
    tagged_sentences_f.append(sentence)
print(len(tagged_sentences_f))

In [None]:
floresta.tagged_sents()[:10]

In [None]:
from collections import Counter

all_tags = []
for sent in tagged_sentences:
    for w, t in sent:
        all_tags.append(t)

tagset_freq = Counter(all_tags)
tagset_freq

# Training a tagger

In [None]:
cutoff = int(.80 * len(tagged_sentences))
#Se a quantidade de dados for muito grande, não é necessário separar tantas instâncias para teste

training_sentences = tagged_sentences[:cutoff]
test_sentences = tagged_sentences[cutoff:]
 
print(len(training_sentences))
print(len(test_sentences))



# Always a noun

In [None]:
#Treinamento para definir o base line - etiquetar todas as palavras como substantivo
tagger_default = nltk.DefaultTagger('N')
tagger_default.evaluate(test_sentences)

# Most frequent tag

In [None]:
#Um usando as tags obtidas baseado na maior frequência
unigram_tagger = nltk.UnigramTagger(training_sentences, verbose=True, backoff=tagger_default)
unigram_tagger.evaluate(test_sentences)

# Bigram tagger

In [None]:
#Considerando uma janela de contexto com uma palavra antes e depois
bigram_tagger = nltk.BigramTagger(training_sentences, verbose=True, backoff=unigram_tagger)
bigram_tagger.evaluate(test_sentences)

# Trigram tagger

In [None]:
#Tentativa de melhora frustrada, o caminho não é por aqui(aumentar o contexto não melhora o resultado)
trigram_tagger = nltk.TrigramTagger(training_sentences, verbose=True, backoff=bigram_tagger)
trigram_tagger.evaluate(test_sentences)

# Tagging

In [None]:
sentence = "Qualquer tecnologia suficientemente avançada é indistinguível de mágica.".split()
print("Default")
tagged_sentence = tagger_default.tag(sentence)
print(tagged_sentence)
print("Unigram")
tagged_sentence = unigram_tagger.tag(sentence)
print(tagged_sentence)
print("Bigram")
tagged_sentence = bigram_tagger.tag(sentence)
print(tagged_sentence)
print("Trigram")
tagged_sentence = trigram_tagger.tag(sentence)
print(tagged_sentence)

In [None]:
import pickle

# Other corpus
http://www.nilc.icmc.usp.br/nilc/download/corpus100.txt

# Other taggers

In [1]:
import spacy

In [None]:
import subprocess
command = "python3 -m spacy download pt_core_news_sm".split()
subprocess.call(command)

In [2]:
#Desinstalar o urllib3 e instalar o spacy para corrigir o erro
nlp = spacy.load('pt_core_news_sm')
sentence = "O rato comeu a roupa do rei de roma"
doc = nlp(sentence)
for token in doc:
    print(token.text, token.pos_, token.tag_)

O DET <artd>|ART|M|S|@>N
rato NOUN <np-def>|N|M|S|@SUBJ>
comeu VERB <mv>|V|PS|3S|IND|@FS-STA
a DET <artd>|ART|F|S|@>N
roupa NOUN <np-def>|N|F|S|@<ACC
do ADP PRP|@N<
rei NOUN <np-idf>|N|M|S|@<ACC
de ADP PRP|@N<
roma NOUN <np-idf>|N|M|S|@P<


In [None]:
import nlpnet

Download model from http://nilc.icmc.usp.br/nlpnet/data/pos-pt.tgz

In [None]:
nlpnet.set_data_dir('pos-pt/')
sentence = "O rato comeu a roupa do rei de roma"
tagger = nlpnet.POSTagger()
tagger.tag(sentence)