# Mac-Morpho

In [8]:
# Documento de exemplo
texto = 'Águas passadas não movem moinhos'

In [9]:
import nltk
nltk.download('mac_morpho')

palavras_tags = nltk.corpus.mac_morpho.tagged_words()
from collections import defaultdict

palavras_tags = [(palavra.lower(), pos) for (palavra, pos) in palavras_tags]
palavras_tags = defaultdict(lambda:'??', palavras_tags)

def tag(sent):
    palavras = sent.lower().split()
    return [(p, palavras_tags[p]) for p in palavras]

[nltk_data] Downloading package mac_morpho to /root/nltk_data...
[nltk_data]   Package mac_morpho is already up-to-date!


In [11]:
d['a']
d

defaultdict(int, {'a': 0})

In [12]:
tag(texto)

[('águas', 'N'),
 ('passadas', 'PCP'),
 ('não', 'ADV'),
 ('movem', 'V'),
 ('moinhos', 'NPROP')]

# POS-tagging com spaCy

In [13]:
# Instalação/atualização do spaCy e dos modelos de língua
!pip install -U spacy

!python -m spacy download pt_core_news_sm  # Notar o "sm": Small Model

Requirement already up-to-date: spacy in /usr/local/lib/python3.7/dist-packages (3.0.3)
2021-03-05 00:57:09.450308: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.11.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [14]:
# Importação do módulo e do modelo de língua
import spacy
nlp = spacy.load('pt_core_news_sm')

In [15]:
doc = nlp(texto)

In [16]:
for token in doc:
    print(token.text, token.pos_)

Águas NOUN
passadas VERB
não ADV
movem VERB
moinhos NOUN


# Análise de Dependências

In [17]:
for token in doc:
    print(token.text, token.dep_)

Águas nsubj
passadas ROOT
não advmod
movem xcomp
moinhos obj


In [None]:
# Exibição gráfica das dependências
from spacy import displacy

displacy.render(doc, style="dep", jupyter=True)


In [None]:
# Gravação da imagem gerada em arquivo
from pathlib import Path

svg = displacy.render(doc, style="dep", jupyter=False)
output_path = Path("sentence.svg")
output_path.open("w", encoding="utf-8").write(svg)

3865

# Exercício

1. Sabemos que o corpus Mac-Morpho é constituído de notícias de jornal. Através de uma análise de dependências, avalie qual a função gramatical mais comum destas palavras:

- Dinheiro
- Investidores
- (qualquer outra de seu interesse)

Discuta como aproveitar esses resultados na extração de informações dos documentos.

# Tarefa em grupo: um pouco de Linguística Forense

Seu grupo de especialistas em PLN foi chamado para periciar um texto de autor incógnito. Há três elementos suspeitos de ser o autor da obra. Todos negam veementemente a autoria. São eles:

* Machado de Assis, autor de "Dom Casmurro"
* José de Alencar, autor de "O Guarani"
* Joaquim Nabuco, autor de "O Abolicionismo"

Você tem à disposição esses livros para comparar com o livro apócrifo. 

Em suas análises, use alguns dos recursos comuns da Linguística Forense:

* Análise das divisões de período (pontuação);
* Comparação das colocações adverbiais, em especial os modais (etiqueta de dependência: "advmod") e as adversativas ("mas", "entretanto" etc.).

Ao final, responda: quem é o autor do livro apócrifo?