# Mac-Morpho

In [1]:
# Documento de exemplo
texto = 'Águas passadas não movem moinhos'

In [4]:
import nltk
nltk.download('mac_morpho')

palavras_tags = nltk.corpus.mac_morpho.tagged_words()
from collections import defaultdict

palavras_tags = [(palavra.lower(), pos) for (palavra, pos) in palavras_tags]
palavras_tags = defaultdict(lambda:'??', palavras_tags)

def tag(sent):
    palavras = sent.lower().split()
    return [(p, palavras_tags[p]) for p in palavras]

[nltk_data] Downloading package mac_morpho to
[nltk_data]     /home/brunorosilva/nltk_data...
[nltk_data]   Unzipping corpora/mac_morpho.zip.


In [8]:
tag(texto)

[('águas', 'N'),
 ('passadas', 'PCP'),
 ('não', 'ADV'),
 ('movem', 'V'),
 ('moinhos', 'NPROP')]

# POS-tagging com spaCy

In [None]:
# Instalação/atualização do spaCy e dos modelos de língua
!pip3 install -U spacy

!python3 -m spacy download pt_core_news_sm  # Notar o "sm": Small Model

Collecting spacy
  Downloading spacy-3.0.3-cp38-cp38-manylinux2014_x86_64.whl (12.9 MB)
[K     |████████████████████████████████| 12.9 MB 3.8 MB/s eta 0:00:01
[?25hCollecting thinc<8.1.0,>=8.0.0
  Downloading thinc-8.0.1-cp38-cp38-manylinux2014_x86_64.whl (1.1 MB)
[K     |████████████████████████████████| 1.1 MB 42.8 MB/s eta 0:00:01
[?25hCollecting cymem<2.1.0,>=2.0.2
  Downloading cymem-2.0.5-cp38-cp38-manylinux2014_x86_64.whl (35 kB)
Collecting catalogue<2.1.0,>=2.0.1
  Downloading catalogue-2.0.1-py3-none-any.whl (9.6 kB)
Collecting typer<0.4.0,>=0.3.0
  Downloading typer-0.3.2-py3-none-any.whl (21 kB)
Collecting spacy-legacy<3.1.0,>=3.0.0
  Downloading spacy_legacy-3.0.1-py2.py3-none-any.whl (7.0 kB)
Collecting blis<0.8.0,>=0.4.0
  Downloading blis-0.7.4-cp38-cp38-manylinux2014_x86_64.whl (9.8 MB)
[K     |████████████████████████████████| 9.8 MB 42.3 MB/s eta 0:00:01
Collecting pydantic<1.8.0,>=1.7.1
  Downloading pydantic-1.7.3-cp38-cp38-manylinux2014_x86_64.whl (12.2 MB)
[

In [None]:
# Importação do módulo e do modelo de língua
import spacy
nlp = spacy.load('pt_core_news_sm')

In [None]:
doc = nlp(texto)

In [None]:
for token in doc:
    print(token.text, token.pos_)

# Análise de Dependências

In [17]:
for token in doc:
    print(token.text, token.dep_)

Águas nsubj
passadas ROOT
não advmod
movem xcomp
moinhos obj


In [None]:
# Exibição gráfica das dependências
from spacy import displacy

displacy.render(doc, style="dep", jupyter=True)


In [None]:
# Gravação da imagem gerada em arquivo
from pathlib import Path

svg = displacy.render(doc, style="dep", jupyter=False)
output_path = Path("sentence.svg")
output_path.open("w", encoding="utf-8").write(svg)

3865

# Exercício

1. Sabemos que o corpus Mac-Morpho é constituído de notícias de jornal. Através de uma análise de dependências, avalie qual a função gramatical mais comum destas palavras:

- Dinheiro
- Investidores
- (qualquer outra de seu interesse)

Discuta como aproveitar esses resultados na extração de informações dos documentos.

# Tarefa em grupo: um pouco de Linguística Forense

Seu grupo de especialistas em PLN foi chamado para periciar um texto de autor incógnito. Há três elementos suspeitos de ser o autor da obra. Todos negam veementemente a autoria. São eles:

* Machado de Assis, autor de "Dom Casmurro"
* José de Alencar, autor de "O Guarani"
* Joaquim Nabuco, autor de "O Abolicionismo"

Você tem à disposição esses livros para comparar com o livro apócrifo. 

Em suas análises, use alguns dos recursos comuns da Linguística Forense:

* Análise das divisões de período (pontuação);
* Comparação das colocações adverbiais, em especial os modais (etiqueta de dependência: "advmod") e as adversativas ("mas", "entretanto" etc.).

Ao final, responda: quem é o autor do livro apócrifo?