# POS tagging com spacy

Aqui temos uma aplicação "caixa preta" de redes neurais com POS tagging. Contudo é 
possível fazer uma implementação com redes neurais usando alguma biblioteca como keras ou pytorch.

In [1]:
import spacy
print(spacy.__version__) 
# a versão é importante, pois nem toda versão do spacy contém o modelo
# pt_core_news_md. A versão que foi usada em aula foi 2.3.2

2.3.2


In [2]:
# certifique-se que você já baixou o modelo com o comando: 
# python -m spacy download pt_core_news_md

# Descrição desse modelo da página do spacy (tradução livre):
# Cnn multi-tarefa em português treinada nos corpora Bosque e WikiNER. 
# Atribui vetor de palavras, POS tags, parser de dependência, e entidades nomeadas.
# Os vetores de palavras foram terinados com o FastText CBOW na Wikipedia e no OSCAR (Common Crawl).
model = spacy.load("pt_core_news_md")

In [3]:
# vamos aplicar esse modelo a um texto do corpus Machado
from nltk.corpus import machado

In [4]:
# checando os nomes dos meus textos
print(machado.fileids()[:5])

['contos/macn001.txt', 'contos/macn002.txt', 'contos/macn003.txt', 'contos/macn004.txt', 'contos/macn005.txt']


In [5]:
# vamos pegar so o primeiro conto e rotular
conto_machado = machado.raw(machado.fileids()[0])

In [6]:
# o modelo do spacy transforma em um objeto do tipo documento
# por enquanto vamos só checar as pos tags
doc_conto = model(conto_machado)

In [7]:
pos_lst = []
for token in doc_conto:
    # print(dir(token))
    pos_lst.append((token.text, token.pos_))

In [8]:
# Vamos checar a nossa lista de pos tags, apenas uma parte, pois o texto é grande. 
# ignoramos o inicio que é só um cabeçalho do conto
print(pos_lst[120:150])

[('\n\n', 'SPACE'), ('Era', 'AUX'), ('conveniente', 'ADJ'), ('ao', 'DET'), ('romance', 'NOUN'), ('que', 'PRON'), ('o', 'DET'), ('leitor', 'NOUN'), ('\n', 'SPACE'), ('ficasse', 'VERB'), ('muito', 'ADV'), ('tempo', 'NOUN'), ('sem', 'SCONJ'), ('saber', 'VERB'), ('quem', 'PRON'), ('era', 'AUX'), ('Miss', 'PROPN'), ('Dollar', 'PROPN'), ('.', 'PUNCT'), ('Mas', 'CCONJ'), ('por', 'ADP'), ('outro', 'DET'), ('lado', 'NOUN'), (',', 'PUNCT'), ('\n', 'SPACE'), ('sem', 'ADP'), ('a', 'DET'), ('apresentação', 'NOUN'), ('de', 'ADP'), ('Miss', 'PROPN')]


# NER no spacy

In [9]:
ner_lst = []
for ent in doc_conto.ents:
    ner_lst.append((ent.text, ent.label_))

In [10]:
print(ner_lst[:20]) # veja que só apareceram as palavras que possuem alguma classificação NER

[('Contos Fluminenses', 'MISC'), ('Contos Fluminenses', 'LOC'), ('Obra Completa', 'MISC'), ('Machado de Assis', 'PER'), ('Rio de Janeiro', 'LOC'), ('Nova Aguilar', 'LOC'), ('Editora Garnier', 'ORG'), ('Rio de Janeiro', 'LOC'), ('MISS', 'ORG'), ('SOARES', 'ORG'), ('SEGREDO DE AUGUSTA', 'ORG'), ('CONFISSÕES DE UMA', 'ORG'), ('RETA', 'LOC'), ('LINHA CURVA', 'LOC'), ('FREI', 'ORG'), ('SIMÃO', 'ORG'), ('MISS', 'ORG'), ('Capítulo iv', 'MISC'), ('CAPÍTULO VIII', 'MISC'), ('CAPÍTULO PRIMEIRO', 'ORG')]


In [11]:
# vc pode tbm pegar as informacoes do token e das entidades
doc_conto = model(conto_machado)
pos_ner_lst = []
for token in doc_conto:
    pos_ner_lst.append((token.text, token.pos_, token.ent_type_))

In [12]:
print(pos_ner_lst[120:150]) # nesse caso, o problema eh que tem entidade que esta em mais de um token

[('\n\n', 'SPACE', ''), ('Era', 'AUX', ''), ('conveniente', 'ADJ', ''), ('ao', 'DET', ''), ('romance', 'NOUN', ''), ('que', 'PRON', ''), ('o', 'DET', ''), ('leitor', 'NOUN', ''), ('\n', 'SPACE', ''), ('ficasse', 'VERB', ''), ('muito', 'ADV', ''), ('tempo', 'NOUN', ''), ('sem', 'SCONJ', ''), ('saber', 'VERB', ''), ('quem', 'PRON', ''), ('era', 'AUX', ''), ('Miss', 'PROPN', 'ORG'), ('Dollar', 'PROPN', 'ORG'), ('.', 'PUNCT', ''), ('Mas', 'CCONJ', ''), ('por', 'ADP', ''), ('outro', 'DET', ''), ('lado', 'NOUN', ''), (',', 'PUNCT', ''), ('\n', 'SPACE', ''), ('sem', 'ADP', ''), ('a', 'DET', ''), ('apresentação', 'NOUN', ''), ('de', 'ADP', ''), ('Miss', 'PROPN', 'ORG')]
