# **NLTK**

---

In [0]:
import nltk
nltk.download('punkt')

from nltk import tokenize

texto_exemplo = "Não sei se entendi como ler o conteúdo da view, então. \
Estou entendendo que a view contém um histórico das movimentações \
dos associados, certo?"

# Exemplo tokenização
tokenize.word_tokenize(texto_exemplo, language="portuguese")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['Não',
 'sei',
 'se',
 'entendi',
 'como',
 'ler',
 'o',
 'conteúdo',
 'da',
 'view',
 ',',
 'então',
 '.',
 'Estou',
 'entendendo',
 'que',
 'a',
 'view',
 'contém',
 'um',
 'histórico',
 'das',
 'movimentações',
 'dos',
 'associados',
 ',',
 'certo',
 '?']

Documentação nltk.tokenize: https://www.nltk.org/api/nltk.tokenize.html

Exemplos em português: http://www.nltk.org/howto/portuguese_en.html

POS-Tagger NLTK

In [0]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('universal_tagset')

pos_tag(word_tokenize('O Hobbit - 7ª Ed. 2013  Produto NovoBilbo Bolseiro é um hobbit que', language="portuguese"), tagset='universal')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!


[('O', 'NOUN'),
 ('Hobbit', 'NOUN'),
 ('-', '.'),
 ('7ª', 'NUM'),
 ('Ed.', 'ADJ'),
 ('2013', 'NUM'),
 ('Produto', 'NOUN'),
 ('NovoBilbo', 'NOUN'),
 ('Bolseiro', 'NOUN'),
 ('é', 'NOUN'),
 ('um', 'ADJ'),
 ('hobbit', 'NOUN'),
 ('que', 'NOUN')]

# **Sobre o corpus Floresta**

---
Conhecido como "Floresta Sintática". Conjunto de frases já analisadas sintáticamente e tageadas.

https://www.linguateca.pt/Floresta/

https://www.linguateca.pt/floresta/doc/VISLsymbolset-manual.html


In [0]:
from nltk.corpus import floresta
import nltk
nltk.download('floresta')

[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Package floresta is already up-to-date!


True

In [0]:
print(nltk.corpus.floresta.readme())

Portuguese Treebank

Projecto Floresta Sinta(c)tica -- http://www.linguateca.pt/Floresta/
Version 7.4  Distributed with permission.

Penn Treebank format, available from http://linguateca.di.uminho.pt/FS/fs.html

Key to tags (http://visl.sdu.dk/visl/pt/portsymbol.html)

<ACC          direct object
<ACC-PASS     passive use of pronoun 'se'
<ADVS, <ADVO  adverbial argument
<ADVL         adjunct adverbial
<DAT          dative (indirect) object
<FOC          focus marker (or right focus bracket)
<OC           object complement
<PASS         agent of passive
<PIV          prepositional object
<PRED         free (subject) predicative, right of main verb
<SC           subject complement
<SUBJ         subject
>A            adverbial pre-adject (intensifier before adjective, adverb, pronoun or participle)
>N            prenominal modifier
>P            modifier of prepositional phrase (intensifier, operator or focus adverb)
>S            modifier of clause (intensifier, operator or focus adverb

In [0]:
floresta.tagged_words()

[('Um', '>N+art'), ('revivalismo', 'H+n'), ...]

As tags consistem em algumas informações sintáticas, seguidas por um sinal de mais, seguido por uma tag convencional de POS Tag com a classificação morfológica. Vamos retirar o material antes do sinal de mais (+):

In [0]:
'+' in 'anderson dourado'

'+' in 'anderson+dourado'

True

In [0]:
# Função para simplificar a tag
def simplifica_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t

In [0]:
# Exemplo 1
tag_words = nltk.corpus.floresta.tagged_words() #type(twords)

list_palavras = [] #type(list_palavras)
tuple_dupla = () #type(tuple_dupla)

for word, tag in tag_words:
  tuple_dupla = (word.lower(), simplifica_tag(tag))
  list_palavras.append(tuple_dupla)

list_palavras[:10]

[('um', 'art'),
 ('revivalismo', 'n'),
 ('refrescante', 'adj'),
 ('o', 'art'),
 ('7_e_meio', 'prop'),
 ('é', 'v-fin'),
 ('um', 'art'),
 ('ex-libris', 'n'),
 ('de', 'prp'),
 ('a', 'art')]

In [0]:
# Exemplo 2
tag_words = nltk.corpus.floresta.tagged_words()
tag_words

tag_words = [(w.lower(),simplifica_tag(t)) for (w,t) in tag_words]

tag_words[:10]

[('um', 'art'),
 ('revivalismo', 'n'),
 ('refrescante', 'adj'),
 ('o', 'art'),
 ('7_e_meio', 'prop'),
 ('é', 'v-fin'),
 ('um', 'art'),
 ('ex-libris', 'n'),
 ('de', 'prp'),
 ('a', 'art')]

Exemplo de texto anotado (tagueado) no corpus Floresta

In [0]:
print(' '.join(word + '/' + tag for (word, tag) in tag_words[:10]))

um/art revivalismo/n refrescante/adj o/art 7_e_meio/prop é/v-fin um/art ex-libris/n de/prp a/art


In [0]:
tag_sents = floresta.tagged_sents()
tag_sents[:2]

[[('Um', '>N+art'), ('revivalismo', 'H+n'), ('refrescante', 'N<+adj')],
 [('O', '>N+art'),
  ('7_e_Meio', 'H+prop'),
  ('é', 'P+v-fin'),
  ('um', '>N+art'),
  ('ex-libris', 'H+n'),
  ('de', 'H+prp'),
  ('a', '>N+art'),
  ('noite', 'H+n'),
  ('algarvia', 'N<+adj'),
  ('.', '.')]]

In [0]:
# Contagem das tags e mantendo a estruturas das sentenças do corpus floresta
from nltk.corpus import floresta
from collections import Counter

def simplifica_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t 

counter = Counter()

tag_sents = floresta.tagged_sents()
tag_new_sents = []
for sent in tag_sents:
  new_sent = []
  for (w,t) in sent:
    tag = simplifica_tag(t)
    new_sent.append((w.lower(), tag))
    counter[tag] += 1
  tag_new_sents.append(new_sent)

#new_sent
#tag_new_sents

In [0]:
counter.most_common(5)

[('n', 40081), ('prp', 32442), ('art', 29360), ('v-fin', 15802), (',', 13444)]

In [0]:
# % dos substantivos
counter.get('n') / sum(counter.values())

0.18919339916545513

Verificamos que a tag mais comum é N. Essa será nossa referência a tag padrão (gold).

In [0]:
# Crianto uma tag default
default_tagger = nltk.DefaultTagger('n')

token_texto_exemplo = tokenize.word_tokenize(texto_exemplo, language="portuguese")
default_tagger.tag(token_texto_exemplo)

[('Não', 'n'),
 ('sei', 'n'),
 ('se', 'n'),
 ('entendi', 'n'),
 ('como', 'n'),
 ('ler', 'n'),
 ('o', 'n'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', 'n'),
 ('então', 'n'),
 ('.', 'n'),
 ('Estou', 'n'),
 ('entendendo', 'n'),
 ('que', 'n'),
 ('a', 'n'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'n'),
 ('histórico', 'n'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'n'),
 ('associados', 'n'),
 (',', 'n'),
 ('certo', 'n'),
 ('?', 'n')]

In [0]:
# Analisando com base na tag padrão (tag ouro/gold)
tag_sents = tag_new_sents

default_tagger = nltk.DefaultTagger('n')
print(default_tagger.evaluate(tag_sents))

0.18919339916545513


In [0]:
tag_sents = tag_new_sents
#type(tag_sents) #len(tag_sents)
#tag_sents[len(tag_sents)-1] #tag_sents[-1]

tag_sents_treino = tag_sents[1000:]
tag_sents_teste = tag_sents[:1000]

tagger0 = nltk.DefaultTagger('n')
print(tagger0.evaluate(tag_sents_teste))

tagger1 = nltk.UnigramTagger(tag_sents_treino, backoff=tagger0)
print(tagger1.evaluate(tag_sents_teste))

tagger2 = nltk.BigramTagger(tag_sents_treino, backoff=tagger1)
print(tagger2.evaluate(tag_sents_teste))

tagger3 = nltk.TrigramTagger(tag_sents_treino, backoff=tagger2)
print(tagger3.evaluate(tag_sents_teste))

0.17800040072129833
0.8740532959326788
0.8900420757363254
0.8887998397114807



Documentação dos métodos tag:
  - https://www.nltk.org/api/nltk.tag.html

Nos baseamos no métodos da documentação abaixo:
  - Capítulo 5 - N-Gram Tagging: http://www.nltk.org/book/ch05.html
  - Exemplo em português: http://www.nltk.org/howto/portuguese_en.html
  - Outros corpus tageados: https://www.nltk.org/book/ch02.html


In [0]:
from sklearn.externals import joblib

joblib.dump(tagger3, 'tagger.pkl')

['tagger.pkl']

In [0]:
!ls -all -h

total 776K
drwxr-xr-x 1 root root 4.0K May  1 18:35 .
drwxr-xr-x 1 root root 4.0K May  1 17:16 ..
drwxr-xr-x 1 root root 4.0K Apr 29 16:14 .config
drwxr-xr-x 1 root root 4.0K Apr  3 16:24 sample_data
-rw-r--r-- 1 root root 758K May  1 21:24 tagger.pkl


In [0]:
bla = joblib.load('tagger.pkl')

In [0]:
print(bla.evaluate(tag_sents_teste))

0.8887998397114807


In [0]:
texto_exemplo
twords = tokenize.word_tokenize(texto_exemplo, language="portuguese")
bla.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'conj-s'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [0]:
#twords = tokenize.word_tokenize(texto_exemplo, language="portuguese")
tagger2.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'conj-s'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [0]:
tagger1.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'pron-indp'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [0]:
print(nltk.corpus.floresta.readme()[:1000])

Portuguese Treebank

Projecto Floresta Sinta(c)tica -- http://www.linguateca.pt/Floresta/
Version 7.4  Distributed with permission.

Penn Treebank format, available from http://linguateca.di.uminho.pt/FS/fs.html

Key to tags (http://visl.sdu.dk/visl/pt/portsymbol.html)

<ACC          direct object
<ACC-PASS     passive use of pronoun 'se'
<ADVS, <ADVO  adverbial argument
<ADVL         adjunct adverbial
<DAT          dative (indirect) object
<FOC          focus marker (or right focus bracket)
<OC           object complement
<PASS         agent of passive
<PIV          prepositional object
<PRED         free (subject) predicative, right of main verb
<SC           subject complement
<SUBJ         subject
>A            adverbial pre-adject (intensifier before adjective, adverb, pronoun or participle)
>N            prenominal modifier
>P            modifier of prepositional phrase (intensifier, operator or focus adverb)
>S            modifier of clause (intensifier, operator or focus adverb

# **TextBlob**

---

O TextBlob já oferente uma seria de recursos de PLN, como: marcação POS-Tag, extração de frases substantivas, análise de sentimentos, classificação, tradução e outras.

- Documentação oficial: https://textblob.readthedocs.io/en/dev/index.html
- Natural Language Basics with TextBlob - Allison Parrish: http://rwet.decontextualize.com/book/textblob/



In [0]:
!pip install textblob



In [0]:
from textblob import TextBlob
from textblob.sentiments import NaiveBayesAnalyzer
nltk.download('movie_reviews')

opinion = TextBlob("batman vs superman is a shit!", analyzer=NaiveBayesAnalyzer())
opinion.sentiment

[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


Sentiment(classification='neg', p_pos=0.288629160063391, p_neg=0.7113708399366088)

In [0]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [0]:
print("Frase original: ", texto_exemplo)

tblob = TextBlob(texto_exemplo)

print('Idioma: ',tblob.detect_language())

en_tblob = tblob.translate(to='en')

print("Traduzido: ", en_tblob)

print("Tags: ", en_tblob.tags)

Frase original:  Não sei se entendi como ler o conteúdo da view, então. Estou entendendo que a view contém um histórico das movimentações dos associados, certo?
Idioma:  pt
Traduzido:  I don't know if I understood how to read the contents of the view, then. I understand that the view contains a history of the members' movements, right?
Tags:  [('I', 'PRP'), ('do', 'VBP'), ("n't", 'RB'), ('know', 'VB'), ('if', 'IN'), ('I', 'PRP'), ('understood', 'VBD'), ('how', 'WRB'), ('to', 'TO'), ('read', 'VB'), ('the', 'DT'), ('contents', 'NNS'), ('of', 'IN'), ('the', 'DT'), ('view', 'NN'), ('then', 'RB'), ('I', 'PRP'), ('understand', 'VBP'), ('that', 'IN'), ('the', 'DT'), ('view', 'NN'), ('contains', 'VBZ'), ('a', 'DT'), ('history', 'NN'), ('of', 'IN'), ('the', 'DT'), ('members', 'NNS'), ("'", 'POS'), ('movements', 'NNS'), ('right', 'RB')]


In [0]:
text = "As aulas da USP são muito chatas"

tblob = TextBlob(text)

en_text = tblob.translate(to='en')

en_text

TextBlob("USP classes are very boring")

In [0]:
en = TextBlob(en_text.string, analyzer=NaiveBayesAnalyzer())

en.sentiment

Sentiment(classification='neg', p_pos=0.2782420508972421, p_neg=0.7217579491027579)

In [0]:
# Exemplo com uma forma de deixar todo o texto no mesmo indioma
en_text = "As aulas da USP são muito chatas. My god!"

#Exemplo 1
tblob = TextBlob(en_text)
pt_text = tblob.translate(from_lang='en', to='pt')

pt_text

TextBlob("As aulas da USP são muito chatas. Meu Deus!")

In [0]:
#!pip install translate
from translate import Translator

#Exemplo 2 usando outro pacote o "translate"
en_text = "As aulas da USP são muito chatas. My god!"

translator = Translator(to_lang="pt")
pt_text = translator.translate(en_text)

pt_text

'As aulas da USP são muito chatas. Meu Deus!'

## SpaCy

In [0]:
!pip install spacy
!python -m spacy download en
!python -m spacy download pt

In [0]:
#!python -m spacy download en_core_web_lg
!python -m spacy download pt_core_news_sm

Os modelos e linguagens que o SpaCy suporta: https://spacy.io/usage/models

Detalhes do modelo em português: https://spacy.io/models/pt


In [0]:
for x in "olá turma":
  print(x)

o
l
á
 
t
u
r
m
a


In [0]:
import spacy

nlp = spacy.load('pt')

doc = nlp(u'Você encontrou o livro que eu te falei, Carla?')

print(type(doc))
print([token.orth_ for token in doc])

<class 'spacy.tokens.doc.Doc'>
['Você', 'encontrou', 'o', 'livro', 'que', 'eu', 'te', 'falei', ',', 'Carla', '?']


In [0]:
print([token.text for token in doc])

['Você', 'encontrou', 'o', 'livro', 'que', 'eu', 'te', 'falei', ',', 'Carla', '?']


In [0]:
type(doc[0].orth_)

str

In [0]:
doc[0].orth_

'Você'

In [0]:
[(token.text, token.orth_, token.pos_, token.dep_, spacy.explain(token.pos_)) for token in doc]

[('Você', 'Você', 'PRON', 'nsubj', 'pronoun'),
 ('encontrou', 'encontrou', 'VERB', 'ROOT', 'verb'),
 ('o', 'o', 'DET', 'det', 'determiner'),
 ('livro', 'livro', 'NOUN', 'obj', 'noun'),
 ('que', 'que', 'PRON', 'obj', 'pronoun'),
 ('eu', 'eu', 'PRON', 'nsubj', 'pronoun'),
 ('te', 'te', 'VERB', 'obj', 'verb'),
 ('falei', 'falei', 'VERB', 'acl:relcl', 'verb'),
 (',', ',', 'PUNCT', 'punct', 'punctuation'),
 ('Carla', 'Carla', 'PROPN', 'conj', 'proper noun'),
 ('?', '?', 'PUNCT', 'punct', 'punctuation')]

Uma lista completa de dependências sintáticas pode ser vista em: https://spacy.io/api/annotation#dependency-parsing 

Um bom material complementar para dependências sintáticas pode ser vista no ["Stanford typed dependencies manual"](https://nlp.stanford.edu/software/dependencies_manual.pdf)


In [0]:
doc

Você encontrou o livro que eu te falei, Carla?

In [0]:
[token.lemma_ for token in doc]

['Você',
 'encontrar',
 'o',
 'livrar',
 'que',
 'eu',
 'te',
 'falar',
 ',',
 'Carla',
 '?']

In [0]:
doc = nlp(u'encontrardes, encontraram, encontrarão, encontrariam, encontrasse, encontraria')
print([token.lemma_ for token in doc])

['encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar']


Reconhecimento de entidades nomeadas - NER: Named-Enntity Recognition.

Utilizada para reconhecer pessoas, locais, empresas, datas, numerais e outros.

In [0]:
doc = nlp(u'Pelé um dos melhores escritores do Brasil, \
foi o primeiro presidente da Academia Brasileira de Letras')

print(doc.ents)

(Pelé, Brasil, Academia Brasileira de Letras)


In [0]:
[(entity, entity.label_, spacy.explain(entity.label_)) for entity in doc.ents]

[(Pelé, 'PER', 'Named person or family.'),
 (Brasil, 'LOC', 'Non-GPE locations, mountain ranges, bodies of water'),
 (Academia Brasileira de Letras,
  'ORG',
  'Companies, agencies, institutions, etc.')]

In [0]:
[(entity, entity.pos_) for entity in doc]

[(Pelé, 'PROPN'),
 (um, 'NUM'),
 (dos, 'ADP'),
 (melhores, 'ADJ'),
 (escritores, 'NOUN'),
 (do, 'ADP'),
 (Brasil, 'PROPN'),
 (,, 'PUNCT'),
 (foi, 'VERB'),
 (o, 'DET'),
 (primeiro, 'ADJ'),
 (presidente, 'NOUN'),
 (da, 'ADP'),
 (Academia, 'PROPN'),
 (Brasileira, 'PROPN'),
 (de, 'ADP'),
 (Letras, 'PROPN')]

In [0]:
doc8 = nlp(u'Google investirá 6 milhões de dólares')

for token in doc8:
    print(token.text, end =' | ')

print('\n----')

for ent in doc8.ents:
    print(ent.text + ' - ' + ent.label_ + ' - ' + str(spacy.explain(ent.label_)))

Google | investirá | 6 | milhões | de | dólares | 
----
Google - ORG - Companies, agencies, institutions, etc.


In [0]:
doc4 = nlp(u'Esta é a primeira sentença. Sr. esta é a segunda sentença. Esta é a terceira. Você já entendeu né?')

for sent in doc4.sents:
    print(sent)

Esta é a primeira sentença.
Sr. esta é a segunda sentença.
Esta é a terceira.
Você já entendeu né?


In [0]:
doc4[6]

Sr.

In [0]:
print(doc4[6])
print(doc4[6].is_sent_start)

Sr.
True


In [0]:
print(nlp.Defaults.stop_words)

{'conselho', 'nem', 'tens', 'que', 'aos', 'final', 'meses', 'sua', 'tentar', 'devem', 'enquanto', 'quando', 'grandes', 'está', 'meus', 'vossos', 'cujo', 'nesse', 'esse', 'os', 'inicio', 'apenas', 'faz', 'lado', 'podem', 'fez', 'é', 'tuas', 'como', 'através', 'neste', 'bom', 'estivemos', 'ponto', 'corrente', 'assim', 'veja', 'oitava', 'dezoito', 'debaixo', 'fazia', 'aquele', 'mesmo', 'tiveste', 'qualquer', 'deverá', 'tipo', 'tarde', 'sim', 'todas', 'conhecido', 'quarta', 'faço', 'questão', 'contra', 'nada', 'minhas', 'vossa', 'aqueles', 'catorze', 'num', 'vos', 'vários', 'pois', 'estiveram', 'posso', 'com', 'foram', 'pouco', 'nossas', 'tenho', 'cedo', 'seu', 'forma', 'nove', 'eles', 'outras', 'longe', 'onde', 'zero', 'após', 'sabe', 'nunca', 'ali', 'por', 'mês', 'deste', 'tivestes', 'ou', 'vinda', 'vossas', 'vocês', 'foi', 'seis', 'cima', 'pouca', 'estive', 'oitavo', 'todo', 'ir', 'essa', 'quarto', 'do', 'desde', 'tentei', 'estes', 'vezes', 'esses', 'fazes', 'vós', 'segunda', 'cá', 'ain

In [0]:
len(nlp.Defaults.stop_words)

413

In [0]:
import nltk
nltk.download('stopwords')

stopwords = nltk.corpus.stopwords.words('portuguese')
len(stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


204

In [0]:
#len(list(set(nlp.Defaults.stop_words) - set(stopwords)))
list(set(nlp.Defaults.stop_words) - set(stopwords))[:10]

['ligado',
 'muitos',
 'conselho',
 'segunda',
 'cá',
 'outros',
 'iniciar',
 'tanto',
 'ainda',
 'vós']

In [0]:
doc = nlp(u'pegar')
token = doc[0]

## Correspondência Baseada em Regras 

O spaCy oferece uma ferramenta de correspondência de regras chamada Matcher, que permite criar uma biblioteca de padrões de token e, em seguida, associar esses padrões a um objeto Doc para retornar uma lista de correspondências encontradas. Você pode combinar em qualquer parte do token, incluindo texto e anotações, e você pode adicionar vários padrões ao mesmo combinador.

In [0]:
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

Aqui matcher é um objeto que é emparelhado com o objeto Vocab atual. Podemos adicionar e remover matchers nomeados específicos para o matcher, conforme necessário.

Podemos encontrar o termo "guarda-chuva" como uma palavra ou duas, com ou sem um hífen. Nesta seção, vamos desenvolver um matcher que encontre todos os três:

In [0]:
pattern1 = [{'LOWER': 'guardachuva'}]
pattern2 = [{'LOWER': 'guarda'}, {'LOWER': 'chuva'}]
pattern3 = [{'LOWER': 'guarda'}, {'IS_PUNCT': True}, {'LOWER': 'chuva'}]

matcher.add('GuardaChuva', None, pattern1, pattern2, pattern3)

In [0]:
doc = nlp('Hoje eu esqueci meu guardachuva. \
Vou ter que comprar um novo guarda - chuva. \
Quanto custa um guarda chuva?')

found_matches = matcher(doc)
print(found_matches)

[(9998440168381091967, 2, 3), (12789480426693079439, 4, 5), (9998440168381091967, 9, 10), (12789480426693079439, 12, 15), (9998440168381091967, 17, 18), (12789480426693079439, 19, 21)]


In [0]:
doc[4:5]
doc[12:15]
doc[19:21]

guarda chuva

In [0]:
for match_id, start, end in found_matches:
    string_id = nlp.vocab.strings[match_id]
    span = doc[start:end]
    print(match_id, string_id, start, end, span.text)

9998440168381091967 Personalida 2 3 esqueci
12789480426693079439 GuardaChuva 4 5 guardachuva
9998440168381091967 Personalida 9 10 comprar
12789480426693079439 GuardaChuva 12 15 guarda - chuva
9998440168381091967 Personalida 17 18 custa
12789480426693079439 GuardaChuva 19 21 guarda chuva


É possível usar opções de POS Tag e o Lema dos termos como no exemplo abaixo:

In [0]:
matcher = Matcher(nlp.vocab)

pattern = [{'POS': 'VERB'}]

matcher.add('Personalida', None, pattern)

In [0]:
doc = nlp('O presidente Barak Obama visitou o Brasil')

found_matches = matcher(doc)
print(found_matches)

[(9998440168381091967, 4, 5)]


In [0]:
doc[4:5]

visitou

Os seguintes quantificadores podem ser passados para a chave `'OP'`:

<table><tr><th>OP</th><th>Descrição</th></tr>

<tr ><td><span >\!</span></td><td>Nega o padrão, exigindo que ele corresponda exatamente 0 vezes</td></tr>
<tr ><td><span >?</span></td><td>Torna o padrão opcional, permitindo que ele corresponda 0 ou 1 vezes</td></tr>
<tr ><td><span >\+</span></td><td>Exige que o padrão corresponda a uma ou mais vezes</td></tr>
<tr ><td><span >\*</span></td><td>Permite que o padrão corresponda a zero ou mais vezes</td></tr>
</table>

**Outros atributos de token**

<table><tr><th>Atributo</th><th>Descrição</th></tr>

<tr ><td><span >`ORTH`</span></td><td>O texto exato do token</td></tr>
<tr ><td><span >`LOWER`</span></td><td>O texto em caixa baixa</td></tr>
<tr ><td><span >`LENGTH`</span></td><td>O tamanho do texto do token</td></tr>
<tr ><td><span >`IS_ALPHA`, `IS_ASCII`, `IS_DIGIT`</span></td><td>O texto do token consiste de alfanuméricos, ASCII, digitos</td></tr>
<tr ><td><span >`IS_LOWER`, `IS_UPPER`, `IS_TITLE`</span></td><td>O texto do toen esta em  lowercase, uppercase, titlecase</td></tr>
<tr ><td><span >`IS_PUNCT`, `IS_SPACE`, `IS_STOP`</span></td><td>Token é puntuação, espaço, stop-word</td></tr>
<tr ><td><span >`LIKE_NUM`, `LIKE_URL`, `LIKE_EMAIL`</span></td><td>Texto do token se parece um numero, URL, email</td></tr>
<tr ><td><span >`POS`, `TAG`, `DEP`, `LEMMA`, `SHAPE`</span></td><td>O token em sua representação de POS Tag, dependência, </td></tr>
<tr ><td><span >`ENT_TYPE`</span></td><td>O tipo de entidade do token</td></tr>

</table>


Para saber mais sobre esta função da lib SpaCy: 

https://spacy.io/api/matcher

https://spacy.io/usage/rule-based-matching

https://spacy.io/usage/linguistic-features#section-rule-based-matching