## NLTK

In [0]:
import nltk
nltk.download('punkt')
nltk.download('floresta')

from nltk import tokenize

text = "Não sei se entendi como ler o conteúdo da view, então. Estou entendendo que a view contém um histórico das movimentações dos associados, certo?"

tokenize.word_tokenize(text, language="portuguese")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Package floresta is already up-to-date!


['Não',
 'sei',
 'se',
 'entendi',
 'como',
 'ler',
 'o',
 'conteúdo',
 'da',
 'view',
 ',',
 'então',
 '.',
 'Estou',
 'entendendo',
 'que',
 'a',
 'view',
 'contém',
 'um',
 'histórico',
 'das',
 'movimentações',
 'dos',
 'associados',
 ',',
 'certo',
 '?']

In [0]:
from nltk.corpus import floresta

In [0]:
floresta.tagged_words()

[('Um', '>N+art'), ('revivalismo', 'H+n'), ...]

As tags consistem em algumas informações sintáticas, seguidas por um sinal de mais, seguido por uma tag convencional de POS Tag. Vamos retirar o material antes do sinal de mais:

https://www.linguateca.pt/floresta/doc/VISLsymbolset-manual.html

In [0]:
def simplify_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t 

twords = nltk.corpus.floresta.tagged_words()
twords = [(w.lower(),simplify_tag(t)) for (w,t) in twords]
twords[:10]

[('um', 'art'),
 ('revivalismo', 'n'),
 ('refrescante', 'adj'),
 ('o', 'art'),
 ('7_e_meio', 'prop'),
 ('é', 'v-fin'),
 ('um', 'art'),
 ('ex-libris', 'n'),
 ('de', 'prp'),
 ('a', 'art')]

In [0]:
print(' '.join(word + '/' + tag for (word, tag) in twords[:10]))


um/art revivalismo/n refrescante/adj o/art 7_e_meio/prop é/v-fin um/art ex-libris/n de/prp a/art


In [0]:
tsents = floresta.tagged_sents()

tsents[10]

[('Alguns', 'H+pron-det'),
 ('até', 'ADVL+adv'),
 ('já', 'ADVL+adv'),
 ('desapareceram', 'P+v-fin'),
 (',', ','),
 ('como', 'COM+adv'),
 ('o', 'H+pron-det'),
 ('de', 'H+prp'),
 ('Castro_Verde', 'P<+prop'),
 (',', ','),
 ('e', 'CO+conj-c'),
 ('outros', 'SUBJ+pron-det'),
 ('têm', 'AUX+v-fin'),
 ('vindo', 'AUX+v-pcp'),
 ('a', 'PRT-AUX<+prp'),
 ('perder', 'MV+v-inf'),
 ('quadros', 'ACC+n'),
 ('.', '.')]

In [0]:
from nltk.corpus import floresta

def simplify_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t 


tsents = floresta.tagged_sents()
tsents = [[(w.lower(),simplify_tag(t)) for (w,t) in sent] for sent in tsents if sent]
train = tsents[1000:]
test = tsents[:1000]

tagger0 = nltk.DefaultTagger('n')
print(tagger0.evaluate(test))

tagger1 = nltk.UnigramTagger(train, backoff=tagger0)
print(tagger1.evaluate(test))

tagger2 = nltk.BigramTagger(train, backoff=tagger1)
print(tagger2.evaluate(test))

tagger3 = nltk.TrigramTagger(train, backoff=tagger2)
print(tagger3.evaluate(test))

0.17800040072129833
0.8740532959326788
0.8900420757363254
0.8887998397114807


In [0]:
from sklearn.externals import joblib

joblib.dump(tagger3, 'tagger.pkl')

['tagger.pkl']

In [0]:
bla = joblib.load('tagger.pkl')

In [0]:
print(bla.evaluate(test))

0.8887998397114807


In [0]:
twords = tokenize.word_tokenize(text, language="portuguese")

tagger2.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'conj-s'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [0]:
tagger1.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'pron-indp'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [0]:
print(nltk.corpus.floresta.readme()[:1500])

Portuguese Treebank

Projecto Floresta Sinta(c)tica -- http://www.linguateca.pt/Floresta/
Version 7.4  Distributed with permission.

Penn Treebank format, available from http://linguateca.di.uminho.pt/FS/fs.html

Key to tags (http://visl.sdu.dk/visl/pt/portsymbol.html)

<ACC          direct object
<ACC-PASS     passive use of pronoun 'se'
<ADVS, <ADVO  adverbial argument
<ADVL         adjunct adverbial
<DAT          dative (indirect) object
<FOC          focus marker (or right focus bracket)
<OC           object complement
<PASS         agent of passive
<PIV          prepositional object
<PRED         free (subject) predicative, right of main verb
<SC           subject complement
<SUBJ         subject
>A            adverbial pre-adject (intensifier before adjective, adverb, pronoun or participle)
>N            prenominal modifier
>P            modifier of prepositional phrase (intensifier, operator or focus adverb)
>S            modifier of clause (intensifier, operator or focus adverb

## TextBlob

In [0]:
!pip install textblob



In [0]:
from textblob import TextBlob
from textblob.sentiments import NaiveBayesAnalyzer
nltk.download('movie_reviews')

opinion = TextBlob("EliteDataScience.com is dope!", analyzer=NaiveBayesAnalyzer())
opinion.sentiment

[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.


Sentiment(classification='neg', p_pos=0.35000000000000003, p_neg=0.6499999999999997)

In [0]:
nltk.download('averaged_perceptron_tagger')

print("Frase original: ", text)

tblob = TextBlob(text)

print('Idioma: ',tblob.detect_language())

en_tblob = tblob.translate(to='en')

print("Traduzido: ", en_tblob)

print("Tags: ", en_tblob.tags)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
Frase original:  Não sei se entendi como ler o conteúdo da view, então. Estou entendendo que a view contém um histórico das movimentações dos associados, certo?
Idioma:  pt
Traduzido:  I do not know if I understood how to read the contents of the view, then. I understand that the view contains a history of member movements, right?
Tags:  [('I', 'PRP'), ('do', 'VBP'), ('not', 'RB'), ('know', 'VB'), ('if', 'IN'), ('I', 'PRP'), ('understood', 'VBD'), ('how', 'WRB'), ('to', 'TO'), ('read', 'VB'), ('the', 'DT'), ('contents', 'NNS'), ('of', 'IN'), ('the', 'DT'), ('view', 'NN'), ('then', 'RB'), ('I', 'PRP'), ('understand', 'VBP'), ('that', 'IN'), ('the', 'DT'), ('view', 'NN'), ('contains', 'VBZ'), ('a', 'DT'), ('history', 'NN'), ('of', 'IN'), ('member', 'NN'), ('movements', 'NNS'), ('right', 'RB')]


## SpaCy

In [0]:
!pip install spacy
!python -m spacy download en
!python -m spacy download pt

Collecting numpy>=1.15.0 (from spacy)
[?25l  Downloading https://files.pythonhosted.org/packages/35/d5/4f8410ac303e690144f0a0603c4b8fd3b986feb2749c435f7cdbb288f17e/numpy-1.16.2-cp36-cp36m-manylinux1_x86_64.whl (17.3MB)
[K    100% |████████████████████████████████| 17.3MB 2.5MB/s 
[31mfeaturetools 0.4.1 has requirement pandas>=0.23.0, but you'll have pandas 0.22.0 which is incompatible.[0m
[31malbumentations 0.1.12 has requirement imgaug<0.2.7,>=0.2.5, but you'll have imgaug 0.2.8 which is incompatible.[0m
Installing collected packages: numpy
  Found existing installation: numpy 1.14.6
    Uninstalling numpy-1.14.6:
      Successfully uninstalled numpy-1.14.6
Successfully installed numpy-1.16.2



[93m    Linking successful[0m
    /usr/local/lib/python3.6/dist-packages/en_core_web_sm -->
    /usr/local/lib/python3.6/dist-packages/spacy/data/en

    You can now load the model via spacy.load('en')

Collecting pt_core_news_sm==2.0.0 from https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.0.0/pt_core_news_sm-2.0.0.tar.gz#egg=pt_core_news_sm==2.0.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.0.0/pt_core_news_sm-2.0.0.tar.gz (38.7MB)
[K    100% |████████████████████████████████| 38.7MB 53.0MB/s 
[?25hInstalling collected packages: pt-core-news-sm
  Running setup.py install for pt-core-news-sm ... [?25ldone
[?25hSuccessfully installed pt-core-news-sm-2.0.0

[93m    Linking successful[0m
    /usr/local/lib/python3.6/dist-packages/pt_core_news_sm -->
    /usr/local/lib/python3.6/dist-packages/spacy/data/pt

    You can now load the model via spacy.load('pt')



In [0]:
import spacy

nlp = spacy.load('pt')

doc = nlp(u'Você encontrou o livro que eu te falei, Carla?')

print([token.orth_ for token in doc])

['Você', 'encontrou', 'o', 'livro', 'que', 'eu', 'te', 'falei', ',', 'Carla', '?']


In [0]:
type(doc[0].orth_)

str

In [0]:
[(token.orth_, token.pos_, token.dep_, spacy.explain(token.dep_)) for token in doc]

[('Você', 'PRON', 'nsubj', 'nominal subject'),
 ('encontrou', 'VERB', 'ROOT', None),
 ('o', 'DET', 'det', 'determiner'),
 ('livro', 'NOUN', 'obj', 'object'),
 ('que', 'PRON', 'obj', 'object'),
 ('eu', 'PRON', 'nsubj', 'nominal subject'),
 ('te', 'PRON', 'obj', 'object'),
 ('falei', 'VERB', 'acl:relcl', None),
 (',', 'PUNCT', 'punct', 'punctuation'),
 ('Carla', 'PROPN', 'appos', 'appositional modifier'),
 ('?', 'PUNCT', 'punct', 'punctuation')]

Uma lista completa de dependências sintáticas pode ser vista em: https://spacy.io/api/annotation#dependency-parsing 

Um bom material complementar para dependências sintáticas pode ser vista no ["Stanford typed dependencies manual"](https://nlp.stanford.edu/software/dependencies_manual.pdf)


In [0]:
[token.lemma_ for token in doc if token.pos_ == 'VERB']

['encontrar', 'falar']

In [0]:
doc = nlp(u'encontrei, encontraram, encontrarão, encontrariam, encontro')
print([token.lemma_ for token in doc])

['encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar']


In [0]:
doc = nlp(u'Machado de Assis um dos melhores escritores do Brasil, \
foi o primeiro presidente da Academia Brasileira de Letras')
doc.ents

(Machado de Assis, Brasil, Academia Brasileira de Letras)

In [0]:
[(entity, entity.label_, spacy.explain(entity.label_)) for entity in doc.ents]

[(Machado de Assis, 'PER', 'Named person or family.'),
 (Brasil, 'LOC', 'Non-GPE locations, mountain ranges, bodies of water'),
 (Academia Brasileira de Letras,
  'ORG',
  'Companies, agencies, institutions, etc.')]

In [0]:
[(entity, entity.pos_) for entity in doc]

[(Machado, 'VERB'),
 (de, 'ADP'),
 (Assis, 'PROPN'),
 (um, 'DET'),
 (dos, 'VERB'),
 (melhores, 'ADJ'),
 (escritores, 'NOUN'),
 (do, 'ADP'),
 (Brasil, 'PROPN'),
 (,, 'PUNCT'),
 (foi, 'VERB'),
 (o, 'DET'),
 (primeiro, 'ADJ'),
 (presidente, 'NOUN'),
 (da, 'ADP'),
 (Academia, 'PROPN'),
 (Brasileira, 'PROPN'),
 (de, 'ADP'),
 (Letras, 'PROPN')]

In [0]:
doc8 = nlp(u'Apple investirá $6 milhões')

for token in doc8:
    print(token.text, end=' | ')

print('\n----')

for ent in doc8.ents:
    print(ent.text+' - '+ent.label_+' - '+str(spacy.explain(ent.label_)))

Apple | investirá | $ | 6 | milhões | 
----
Apple - ORG - Companies, agencies, institutions, etc.


In [0]:
doc4 = nlp('Esta é a primeira sentença. Esta é a segunda sentença. Esta é a terceira. Você já entendeu né?')

for sent in doc4.sents:
    print(sent)

Esta é a primeira sentença.
Esta é a segunda sentença.
Esta é a terceira.
Você já entendeu né?


In [0]:
doc4[4].

'VERB'

In [0]:
print(doc4[7])
print(doc4[7].is_sent_start)

é
None


In [0]:
print(nlp.Defaults.stop_words)

{'partir', 'sexto', 'nosso', 'além', 'estive', 'ora', 'dão', 'somos', 'põem', 'foste', 'dezoito', 'deve', 'direita', 'ela', 'parece', 'umas', 'esta', 'pois', 'era', 'vez', 'estou', 'veja', 'apoia', 'conhecida', 'aos', 'nesta', 'nenhuma', 'meus', 'quarta', 'ser', 'nossas', 'nesse', 'naquele', 'só', 'tive', 'bastante', 'estar', 'vinda', 'fazes', 'mil', 'agora', 'dezasseis', 'através', 'algumas', 'as', 'à', 'contra', 'mais', 'tu', 'todo', 'pouca', 'nada', 'aquela', 'tarde', 'seus', 'vossos', 'vais', 'próximo', 'após', 'ver', 'ainda', 'muito', 'sobre', 'nem', 'às', 'lugar', 'tua', 'quarto', 'quinto', 'naquela', 'dar', 'grupo', 'estes', 'porquê', 'sétimo', 'quem', 'são', 'eventual', 'tiveram', 'tivestes', 'neste', 'um', 'corrente', 'fazia', 'seria', 'número', 'tanta', 'boa', 'questão', 'mal', 'aquele', 'sétima', 'estão', 'para', 'estará', 'lhe', 'segundo', 'diante', 'com', 'certeza', 'quanto', 'desde', 'na', 'podem', 'apontar', 'elas', 'muitos', 'tivemos', 'perto', 'cinco', 'dois', 'entre',

In [0]:
len(nlp.Defaults.stop_words)

413

In [0]:
import nltk
nltk.download('stopwords')

stopwords = nltk.corpus.stopwords.words('portuguese')
len(stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


203

In [0]:
list(set(nlp.Defaults.stop_words) - set(stopwords))[:10]

['grandes',
 'logo',
 'sexto',
 'partir',
 'zero',
 'tentaram',
 'maioria',
 'qualquer',
 'oitava',
 'quinze']

## Correspondência Baseada em Regras 

O spaCy oferece uma ferramenta de correspondência de regras chamada Matcher, que permite criar uma biblioteca de padrões de token e, em seguida, associar esses padrões a um objeto Doc para retornar uma lista de correspondências encontradas. Você pode combinar em qualquer parte do token, incluindo texto e anotações, e você pode adicionar vários padrões ao mesmo combinador.

In [0]:
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

Aqui matcher é um objeto que é emparelhado com o objeto Vocab atual. Podemos adicionar e remover matchers nomeados específicos para o matcher, conforme necessário.

Podemos encontrar o termo "guarda-chuva" como uma palavra ou duas, com ou sem um hífen. Nesta seção, vamos desenvolver um matcher que encontre todos os três:

In [0]:
pattern1 = [{'LOWER': 'guardachuva'}]
pattern2 = [{'LOWER': 'guarda'}, {'LOWER': 'chuva'}]
pattern3 = [{'LOWER': 'guarda'}, {'IS_PUNCT': True}, {'LOWER': 'chuva'}]

matcher.add('GuardaChuva', None, pattern1, pattern2, pattern3)

In [0]:
doc = nlp('Hoje eu esqueci meu guardachuva. \
Vou ter que comprar um novo guarda-chuva. \
Quanto custa um guarda chuva?')

found_matches = matcher(doc)
print(found_matches)

[(12789480426693079439, 4, 5), (12789480426693079439, 12, 15), (12789480426693079439, 19, 21)]


In [0]:
for match_id, start, end in found_matches:
    string_id = nlp.vocab.strings[match_id]
    span = doc[start:end]
    print(match_id, string_id, start, end, span.text)

12789480426693079439 GuardaChuva 4 5 guardachuva
12789480426693079439 GuardaChuva 12 15 guarda-chuva
12789480426693079439 GuardaChuva 19 21 guarda chuva


É possível usar opções de POS Tag e o Lema dos termos como no exemplo abaixo:

In [0]:
pattern = [{'LOWER': 'eu'}, 
           {'LEMMA': 'ser'}, 
           {'POS': 'ADJ', 'OP': '*'},
           {'POS': 'NOUN', 'OP': '*'}]

matcher.add('EuSou', None, pattern)

In [0]:
doc = nlp('Eu serei professor da FIAP')

found_matches = matcher(doc)
print(found_matches)

[(14954903316452792903, 0, 3)]


Os seguintes quantificadores podem ser passados para a chave `'OP'`:

<table><tr><th>OP</th><th>Descrição</th></tr>

<tr ><td><span >\!</span></td><td>Nega o padrão, exigindo que ele corresponda exatamente 0 vezes</td></tr>
<tr ><td><span >?</span></td><td>Torna o padrão opcional, permitindo que ele corresponda 0 ou 1 vezes</td></tr>
<tr ><td><span >\+</span></td><td>Exige que o padrão corresponda a uma ou mais vezes</td></tr>
<tr ><td><span >\*</span></td><td>Permite que o padrão corresponda a zero ou mais vezes</td></tr>
</table>

**Outros atributos de token**

<table><tr><th>Atributo</th><th>Descrição</th></tr>

<tr ><td><span >`ORTH`</span></td><td>O texto exato do token</td></tr>
<tr ><td><span >`LOWER`</span></td><td>O texto em caixa baixa</td></tr>
<tr ><td><span >`LENGTH`</span></td><td>O tamanho do texto do token</td></tr>
<tr ><td><span >`IS_ALPHA`, `IS_ASCII`, `IS_DIGIT`</span></td><td>O texto do token consiste de alfanuméricos, ASCII, digitos</td></tr>
<tr ><td><span >`IS_LOWER`, `IS_UPPER`, `IS_TITLE`</span></td><td>O texto do toen esta em  lowercase, uppercase, titlecase</td></tr>
<tr ><td><span >`IS_PUNCT`, `IS_SPACE`, `IS_STOP`</span></td><td>Token é puntuação, espaço, stop-word</td></tr>
<tr ><td><span >`LIKE_NUM`, `LIKE_URL`, `LIKE_EMAIL`</span></td><td>Texto do token se parece um numero, URL, email</td></tr>
<tr ><td><span >`POS`, `TAG`, `DEP`, `LEMMA`, `SHAPE`</span></td><td>O token em sua representação de POS Tag, dependência, </td></tr>
<tr ><td><span >`ENT_TYPE`</span></td><td>O tipo de entidade do token</td></tr>

</table>


Para saber mais sobre esta função da lib SpaCy: https://spacy.io/usage/linguistic-features#section-rule-based-matching

# Exercício