## NLTK

In [1]:
import nltk
nltk.download('punkt')
nltk.download('floresta')

from nltk import tokenize

text = "Não sei se entendi como ler o conteúdo da view, então. \
Estou entendendo que a view contém um histórico das movimentações \
dos associados, certo?"

tokenize.word_tokenize(text, language="portuguese")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Unzipping corpora/floresta.zip.


['Não',
 'sei',
 'se',
 'entendi',
 'como',
 'ler',
 'o',
 'conteúdo',
 'da',
 'view',
 ',',
 'então',
 '.',
 'Estou',
 'entendendo',
 'que',
 'a',
 'view',
 'contém',
 'um',
 'histórico',
 'das',
 'movimentações',
 'dos',
 'associados',
 ',',
 'certo',
 '?']

In [0]:
from nltk.corpus import floresta

In [4]:
floresta.tagged_words()

[('Um', '>N+art'), ('revivalismo', 'H+n'), ...]

As tags consistem em algumas informações sintáticas, seguidas por um sinal de mais, seguido por uma tag convencional de POS Tag. Vamos retirar o material antes do sinal de mais:

https://www.linguateca.pt/floresta/doc/VISLsymbolset-manual.html

In [6]:
def simplify_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t 

twords = nltk.corpus.floresta.tagged_words()
twords = [(w.lower(),simplify_tag(t)) for (w,t) in twords]
twords[:10]

[('um', 'art'),
 ('revivalismo', 'n'),
 ('refrescante', 'adj'),
 ('o', 'art'),
 ('7_e_meio', 'prop'),
 ('é', 'v-fin'),
 ('um', 'art'),
 ('ex-libris', 'n'),
 ('de', 'prp'),
 ('a', 'art')]

In [0]:
bla = []
for word, tag in twords:
  dupla = (word.lower(), simplify_tag(tag))
  bla.append(dupla)

In [7]:
print(' '.join(word + '/' + tag for (word, tag) in twords[:10]))


um/art revivalismo/n refrescante/adj o/art 7_e_meio/prop é/v-fin um/art ex-libris/n de/prp a/art


In [8]:
tsents = floresta.tagged_sents()

tsents[10]

[('Alguns', 'H+pron-det'),
 ('até', 'ADVL+adv'),
 ('já', 'ADVL+adv'),
 ('desapareceram', 'P+v-fin'),
 (',', ','),
 ('como', 'COM+adv'),
 ('o', 'H+pron-det'),
 ('de', 'H+prp'),
 ('Castro_Verde', 'P<+prop'),
 (',', ','),
 ('e', 'CO+conj-c'),
 ('outros', 'SUBJ+pron-det'),
 ('têm', 'AUX+v-fin'),
 ('vindo', 'AUX+v-pcp'),
 ('a', 'PRT-AUX<+prp'),
 ('perder', 'MV+v-inf'),
 ('quadros', 'ACC+n'),
 ('.', '.')]

In [9]:
from nltk.corpus import floresta

def simplify_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t 


tsents = floresta.tagged_sents()
tsents = [[(w.lower(),simplify_tag(t)) for (w,t) in sent] for sent in tsents if sent]
train = tsents[1000:]
test = tsents[:1000]

tagger0 = nltk.DefaultTagger('n')
print(tagger0.evaluate(test))

tagger1 = nltk.UnigramTagger(train, backoff=tagger0)
print(tagger1.evaluate(test))

tagger2 = nltk.BigramTagger(train, backoff=tagger1)
print(tagger2.evaluate(test))

tagger3 = nltk.TrigramTagger(train, backoff=tagger2)
print(tagger3.evaluate(test))

0.17800040072129833
0.8740532959326788
0.8900420757363254
0.8887998397114807


In [10]:
from sklearn.externals import joblib

joblib.dump(tagger3, 'tagger.pkl')



['tagger.pkl']

In [0]:
!ls -all -h

total 776K
drwxr-xr-x 1 root root 4.0K Mar 19 23:13 .
drwxr-xr-x 1 root root 4.0K Mar 19 19:22 ..
drwxr-xr-x 1 root root 4.0K Mar  8 17:25 .config
drwxr-xr-x 1 root root 4.0K Mar  8 17:26 sample_data
-rw-r--r-- 1 root root 758K Mar 19 23:13 tagger.pkl


In [0]:
bla = joblib.load('tagger.pkl')

In [12]:
print(bla.evaluate(test))

0.8887998397114807


In [13]:
twords = tokenize.word_tokenize(text, language="portuguese")

tagger2.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'conj-s'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [0]:
tagger1.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'pron-indp'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [0]:
print(nltk.corpus.floresta.readme()[:1500])

Portuguese Treebank

Projecto Floresta Sinta(c)tica -- http://www.linguateca.pt/Floresta/
Version 7.4  Distributed with permission.

Penn Treebank format, available from http://linguateca.di.uminho.pt/FS/fs.html

Key to tags (http://visl.sdu.dk/visl/pt/portsymbol.html)

<ACC          direct object
<ACC-PASS     passive use of pronoun 'se'
<ADVS, <ADVO  adverbial argument
<ADVL         adjunct adverbial
<DAT          dative (indirect) object
<FOC          focus marker (or right focus bracket)
<OC           object complement
<PASS         agent of passive
<PIV          prepositional object
<PRED         free (subject) predicative, right of main verb
<SC           subject complement
<SUBJ         subject
>A            adverbial pre-adject (intensifier before adjective, adverb, pronoun or participle)
>N            prenominal modifier
>P            modifier of prepositional phrase (intensifier, operator or focus adverb)
>S            modifier of clause (intensifier, operator or focus adverb

## TextBlob

In [14]:
!pip install textblob



In [18]:
from textblob import TextBlob
from textblob.sentiments import NaiveBayesAnalyzer
#nltk.download('movie_reviews')

opinion = TextBlob("batman vs superman is a shit!", analyzer=NaiveBayesAnalyzer())
opinion.sentiment

Sentiment(classification='neg', p_pos=0.288629160063391, p_neg=0.7113708399366088)

In [19]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [20]:


print("Frase original: ", text)

tblob = TextBlob(text)

print('Idioma: ',tblob.detect_language())

en_tblob = tblob.translate(to='en')

print("Traduzido: ", en_tblob)

print("Tags: ", en_tblob.tags)

Frase original:  Não sei se entendi como ler o conteúdo da view, então. Estou entendendo que a view contém um histórico das movimentações dos associados, certo?
Idioma:  pt
Traduzido:  I don't know if I understood how to read the contents of the view then. I understand that the view contains a history of member movements, right?
Tags:  [('I', 'PRP'), ('do', 'VBP'), ("n't", 'RB'), ('know', 'VB'), ('if', 'IN'), ('I', 'PRP'), ('understood', 'VBD'), ('how', 'WRB'), ('to', 'TO'), ('read', 'VB'), ('the', 'DT'), ('contents', 'NNS'), ('of', 'IN'), ('the', 'DT'), ('view', 'NN'), ('then', 'RB'), ('I', 'PRP'), ('understand', 'VBP'), ('that', 'IN'), ('the', 'DT'), ('view', 'NN'), ('contains', 'VBZ'), ('a', 'DT'), ('history', 'NN'), ('of', 'IN'), ('member', 'NN'), ('movements', 'NNS'), ('right', 'RB')]


In [0]:
text = "As aulas da USP são muito chatas"

tblob = TextBlob(text)

en_text = tblob.translate(to='en')

en_text

TextBlob("USP classes are very boring")

In [0]:
en = TextBlob(en_text.string, analyzer=NaiveBayesAnalyzer())

en.sentiment

Sentiment(classification='neg', p_pos=0.2782420508972421, p_neg=0.7217579491027579)

## SpaCy

In [22]:
!pip install spacy
!python -m spacy download en
!python -m spacy download pt

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.6/dist-packages/en_core_web_sm -->
/usr/local/lib/python3.6/dist-packages/spacy/data/en
You can now load the model via spacy.load('en')
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.6/dist-packages/pt_core_news_sm -->
/usr/local/lib/python3.6/dist-packages/spacy/data/pt
You can now load the model via spacy.load('pt')


In [24]:
!python -m spacy download en_core_web_lg

Collecting en_core_web_lg==2.1.0 from https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-2.1.0/en_core_web_lg-2.1.0.tar.gz#egg=en_core_web_lg==2.1.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-2.1.0/en_core_web_lg-2.1.0.tar.gz (826.9MB)
[K     |████████████████████████████████| 826.9MB 88.0MB/s 
[?25hBuilding wheels for collected packages: en-core-web-lg
  Building wheel for en-core-web-lg (setup.py) ... [?25l[?25hcanceled
Traceback (most recent call last):
  File "/usr/lib/python3.6/runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "/usr/lib/python3.6/runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "/usr/local/lib/python3.6/dist-packages/spacy/__main__.py", line 35, in <module>
    plac.call(commands[command], sys.argv[1:])
  File "/usr/local/lib/python3.6/dist-packages/plac_core.py", line 328, in call
    cmd, result = parser.consume(arglist)
  File "/usr/loca

KeyboardInterrupt: ignored

In [25]:
import spacy

nlp = spacy.load('pt')

doc = nlp(u'Você encontrou o livro que eu te falei, Carla?')

print(type(doc))
#print([token.orth_ for token in doc])

<class 'spacy.tokens.doc.Doc'>


In [29]:
help(doc[0])

Help on Token object:

class Token(builtins.object)
 |  An individual token – i.e. a word, punctuation symbol, whitespace,
 |  etc.
 |  
 |  DOCS: https://spacy.io/api/token
 |  
 |  Methods defined here:
 |  
 |  __bytes__(...)
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __hash__(self, /)
 |      Return hash(self).
 |  
 |  __le__(self, value, /)
 |      Return self<=value.
 |  
 |  __len__(...)
 |      The number of unicode characters in the token, i.e. `token.text`.
 |      
 |      RETURNS (int): The number of unicode characters in the token.
 |      
 |      DOCS: https://spacy.io/api/token#len
 |  
 |  __lt__(self, value, /)
 |      Return self<value.
 |  
 |  __ne__(self, value, /)
 |      Return self!=value.
 |  
 |  __new__(*args, **kwargs) from builtins.type
 |      Create and return a new object.  See help(type) for accurate signatur

In [0]:
type(doc[0].orth_)

str

In [30]:
[(token.orth_, token.pos_, token.dep_, spacy.explain(token.pos_)) for token in doc]

[('Você', 'PRON', 'nsubj', 'pronoun'),
 ('encontrou', 'VERB', 'ROOT', 'verb'),
 ('o', 'DET', 'det', 'determiner'),
 ('livro', 'NOUN', 'obj', 'noun'),
 ('que', 'PRON', 'obj', 'pronoun'),
 ('eu', 'PRON', 'nsubj', 'pronoun'),
 ('te', 'PRON', 'expl', 'pronoun'),
 ('falei', 'NOUN', 'acl:relcl', 'noun'),
 (',', 'PUNCT', 'punct', 'punctuation'),
 ('Carla', 'PROPN', 'appos', 'proper noun'),
 ('?', 'PUNCT', 'punct', 'punctuation')]

Uma lista completa de dependências sintáticas pode ser vista em: https://spacy.io/api/annotation#dependency-parsing 

Um bom material complementar para dependências sintáticas pode ser vista no ["Stanford typed dependencies manual"](https://nlp.stanford.edu/software/dependencies_manual.pdf)


In [33]:
[token.lemma_ for token in doc if token.pos_ == 'VERB']

['encontrar']

In [35]:
doc = nlp(u'encontrardes, encontraram, encontrarão, encontrariam, encontrasse, encontraria')
print([token.lemma_ for token in doc])

['encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar']


In [39]:
doc = nlp(u'Pelé um dos melhores escritores do Brasil, \
foi o primeiro presidente da Academia Brasileira de Letras')
doc.ents

(Pelé, Brasil, Academia Brasileira de Letras)

In [40]:
[(entity, entity.label_, spacy.explain(entity.label_)) for entity in doc.ents]

[(Pelé, 'PER', 'Named person or family.'),
 (Brasil, 'LOC', 'Non-GPE locations, mountain ranges, bodies of water'),
 (Academia Brasileira de Letras,
  'ORG',
  'Companies, agencies, institutions, etc.')]

In [0]:
[(entity, entity.pos_) for entity in doc]

[(Machado, 'VERB'),
 (de, 'ADP'),
 (Assis, 'PROPN'),
 (um, 'DET'),
 (dos, 'VERB'),
 (melhores, 'ADJ'),
 (escritores, 'NOUN'),
 (do, 'ADP'),
 (Brasil, 'PROPN'),
 (,, 'PUNCT'),
 (foi, 'VERB'),
 (o, 'DET'),
 (primeiro, 'ADJ'),
 (presidente, 'NOUN'),
 (da, 'ADP'),
 (Academia, 'PROPN'),
 (Brasileira, 'PROPN'),
 (de, 'ADP'),
 (Letras, 'PROPN')]

In [41]:
doc8 = nlp(u'Google investirá $6 milhões')

for token in doc8:
    print(token.text, end=' | ')

print('\n----')

for ent in doc8.ents:
    print(ent.text+' - '+ent.label_+' - '+str(spacy.explain(ent.label_)))

Google | investirá | $ | 6 | milhões | 
----
Google - ORG - Companies, agencies, institutions, etc.


In [43]:
doc4 = nlp('Esta é a primeira sentença esta é a segunda sentença. Esta é a terceira. Você já entendeu né?')

for sent in doc4.sents:
    print(sent)

Esta é a primeira sentença esta é a segunda sentença.
Esta é a terceira.
Você já entendeu né?


In [0]:
doc4[6]

esta

In [0]:
print(doc4[6])
print(doc4[6].is_sent_start)

esta
True


In [44]:
print(nlp.Defaults.stop_words)

{'tal', 'está', 'apoio', 'pontos', 'da', 'vezes', 'sois', 'aquela', 'esta', 'logo', 'sétimo', 'ainda', 'ser', 'os', 'lá', 'é', 'final', 'grande', 'momento', 'tentar', 'aqui', 'oito', 'quais', 'põe', 'tentaram', 'vossa', 'geral', 'ao', 'dentro', 'você', 'nas', 'seis', 'estivestes', 'um', 'sou', 'vêm', 'quinze', 'tanto', 'tempo', 'em', 'vais', 'deve', 'ora', 'vós', 'essas', 'estivemos', 'suas', 'mês', 'puderam', 'daquela', 'números', 'também', 'sete', 'pelo', 'corrente', 'quinto', 'apenas', 'tu', 'pois', 'segundo', 'relação', 'favor', 'das', 'contra', 'pela', 'foste', 'veja', 'lhe', 'estava', 'outros', 'certeza', 'dezoito', 'caminho', 'saber', 'longe', 'neste', 'por', 'disso', 'tivestes', 'estive', 'vens', 'outra', 'lado', 'cima', 'menor', 'menos', 'até', 'naquela', 'nossos', 'enquanto', 'próxima', 'teus', 'iniciar', 'cujo', 'fazeis', 'estão', 'além', 'obrigada', 'fim', 'último', 'porém', 'tivemos', 'três', 'nosso', 'isso', 'pode', 'somente', 'põem', 'vosso', 'fazia', 'povo', 'boa', 'com

In [0]:
len(nlp.Defaults.stop_words)

413

In [0]:
import nltk
nltk.download('stopwords')

stopwords = nltk.corpus.stopwords.words('portuguese')
len(stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


203

In [0]:
list(set(nlp.Defaults.stop_words) - set(stopwords))[:10]

['pegar',
 'ser',
 'nunca',
 'sempre',
 'dois',
 'máximo',
 'fostes',
 'pouca',
 'sei',
 'exemplo']

In [0]:
doc = nlp('pegar')
token = doc[0]

## Correspondência Baseada em Regras 

O spaCy oferece uma ferramenta de correspondência de regras chamada Matcher, que permite criar uma biblioteca de padrões de token e, em seguida, associar esses padrões a um objeto Doc para retornar uma lista de correspondências encontradas. Você pode combinar em qualquer parte do token, incluindo texto e anotações, e você pode adicionar vários padrões ao mesmo combinador.

In [0]:
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

Aqui matcher é um objeto que é emparelhado com o objeto Vocab atual. Podemos adicionar e remover matchers nomeados específicos para o matcher, conforme necessário.

Podemos encontrar o termo "guarda-chuva" como uma palavra ou duas, com ou sem um hífen. Nesta seção, vamos desenvolver um matcher que encontre todos os três:

In [0]:
pattern1 = [{'LOWER': 'guardachuva'}]
pattern2 = [{'LOWER': 'guarda'}, {'LOWER': 'chuva'}]
pattern3 = [{'LOWER': 'guarda'}, {'IS_PUNCT': True}, {'LOWER': 'chuva'}]

matcher.add('GuardaChuva', None, pattern1, pattern2, pattern3)

In [0]:
doc = nlp('Hoje eu esqueci meu guardachuva. \
Vou ter que comprar um novo guarda-chuva. \
Quanto custa um guarda chuva?')

found_matches = matcher(doc)
print(found_matches)

[(12789480426693079439, 4, 5), (12789480426693079439, 12, 15), (12789480426693079439, 19, 21)]


In [0]:
for match_id, start, end in found_matches:
    string_id = nlp.vocab.strings[match_id]
    span = doc[start:end]
    print(match_id, string_id, start, end, span.text)

12789480426693079439 GuardaChuva 4 5 guardachuva
12789480426693079439 GuardaChuva 12 15 guarda-chuva
12789480426693079439 GuardaChuva 19 21 guarda chuva


É possível usar opções de POS Tag e o Lema dos termos como no exemplo abaixo:

In [0]:
pattern = [{'ENT_TYPE': 'PER'}]

matcher.add('Personalida', None, pattern)

In [0]:
doc = nlp('O presidente Barak Obama visitou o Brasil')

found_matches = matcher(doc)
print(found_matches)

[(9998440168381091967, 2, 3), (9998440168381091967, 3, 4)]


In [0]:
doc[2:4]

Barak Obama

Os seguintes quantificadores podem ser passados para a chave `'OP'`:

<table><tr><th>OP</th><th>Descrição</th></tr>

<tr ><td><span >\!</span></td><td>Nega o padrão, exigindo que ele corresponda exatamente 0 vezes</td></tr>
<tr ><td><span >?</span></td><td>Torna o padrão opcional, permitindo que ele corresponda 0 ou 1 vezes</td></tr>
<tr ><td><span >\+</span></td><td>Exige que o padrão corresponda a uma ou mais vezes</td></tr>
<tr ><td><span >\*</span></td><td>Permite que o padrão corresponda a zero ou mais vezes</td></tr>
</table>

**Outros atributos de token**

<table><tr><th>Atributo</th><th>Descrição</th></tr>

<tr ><td><span >`ORTH`</span></td><td>O texto exato do token</td></tr>
<tr ><td><span >`LOWER`</span></td><td>O texto em caixa baixa</td></tr>
<tr ><td><span >`LENGTH`</span></td><td>O tamanho do texto do token</td></tr>
<tr ><td><span >`IS_ALPHA`, `IS_ASCII`, `IS_DIGIT`</span></td><td>O texto do token consiste de alfanuméricos, ASCII, digitos</td></tr>
<tr ><td><span >`IS_LOWER`, `IS_UPPER`, `IS_TITLE`</span></td><td>O texto do toen esta em  lowercase, uppercase, titlecase</td></tr>
<tr ><td><span >`IS_PUNCT`, `IS_SPACE`, `IS_STOP`</span></td><td>Token é puntuação, espaço, stop-word</td></tr>
<tr ><td><span >`LIKE_NUM`, `LIKE_URL`, `LIKE_EMAIL`</span></td><td>Texto do token se parece um numero, URL, email</td></tr>
<tr ><td><span >`POS`, `TAG`, `DEP`, `LEMMA`, `SHAPE`</span></td><td>O token em sua representação de POS Tag, dependência, </td></tr>
<tr ><td><span >`ENT_TYPE`</span></td><td>O tipo de entidade do token</td></tr>

</table>


Para saber mais sobre esta função da lib SpaCy: https://spacy.io/usage/linguistic-features#section-rule-based-matching

# Exercício