<a href="https://colab.research.google.com/github/g-roger/natural-language-process/blob/main/Aula_4_6_IA_PLN_Demo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **NLTK**

---

In [None]:
import nltk
nltk.download('punkt')

from nltk import tokenize

texto_exemplo = "Não sei se entendi como ler o conteúdo da view, então. \
Estou entendendo que a view contém um histórico das movimentações \
dos associados, certo?"

# Exemplo tokenização
tokenize.word_tokenize(texto_exemplo, language="portuguese")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['Não',
 'sei',
 'se',
 'entendi',
 'como',
 'ler',
 'o',
 'conteúdo',
 'da',
 'view',
 ',',
 'então',
 '.',
 'Estou',
 'entendendo',
 'que',
 'a',
 'view',
 'contém',
 'um',
 'histórico',
 'das',
 'movimentações',
 'dos',
 'associados',
 ',',
 'certo',
 '?']

Documentação nltk.tokenize: https://www.nltk.org/api/nltk.tokenize.html

Exemplos em português: http://www.nltk.org/howto/portuguese_en.html

POS-Tagger NLTK

In [None]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('universal_tagset')

pos_tag(word_tokenize('O Hobbit - 7ª Ed. 2013  Produto NovoBilbo Bolseiro é um hobbit que', language="portuguese"), tagset='universal')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Unzipping taggers/universal_tagset.zip.


[('O', 'NOUN'),
 ('Hobbit', 'NOUN'),
 ('-', '.'),
 ('7ª', 'NUM'),
 ('Ed.', 'ADJ'),
 ('2013', 'NUM'),
 ('Produto', 'NOUN'),
 ('NovoBilbo', 'NOUN'),
 ('Bolseiro', 'NOUN'),
 ('é', 'NOUN'),
 ('um', 'ADJ'),
 ('hobbit', 'NOUN'),
 ('que', 'NOUN')]

# **Sobre o corpus Floresta**

---
Conhecido como "Floresta Sintática". Conjunto de frases já analisadas sintáticamente e tageadas.

https://www.linguateca.pt/Floresta/

https://www.linguateca.pt/floresta/doc/VISLsymbolset-manual.html


In [None]:
from nltk.corpus import floresta
import nltk
nltk.download('floresta')

[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Unzipping corpora/floresta.zip.


True

In [None]:
print(nltk.corpus.floresta.readme())

Portuguese Treebank

Projecto Floresta Sinta(c)tica -- http://www.linguateca.pt/Floresta/
Version 7.4  Distributed with permission.

Penn Treebank format, available from http://linguateca.di.uminho.pt/FS/fs.html

Key to tags (http://visl.sdu.dk/visl/pt/portsymbol.html)

<ACC          direct object
<ACC-PASS     passive use of pronoun 'se'
<ADVS, <ADVO  adverbial argument
<ADVL         adjunct adverbial
<DAT          dative (indirect) object
<FOC          focus marker (or right focus bracket)
<OC           object complement
<PASS         agent of passive
<PIV          prepositional object
<PRED         free (subject) predicative, right of main verb
<SC           subject complement
<SUBJ         subject
>A            adverbial pre-adject (intensifier before adjective, adverb, pronoun or participle)
>N            prenominal modifier
>P            modifier of prepositional phrase (intensifier, operator or focus adverb)
>S            modifier of clause (intensifier, operator or focus adverb

In [None]:
floresta.tagged_words()

[('Um', '>N+art'), ('revivalismo', 'H+n'), ...]

As tags consistem em algumas informações sintáticas, seguidas por um sinal de mais, seguido por uma tag convencional de POS Tag com a classificação morfológica. Vamos retirar o material antes do sinal de mais (+):

In [None]:
'+' in 'anderson dourado'

False

In [None]:
'+' in 'anderson+dourado'

True

In [None]:
# Função para simplificar a tag
def simplifica_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t

In [None]:
# Exemplo 1
tag_words = nltk.corpus.floresta.tagged_words() #type(twords)

list_palavras = [] #type(list_palavras)
tuple_dupla = () #type(tuple_dupla)

for word, tag in tag_words:
  tuple_dupla = (word.lower(), simplifica_tag(tag))
  list_palavras.append(tuple_dupla)

list_palavras[:10]

[('um', 'art'),
 ('revivalismo', 'n'),
 ('refrescante', 'adj'),
 ('o', 'art'),
 ('7_e_meio', 'prop'),
 ('é', 'v-fin'),
 ('um', 'art'),
 ('ex-libris', 'n'),
 ('de', 'prp'),
 ('a', 'art')]

In [None]:
# Exemplo 2
tag_words = nltk.corpus.floresta.tagged_words()
tag_words

tag_words = [(w.lower(),simplifica_tag(t)) for (w,t) in tag_words]

tag_words[:10]

[('um', 'art'),
 ('revivalismo', 'n'),
 ('refrescante', 'adj'),
 ('o', 'art'),
 ('7_e_meio', 'prop'),
 ('é', 'v-fin'),
 ('um', 'art'),
 ('ex-libris', 'n'),
 ('de', 'prp'),
 ('a', 'art')]

Exemplo de texto anotado (tagueado) no corpus Floresta

In [None]:
print(' '.join(word + '/' + tag for (word, tag) in tag_words[:10]))

um/art revivalismo/n refrescante/adj o/art 7_e_meio/prop é/v-fin um/art ex-libris/n de/prp a/art


In [None]:
tag_sents = floresta.tagged_sents()
tag_sents[:2]

[[('Um', '>N+art'), ('revivalismo', 'H+n'), ('refrescante', 'N<+adj')],
 [('O', '>N+art'),
  ('7_e_Meio', 'H+prop'),
  ('é', 'P+v-fin'),
  ('um', '>N+art'),
  ('ex-libris', 'H+n'),
  ('de', 'H+prp'),
  ('a', '>N+art'),
  ('noite', 'H+n'),
  ('algarvia', 'N<+adj'),
  ('.', '.')]]

In [None]:
# Contagem das tags e mantendo a estruturas das sentenças do corpus floresta
from nltk.corpus import floresta
from collections import Counter

def simplifica_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t 

counter = Counter()

tag_sents = floresta.tagged_sents()
tag_new_sents = []
for sent in tag_sents:
  new_sent = []
  for (w,t) in sent:
    tag = simplifica_tag(t)
    new_sent.append((w.lower(), tag))
    counter[tag] += 1
  tag_new_sents.append(new_sent)

#tag_sents[0]
#tag_new_sents[0]

In [None]:
#new_sent
tag_new_sents[:2]

[[('um', 'art'), ('revivalismo', 'n'), ('refrescante', 'adj')],
 [('o', 'art'),
  ('7_e_meio', 'prop'),
  ('é', 'v-fin'),
  ('um', 'art'),
  ('ex-libris', 'n'),
  ('de', 'prp'),
  ('a', 'art'),
  ('noite', 'n'),
  ('algarvia', 'adj'),
  ('.', '.')]]

In [None]:
counter.most_common(5)

[('n', 40081), ('prp', 32442), ('art', 29360), ('v-fin', 15802), (',', 13444)]

In [None]:
# % dos substantivos
counter.get('n') / sum(counter.values())

0.18919339916545513

Verificamos que a tag mais comum é N. Essa será nossa referência a tag padrão (gold).

In [None]:
# Crianto uma tag default
default_tagger = nltk.DefaultTagger('n')

token_texto_exemplo = tokenize.word_tokenize(texto_exemplo, language="portuguese")
default_tagger.tag(token_texto_exemplo)

[('Não', 'n'),
 ('sei', 'n'),
 ('se', 'n'),
 ('entendi', 'n'),
 ('como', 'n'),
 ('ler', 'n'),
 ('o', 'n'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', 'n'),
 ('então', 'n'),
 ('.', 'n'),
 ('Estou', 'n'),
 ('entendendo', 'n'),
 ('que', 'n'),
 ('a', 'n'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'n'),
 ('histórico', 'n'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'n'),
 ('associados', 'n'),
 (',', 'n'),
 ('certo', 'n'),
 ('?', 'n')]

In [None]:
# Analisando com base na tag padrão (tag ouro/gold)
tag_sents = tag_new_sents

default_tagger = nltk.DefaultTagger('n')
print(default_tagger.evaluate(tag_sents))

0.18919339916545513


In [None]:
tag_sents = tag_new_sents
#type(tag_sents) #len(tag_sents)
#tag_sents[len(tag_sents)-1] #tag_sents[-1]

tag_sents_treino = tag_sents[1000:]
tag_sents_teste = tag_sents[:1000]

tagger0 = nltk.DefaultTagger('n')
print(tagger0.evaluate(tag_sents_teste))

tagger1 = nltk.UnigramTagger(tag_sents_treino, backoff=tagger0)
print(tagger1.evaluate(tag_sents_teste))

tagger2 = nltk.BigramTagger(tag_sents_treino, backoff=tagger1)
print(tagger2.evaluate(tag_sents_teste))

tagger3 = nltk.TrigramTagger(tag_sents_treino, backoff=tagger2)
print(tagger3.evaluate(tag_sents_teste))

0.17800040072129833
0.8740532959326788
0.8900420757363254
0.8887998397114807



Documentação dos métodos tag:
  - https://www.nltk.org/api/nltk.tag.html

Nos baseamos no métodos da documentação abaixo:
  - Capítulo 5 - N-Gram Tagging: http://www.nltk.org/book/ch05.html
  - Exemplo em português: http://www.nltk.org/howto/portuguese_en.html
  - Outros corpus tageados: https://www.nltk.org/book/ch02.html


In [None]:
from sklearn.externals import joblib

joblib.dump(tagger2, 'tagger.pkl')



['tagger.pkl']

In [None]:
!ls -all -h

total 704K
drwxr-xr-x 1 root root 4.0K Nov 10 12:30 .
drwxr-xr-x 1 root root 4.0K Nov 10 12:28 ..
drwxr-xr-x 4 root root 4.0K Nov  1 13:34 .config
drwxr-xr-x 1 root root 4.0K Nov  1 13:35 sample_data
-rw-r--r-- 1 root root 686K Nov 10 12:30 tagger.pkl


In [None]:
bla = joblib.load('tagger.pkl')

In [None]:
print(bla.evaluate(tag_sents_teste))

0.8900420757363254


In [None]:
texto_exemplo
twords = tokenize.word_tokenize(texto_exemplo, language="portuguese")
bla.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'conj-s'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [None]:
#twords = tokenize.word_tokenize(texto_exemplo, language="portuguese")
tagger2.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'conj-s'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [None]:
tagger1.tag(twords)

[('Não', 'n'),
 ('sei', 'v-fin'),
 ('se', 'pron-pers'),
 ('entendi', 'n'),
 ('como', 'adv'),
 ('ler', 'v-inf'),
 ('o', 'art'),
 ('conteúdo', 'n'),
 ('da', 'n'),
 ('view', 'n'),
 (',', ','),
 ('então', 'adv'),
 ('.', '.'),
 ('Estou', 'n'),
 ('entendendo', 'v-ger'),
 ('que', 'pron-indp'),
 ('a', 'art'),
 ('view', 'n'),
 ('contém', 'n'),
 ('um', 'art'),
 ('histórico', 'adj'),
 ('das', 'n'),
 ('movimentações', 'n'),
 ('dos', 'prop'),
 ('associados', 'n'),
 (',', ','),
 ('certo', 'adj'),
 ('?', '?')]

In [None]:
print(nltk.corpus.floresta.readme()[:1000])

Portuguese Treebank

Projecto Floresta Sinta(c)tica -- http://www.linguateca.pt/Floresta/
Version 7.4  Distributed with permission.

Penn Treebank format, available from http://linguateca.di.uminho.pt/FS/fs.html

Key to tags (http://visl.sdu.dk/visl/pt/portsymbol.html)

<ACC          direct object
<ACC-PASS     passive use of pronoun 'se'
<ADVS, <ADVO  adverbial argument
<ADVL         adjunct adverbial
<DAT          dative (indirect) object
<FOC          focus marker (or right focus bracket)
<OC           object complement
<PASS         agent of passive
<PIV          prepositional object
<PRED         free (subject) predicative, right of main verb
<SC           subject complement
<SUBJ         subject
>A            adverbial pre-adject (intensifier before adjective, adverb, pronoun or participle)
>N            prenominal modifier
>P            modifier of prepositional phrase (intensifier, operator or focus adverb)
>S            modifier of clause (intensifier, operator or focus adverb

# **TextBlob**

---

O TextBlob já oferente uma serie de recursos de PLN, como: marcação POS-Tag, extração de frases substantivas, análise de sentimentos, classificação, tradução e outras.

- Documentação oficial: https://textblob.readthedocs.io/en/dev/index.html
- Natural Language Basics with TextBlob - Allison Parrish: http://rwet.decontextualize.com/book/textblob/



In [None]:
!pip install textblob



In [None]:
from textblob import TextBlob
from textblob.sentiments import NaiveBayesAnalyzer
import nltk
nltk.download('movie_reviews')
nltk.download('punkt')

opinion = TextBlob("batman vs superman is a shit!", analyzer=NaiveBayesAnalyzer())
opinion.sentiment

[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Sentiment(classification='neg', p_pos=0.288629160063391, p_neg=0.7113708399366088)

In [None]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

Outras funcionalidades do TextBlob, como: tradutor e pos-tag

In [None]:
'''
texto_exemplo = "Não sei se entendi como ler o conteúdo da view, então. \
Estou entendendo que a view contém um histórico das movimentações \
dos associados, certo?"
'''
texto_exemplo

'Não sei se entendi como ler o conteúdo da view, então. Estou entendendo que a view contém um histórico das movimentações dos associados, certo?'

In [None]:
'''
print("Frase original: ", texto_exemplo)

tblob = TextBlob(texto_exemplo)

print('Idioma: ',tblob.detect_language())

en_tblob = tblob.translate(to='en')

print("Traduzido: ", en_tblob)

print("Tags: ", en_tblob.tags)
'''

In [None]:
'''
text = "As aulas da USP são muito chatas"

tblob = TextBlob(text)

en_text = tblob.translate(to='en')

en_text
'''

In [None]:
'''
en = TextBlob(en_text.string, analyzer=NaiveBayesAnalyzer())

en.sentiment
'''

In [None]:
'''
# Exemplo com uma forma de deixar todo o texto no mesmo indioma
en_text = "As aulas da USP são muito chatas. My god!"

#Exemplo 1
tblob = TextBlob(en_text)
pt_text = tblob.translate(from_lang='en', to='pt')

pt_text
'''

***Obs: O TextBlob para TRADUÇÕES não está funcioando a princípio, pois pelas pesquisas que eu fiz, houve alguma alteração na API do Google e a bliblioteca TextBlob não foi atualizada ainda.***

Outro tradutor

In [None]:
!pip install translate

In [None]:
from translate import Translator

#Exemplo 2 usando outro pacote o "translate"
en_text = "As aulas da USP são muito chatas. My god!"

translator = Translator(to_lang="pt")
pt_text = translator.translate(en_text)

pt_text

'As aulas da USP são muito chatas. Meu Deus!'

### Treinando um modelo do TextBlob

In [None]:
# Treinamento do Classificador TextBlob ()
import pandas as pd
from textblob.classifiers import NaiveBayesClassifier
from textblob import TextBlob
import nltk
nltk.download('punkt')

# Demostração de validação
df_treino = pd.DataFrame({
    'text': [
      'Sobre MBA ? Eu gostei muito do MBA da FIAP',
      'O MBA da FIAP pode melhorar, não gostei muito',
      'O curso pode melhorar'
    ],
    'class': [
        'positivo',
        'negativo',
        'negativo'
    ]})

# Treinamento do modelo
model = NaiveBayesClassifier(df_treino.values.tolist())

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
# Demostração de validação
df_teste = pd.DataFrame({
    'text': [
      'O curso pode melhorar'
    ],
    'class': [
        'negativo'
    ]})

subset_teste = df_teste[['text','class']]
tuples_teste = [tuple(x) for x in subset_teste.values]

In [None]:
accuracy = model.accuracy(df_teste[['text','class']].values.tolist())

y_predito = model.classify(tuples_teste[0][0])
y_predito

print('Acurácia: {}'.format(accuracy))
print(y_predito)

Acurácia: 1.0
negativo


In [None]:
# outra forma
texto = 'O curso pode melhorar'

blob = TextBlob(texto,classifier=model)

print('Predição: {}'.format(blob.classify()))

Predição: negativo


Aplicando o modelo de classificação do TextBlob na nossa base de produtos

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from textblob.classifiers import NaiveBayesClassifier
from textblob import TextBlob
import nltk
nltk.download('punkt')

# carrega os dados
df = pd.read_csv("https://dados-ml-pln.s3-sa-east-1.amazonaws.com/produtos.csv", delimiter=";", encoding='utf-8').sample(1000)
df.dropna(inplace=True)
df["texto"] = df['nome'] + " " + df['descricao']

# divisão das amostras em treino e teste
df_treino, df_teste = train_test_split(
      df, 
      test_size = 0.3, 
      random_state = 42
  )

# Preparando os dados para o modelo
subset_treino = df_treino[['texto','categoria']]
tuples_treino = [tuple(x) for x in subset_treino.values]
#tuples_treino[0]
subset_teste = df_teste[['texto','categoria']]
tuples_teste = [tuple(x) for x in subset_teste.values]

# Treinamento do modelo
model = NaiveBayesClassifier(tuples_treino)
# ou
#model = NaiveBayesClassifier(df_treino[['texto','categoria']].values.tolist())
print(model)

# validação
accuracy = model.accuracy(tuples_teste)
print('Precisão: {}'.format(accuracy))

# classificação (predição)
def fn_classificacao():
  for i in range(len(tuples_teste)):
    classification = model.classify(tuples_teste[i][0])
    y_predito.append(classification)

y_predito = []
fn_classificacao()

df_teste['categoria_predito'] = y_predito

print(df_teste[['categoria','categoria_predito']].head(5))

#y_predito = model.classify(df_teste[['texto','categoria']].values.tolist())
#y_predito

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
<NaiveBayesClassifier trained on 513 instances>
Precisão: 0.8227272727272728
      categoria categoria_predito
2795  maquiagem         brinquedo
758       livro             livro
1787  brinquedo         brinquedo
3444       game         brinquedo
1997  brinquedo         brinquedo


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


# **SpaCy**

---


In [None]:
!pip install spacy
!python -m spacy download pt

In [None]:
# Outros modelos do pacote SpaCy
#!python -m spacy download en
#!python -m spacy download en_core_web_lg
#!python -m spacy download pt_core_news_sm

Os modelos e linguagens que o SpaCy suporta: https://spacy.io/usage/models

Detalhes do modelo em português: https://spacy.io/models/pt


In [None]:
import spacy

nlp = spacy.load('pt')

doc = nlp(u'Você encontrou o livro que eu te falei, Carla?')

print(type(doc))
print([token.orth_ for token in doc])

<class 'spacy.tokens.doc.Doc'>
['Você', 'encontrou', 'o', 'livro', 'que', 'eu', 'te', 'falei', ',', 'Carla', '?']


In [None]:
print([token.text for token in doc])

['Você', 'encontrou', 'o', 'livro', 'que', 'eu', 'te', 'falei', ',', 'Carla', '?']


In [None]:
type(doc[0].orth_)

str

In [None]:
doc[0].orth_

'Você'

In [None]:
[(token.text, token.orth_, token.pos_, token.dep_, spacy.explain(token.pos_)) for token in doc]

[('Você', 'Você', 'PRON', 'nsubj', 'pronoun'),
 ('encontrou', 'encontrou', 'VERB', 'ROOT', 'verb'),
 ('o', 'o', 'DET', 'det', 'determiner'),
 ('livro', 'livro', 'NOUN', 'obj', 'noun'),
 ('que', 'que', 'PRON', 'obj', 'pronoun'),
 ('eu', 'eu', 'PRON', 'nsubj', 'pronoun'),
 ('te', 'te', 'VERB', 'obj', 'verb'),
 ('falei', 'falei', 'VERB', 'acl:relcl', 'verb'),
 (',', ',', 'PUNCT', 'punct', 'punctuation'),
 ('Carla', 'Carla', 'PROPN', 'conj', 'proper noun'),
 ('?', '?', 'PUNCT', 'punct', 'punctuation')]

Uma lista completa de dependências sintáticas pode ser vista em: https://spacy.io/api/annotation#dependency-parsing 

Um bom material complementar para dependências sintáticas pode ser vista no ["Stanford typed dependencies manual"](https://nlp.stanford.edu/software/dependencies_manual.pdf)


In [None]:
doc

Você encontrou o livro que eu te falei, Carla?

In [None]:
[token.lemma_ for token in doc]

['Você',
 'encontrar',
 'o',
 'livrar',
 'que',
 'eu',
 'te',
 'falar',
 ',',
 'Carla',
 '?']

In [None]:
doc = nlp(u'encontrardes, encontraram, encontrarão, encontrariam, encontrasse, encontraria')
print([token.lemma_ for token in doc])

['encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar', ',', 'encontrar']


Reconhecimento de entidades nomeadas - NER: Named-Enntity Recognition.

Utilizada para reconhecer pessoas, locais, empresas, datas, numerais e outros.

In [None]:
doc = nlp(u'Pelé um dos melhores escritores do Brasil, \
foi o primeiro presidente da Academia Brasileira de Letras')

print(doc.ents)

(Pelé, Brasil, Academia Brasileira de Letras)


In [None]:
[(entity, entity.label_, spacy.explain(entity.label_)) for entity in doc.ents]

[(Pelé, 'PER', 'Named person or family.'),
 (Brasil, 'LOC', 'Non-GPE locations, mountain ranges, bodies of water'),
 (Academia Brasileira de Letras,
  'ORG',
  'Companies, agencies, institutions, etc.')]

In [None]:
[(entity, entity.pos_) for entity in doc]

[(Pelé, 'PROPN'),
 (um, 'NUM'),
 (dos, 'ADP'),
 (melhores, 'ADJ'),
 (escritores, 'NOUN'),
 (do, 'ADP'),
 (Brasil, 'PROPN'),
 (,, 'PUNCT'),
 (foi, 'VERB'),
 (o, 'DET'),
 (primeiro, 'ADJ'),
 (presidente, 'NOUN'),
 (da, 'ADP'),
 (Academia, 'PROPN'),
 (Brasileira, 'PROPN'),
 (de, 'ADP'),
 (Letras, 'PROPN')]

In [None]:
doc8 = nlp(u'Google investirá 6 milhões de dólares')

for token in doc8:
    print(token.text, end =' | ')

print('\n----')

for ent in doc8.ents:
    print(ent.text + ' - ' + ent.label_ + ' - ' + str(spacy.explain(ent.label_)))

Google | investirá | 6 | milhões | de | dólares | 
----
Google - ORG - Companies, agencies, institutions, etc.


In [None]:
doc4 = nlp(u'Esta é a primeira sentença. Sr. esta é a segunda sentença. Esta é a terceira. Você já entendeu né?')

for sent in doc4.sents:
    print(sent)

Esta é a primeira sentença.
Sr. esta é a segunda sentença.
Esta é a terceira.
Você já entendeu né?


In [None]:
doc4[6]

Sr.

In [None]:
print(doc4[6])
print(doc4[6].is_sent_start)

Sr.
True


In [None]:
stop = nlp.Defaults.stop_words
print(nlp.Defaults.stop_words)

{'primeira', 'todos', 'dessa', 'aquela', 'apoio', 'nada', 'disso', 'apoia', 'quatro', 'des', 'nuns', 'grandes', 'portanto', 'corrente', 'vez', 'dizer', 'doze', 'põem', 'porquê', 'fostes', 'questão', 'uns', 'estará', 'estes', 'máximo', 'podem', 'por', 'que', 'estão', 'algo', 'sistema', 'mês', 'irá', 'ontem', 'assim', 'sexta', 'boa', 'aqueles', 'nenhuma', 'algumas', 'pois', 'teu', 'adeus', 'elas', 'vens', 'tipo', 'estas', 'apenas', 'todo', 'ora', 'comprida', 'muitos', 'maioria', 'ademais', 'dois', 'tudo', 'quarta', 'pôde', 'último', 'nossas', 'meses', 'cada', 'estive', 'numa', 'pontos', 'quarto', 'tuas', 'essa', 'ali', 'seis', 'atrás', 'entre', 'muito', 'tentar', 'cento', 'nas', 'certeza', 'esse', 'suas', 'dar', 'dezanove', 'quieta', 'minha', 'qualquer', 'vocês', 'estava', 'ser', 'na', 'umas', 'somos', 'menor', 'querem', 'ambas', 'faz', 'esteve', 'quinta', 'novo', 'isso', 'sabe', 'partir', 'posso', 'sem', 'cedo', 'vem', 'exemplo', 'estar', 'você', 'for', 'isto', 'sua', 'aquilo', 'relação

In [None]:
len(nlp.Defaults.stop_words)

413

In [None]:
import nltk
nltk.download('stopwords')

stopwords = nltk.corpus.stopwords.words('portuguese')
len(stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


204

In [None]:
stops_spacy_nltk = list(set(nlp.Defaults.stop_words).union(set(nltk.corpus.stopwords.words('portuguese'))))
stops_spacy_nltk
len(stops_spacy_nltk)

499

In [None]:
#len(list(set(nlp.Defaults.stop_words) - set(stopwords)))
list(set(nlp.Defaults.stop_words) - set(stopwords))[:10]

['inicio',
 'deve',
 'onze',
 'vinda',
 'demais',
 'primeira',
 'ligado',
 'todos',
 'poderá',
 'dessa']

In [None]:
doc = nlp(u'pegar')
token = doc[0]

#**Modelo de classificação**
---

<br>
Vamos "produtizar" nosso melhor modelo?

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.tree import DecisionTreeClassifier

# Carrega o dataframe
df = pd.DataFrame({
    'text': [
      'Sobre MBA ? Eu gostei muito do MBA da FIAP',
      'O MBA da FIAP pode melhorar, não gostei muito'
    ],
    'class': [
        'positivo',
        'negativo'
    ]})

# Vetoriza os documentos (cria um vetor treinado no contexto para o modelo)
vect = TfidfVectorizer() 
vect.fit(df.text)
tfidf_vect = vect.transform(df.text)

print(pd.DataFrame(tfidf_vect.A, columns=vect.get_feature_names()).to_string())

# Treina um modelo com os textos vetorizados
tree = DecisionTreeClassifier()
tree.fit(tfidf_vect, df['class'])

# Valida as predições do modelo
print('\nD Tree: ', tree.score(tfidf_vect, df['class'])) # retorna a acurracy - precisão do modelo

         da        do        eu      fiap    gostei       mba  melhorar     muito       não      pode     sobre
0  0.267970  0.376623  0.376623  0.267970  0.267970  0.535941  0.000000  0.267970  0.000000  0.000000  0.376623
1  0.302531  0.000000  0.000000  0.302531  0.302531  0.302531  0.425196  0.302531  0.425196  0.425196  0.000000

D Tree:  1.0


In [None]:
# Vetoriza um novo documento
vetor = vect.transform(['o curso pode melhorar'])

# Faz a previsão com base no modelo previamente treinado
print('D Tree: ', tree.predict(vetor))

D Tree:  ['negativo']


Salvando nosso vetor treinado e nosso modelo de classificação.

In [None]:
import pickle

pickle.dump(vect, open('meu_vetor.pkl', 'wb'))
pickle.dump(tree, open('minha_arvore.pkl', 'wb'))

In [None]:
!ls -la

total 712
drwxr-xr-x 1 root root   4096 Nov 10 12:37 .
drwxr-xr-x 1 root root   4096 Nov 10 12:28 ..
drwxr-xr-x 4 root root   4096 Nov  1 13:34 .config
-rw-r--r-- 1 root root   1775 Nov 10 12:37 meu_vetor.pkl
-rw-r--r-- 1 root root   1555 Nov 10 12:37 minha_arvore.pkl
drwxr-xr-x 1 root root   4096 Nov  1 13:35 sample_data
-rw-r--r-- 1 root root 701497 Nov 10 12:30 tagger.pkl


In [None]:
import pickle

bla_vetor = pickle.load(open('meu_vetor.pkl', 'rb'))
bla_modelo = pickle.load(open('minha_arvore.pkl', 'rb'))

In [None]:
bla_vetor

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True, stop_words=None, strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, use_idf=True, vocabulary=None)

In [None]:
bla_modelo

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [None]:
# Vetoriza um novo documento com o vetor carregado
novo_vetor = bla_vetor.transform(['o curso pode melhorar'])

print(pd.DataFrame(novo_vetor.A, columns=bla_vetor.get_feature_names()).to_string())

# Faz a previsão com base no modelo carregado
print('D Tree: ', bla_modelo.predict(novo_vetor))

    da   do   eu  fiap  gostei  mba  melhorar  muito  não      pode  sobre
0  0.0  0.0  0.0   0.0     0.0  0.0  0.707107    0.0  0.0  0.707107    0.0
D Tree:  ['negativo']


Salvando no Google Drive

In [None]:
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)

# mostra a estrutura de pastas do google drive montado no colab
!ls -la
!ls -la /content/gdrive/MyDrive/FIAP/NLP/modelos

Mounted at /content/gdrive
total 716
drwxr-xr-x 1 root root   4096 Nov 10 12:38 .
drwxr-xr-x 1 root root   4096 Nov 10 12:28 ..
drwxr-xr-x 4 root root   4096 Nov  1 13:34 .config
drwx------ 5 root root   4096 Nov 10 12:38 gdrive
-rw-r--r-- 1 root root   1775 Nov 10 12:37 meu_vetor.pkl
-rw-r--r-- 1 root root   1555 Nov 10 12:37 minha_arvore.pkl
drwxr-xr-x 1 root root   4096 Nov  1 13:35 sample_data
-rw-r--r-- 1 root root 701497 Nov 10 12:30 tagger.pkl
total 4
-rw------- 1 root root 1775 May 11  2021 meu_vetorizador.pkl
-rw------- 1 root root 1555 May 11  2021 minha_arvore.pkl


In [None]:
import pickle

pickle.dump(tree, open('/content/gdrive/MyDrive/FIAP/NLP/modelos/minha_arvore.pkl', 'wb'))
pickle.dump(vect, open('/content/gdrive/MyDrive/FIAP/NLP/modelos/meu_vetorizador.pkl', 'wb'))

In [None]:
!ls -la /content/gdrive/MyDrive/FIAP/NLP/modelos

total 4
-rw------- 1 root root 1775 Nov 10 12:38 meu_vetorizador.pkl
-rw------- 1 root root 1555 Nov 10 12:38 minha_arvore.pkl


Reinicie o colab... <control>

In [None]:
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)

Mounted at /content/gdrive


In [None]:
import pickle

minha_arvore = pickle.load(open('/content/gdrive/MyDrive/FIAP/NLP/modelos/minha_arvore.pkl', 'rb'))
meu_vetorizador = pickle.load(open('/content/gdrive/MyDrive/FIAP/NLP/modelos/meu_vetorizador.pkl', 'rb'))

In [None]:
# Vetoriza um novo documento com o vetor carregado
novo_vetor = meu_vetorizador.transform(['o curso pode melhorar'])

# Faz a previsão com base no modelo carregado
print('D Tree: ', minha_arvore.predict(novo_vetor))

D Tree:  ['negativo']


Escorando os documentos de um novo dataframe com as predições

In [None]:
import pandas as pd

# Dataframe sem classificação
df_novo = pd.DataFrame({
    'texto': [
      'Sobre MBA ? Eu gostei muito do MBA da FIAP',
      'O MBA da FIAP pode melhorar, não gostei muito',
      'O curso pode melhorar'
    ]})

df_novo

Unnamed: 0,texto
0,Sobre MBA ? Eu gostei muito do MBA da FIAP
1,"O MBA da FIAP pode melhorar, não gostei muito"
2,O curso pode melhorar


In [None]:
texto_vetorizado = meu_vetorizador.transform(df_novo.texto)

print(pd.DataFrame(texto_vetorizado.A, columns=meu_vetorizador.get_feature_names()).to_string())

         da        do        eu      fiap    gostei       mba  melhorar     muito       não      pode     sobre
0  0.267970  0.376623  0.376623  0.267970  0.267970  0.535941  0.000000  0.267970  0.000000  0.000000  0.376623
1  0.302531  0.000000  0.000000  0.302531  0.302531  0.302531  0.425196  0.302531  0.425196  0.425196  0.000000
2  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.707107  0.000000  0.000000  0.707107  0.000000


In [None]:
df_novo['class_predict'] = minha_arvore.predict(texto_vetorizado)

In [None]:
df_novo

Unnamed: 0,texto,class_predict
0,Sobre MBA ? Eu gostei muito do MBA da FIAP,positivo
1,"O MBA da FIAP pode melhorar, não gostei muito",negativo
2,O curso pode melhorar,negativo


### **Exercício 1**

###Que tal fazer isso com seu melhor modelo classificador de produtos?

- Crie um pipeline produtivo do seu melhor modelo até aqui.

In [None]:
import pandas as pd

df = pd.read_csv("https://dados-ml-pln.s3-sa-east-1.amazonaws.com/produtos.csv", delimiter=";", encoding='utf-8')

df.dropna(inplace=True)
df["texto"] = df['nome'] + " " + df['descricao']

#**Outros modelos de classificação**
---
<br>

###O ***Scikit-Learn*** nos permite explorar mais modelos de classificação além da Árvore de Decisão (DecisionTreeClassifier), veja:
<br>

- Regressão Logistica (LogisticRegression)
- Random Forest (RandomForestClassifier)
- Naive Bayes (MultinomialNB e BernoulliNB)

Entre outros...

In [None]:
# Modelos de Regressão
from sklearn.linear_model import LogisticRegression

# Random Forest (baseados em Ávores de Decisões)
from sklearn.ensemble import RandomForestClassifier

# Naive Bayes, bastante utilizado para classificar textos baseado na frequência das palavras independnetemente do contexto (classificação de SPAM)
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import BernoulliNB

https://scikit-learn.org/stable/modules/linear_model.html

https://scikit-learn.org/stable/modules/naive_bayes.html

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier



Exemplo com Regressão Logística:

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# carrega os dados
df = pd.read_csv("https://dados-ml-pln.s3-sa-east-1.amazonaws.com/produtos.csv", delimiter=";", encoding='utf-8')
df.dropna(inplace=True)
df["texto"] = df['nome'] + " " + df['descricao']

# divisão das amostras em treino e teste
df_treino, df_teste = train_test_split(
      df, 
      test_size = 0.3, 
      random_state = 42
  )

#df.shape
#df_treino.shape
#df_teste.shape

## TREINAMENTO
# vetorização do dataframe de treino
vect = CountVectorizer(ngram_range=(1,1)) # vetorização por contagem de termos simples dos unigramas com stopwords
vect.fit(df_treino.texto)
text_vect_treino = vect.transform(df_treino.texto)

# treinamento do modelo
model = LogisticRegression(random_state=42)
model.fit(text_vect_treino, df_treino.categoria)

## VALIDAÇÃO
# vetorização do dataframe de teste
text_vect_teste = vect.transform(df_teste.texto)

# escoragem da classificação na amostra de teste (textos vetorizados)
y_predicao = model.predict(text_vect_teste)

# mensuração do resultado pela acurácia
y_teste = df_teste.categoria
accuracy = accuracy_score(y_predicao, y_teste) # predito x classificação original
print(accuracy)

0.9805714285714285


### **Exercício 2**

Dado o dataset de produtos [1], descubra:
- Treine deferentes modelos de classificação do pacote scikit-learn para classificar os produtos em suas categorias.
- Experimente a lib SpaCy para remover as stop words e reduzir as palavras ao seu lema. Veja como essas alterações impactam o desempenho do classificador.
- Compare a performance entre eles usando a métrica de acurácia.
- Use randon_state igual a 42 para permitir a comparação com seus colegas, separando 30% para teste.


[1] - https://dados-ml-pln.s3-sa-east-1.amazonaws.com/produtos.csv

In [None]:
import pandas as pd

df = pd.read_csv("https://dados-ml-pln.s3-sa-east-1.amazonaws.com/produtos.csv", delimiter=";", encoding='utf-8')

df.dropna(inplace=True)
df["texto"] = df['nome'] + " " + df['descricao']

# **SpaCy**

---


In [None]:
!pip install spacy
!python -m spacy download pt

In [None]:
#!python -m spacy download en
#!python -m spacy download en_core_web_lg
#!python -m spacy download pt_core_news_sm

## Correspondência Baseada em Regras 

O spaCy oferece uma ferramenta de correspondência de regras chamada Matcher, que permite criar uma biblioteca de padrões de token e, em seguida, associar esses padrões a um objeto Doc para retornar uma lista de correspondências encontradas. Você pode combinar em qualquer parte do token, incluindo texto e anotações, e você pode adicionar vários padrões ao mesmo combinador.

In [None]:
import spacy
nlp = spacy.load('pt')

from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

Aqui matcher é um objeto que é emparelhado com o objeto Vocab atual. Podemos adicionar e remover matchers nomeados específicos para o matcher, conforme necessário.

Podemos encontrar o termo "guarda-chuva" como uma palavra ou duas, com ou sem um hífen. Nesta seção, vamos desenvolver um matcher que encontre todos os três:

In [None]:
pattern1 = [{'LOWER': 'guardachuva'}]
pattern2 = [{'LOWER': 'guarda'}, {'LOWER': 'chuva'}]
pattern3 = [{'LOWER': 'guarda'}, {'IS_PUNCT': True}, {'LOWER': 'chuva'}]

matcher.add('GuardaChuva', None, pattern1, pattern2, pattern3)

In [None]:
doc = nlp('Hoje eu esqueci meu guardachuva. \
Vou ter que comprar um novo guarda - chuva. \
Quanto custa um guarda chuva?')

found_matches = matcher(doc)
print(found_matches)

In [None]:
doc[4:5]
doc[12:15]
doc[19:21]

In [None]:
for match_id, start, end in found_matches:
    string_id = nlp.vocab.strings[match_id]
    span = doc[start:end]
    print(match_id, string_id, start, end, span.text)

É possível usar opções de POS Tag e o Lema dos termos como no exemplo abaixo:

In [None]:
matcher = Matcher(nlp.vocab)

pattern = [{'POS': 'VERB'}]

matcher.add('Personalida', None, pattern)

In [None]:
doc = nlp('O presidente Barak Obama visitou o Brasil')

found_matches = matcher(doc)
print(found_matches)

In [None]:
doc[4:5]

Outro exemplo combinando regras

In [None]:
matcher = Matcher(nlp.vocab)

pattern = [{'TEXT': 'andar', 'POS': 'NOUN'}]

matcher.add('Regra 1', None, pattern)

In [None]:
doc = nlp('Vamos andar até a esquina e depois subir para o terceiro andar do prédio.')

found_matches = matcher(doc)
print(found_matches)

In [None]:
[(token.text, token.orth_, token.pos_, token.dep_, spacy.explain(token.pos_)) for token in doc]

Os seguintes quantificadores podem ser passados para a chave `'OP'`:

<table><tr><th>OP</th><th>Descrição</th></tr>

<tr ><td><span >\!</span></td><td>Nega o padrão, exigindo que ele corresponda exatamente 0 vezes</td></tr>
<tr ><td><span >?</span></td><td>Torna o padrão opcional, permitindo que ele corresponda 0 ou 1 vezes</td></tr>
<tr ><td><span >\+</span></td><td>Exige que o padrão corresponda a uma ou mais vezes</td></tr>
<tr ><td><span >\*</span></td><td>Permite que o padrão corresponda a zero ou mais vezes</td></tr>
</table>

**Outros atributos de token**

<table><tr><th>Atributo</th><th>Descrição</th></tr>

<tr ><td><span >`ORTH`</span></td><td>O texto exato do token</td></tr>
<tr ><td><span >`LOWER`</span></td><td>O texto em caixa baixa</td></tr>
<tr ><td><span >`LENGTH`</span></td><td>O tamanho do texto do token</td></tr>
<tr ><td><span >`IS_ALPHA`, `IS_ASCII`, `IS_DIGIT`</span></td><td>O texto do token consiste de alfanuméricos, ASCII, digitos</td></tr>
<tr ><td><span >`IS_LOWER`, `IS_UPPER`, `IS_TITLE`</span></td><td>O texto do toen esta em  lowercase, uppercase, titlecase</td></tr>
<tr ><td><span >`IS_PUNCT`, `IS_SPACE`, `IS_STOP`</span></td><td>Token é puntuação, espaço, stop-word</td></tr>
<tr ><td><span >`LIKE_NUM`, `LIKE_URL`, `LIKE_EMAIL`</span></td><td>Texto do token se parece um numero, URL, email</td></tr>
<tr ><td><span >`POS`, `TAG`, `DEP`, `LEMMA`, `SHAPE`</span></td><td>O token em sua representação de POS Tag, dependência, </td></tr>
<tr ><td><span >`ENT_TYPE`</span></td><td>O tipo de entidade do token</td></tr>

</table>


Para saber mais sobre esta função da lib SpaCy: 

https://spacy.io/api/matcher

https://spacy.io/usage/rule-based-matching

https://spacy.io/usage/linguistic-features#section-rule-based-matching