In [2]:
# !pip install spacy

In [12]:
#!python -m spacy download pt_core_news_sm

In [2]:
import spacy

In [14]:
nlp = spacy.load("pt_core_news_sm")

In [22]:
doc = nlp('Pensar, pensarei, pensarão')

# Lematização é concorrente da Stemmização do nltk

In [25]:
for i in doc:
    print(i,i.lemma_)

Pensar Pensar
, ,
pensarei pensar
, ,
pensarão pensar


In [27]:
doc = nlp('Dragon Ball foi inicialmente inspirado pelo clássico romance chinês Jornada ao Oeste. A série segue as aventuras do protagonista, Son Goku, desde sua infância até a idade adulta enquanto ele treina artes marciais e explora o mundo em busca de sete esferas conhecidas como as Esferas do Dragão, que convocam um dragão que concede um desejo quando reunidas. Ao longo de sua jornada, Goku faz vários amigos e luta contra uma grande variedade de vilões, muitos dos quais também procuram as Esferas do Dragão.')

# Podemos ver as entidades com .ents
<p> Os labels representam o que aquela entidade significa </p>

In [29]:
for ent in doc.ents:
    print(ent.text,ent.label_)

Dragon Ball MISC
Jornada ao Oeste MISC
Son Goku MISC
Esferas LOC
Goku MISC
Esferas LOC


# displacy

In [33]:
from spacy import displacy

In [34]:
displacy.render(doc,style='ent')

# stop words

In [36]:
from spacy.lang.pt.stop_words import STOP_WORDS

In [41]:
# verificando se uma determinada palavra é uma stop_word
nlp.vocab['feliz'].is_stop

False

In [50]:
lista_non_stop = []
for token in doc:
        if not nlp.vocab[token.text].is_stop:
            lista_non_stop.append(token.text)

In [51]:
lista_non_stop

['Dragon',
 'Ball',
 'inicialmente',
 'inspirado',
 'clássico',
 'romance',
 'chinês',
 'Jornada',
 'Oeste',
 '.',
 'série',
 'segue',
 'aventuras',
 'protagonista',
 ',',
 'Son',
 'Goku',
 ',',
 'infância',
 'idade',
 'adulta',
 'treina',
 'artes',
 'marciais',
 'explora',
 'mundo',
 'busca',
 'esferas',
 'conhecidas',
 'Esferas',
 'Dragão',
 ',',
 'convocam',
 'dragão',
 'concede',
 'desejo',
 'reunidas',
 '.',
 'longo',
 'jornada',
 ',',
 'Goku',
 'amigos',
 'luta',
 'variedade',
 'vilões',
 ',',
 'procuram',
 'Esferas',
 'Dragão',
 '.']

# Parsing

In [58]:
# Ancestralidade
text = nlp('Vá a academia depois do café')

depois = text[2]
antes = text[-1]

list(antes.ancestors)

[depois, academia]

In [62]:
displacy.serve(text,style='dep');




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


In [64]:
list(text[2].children)

[Vá, a, depois]

In [65]:
list(text[2].ancestors)

[]

# Similaridade

In [72]:
texto1 = nlp('sã paulo')
texto2 = nlp('salvador')
texto3 = nlp('são paulo')
texto4 = nlp('salv')

In [73]:
texto1.similarity(texto2)

  texto1.similarity(texto2)


0.18345074214927026

In [74]:
texto1.similarity(texto3)

  texto1.similarity(texto3)


0.6870676916444315

In [75]:
texto2.similarity(texto4)

  texto2.similarity(texto4)


0.12709812191697542

# removendo caracteres especiais

In [86]:
import string

In [104]:
pontuacoes = string.punctuation
pontuacoes

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

# Preprocessamento
* removendo digitos
* tirando do uppercase
* tirando stop words 
* extraindo o lemma

In [167]:
doc = 'Olá, eu estou aqui no Brasil e eu gostei muito de comida brasileira baião de 2'
def preprocessing(doc):
    lista = []
    doc = doc.lower()
    doc = nlp(doc)
    for token in doc:
        if token.text not in pontuacoes and token.text not in STOP_WORDS and not token.text.isdigit():
            token = token.lemma_
            lista.append(token)
    return lista

In [168]:
preprocessing(doc)

['olá', 'brasil', 'gostar', 'comido', 'brasileiro', 'baião']

# Criando classifier

In [3]:
teste = [['eu tou feliz',{'ALEGRIA':True,'MEDO':False}],['eu tou triste',{'ALEGRIA':False,'MEDO':True}]]


In [7]:
modelo = spacy.blank('pt')
categorias = modelo.add_pipe('textcat')
categorias.add_label('ALEGRIA')
categorias.add_label('MEDO')

1

In [5]:
modelo.add_pipe('textcat')

<spacy.pipeline.textcat.TextCategorizer at 0x2c160afca60>