In [5]:
!pip install spacy

import spacy
import spacy.cli

spacy.cli.download("pt")

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.7/dist-packages/pt_core_news_sm -->
/usr/local/lib/python3.7/dist-packages/spacy/data/pt
You can now load the model via spacy.load('pt')


In [26]:
nlp = spacy.load('pt')

# criação de um documento spacy
doc = nlp("Para enxergar claro, bastar mudar a direção do olhar.")

# visualização por meio de tokens
for token in doc:
    if token.is_alpha:
      print(token.text + ": " + "texto")
    if token.is_punct:
      print(token.text + ": " + "pontuação")
    if token.like_num:
      print(token.text + ": " + "número")

Para: texto
enxergar: texto
claro: texto
,: pontuação
bastar: texto
mudar: texto
a: texto
direção: texto
do: texto
olhar: texto
.: pontuação


In [27]:
# considerando somente parte dos tokens
span = doc[0:3]
print(span.text)

Para enxergar claro


In [28]:
# identificando termos gramaticais
doc1 = nlp('Eu comi uma deliciosa pizza')

for token in doc1:
    print(token.text, token.pos_)

Eu PRON
comi VERB
uma DET
deliciosa ADJ
pizza NOUN


In [30]:
from spacy import displacy

# extração de entidades
doc2 = nlp('Eu tenho usado o serviço de armazenamento na nuvem da Google, é a opção mais barata no Brasil, pago somente R$ 9.99 por mês.')

for ent in doc2.ents:
    print(ent.text, ent.label_)
displacy.render(doc2, style = "ent", jupyter = True)

Google ORG
Brasil LOC
R$ PER


In [31]:
from spacy.tokens import Span

# criando algumas entidades manualmente
doc3 = nlp('Olá forasteiro, está manhã teremos café, pão, ovos mexidos e manteiga, deseja que anotemos o pedido?')

span_with_label = Span(doc3, 0, 2, label="GREETING")
doc3.ents = [span_with_label]

for ent in doc3.ents:
    print(ent.text, ent.label_)

Olá forasteiro GREETING


In [32]:
# obtendo o radical das palavras 
doc4 = nlp('Você precisa entender, a maioria destas pessoas não está preparada para despertar. E muitas delas estão tão inertes, tão desesperadamente dependentes do sistema, que irão lutar para protegê-lo.')

for token in doc4:
    if token.pos_ == 'VERB':
        print(token.text, token.lemma_)

precisa preciso
entender entender
está estar
preparada preparar
despertar despertar
estão estar
lutar lutar


In [33]:
# similaridade entre textos
doc5 = nlp('Eu gosto de pizza.')
doc6 = nlp('Eu gosto de fast-food.')
doc7 = nlp('Eu prefiro comer salada.')

print(doc5.similarity(doc6))
print(doc5.similarity(doc7))

0.9145424814876244
0.5861113196570503


  "__main__", mod_spec)
  "__main__", mod_spec)


In [34]:
# similaridade entre partes
doc8 = nlp("Temos sorvete, pizza, batata-frita e refrigerante.")
token1 = doc8[3]
token2 = doc8[7]

print(token1)
print(token2)
print(token1.similarity(token2))

pizza
refrigerante
0.31935522


  "__main__", mod_spec)


In [35]:
# similaridade e não sentimento
doc9  = nlp('Eu gosto cachorros.')
doc10 = nlp('Eu odeio cachorros.')

print(doc9.similarity(doc10))

0.9342498505491282


  "__main__", mod_spec)


In [38]:
import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

# stopwords
print(len(stopwords))
print(stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
204
['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam'

In [39]:
# pontuação
import string
print(len(string.punctuation))
print(string.punctuation)

32
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [45]:
# frase original
texto = "Algum tempo hesitei se devia abrir estas memórias pelo princípio ou pelo fim, isto é, se poria em primeiro lugar o meu nascimento ou a minha morte. Suposto o uso vulgar seja começar pelo nascimento, duas considerações me levaram a adotar diferente método: a primeira é que eu não sou propriamente um autor defunto, mas um defunto autor, para quem a campa foi outro berço; a segunda é que o escrito ficaria assim mais galante e mais novo. Moisés, que também contou a sua morte, não a pôs no intróito, mas no cabo: diferença radical entre este livro e o Pentateuco."
print(texto)
	
# removendo alguns caracteres especiais indesejados
texto = texto.replace(","," ").replace(";",",")
print(texto)

# transformando o texto em letras minúsculas
texto = texto.lower()
print(texto)

# removendo stopwords
texto = ' '.join([word for word in texto.split() if word not in stopwords])
print(texto)

Algum tempo hesitei se devia abrir estas memórias pelo princípio ou pelo fim, isto é, se poria em primeiro lugar o meu nascimento ou a minha morte. Suposto o uso vulgar seja começar pelo nascimento, duas considerações me levaram a adotar diferente método: a primeira é que eu não sou propriamente um autor defunto, mas um defunto autor, para quem a campa foi outro berço; a segunda é que o escrito ficaria assim mais galante e mais novo. Moisés, que também contou a sua morte, não a pôs no intróito, mas no cabo: diferença radical entre este livro e o Pentateuco.
Algum tempo hesitei se devia abrir estas memórias pelo princípio ou pelo fim  isto é  se poria em primeiro lugar o meu nascimento ou a minha morte. Suposto o uso vulgar seja começar pelo nascimento  duas considerações me levaram a adotar diferente método: a primeira é que eu não sou propriamente um autor defunto  mas um defunto autor  para quem a campa foi outro berço, a segunda é que o escrito ficaria assim mais galante e mais novo