In [17]:
import spacy
from spacy import displacy

In [18]:
#Carrega o modelo e seta o idioma
#Esse é um modelo dos três modelos disponíveis em português
#O modelo tem news no nome, pois foi baseado em notícias
nlp = spacy.load("pt_core_news_sm")

In [19]:
#Criando Doc -> ocorre a tokenização e outros processos
doc = nlp("O João chutou a bola.")

#Printa menino
print(doc[1])

for token in doc:
    print(token.text, "->", token.pos_)
    
displacy.render(doc, style="dep")    

João
O -> DET
João -> PROPN
chutou -> VERB
a -> DET
bola -> NOUN
. -> PUNCT


In [20]:
"""
Atributos do token -> https://spacy.io/api/token

text - O texto do token
head - Qual é o token "pai"
i - Posição do token 
lemma_ - Token lematizado
lover_ - Token em minúsculo
shape_ - Mostra o formato do texto

like_num - Se representa um número
is_alpha - Se é alfanumérico
is_digit - Se é um número
is_upper - Se está em caixa alta
is_punct - Se é pontuação
"""

doc = nlp("Eu gosto de gatos, mas prefiro cães.")

for token in doc:
    print(token.text, "|", token.head, "|", token.i, "|", token.lemma_, "|", token.shape_, token.is_punct)

Eu | gosto | 0 | Eu | Xx False
gosto | gosto | 1 | gostar | xxxx False
de | gatos | 2 | de | xx False
gatos | gosto | 3 | gato | xxxx False
, | prefiro | 4 | , | , True
mas | prefiro | 5 | mas | xxx False
prefiro | gosto | 6 | preferir | xxxx False
cães | prefiro | 7 | cão | xxxx False
. | gosto | 8 | . | . True


In [21]:
#lemmatização e setemming

import nltk

nltk.download('rslp')
stemmer = nltk.stem.RSLPStemmer()


[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\mathe\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


In [22]:
for token in doc:
    print(token.text, "|", token.lemma_, "|", stemmer.stem(token.text))

Eu | Eu | eu
gosto | gostar | gost
de | de | de
gatos | gato | gat
, | , | ,
mas | mas | mas
prefiro | preferir | prefir
cães | cão | cão
. | . | .


In [23]:
#Sentenças

doc = nlp("Fui na padaria comprar pão. Aproveitei e comprei um chocolate Alpino também.")

setencas = list(doc.sents)
setencas

[Fui na padaria comprar pão., Aproveitei e comprei um chocolate Alpino também.]

In [24]:
#Substantivos -> Não tem em português ainda

substantivos = list(doc.noun_chunks)
sbstantivos

NotImplementedError: [E894] The 'noun_chunks' syntax iterator is not implemented for language 'pt'.

In [25]:
#A flexão do verbo pode ocasionar resultados errados, assim como palavras com multíplos significados

doc = nlp("A galinha atravessou a rua")
displacy.render(doc, style="dep") 

In [26]:
doc = nlp("A galinha atravessaria a rua")
displacy.render(doc, style="dep") 

In [28]:
#Entidades

doc = nlp("O Bruno, que trabalha na Google, roubou pão na casa do João.")

for entidade in doc.ents:
    print(entidade, "|", entidade.label_)

Bruno | PER
Google | ORG
João | PER


In [30]:
doc = nlp("Syukuro Manabe, Klaus Hasselmann e Giorgio Parisi são os ganhadores do Prêmio Nobel 2021 em Física, anunciou a Academia Real das Ciências da Suécia nesta terça-feira (5), pelas contribuições inovadoras para a nossa compreensão de sistemas físicos complexos.")

displacy.render(doc, style="ent")