In [None]:
# Instala o spacy nesta versão especifica
!pip install -U spacy==3.7.2

In [None]:
# Baixa o modelo de texto grande (lg)
!python -m spacy download 'pt_core_news_lg'

In [16]:
import spacy    # Importar spacy

In [17]:
nlp = spacy.load('pt_core_news_lg')  # Carregar o modelo em português (nlp: processamento de linguagem natural)

In [21]:
print(type(nlp))    # Printa o tipo da variavel

<class 'spacy.lang.pt.Portuguese'>


In [20]:
print(nlp.pipe_names)       # Mostra objetos do pipeline

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [27]:
# Cria um documento
document = nlp("As ações do Magazine Luiza S.A, Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do periodo da pandemia")

# Documento provisorio
document2 = nlp("Alegações extraordinarias querem evidências extraordinarias. Carl Sagan: 'https://carlsagan.com'")

In [23]:
# Ler o tamanho do documento
len(document.vocab)

375

In [24]:
# Ver o tipo do documento
print(type(document))

<class 'spacy.tokens.doc.Doc'>


In [26]:
# Mostra a tokenização do texto
for token in document:
    print(token.text)

As
ações
do
Magazine
Luiza
S.A
,
Franca
,
Brasil
,
acumularam
baixa
de
70
%
ao
ano
.
Assim
já
devolveram
todos
os
ganhos
do
periodo
da
pandemia


In [29]:
# Mostra tokenização document2
for token in document2:
  print(token.text)

Alegações
extraordinarias
querem
evidências
extraordinarias
.
Carl
Sagan
:
'
https://carlsagan.com
'


In [30]:
print(document[3])

Magazine


In [32]:
print(document[3:5])

Magazine Luiza


In [33]:
print(len(document))

29


In [37]:
# Imprime os token
print("Tokens: ", [token.text for token in document])
print("Stop word: ", [token.is_stop for token in document])
print("Alfanumerico: ", [token.is_alpha for token in document])
print("Maiusculo: ", [token.is_upper for token in document])
print("Pontuação: ", [token.is_punct for token in document])
print("Numero: ", [token.like_num for token in document])
print("Sentença Inicial: ", [token.is_sent_start for token in document])



Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'periodo', 'da', 'pandemia']
Stop word:  [True, False, True, False, False, False, False, False, False, False, False, False, False, True, False, False, True, False, False, True, True, False, True, True, False, True, False, True, False]
Alfanumerico:  [True, True, True, True, True, False, False, True, False, True, False, True, True, True, False, False, True, True, False, True, True, True, True, True, True, True, True, True, True]
Maiusculo:  [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação:  [False, False, False, False, False, False, True, False, True, False, True, False, False, False, False, True, False, False, True, 

In [38]:
print("Tokens: ", [token.text for token in document])
print("Formato: ", [token.shape_ for token in document])

Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'periodo', 'da', 'pandemia']
Formato:  ['Xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', 'X.X', ',', 'Xxxxx', ',', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%', 'xx', 'xxx', '.', 'Xxxxx', 'xx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx']


In [40]:
# Procurar determinados elementos do document

# Procura por numero
for token in document:
  if token.like_num:
    print("Numero:", token.text)
  if token.is_punct:
    print("Pontuação:", token.text)

Pontuação: ,
Pontuação: ,
Pontuação: ,
Numero: 70
Pontuação: %
Pontuação: .


In [41]:
for token in document:
  print(token.text, " - ", token.pos_, " - ", token.dep_, " - ", token.lemma_, " - ", token.shape_)

As  -  DET  -  det  -  o  -  Xx
ações  -  NOUN  -  nsubj  -  ação  -  xxxx
do  -  ADP  -  case  -  de o  -  xx
Magazine  -  PROPN  -  nmod  -  Magazine  -  Xxxxx
Luiza  -  PROPN  -  flat:name  -  Luiza  -  Xxxxx
S.A  -  PROPN  -  flat:name  -  S.A  -  X.X
,  -  PUNCT  -  punct  -  ,  -  ,
Franca  -  PROPN  -  conj  -  Franca  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
Brasil  -  PROPN  -  conj  -  Brasil  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
acumularam  -  VERB  -  ROOT  -  acumular  -  xxxx
baixa  -  NOUN  -  obj  -  baixa  -  xxxx
de  -  ADP  -  case  -  de  -  xx
70  -  NUM  -  nummod  -  70  -  dd
%  -  SYM  -  nmod  -  %  -  %
ao  -  ADP  -  case  -  a o  -  xx
ano  -  NOUN  -  nmod  -  ano  -  xxx
.  -  PUNCT  -  punct  -  .  -  .
Assim  -  ADV  -  advmod  -  assim  -  Xxxxx
já  -  ADV  -  advmod  -  já  -  xx
devolveram  -  VERB  -  ROOT  -  devolver  -  xxxx
todos  -  DET  -  det  -  todo  -  xxxx
os  -  DET  -  det  -  o  -  xx
ganhos  -  NOUN  -  obj  -  ganho  -  xxxx


In [43]:
 # Morfologia das palavras (Classe gramatical que a palavra pertence)
for token in document:
  print(token.text, " - ", token.morph)

As  -  Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações  -  Gender=Fem|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Magazine  -  Gender=Fem|Number=Sing
Luiza  -  Gender=Fem|Number=Sing
S.A  -  Number=Sing
,  -  
Franca  -  Gender=Fem|Number=Sing
,  -  
Brasil  -  Gender=Masc|Number=Sing
,  -  
acumularam  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
baixa  -  Gender=Fem|Number=Sing
de  -  
70  -  NumType=Card
%  -  
ao  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
ano  -  Gender=Masc|Number=Sing
.  -  
Assim  -  
já  -  
devolveram  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
todos  -  Gender=Masc|Number=Plur|PronType=Tot
os  -  Definite=Def|Gender=Masc|Number=Plur|PronType=Art
ganhos  -  Gender=Masc|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
periodo  -  Gender=Masc|Number=Sing
da  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
pandemia  -  Gender=Fem|Number=Sing


In [44]:
for token in document:
  print(token.text, " - ", token.tag_)

As  -  DET
ações  -  NOUN
do  -  ADP
Magazine  -  PROPN
Luiza  -  PROPN
S.A  -  PROPN
,  -  PUNCT
Franca  -  PROPN
,  -  PUNCT
Brasil  -  PROPN
,  -  PUNCT
acumularam  -  VERB
baixa  -  NOUN
de  -  ADP
70  -  NUM
%  -  SYM
ao  -  ADP
ano  -  NOUN
.  -  PUNCT
Assim  -  ADV
já  -  ADV
devolveram  -  VERB
todos  -  DET
os  -  DET
ganhos  -  NOUN
do  -  ADP
periodo  -  NOUN
da  -  ADP
pandemia  -  NOUN


In [45]:
for ent in document.ents:
  print(ent.text, " - ", ent.label_)


Magazine Luiza S.A  -  ORG
Franca  -  ORG
Brasil  -  LOC


In [46]:
# stop words
for token in document:
  if token.is_stop:
    print("Stop word: ", token.text)

Stop word:  As
Stop word:  do
Stop word:  de
Stop word:  ao
Stop word:  Assim
Stop word:  já
Stop word:  todos
Stop word:  os
Stop word:  do
Stop word:  da


In [None]:
# Mostra stop words padrão do spacy
for words in nlp.Defaults.stop_words:
  print(words)

In [50]:
# Adicionar stop word personalizada
nlp.Defaults.stop_words.add("magazine") # Adiciona ao BD
nlp.vocab["magazine"].is_stop = True  # Adiciona a palavra como TRUE

In [51]:
nlp.vocab["magazine"].is_stop

True

In [52]:
# lista vazia
token_list = []

# Adiciona os tokens na lista
for token in document:
  token_list.append(token.text)

# lista de stop words
stop_list = []
for words in nlp.Defaults.stop_words:
  stop_list.append(words)

# palavras que nao estao na lista de stop words
nonstop = [word for word in token_list if not word in stop_list]

print(document.text)
print(nonstop)


As ações do Magazine Luiza S.A, Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do periodo da pandemia
['As', 'ações', 'Magazine', 'Luiza', 'S.A', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'ganhos', 'periodo', 'pandemia']


In [58]:
# hash
print("Hash: ", nlp.vocab.strings["magazine"])
print("Hash: ", nlp.vocab.strings["dado"])
print("Hash: ", nlp.vocab.strings["dado"])

# string
print("String: ", nlp.vocab.strings[nlp.vocab.strings["dado"]])
print("String: ", nlp.vocab.strings[7957890111422468342])

Hash:  7957890111422468342
Hash:  11301671358236861278
Hash:  11301671358236861278
String:  dado
String:  magazine


In [60]:
# lexemas
lex = nlp.vocab["dado"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

dado  -  11301671358236861278  -  True  -  True


In [None]:
# Relação da palavras com outras palavras (mostra o peso delas)
print(nlp("dados").vector.shape)
print(nlp("dados").vector)

print(nlp("dados são uma nova forma de ver o mundo").vector)

In [68]:
# Busca de similaridade
documento3 = nlp("Ele viaja regularmente de carro")
documento4 = nlp("Ela regularmente viaja de avião")

# Somente fazer comparação (sem tratamento)
print(documento3.similarity(documento4))
print(documento4.similarity(documento3))
print(documento4.similarity(documento4))


0.8941741218519844
0.8941741218519844
1.0


In [69]:
documento5 = nlp("Devemos dizer comprimento ou cumprimento?")
tokenA = documento5[2]
tokenB = documento5[4]

print(tokenA, tokenB)
print(tokenA.similarity(tokenB))

comprimento cumprimento
0.5804340243339539


In [71]:
document6 = nlp("Ele pede descrição. Ele pede discrição")

partA = document6[0:3]
partB = document6[4:len(document6.text)]

print(partA, partB)

print(partA.similarity(partB))

Ele pede descrição Ele pede discrição
0.9630053639411926


In [78]:
# match (busca por padroes)

from spacy.matcher import Matcher

documento5 = nlp("Você pode ligar para (51) - 992324578 ou (11) - 93829012")

# Cria o matcher apartir do vocabulario
matcher = Matcher(nlp.vocab)

# Cria um padão
padrao = [
    {"ORTH": "("},
    {"SHAPE": "dd"},
    {"ORTH": ")"},
    {
        "ORTH": "-",
        "OP": "?"
    },
    {"IS_DIGIT": True}
]

# Adiciona o meu novo padrao
matcher.add("telefone", [padrao])

# Verifica os padroes apartir do documento criado
matches = matcher(documento5)


print(matches)
for id, inicio, fim in matches:
  print(id, " - ", documento5[inicio:fim])


[(6562079219906668734, 4, 9), (6562079219906668734, 10, 15)]
6562079219906668734  -  (51) - 992324578
6562079219906668734  -  (11) - 93829012


In [81]:
document6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não exergamos micro-organismos")

matcher = Matcher(nlp.vocab)


# Criar 3 padroes para o matcher
padrao1 = [
    {"LOWER": "micro-organismos"}
]

padrao2 = [
  {"LOWER": "microorganismos"}
]

padrao3 = [
    {"LOWER": "micro"},
    {"LOWER": "organismos"}
]

# Adicioina os padroes ao matcher
matcher.add("padrao", [padrao1, padrao2, padrao3])

matches = matcher(document6)

print(matches)
for id, inicio, fim in matches:
  print(id, " - ", document6[inicio:fim])




[(9086520831825672219, 3, 5), (9086520831825672219, 6, 7), (9086520831825672219, 12, 13)]
9086520831825672219  -  micro organismos
9086520831825672219  -  MICROORGANISMOS
9086520831825672219  -  micro-organismos
