In [None]:
!pip install -U spacy==3.2.0

In [None]:
!python -m spacy download 'pt_core_news_lg'

In [4]:
import spacy

In [5]:
nlp = spacy.load("pt_core_news_lg")

In [6]:
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


In [7]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [8]:
documento = nlp("As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia")
#documento = nlp("Alegações extraordinárias requerem evidências extraordinárias. Carl Sagan: 'https://carlsagan.com'")

In [9]:
len(documento.vocab)

375

In [10]:
print(type(documento))

<class 'spacy.tokens.doc.Doc'>


##Token

In [None]:
for token in documento:
  print(token.text)

In [12]:
print(documento[3])

Magazine


In [13]:
print(documento[3:5])

Magazine Luiza


In [14]:
print(len(documento))

29


In [None]:
print("Tokens:" , [token.text for token in documento ])

In [None]:
print("Tokens:" , [token.text for token in documento ])
print("Stop word:" , [token.is_stop for token in documento ])
print("Alfanumérico:" , [token.is_alpha for token in documento ])
print("Maísculo:" , [token.is_upper for token in documento ])
print("Pontuação:" , [token.is_punct for token in documento ])
print("Número:" , [token.like_num for token in documento ])
print("Sentença Inicial:" , [token.is_sent_start for token in documento ])

In [None]:
print("Tokens:" , [token.text for token in documento ])
print("Stop word:" , [token.shape_ for token in documento ])

In [None]:
for token in documento:
  if token.like_num:
    print("Número encontrado: ",token.text)
  if token.is_punct:
    print("Pontuação encontrada: ", token.text)

In [None]:
for token in documento:
  print(token.text," - " , token.pos_, " - ", token.dep_ , " - ", token.lemma_, " - ", token.shape_)

In [None]:
for token in documento:
  print(token.text," - " , token.morph)

In [None]:
for token in documento:
  print(token.text," - " , token.tag_)

##Entidades nomeadas

In [None]:
for ent in documento.ents:
  print(ent.text," - ",ent.label_)

##Stop Words

In [None]:
for token in documento:
  if token.is_stop:
    print("Stop word: ", token.text)

In [None]:
for words in nlp.Defaults.stop_words:
  print(words)

In [25]:
nlp.Defaults.stop_words.add("eita")
nlp.vocab['eita'].is_stop = True

In [None]:
token_lista = []
for token in documento:
  token_lista.append(token.text)

stop_lista = []
for words in nlp.Defaults.stop_words:
  stop_lista.append(words)

semstop = [word for word in token_lista if not word in stop_lista]

print(documento.text)
print(semstop)

##Vocab

In [None]:
print("Hash: ",nlp.vocab.strings["dados"])
print("Hash: ",documento.vocab.strings["dados"])
print("String: ",nlp.vocab.strings[6013848609874238634])

In [None]:
lex = nlp.vocab["dados"]
print(lex.text," - ",lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

In [None]:
print(nlp("dados").vector.shape)

## Similaridade
 - Retornar um valor (métrica de similaridade)

In [30]:
documento1 = nlp ("Ele viaja regularmente de carro")
documento2 = nlp ("Ela viaja regularmente de avião")
print(documento1.similarity(documento2))

0.894174124950273


In [31]:
documento3 = nlp ("Devemos dizer comprimento ou cumprimento?")
tokenA= documento3[2]
tokenB= documento3[4]
print(tokenA.similarity(tokenB))


0.580434


In [32]:
documento4 = nlp ("Ele pede descrição. Ele pede discrição")
partA = documento4[0:3]
partB = documento4[4:7]

print(partA.similarity(partB))



0.96300536


## Matcher
 - Busca um padrão, retorna se encontra (semelhante a expressão regular)

In [33]:
from spacy.matcher import Matcher
#inicializa
matcher = Matcher(nlp.vocab)

#Adiciona padrão para telefone (41) - 778778877
padrao =  [ {"ORTH" :"(" },{"SHAPE": "dd"} , {"ORTH": ")"}, {"ORTH": "-", "OP": "?"}, {"IS_DIGIT": True}]
matcher.add("Telefone",[padrao])

documento5 = nlp ("Você pode ligar para (51) - 9964656570 ou (11) 12344988")

matches = matcher(documento5)
for match_id, start, end in matches:
  print(documento5[start:end])

(51) - 9964656570
(11) 12344988


In [None]:
documento6 = nlp ("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não enxergamos micro-organismos")
matcher = Matcher(nlp.vocab)
padrao1 = [ {"LOWER" : "micro-organismos"}  ] 
padrao2 = [ {"LOWER" : "microorganismos"}  ] 
padrao3 = [ {"LOWER" : "micro"}, {"LOWER":"organismos"}  ] 

matcher.add("padrao",[padrao1,padrao2,padrao3])

matches = matcher(documento6)
for match_id, start, end in matches:
  print(documento6[start:end])


##Displacy
 - Entidades Nomeadas
 - Dependência

In [None]:
from spacy import displacy
displacy.render(documento,style="ent", jupyter = True)


In [None]:
documento.user_data["title"] = "Exemplo"
displacy.render(documento,style="dep", jupyter = True,
                  options= {"compact" : True, "distance" : 70, "color" : "#FFFFFF" , "bg" : "#000000" , "font" : "Arial"}
                )


## Pipeline

In [47]:
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [None]:
nlp.remove_pipe("tok2vec")
print("Pipeline sem tok2vec: ", nlp.pipe_names)

In [48]:
nlp.add_pipe("tok2vec", after="morphologizer")
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['morphologizer', 'tok2vec', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
