In [None]:
# Instala o spacy nesta versão especifica
!pip install -U spacy==3.7.2

In [None]:
# Baixa o modelo de texto grande (lg)
!python -m spacy download 'pt_core_news_lg'

In [None]:
import spacy    # Importar spacy

In [None]:
nlp = spacy.load('pt_core_news_lg')  # Carregar o modelo em português (nlp: processamento de linguagem natural)

In [None]:
print(type(nlp))    # Printa o tipo da variavel

In [None]:
print(nlp.pipe_names)       # Mostra objetos do pipeline

In [None]:
# Cria um documento
document = nlp("As ações do Magazine Luiza S.A, Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do periodo da pandemia")

# Documento provisorio
document2 = nlp("Alegações extraordinarias querem evidências extraordinarias. Carl Sagan: 'https://carlsagan.com'")

In [None]:
# Ler o tamanho do documento
len(document.vocab)

In [None]:
# Ver o tipo do documento
print(type(document))

In [None]:
# Mostra a tokenização do texto
for token in document:
    print(token.text)

In [None]:
# Mostra tokenização document2
for token in document2:
  print(token.text)

In [None]:
print(document[3])

In [None]:
print(document[3:5])

In [None]:
print(len(document))

In [None]:
# Imprime os token
print("Tokens: ", [token.text for token in document])
print("Stop word: ", [token.is_stop for token in document])
print("Alfanumerico: ", [token.is_alpha for token in document])
print("Maiusculo: ", [token.is_upper for token in document])
print("Pontuação: ", [token.is_punct for token in document])
print("Numero: ", [token.like_num for token in document])
print("Sentença Inicial: ", [token.is_sent_start for token in document])



In [None]:
print("Tokens: ", [token.text for token in document])
print("Formato: ", [token.shape_ for token in document])

In [None]:
# Procurar determinados elementos do document

# Procura por numero
for token in document:
  if token.like_num:
    print("Numero:", token.text)
  if token.is_punct:
    print("Pontuação:", token.text)

In [None]:
for token in document:
  print(token.text, " - ", token.pos_, " - ", token.dep_, " - ", token.lemma_, " - ", token.shape_)

In [None]:
 # Morfologia das palavras (Classe gramatical que a palavra pertence)
for token in document:
  print(token.text, " - ", token.morph)

In [None]:
for token in document:
  print(token.text, " - ", token.tag_)

In [None]:
for ent in document.ents:
  print(ent.text, " - ", ent.label_)


In [None]:
# stop words
for token in document:
  if token.is_stop:
    print("Stop word: ", token.text)

In [None]:
# Mostra stop words padrão do spacy
for words in nlp.Defaults.stop_words:
  print(words)

In [None]:
# Adicionar stop word personalizada
nlp.Defaults.stop_words.add("magazine") # Adiciona ao BD
nlp.vocab["magazine"].is_stop = True  # Adiciona a palavra como TRUE

In [None]:
nlp.vocab["magazine"].is_stop

In [None]:
# lista vazia
token_list = []

# Adiciona os tokens na lista
for token in document:
  token_list.append(token.text)

# lista de stop words
stop_list = []
for words in nlp.Defaults.stop_words:
  stop_list.append(words)

# palavras que nao estao na lista de stop words
nonstop = [word for word in token_list if not word in stop_list]

print(document.text)
print(nonstop)


In [None]:
# hash
print("Hash: ", nlp.vocab.strings["magazine"])
print("Hash: ", nlp.vocab.strings["dado"])
print("Hash: ", nlp.vocab.strings["dado"])

# string
print("String: ", nlp.vocab.strings[nlp.vocab.strings["dado"]])
print("String: ", nlp.vocab.strings[7957890111422468342])

In [None]:
# lexemas
lex = nlp.vocab["dado"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

In [None]:
# Relação da palavras com outras palavras (mostra o peso delas)
print(nlp("dados").vector.shape)
print(nlp("dados").vector)

print(nlp("dados são uma nova forma de ver o mundo").vector)

In [None]:
# Busca de similaridade
documento3 = nlp("Ele viaja regularmente de carro")
documento4 = nlp("Ela regularmente viaja de avião")

# Somente fazer comparação (sem tratamento)
print(documento3.similarity(documento4))
print(documento4.similarity(documento3))
print(documento4.similarity(documento4))


In [None]:
documento5 = nlp("Devemos dizer comprimento ou cumprimento?")
tokenA = documento5[2]
tokenB = documento5[4]

print(tokenA, tokenB)
print(tokenA.similarity(tokenB))

In [None]:
document6 = nlp("Ele pede descrição. Ele pede discrição")

partA = document6[0:3]
partB = document6[4:len(document6.text)]

print(partA, partB)

print(partA.similarity(partB))

In [None]:
# match (busca por padroes)

from spacy.matcher import Matcher

documento5 = nlp("Você pode ligar para (51) - 992324578 ou (11) - 93829012")

# Cria o matcher apartir do vocabulario
matcher = Matcher(nlp.vocab)

# Cria um padão
padrao = [
    {"ORTH": "("},
    {"SHAPE": "dd"},
    {"ORTH": ")"},
    {
        "ORTH": "-",
        "OP": "?"
    },
    {"IS_DIGIT": True}
]

# Adiciona o meu novo padrao
matcher.add("telefone", [padrao])

# Verifica os padroes apartir do documento criado
matches = matcher(documento5)


print(matches)
for id, inicio, fim in matches:
  print(id, " - ", documento5[inicio:fim])


In [35]:
document6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não exergamos micro-organismos")

matcher = Matcher(nlp.vocab)


# Criar 3 padroes para o matcher
padrao1 = [
    {"LOWER": "micro-organismos"}
]

padrao2 = [
  {"LOWER": "microorganismos"}
]

padrao3 = [
    {"LOWER": "micro"},
    {"LOWER": "organismos"}
]

# Adicioina os padroes ao matcher
matcher.add("padrao", [padrao1, padrao2, padrao3])

matches = matcher(document6)

print(matches)
for id, inicio, fim in matches:
  print(id, " - ", document6[inicio:fim])




[(9086520831825672219, 3, 5), (9086520831825672219, 6, 7), (9086520831825672219, 12, 13)]
9086520831825672219  -  micro organismos
9086520831825672219  -  MICROORGANISMOS
9086520831825672219  -  micro-organismos


In [47]:
# Displacy
from spacy import displacy

# Cria um documendo displacy
displacy.render(document, style="ent", jupyter=True)


In [None]:
displacy.render(document, style="dep", jupyter=True)

In [46]:
options = {
    "compact": True,
    "distance": 80,
    "color": "#000000",
    "bg": "#FFFFFF",
    "front": "arial"
}

document.user_data["title"] = "Meu titulo"
displacy.render(document, style="dep", jupyter=True, options=options)

In [58]:
# pipeline spacy
print("Pipeline Normal: ", nlp.pipe_names)

# Remover elemento pipeline pelo nome
if "tok2vec" in nlp.pipe_names:
  nlp.remove_pipe("tok2vec")
  print("Pipeline sem tok2vec: ", nlp.pipe_names)
else:
  print("Não existe tok2vec para remover")

# Colocar de volta o pipeline
nlp.add_pipe("tok2vec", before="morphologizer")
print("Pipeline com tok2vek: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
Pipeline sem tok2vec:  ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
Pipeline com tok2vek:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
