<a href="https://colab.research.google.com/github/johnnycleiton07/llm-studies/blob/main/NLP_com_spaCy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#spaCy

A biblioteca spaCy é uma poderosa ferramenta de Processamento de Linguagem Natural (NLP) desenvolvida em Python, amplamente utilizada para realizar uma variedade de tarefas relacionadas ao processamento e análise de textos.

Neste notebook, serão exploradas as funcionalidades principais desta biblioteca.

##Configurações Iniciais

O Google Colab não possui a biblioteca instalada com seus módulos, portanto é necessário instalar. A versão a ser utilizada neste notebook será a 3.2.0.

In [34]:
!pip install -U spacy==3.2.0 -q

In [35]:
#baixar modelo pré-treinado em português (lg é a versão large de 550MB)

!python -m spacy download 'pt_core_news_lg'

2024-07-16 15:22:05.534394: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-07-16 15:22:05.534539: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-07-16 15:22:05.539239: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
[33mDEPRECATION: https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.2.0/pt_core_news_lg-3.2.0-py3-none-any.whl#egg=pt_core_news_lg==3.2.0 contains an egg fragment with a non-PEP 508 name pip 25.0 will enforce this behaviour change. A possible replacement is to use the req @ url syntax, and remove the egg fragment. Discussion can be fou

In [36]:
import spacy

In [38]:
#cria um objeto para usar o modelo pré-treinado

nlp = spacy.load('pt_core_news_lg')

Em SpaCy, os pipelines são sequências de componentes de processamento que são aplicados a um texto durante o processamento. Cada componente pode realizar uma tarefa específica, como tokenização, análise morfológica, análise sintática, reconhecimento de entidades nomeadas, entre outros.

In [39]:
#verificando o tipo do arquivo e os nomes dos componentes do pipeline do SpaCy

print(type(nlp))
print(nlp.pipe_names)

<class 'spacy.lang.pt.Portuguese'>
['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [63]:
documento = nlp("Alegações extraordinárias requerem evidências extraordinárias. É uma frase do famoso cientista e astrônomo Carl Sagan: 'https://carlsagan.com'")

In [64]:
len(documento.vocab)

364

In [65]:
print(type(documento))

<class 'spacy.tokens.doc.Doc'>


##Produção de Tokens

A produção de tokens, ou tokenização envolve a divisão de um texto em unidades menores, chamadas tokens. Esses tokens podem ser palavras, frases, ou até mesmo caracteres, dependendo do nível de análise desejado.

*  "Eu gosto de programação" -> ["Eu", "gosto", "de", "programação"]
*  "Eu gosto de programação. E você?" -> ["Eu gosto de programação.", "E você?"]

Essa não é uma etapa opcional no pipeline da biblioteca spaCy, ela sempre será executada.

In [66]:
for token in documento:
  print (token.text)

Alegações
extraordinárias
requerem
evidências
extraordinárias
.
É
uma
frase
do
famoso
cientista
e
astrônomo
Carl
Sagan
:
'
https://carlsagan.com
'


In [70]:
print(documento[15])

Sagan


In [72]:
print(documento[14:16])

Carl Sagan


In [73]:
print(len(documento))

20


In [74]:
print("Tokens: ", [token.text for token in documento])
print("Stop Word: ", [token.is_stop for token in documento])
print("Alfanumérico: ", [token.is_alpha for token in documento])
print("Maiúsculo: ", [token.is_upper for token in documento])
print("Pontuação: ", [token.is_punct for token in documento])
print("Número: ", [token.like_num for token in documento])
print("Sentença Inicial: ", [token.is_sent_start for token in documento])

Tokens:  ['Alegações', 'extraordinárias', 'requerem', 'evidências', 'extraordinárias', '.', 'É', 'uma', 'frase', 'do', 'famoso', 'cientista', 'e', 'astrônomo', 'Carl', 'Sagan', ':', "'", 'https://carlsagan.com', "'"]
Stop Word:  [False, False, False, False, False, False, True, True, False, True, False, False, True, False, False, False, False, False, False, False]
Alfanumérico:  [True, True, True, True, True, False, True, True, True, True, True, True, True, True, True, True, False, False, False, False]
Maiúsculo:  [False, False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação:  [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, True, True, False, True]
Número:  [False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Sentença Inicial:  [True, False, False, Fa

In [75]:
print("Tokens: ", [token.text for token in documento])
print("Formato: ", [token.shape_ for token in documento])

Tokens:  ['Alegações', 'extraordinárias', 'requerem', 'evidências', 'extraordinárias', '.', 'É', 'uma', 'frase', 'do', 'famoso', 'cientista', 'e', 'astrônomo', 'Carl', 'Sagan', ':', "'", 'https://carlsagan.com', "'"]
Formato:  ['Xxxxx', 'xxxx', 'xxxx', 'xxxx', 'xxxx', '.', 'X', 'xxx', 'xxxx', 'xx', 'xxxx', 'xxxx', 'x', 'xxxx', 'Xxxx', 'Xxxxx', ':', "'", 'xxxx://xxxx.xxx', "'"]


In [76]:
for token in documento:
  if token.like_num:
    print("Número encontrado: ", token.text)
  if token.is_punct:
    print("Pontuação encontrada: ", token.text)

Pontuação encontrada:  .
Pontuação encontrada:  :
Pontuação encontrada:  '
Pontuação encontrada:  '


##POS Taggin e Dependências

O objetivo principal do POS-Tagging (Part-of-Speech Tagging) é identificar a função gramatical de cada palavra em um texto, o que pode ajudar em várias tarefas de PLN. Exemplo básico de função gramatical:

Frase: "O gato preto dorme no sofá."

* O: Artigo
* gato: Substantivo
* preto: Adjetivo
* dorme: Verbo
* no: Preposição + Artigo
* sofá: Substantivo

In [77]:
for token in documento:
  print(token.text, " - ", token.pos_, " - ", token.dep_, " - ", token.lemma_, " - ", token.shape_)


Alegações  -  NOUN  -  nsubj  -  Alegações  -  Xxxxx
extraordinárias  -  ADJ  -  amod  -  extraordinário  -  xxxx
requerem  -  VERB  -  ROOT  -  requerer  -  xxxx
evidências  -  NOUN  -  obj  -  evidência  -  xxxx
extraordinárias  -  ADJ  -  amod  -  extraordinário  -  xxxx
.  -  PUNCT  -  punct  -  .  -  .
É  -  AUX  -  cop  -  É  -  X
uma  -  DET  -  det  -  umar  -  xxx
frase  -  NOUN  -  ROOT  -  frase  -  xxxx
do  -  ADP  -  case  -  do  -  xx
famoso  -  ADJ  -  amod  -  famoso  -  xxxx
cientista  -  NOUN  -  nmod  -  cientista  -  xxxx
e  -  CCONJ  -  cc  -  e  -  x
astrônomo  -  NOUN  -  conj  -  astrônomo  -  xxxx
Carl  -  PROPN  -  appos  -  Carl  -  Xxxx
Sagan  -  PROPN  -  flat:name  -  Sagan  -  Xxxxx
:  -  PUNCT  -  punct  -  :  -  :
'  -  PUNCT  -  punct  -  '  -  '
https://carlsagan.com  -  ADP  -  dep  -  https://carlsagan.com  -  xxxx://xxxx.xxx
'  -  PUNCT  -  punct  -  '  -  '


In [78]:
#morfologia

for token in documento:
  print(token.text, " - ", token.morph)

Alegações  -  Gender=Fem|Number=Plur
extraordinárias  -  Gender=Fem|Number=Plur
requerem  -  Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
evidências  -  Gender=Fem|Number=Plur
extraordinárias  -  Gender=Fem|Number=Plur
.  -  
É  -  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
uma  -  Definite=Ind|Gender=Fem|Number=Sing|PronType=Art
frase  -  Gender=Fem|Number=Sing
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
famoso  -  Gender=Masc|Number=Sing
cientista  -  Gender=Masc|Number=Sing
e  -  
astrônomo  -  Gender=Masc|Number=Sing
Carl  -  Gender=Masc|Number=Sing
Sagan  -  Number=Sing
:  -  
'  -  
https://carlsagan.com  -  
'  -  


In [79]:
#tag

for token in documento:
  print(token.text, " - ", token.tag_)

Alegações  -  NOUN
extraordinárias  -  ADJ
requerem  -  VERB
evidências  -  NOUN
extraordinárias  -  ADJ
.  -  PUNCT
É  -  AUX
uma  -  DET
frase  -  NOUN
do  -  ADP
famoso  -  ADJ
cientista  -  NOUN
e  -  CCONJ
astrônomo  -  NOUN
Carl  -  PROPN
Sagan  -  PROPN
:  -  PUNCT
'  -  PUNCT
https://carlsagan.com  -  ADP
'  -  PUNCT


##Listando Entidades Nomeadas

A busca de Entidades Nomeadas (Named Entity Recognition - NER) visa identificar e classificar entidades significativas em textos não estruturados, como nomes de pessoas, locais, organizações, datas, quantidades, entre outros. Essas entidades são geralmente informações chave que ajudam na compreensão e na extração de informações de documentos textuais.

In [80]:
for ent in documento.ents:
  print(ent.text, " - ", ent.label_)

Carl Sagan  -  PER


##Gerenciando Stop Words

Stop words são palavras comuns que geralmente não carregam muito significado em análises textuais, como "e", "a", "o", "de", "que", etc. A remoção de stop words e pontuação pode ajudar a simplificar o texto e melhorar a eficácia de muitos algoritmos de PLN.

In [83]:
#listando stop words no documento
for token in documento:
  if token.is_stop:
    print("Stop Word: ", token.text)

Stop Word:  É
Stop Word:  uma
Stop Word:  do
Stop Word:  e


In [84]:
#listando stop words da biblioteca
for words in nlp.Defaults.stop_words:
  print(words)

vens
sois
vós
fazia
quais
todas
todo
sabe
área
tivemos
vez
aquele
sempre
sou
faço
dezoito
tarde
como
sexto
tenho
nível
sua
coisa
aí
um
nesta
desse
vindo
teus
meio
obrigada
último
for
assim
daquela
tivestes
quarto
isso
que
aos
temos
seus
segunda
todos
dessa
do
tiveram
aquelas
muitos
naquele
tiveste
eles
estivestes
neste
na
quinta
muito
são
estar
quanto
pouco
tendes
fazeis
dar
em
des
se
conhecida
questão
sem
apenas
essa
além
outras
grande
adeus
cento
logo
porquanto
iniciar
bom
caminho
fazer
vai
das
vezes
apoia
porque
agora
tipo
bem
estará
lado
tempo
treze
inicio
posição
maiorias
está
foram
lá
nesse
nessa
só
ontem
cada
ora
à
quieta
ela
partir
quero
bastante
tem
seu
posso
qual
com
tal
lugar
deverá
tudo
ambos
povo
quinze
ele
estado
vinda
pois
isto
deve
geral
naquela
puderam
meu
somente
tu
mal
primeiro
mesmo
toda
nas
obrigado
alguns
momento
mês
vão
nos
fostes
os
usa
foste
podia
ser
você
estás
baixo
parte
algo
esse
nova
comprido
vem
qualquer
valor
quatro
teu
saber
tuas
aqui
onze
números
novas

In [85]:
#adicionar nova stop word

nlp.Defaults.stop_words.add("eita")
nlp.vocab['eita'].is_stop = True

In [86]:
# verificando

nlp.vocab['eita'].is_stop

True

In [87]:
#remoção de stop words
token_lista = []
for token in documento:
  token_lista.append(token.text)


stop_lista =[]
for words in nlp.Defaults.stop_words:
  stop_lista.append(words)

#esse for gera um laço com as palavras que estão na lista de token mas não estão na lista de stop words
semstop = [word for word in token_lista if not word in stop_lista]

print(documento.text)
print(semstop)

Alegações extraordinárias requerem evidências extraordinárias. É uma frase do famoso cientista e astrônomo Carl Sagan: 'https://carlsagan.com'
['Alegações', 'extraordinárias', 'requerem', 'evidências', 'extraordinárias', '.', 'É', 'frase', 'famoso', 'cientista', 'astrônomo', 'Carl', 'Sagan', ':', "'", 'https://carlsagan.com', "'"]


##Vocabulário

se refere ao conjunto de palavras únicas que o modelo reconhece e pode processar. O vocabulário ajuda o modelo a entender e processar textos ao associar cada palavra a vetores de palavras, índices e outras informações relevantes.

In [88]:
print("Hash: ", nlp.vocab.strings["dados"])
print("Hash: ", documento.vocab.strings["dados"])
print("String: ", nlp.vocab.strings[6013848609874238634])

Hash:  6013848609874238634
Hash:  6013848609874238634
String:  dados


In [89]:
lex = nlp.vocab["dados"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

dados  -  6013848609874238634  -  True  -  True


In [90]:
#print(nlp("dados").vector.shape)
#print(nlp("dados").vector)
print(nlp("dados são uma nova forma de ver o mundo").vector)

[ 0.5255733  -1.0520301  -1.0489888   0.22808893 -2.7599888   0.91837215
 -1.6993556  -0.44524103 -2.209261   -1.2901455   0.9939946  -1.3996754
  0.7378708  -1.6957022  -1.382649   -1.1241877   2.503239    1.3766589
 -0.63682556  2.7080245  -0.6679023   0.7990059  -1.3761922   1.6491444
 -0.6950322   0.69378555 -0.19840002  1.6926199  -0.3071023   0.71506053
  0.03211441  0.27212894 -1.9055911  -1.5586021  -0.9775556   0.7999823
 -0.9553054   0.5265729  -0.87427455 -1.2073755  -2.117481    1.2241988
  1.5149522  -0.79308677 -1.1521667   0.13741441 -1.7882053   0.50415283
  1.3089666   0.06542712 -0.6260744  -1.5624356  -0.707184   -1.2425367
 -0.04237115 -0.5879791   1.7004043  -0.24798778  0.11633212 -0.55506223
  2.0148706   0.01965364  0.92778563  2.3571968  -0.49526003  1.0151839
  0.57112557  1.3510779  -0.3038622  -0.24523441 -0.42284998 -0.69732666
  0.71998227  0.2875956   0.10309222 -0.6866155   2.128672    0.9791889
 -1.4044011  -0.4600078   0.10599887  0.84635675  1.2420444

##Buscando Similaridade

É possível calcular a similaridade entre tokens, sentenças ou documentos inteiros com base em seus vetores de palavras. A similaridade calculada ajuda a entender o quão semanticamente próximos estão os elementos processados.

In [91]:
documento1 = nlp("Ele viaja regularmente de carro")
documento2 = nlp("Ela viaja regularmente de avião")

print(documento1.similarity(documento2))
print(documento2.similarity(documento1))

0.894174124950273
0.894174124950273


In [92]:
documento3 = nlp("Devemos dizer comprimento ou cumprimento?")
tokenA = documento3[2]
print(tokenA)
tokenB = documento3[4]
print(tokenB)

print(tokenA.similarity(tokenB))

comprimento
cumprimento
0.580434


In [93]:
documento4 = nlp("Ele pede descrição. Ele pede discrição")
partA = documento4[0:3]
print(partA)
partB = documento3[4:7]
print(partB)

print(partA.similarity(partB))

Ele pede descrição
cumprimento?
0.0978557


##Busca de Expressões com Matching

Para realizar busca de expressões específicas em textos utilizando SpaCy, é possível utilizar o recurso de *pattern matching* disponível na biblioteca. Isso envolve definir padrões que descrevem as expressões que se deseja encontrar no texto.

In [94]:
from spacy.matcher import Matcher

In [95]:
#identificando um padrão
documento5 = nlp("Você pode ligar para (51) - 996465670 ou (11) 123456789")

matcher = Matcher(nlp.vocab)
padrao = [{"ORTH": "("}, {"SHAPE": "dd"}, {"ORTH": ")"}, {"ORTH": "-", "OP": "?"}, {"IS_DIGIT": True}]
matcher.add("telefone", [padrao])
matches = matcher(documento5)
for id, inicio, fim in matches:
  print(documento5[inicio:fim])

(51) - 996465670
(11) 123456789


In [96]:
#identificando palavras escritas de forma diferente

documento6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não enxergamos micro-organismos")
matcher = Matcher(nlp.vocab)
padrao1 = [{"LOWER": "micro-organismos"}]
padrao2 = [{"LOWER": "microorganismos"}]
padrao3 = [{"LOWER": "micro"}, {"LOWER": "organismos"}]

matcher.add("padrao", [padrao1, padrao2, padrao3])

matches = matcher(documento6)
for id, inicio, fim in matches:
  print(documento6[inicio:fim])


micro organismos
MICROORGANISMOS
micro-organismos


##Visualização com Displacy

Para visualizar análises linguísticas e estruturas sintáticas de textos usando SpaCy, é possível utilizar a função displacy. Essas visualizações são úteis para entender como o SpaCy analisa e interpreta o texto em termos de entidades, dependências sintáticas, POS tagging, entre outros aspectos linguísticos.

Existem dois estilos principais de visualização:
* visualização de Entidades nomeadas
* Visualização de Dependência

É personalizável, pois é possível modificar cor, fundo, fonte, distância, etc.

In [98]:
from spacy import displacy

In [99]:
#visualização de entidades
documento = nlp("O Studio Ghibli, fundado por Hayao Miyazaki e Isao Takahata em 1985, é um dos estúdios de animação mais icônicos do mundo. Com filmes aclamados como Meu Vizinho Totoro, A Viagem de Chihiro e Princesa Mononoke, o estúdio conquistou uma base de fãs global apaixonada e dedicada.")
displacy.render(documento, style="ent", jupyter=True)

In [100]:
#visualização de dependência
displacy.render(documento, style="dep", jupyter=True)

In [102]:
#estilizando a visualização
displacy.render(documento, style="dep", jupyter=True,
                options={'compact': True, 'distance':100, 'color': '#493082', 'bg': '#56D8FD', 'font': 'Arial'})

##Gerenciando Pipelines

Gerenciar pipelines no SpaCy envolve adicionar, remover ou modificar esses componentes para personalizar o processamento de texto de acordo com suas necessidades específicas.

In [103]:
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [104]:
#removendo etapa

nlp.remove_pipe('tok2vec')
print("Pipeline sem tok2vec: ", nlp.pipe_names)

Pipeline sem tok2vec:  ['morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [105]:
#adicionando etapa e escolhendo onde adicionar

nlp.add_pipe('tok2vec', after='morphologizer')
print("Pipeline: ", nlp.pipe_names)

Pipeline:  ['morphologizer', 'tok2vec', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
