<a href="https://colab.research.google.com/github/johnnycleiton07/llm-studies/blob/main/NLP_com_spaCy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#spaCy

A biblioteca spaCy é uma poderosa ferramenta de processamento de linguagem natural (NLP) desenvolvida em Python, amplamente utilizada para realizar uma variedade de tarefas relacionadas ao processamento e análise de textos.

spaCy oferece diversas funcionalidades, incluindo:

* Tokenização: Divide o texto em unidades menores, como palavras, pontuações e números.
* Part-of-Speech Tagging (POS): Atribui rótulos às palavras, indicando sua função gramatical (substantivo, verbo, adjetivo, etc.).
* Named Entity Recognition (NER): Identifica e classifica entidades nomeadas, como pessoas, organizações, locais e datas.
* Dependência Sintática: Analisa as relações gramaticais entre as palavras no texto.
* Vetorização de Palavras: Representa palavras como vetores densos, capturando semelhanças semânticas entre elas.
* Reconhecimento de Frases e Entidades: Detecta padrões específicos, como frases de datas ou valores monetários.

##Configurações Iniciais

In [None]:
!pip install -U spacy==3.2.0



In [None]:
#baixar modelo pré-treinado em português (lg é a versão large de 550MB)

!python -m spacy download 'pt_core_news_lg'

2024-07-10 12:42:41.827517: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-07-10 12:42:41.827633: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-07-10 12:42:41.986806: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-07-10 12:42:42.178798: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
[33mDEPRECATION: https://github.com/explosion/spacy-

In [None]:
import spacy

In [None]:
#cria um objeto para usar o modelo pré-treinado

nlp = spacy.load('pt_core_news_lg')

  _C._set_default_tensor_type(t)


In [None]:
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


In [None]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [None]:
documento = nlp("Um atleta de 15 anos que se junta ao Clube Oculto de sua escola para evitar o time de atletismo. Depois de encontrar e abrir uma caixa contendo um feitiço amaldiçoado semelhante a um dedo podre, sua escola é atacada por criaturas fantasmas conhecidas como Maldições. Para proteger seus amigos, ele consome o dedo podre e fica possuído por uma maldição conhecida como Ryoumen Sukuna.")
#documento = nlp("Alegações extraordinárias requerem evidências extraordinárias. Carl Sagan: 'https://carlsagan.com'")

In [None]:
len(documento.vocab)

400

In [None]:
print(type(documento))

<class 'spacy.tokens.doc.Doc'>


##Produção de Tokens

Essa não é uma etapa opcional no pipeline, ela sempre será executada.

In [None]:
for token in documento:
  print (token.text)

Um
atleta
de
15
anos
que
se
junta
ao
Clube
Oculto
de
sua
escola
para
evitar
o
time
de
atletismo
.
Depois
de
encontrar
e
abrir
uma
caixa
contendo
um
feitiço
amaldiçoado
semelhante
a
um
dedo
podre
,
sua
escola
é
atacada
por
criaturas
fantasmas
conhecidas
como
Maldições
.
Para
proteger
seus
amigos
,
ele
consome
o
dedo
podre
e
fica
possuído
por
uma
maldição
conhecida
como
Ryoumen
Sukuna
.


In [None]:
print(documento[67])

Ryoumen


In [None]:
print(documento[67:69])

Ryoumen Sukuna


In [None]:
print(len(documento))

70


In [None]:
print("Tokens: ", [token.text for token in documento])
print("Stop Word: ", [token.is_stop for token in documento])
print("Alfanumérico: ", [token.is_alpha for token in documento])
print("Maiúsculo: ", [token.is_upper for token in documento])
print("Pontuação: ", [token.is_punct for token in documento])
print("Número: ", [token.like_num for token in documento])
print("Sentença Inicial: ", [token.is_sent_start for token in documento])

Tokens:  ['Um', 'atleta', 'de', '15', 'anos', 'que', 'se', 'junta', 'ao', 'Clube', 'Oculto', 'de', 'sua', 'escola', 'para', 'evitar', 'o', 'time', 'de', 'atletismo', '.', 'Depois', 'de', 'encontrar', 'e', 'abrir', 'uma', 'caixa', 'contendo', 'um', 'feitiço', 'amaldiçoado', 'semelhante', 'a', 'um', 'dedo', 'podre', ',', 'sua', 'escola', 'é', 'atacada', 'por', 'criaturas', 'fantasmas', 'conhecidas', 'como', 'Maldições', '.', 'Para', 'proteger', 'seus', 'amigos', ',', 'ele', 'consome', 'o', 'dedo', 'podre', 'e', 'fica', 'possuído', 'por', 'uma', 'maldição', 'conhecida', 'como', 'Ryoumen', 'Sukuna', '.']
Stop Word:  [True, False, True, False, False, True, True, False, True, False, False, True, True, False, True, False, True, False, True, False, False, True, True, False, True, False, True, False, False, True, False, False, False, True, True, False, False, False, True, False, True, False, True, False, False, False, True, False, False, True, False, True, False, False, True, False, True, False

In [None]:
print("Tokens: ", [token.text for token in documento])
print("Formato: ", [token.shape_ for token in documento])

Tokens:  ['Um', 'atleta', 'de', '15', 'anos', 'que', 'se', 'junta', 'ao', 'Clube', 'Oculto', 'de', 'sua', 'escola', 'para', 'evitar', 'o', 'time', 'de', 'atletismo', '.', 'Depois', 'de', 'encontrar', 'e', 'abrir', 'uma', 'caixa', 'contendo', 'um', 'feitiço', 'amaldiçoado', 'semelhante', 'a', 'um', 'dedo', 'podre', ',', 'sua', 'escola', 'é', 'atacada', 'por', 'criaturas', 'fantasmas', 'conhecidas', 'como', 'Maldições', '.', 'Para', 'proteger', 'seus', 'amigos', ',', 'ele', 'consome', 'o', 'dedo', 'podre', 'e', 'fica', 'possuído', 'por', 'uma', 'maldição', 'conhecida', 'como', 'Ryoumen', 'Sukuna', '.']
Formato:  ['Xx', 'xxxx', 'xx', 'dd', 'xxxx', 'xxx', 'xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', 'xx', 'xxx', 'xxxx', 'xxxx', 'xxxx', 'x', 'xxxx', 'xx', 'xxxx', '.', 'Xxxxx', 'xx', 'xxxx', 'x', 'xxxx', 'xxx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xxxx', 'xxxx', 'x', 'xx', 'xxxx', 'xxxx', ',', 'xxx', 'xxxx', 'x', 'xxxx', 'xxx', 'xxxx', 'xxxx', 'xxxx', 'xxxx', 'Xxxxx', '.', 'Xxxx', 'xxxx', 'xxxx', 'xxxx',

In [None]:
for token in documento:
  if token.like_num:
    print("Número encontrado: ", token.text)
  if token.is_punct:
    print("Pontuação encontrada: ", token.text)

Número encontrado:  Um
Número encontrado:  15
Pontuação encontrada:  .
Número encontrado:  um
Número encontrado:  um
Pontuação encontrada:  ,
Pontuação encontrada:  .
Pontuação encontrada:  ,
Pontuação encontrada:  .


##Pós-Taggin e Dependências

In [None]:
for token in documento:
  print(token.text, " - ", token.pos_, " - ", token.dep_, " - ", token.lemma_, " - ", token.shape_)


Um  -  DET  -  det  -  Um  -  Xx
atleta  -  NOUN  -  ROOT  -  atleta  -  xxxx
de  -  ADP  -  case  -  de  -  xx
15  -  NUM  -  nummod  -  15  -  dd
anos  -  NOUN  -  nmod  -  ano  -  xxxx
que  -  PRON  -  nsubj  -  que  -  xxx
se  -  PRON  -  expl  -  se  -  xx
junta  -  VERB  -  acl:relcl  -  junto  -  xxxx
ao  -  ADP  -  case  -  ao  -  xx
Clube  -  PROPN  -  obl  -  Clube  -  Xxxxx
Oculto  -  PROPN  -  flat:name  -  Oculto  -  Xxxxx
de  -  ADP  -  case  -  de  -  xx
sua  -  DET  -  det  -  suar  -  xxx
escola  -  NOUN  -  nmod  -  escola  -  xxxx
para  -  SCONJ  -  mark  -  parir  -  xxxx
evitar  -  VERB  -  advcl  -  evitar  -  xxxx
o  -  DET  -  det  -  o  -  x
time  -  NOUN  -  obj  -  time  -  xxxx
de  -  ADP  -  case  -  de  -  xx
atletismo  -  NOUN  -  nmod  -  atletismo  -  xxxx
.  -  PUNCT  -  punct  -  .  -  .
Depois  -  ADV  -  mark  -  Depois  -  Xxxxx
de  -  ADP  -  fixed  -  de  -  xx
encontrar  -  VERB  -  advcl  -  encontrar  -  xxxx
e  -  CCONJ  -  cc  -  e  -  x
abr

In [None]:
#morfologia

for token in documento:
  print(token.text, " - ", token.morph)

Um  -  Definite=Ind|Gender=Masc|Number=Sing|PronType=Art
atleta  -  Gender=Masc|Number=Sing
de  -  
15  -  NumType=Card
anos  -  Gender=Masc|Number=Plur
que  -  Gender=Masc|Number=Plur|PronType=Rel
se  -  Case=Acc|Gender=Masc|Number=Sing|Person=3|PronType=Prs
junta  -  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
ao  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Clube  -  Gender=Masc|Number=Sing
Oculto  -  Number=Sing
de  -  
sua  -  Gender=Fem|Number=Sing|PronType=Prs
escola  -  Gender=Fem|Number=Sing
para  -  
evitar  -  VerbForm=Inf
o  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
time  -  Gender=Masc|Number=Sing
de  -  
atletismo  -  Gender=Masc|Number=Sing
.  -  
Depois  -  
de  -  
encontrar  -  VerbForm=Inf
e  -  
abrir  -  VerbForm=Inf
uma  -  Definite=Ind|Gender=Fem|Number=Sing|PronType=Art
caixa  -  Gender=Fem|Number=Sing
contendo  -  VerbForm=Ger
um  -  Definite=Ind|Gender=Masc|Number=Sing|PronType=Art
feitiço  -  Gender=Masc|Number=Sing
amaldiçoado  -

In [None]:
#tag

for token in documento:
  print(token.text, " - ", token.tag_)

Um  -  DET
atleta  -  NOUN
de  -  ADP
15  -  NUM
anos  -  NOUN
que  -  PRON
se  -  PRON
junta  -  VERB
ao  -  ADP
Clube  -  PROPN
Oculto  -  PROPN
de  -  ADP
sua  -  DET
escola  -  NOUN
para  -  SCONJ
evitar  -  VERB
o  -  DET
time  -  NOUN
de  -  ADP
atletismo  -  NOUN
.  -  PUNCT
Depois  -  ADV
de  -  ADP
encontrar  -  VERB
e  -  CCONJ
abrir  -  VERB
uma  -  DET
caixa  -  NOUN
contendo  -  VERB
um  -  DET
feitiço  -  NOUN
amaldiçoado  -  VERB
semelhante  -  ADJ
a  -  ADP
um  -  DET
dedo  -  NOUN
podre  -  ADJ
,  -  PUNCT
sua  -  DET
escola  -  NOUN
é  -  AUX
atacada  -  VERB
por  -  ADP
criaturas  -  NOUN
fantasmas  -  ADJ
conhecidas  -  VERB
como  -  ADP
Maldições  -  NOUN
.  -  PUNCT
Para  -  SCONJ
proteger  -  VERB
seus  -  DET
amigos  -  NOUN
,  -  PUNCT
ele  -  PRON
consome  -  VERB
o  -  DET
dedo  -  NOUN
podre  -  ADJ
e  -  CCONJ
fica  -  VERB
possuído  -  VERB
por  -  ADP
uma  -  DET
maldição  -  NOUN
conhecida  -  VERB
como  -  ADP
Ryoumen  -  PROPN
Sukuna  -  PROPN
.  -  PU

##Listando Entidades Nomeadas

In [None]:
for ent in documento.ents:
  print(ent.text, " - ", ent.label_)

Clube Oculto  -  MISC
Maldições  -  MISC
Ryoumen Sukuna  -  MISC


##Gerenciando Stop Words

In [None]:
for token in documento:
  if token.is_stop:
    print("Stop Word: ", token.text)

Stop Word:  Um
Stop Word:  de
Stop Word:  que
Stop Word:  se
Stop Word:  ao
Stop Word:  de
Stop Word:  sua
Stop Word:  para
Stop Word:  o
Stop Word:  de
Stop Word:  Depois
Stop Word:  de
Stop Word:  e
Stop Word:  uma
Stop Word:  um
Stop Word:  a
Stop Word:  um
Stop Word:  sua
Stop Word:  é
Stop Word:  por
Stop Word:  como
Stop Word:  Para
Stop Word:  seus
Stop Word:  ele
Stop Word:  o
Stop Word:  e
Stop Word:  por
Stop Word:  uma
Stop Word:  conhecida
Stop Word:  como


In [None]:
for words in nlp.Defaults.stop_words:
  print(words)

lá
iniciar
parece
sob
já
tentaram
usar
embora
no
primeiro
ambas
tem
estão
todas
temos
ora
umas
que
atrás
à
quinta
vezes
tudo
eu
estar
tarde
deverá
nos
meus
têm
algumas
além
sou
lado
qual
ele
tentei
suas
contra
certeza
vossos
entre
fazemos
grupo
dois
fazia
tempo
sexta
em
seis
vossas
quê
ver
maior
fez
tu
num
quieto
me
onze
caminho
a
nesse
era
tenho
forma
partir
posso
só
fazeis
nenhuma
inicio
qualquer
dar
aqueles
conhecida
vinda
vossa
esse
como
alguns
devem
minhas
outra
o
deste
ponto
dentro
local
todo
usa
favor
novas
vocês
vais
foi
tive
estará
os
teu
bom
ser
meses
sete
elas
estivemos
menos
aos
adeus
breve
pegar
por
des
números
cujo
nunca
questão
cima
estivestes
nas
estado
tente
logo
seu
dão
as
novo
são
você
acerca
essas
então
possivelmente
tanta
uns
saber
comprido
quinto
ir
assim
longe
vos
ela
este
dez
podia
pelas
das
mal
comprida
dá
meu
sexto
onde
é
tiveste
sétima
nova
mil
vão
foram
agora
estive
nessa
coisa
uma
até
meio
porquê
não
boa
pode
novos
daquela
faz
tanto
um
estava
tivestes
algo


In [None]:
#adicionar nova stop word

nlp.Defaults.stop_words.add("eita")
nlp.vocab['eita'].is_stop = True

In [None]:
# verificando

nlp.vocab['eita'].is_stop

True

In [None]:
#remoção de stop words
token_lista = []
for token in documento:
  token_lista.append(token.text)


stop_lista =[]
for words in nlp.Defaults.stop_words:
  stop_lista.append(words)

#esse for gera um laço com as palavras que estão na lista de token mas não estão na lista de stop words
semstop = [word for word in token_lista if not word in stop_lista]

print(documento.text)
print(semstop)

Um atleta de 15 anos que se junta ao Clube Oculto de sua escola para evitar o time de atletismo. Depois de encontrar e abrir uma caixa contendo um feitiço amaldiçoado semelhante a um dedo podre, sua escola é atacada por criaturas fantasmas conhecidas como Maldições. Para proteger seus amigos, ele consome o dedo podre e fica possuído por uma maldição conhecida como Ryoumen Sukuna.
['Um', 'atleta', '15', 'anos', 'junta', 'Clube', 'Oculto', 'escola', 'evitar', 'time', 'atletismo', '.', 'Depois', 'encontrar', 'abrir', 'caixa', 'contendo', 'feitiço', 'amaldiçoado', 'semelhante', 'dedo', 'podre', ',', 'escola', 'atacada', 'criaturas', 'fantasmas', 'conhecidas', 'Maldições', '.', 'Para', 'proteger', 'amigos', ',', 'consome', 'dedo', 'podre', 'fica', 'possuído', 'maldição', 'Ryoumen', 'Sukuna', '.']


##Vocabulário

In [None]:
print("Hash: ", nlp.vocab.strings["dados"])
print("Hash: ", documento.vocab.strings["dados"])
print("String: ", nlp.vocab.strings[6013848609874238634])

Hash:  6013848609874238634
Hash:  6013848609874238634
String:  dados


In [None]:
lex = nlp.vocab["dados"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

dados  -  6013848609874238634  -  True  -  True


In [None]:
#print(nlp("dados").vector.shape)
#print(nlp("dados").vector)
print(nlp("dados são uma nova forma de ver o mundo").vector)

[ 0.5255733  -1.0520301  -1.0489888   0.22808893 -2.7599888   0.91837215
 -1.6993556  -0.44524103 -2.209261   -1.2901455   0.9939946  -1.3996754
  0.7378708  -1.6957022  -1.382649   -1.1241877   2.503239    1.3766589
 -0.63682556  2.7080245  -0.6679023   0.7990059  -1.3761922   1.6491444
 -0.6950322   0.69378555 -0.19840002  1.6926199  -0.3071023   0.71506053
  0.03211441  0.27212894 -1.9055911  -1.5586021  -0.9775556   0.7999823
 -0.9553054   0.5265729  -0.87427455 -1.2073755  -2.117481    1.2241988
  1.5149522  -0.79308677 -1.1521667   0.13741441 -1.7882053   0.50415283
  1.3089666   0.06542712 -0.6260744  -1.5624356  -0.707184   -1.2425367
 -0.04237115 -0.5879791   1.7004043  -0.24798778  0.11633212 -0.55506223
  2.0148706   0.01965364  0.92778563  2.3571968  -0.49526003  1.0151839
  0.57112557  1.3510779  -0.3038622  -0.24523441 -0.42284998 -0.69732666
  0.71998227  0.2875956   0.10309222 -0.6866155   2.128672    0.9791889
 -1.4044011  -0.4600078   0.10599887  0.84635675  1.2420444

##Buscando Similaridade

In [None]:
documento1 = nlp("Ele viaja regularmente de carro")
documento2 = nlp("Ela viaja regularmente de avião")

print(documento1.similarity(documento2))
print(documento2.similarity(documento1))

0.894174124950273
0.894174124950273


In [None]:
documento3 = nlp("Devemos dizer comprimento ou cumprimento?")
tokenA = documento3[2]
print(tokenA)
tokenB = documento3[4]
print(tokenB)

print(tokenA.similarity(tokenB))

comprimento
cumprimento
0.580434


In [None]:
documento4 = nlp("Ele pede descrição. Ele pede discrição")
partA = documento4[0:3]
print(partA)
partB = documento3[4:7]
print(partB)

print(partA.similarity(partB))

Ele pede descrição
cumprimento?
0.0978557


##Busca de Expressões com Matching

In [None]:
from spacy.matcher import Matcher

In [None]:
#identificando um padrao
documento5 = nlp("Você pode ligar para (51) - 996465670 ou (11) 123456789")

matcher = Matcher(nlp.vocab)
padrao = [{"ORTH": "("}, {"SHAPE": "dd"}, {"ORTH": ")"}, {"ORTH": "-", "OP": "?"}, {"IS_DIGIT": True}]
matcher.add("telefone", [padrao])
matches = matcher(documento5)
for id, inicio, fim in matches:
  print(documento5[inicio:fim])

(51) - 996465670
(11) 123456789


In [None]:
#identificando palavras escritas de forma diferente

documento6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não enxergamos micro-organismos")
matcher = Matcher(nlp.vocab)
padrao1 = [{"LOWER": "micro-organismos"}]
padrao2 = [{"LOWER": "microorganismos"}]
padrao3 = [{"LOWER": "micro"}, {"LOWER": "organismos"}]

matcher.add("padrao", [padrao1, padrao2, padrao3])

matches = matcher(documento6)
for id, inicio, fim in matches:
  print(documento6[inicio:fim])


micro organismos
MICROORGANISMOS
micro-organismos


##Visualização com Displacy

Existem dois estilos principais:
* Entidades nomeadas
* Dependencia

É personalizável, pois é possível modificar cor, fundo, fonte, distância, etc.

In [None]:
from spacy import displacy

#visualização de entidades
documento = nlp("O Studio Ghibli, fundado por Hayao Miyazaki e Isao Takahata em 1985, é um dos estúdios de animação mais icônicos do mundo. Com filmes aclamados como Meu Vizinho Totoro, A Viagem de Chihiro e Princesa Mononoke, o estúdio conquistou uma base de fãs global apaixonada e dedicada.")
displacy.render(documento, style="ent", jupyter=True)

In [None]:
#visualização de dependencia
displacy.render(documento, style="dep", jupyter=True)

In [None]:
displacy.render(documento, style="dep", jupyter=True,
                options={'compact': True, 'distance':100, 'color': '#493082', 'bg': '#56D8FD', 'font': 'Arial'})

##Gerenciando Pipelines

In [None]:
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [None]:
#removendo etapa

nlp.remove_pipe('tok2vec')
print("Pipeline sem tok2vec: ", nlp.pipe_names)

Pipeline sem tok2vec:  ['morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [None]:
#adicionando etapa e escolhendo onde adicionar

nlp.add_pipe('tok2vec', after='morphologizer')
print("Pipeline: ", nlp.pipe_names)

Pipeline:  ['morphologizer', 'tok2vec', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
