#spaCy

üíª [acessar este jupyter notebook no colab](https://colab.research.google.com/drive/14k-rFuRWz33IYsNnc71ux9QCkbtZ8ANF?usp=sharing)

A biblioteca spaCy √© uma poderosa ferramenta de Processamento de Linguagem Natural (NLP) desenvolvida em Python, amplamente utilizada para realizar uma variedade de tarefas relacionadas ao processamento e an√°lise de textos.

* Neste notebook, ser√£o exploradas as funcionalidades principais desta biblioteca.

##Configura√ß√µes Iniciais

O Google Colab n√£o possui a biblioteca instalada com seus m√≥dulos, portanto √© necess√°rio instalar. A vers√£o a ser utilizada neste notebook ser√° a 3.2.0.

In [None]:
!pip install -U spacy==3.2.0 -q

In [None]:
#baixar modelo pr√©-treinado em portugu√™s (lg √© a vers√£o large de 550MB)

!python -m spacy download 'pt_core_news_lg'

In [None]:
import spacy

In [None]:
#cria um objeto para usar o modelo pr√©-treinado

nlp = spacy.load('pt_core_news_lg')

* Em SpaCy, os pipelines s√£o sequ√™ncias de componentes de processamento que s√£o aplicados a um texto durante o processamento. Cada componente pode realizar uma tarefa espec√≠fica, como tokeniza√ß√£o, an√°lise morfol√≥gica, an√°lise sint√°tica, reconhecimento de entidades nomeadas, entre outros.

In [None]:
#verificando o tipo do arquivo e os nomes dos componentes do pipeline do SpaCy

print(type(nlp))
print(nlp.pipe_names)

<class 'spacy.lang.pt.Portuguese'>
['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [None]:
documento = nlp("Alega√ß√µes extraordin√°rias requerem evid√™ncias extraordin√°rias. √â uma frase do famoso cientista e astr√¥nomo Carl Sagan: 'https://carlsagan.com'")

In [None]:
len(documento.vocab)

364

In [None]:
print(type(documento))

<class 'spacy.tokens.doc.Doc'>


##Produ√ß√£o de Tokens

A produ√ß√£o de tokens, ou tokeniza√ß√£o envolve a divis√£o de um texto em unidades menores, chamadas tokens. Esses tokens podem ser palavras, frases, ou at√© mesmo caracteres, dependendo do n√≠vel de an√°lise desejado.

*  `"Eu gosto de programa√ß√£o"` se torna `["Eu", "gosto", "de", "programa√ß√£o"]`
*  `"Eu gosto de programa√ß√£o. E voc√™?"` se torna `["Eu gosto de programa√ß√£o.", "E voc√™?"]`


Essa n√£o √© uma etapa opcional no pipeline da biblioteca spaCy, ela sempre ser√° executada.

In [None]:
for token in documento:
  print (token.text)

Alega√ß√µes
extraordin√°rias
requerem
evid√™ncias
extraordin√°rias
.
√â
uma
frase
do
famoso
cientista
e
astr√¥nomo
Carl
Sagan
:
'
https://carlsagan.com
'


In [None]:
print(documento[15])

Sagan


In [None]:
print(documento[14:16])

Carl Sagan


In [None]:
print(len(documento))

20


In [None]:
print("Tokens: ", [token.text for token in documento])
print("Stop Word: ", [token.is_stop for token in documento])
print("Alfanum√©rico: ", [token.is_alpha for token in documento])
print("Mai√∫sculo: ", [token.is_upper for token in documento])
print("Pontua√ß√£o: ", [token.is_punct for token in documento])
print("N√∫mero: ", [token.like_num for token in documento])
print("Senten√ßa Inicial: ", [token.is_sent_start for token in documento])

Tokens:  ['Alega√ß√µes', 'extraordin√°rias', 'requerem', 'evid√™ncias', 'extraordin√°rias', '.', '√â', 'uma', 'frase', 'do', 'famoso', 'cientista', 'e', 'astr√¥nomo', 'Carl', 'Sagan', ':', "'", 'https://carlsagan.com', "'"]
Stop Word:  [False, False, False, False, False, False, True, True, False, True, False, False, True, False, False, False, False, False, False, False]
Alfanum√©rico:  [True, True, True, True, True, False, True, True, True, True, True, True, True, True, True, True, False, False, False, False]
Mai√∫sculo:  [False, False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontua√ß√£o:  [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, True, True, False, True]
N√∫mero:  [False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Senten√ßa Inicial:  [True, Fal

In [None]:
print("Tokens: ", [token.text for token in documento])
print("Formato: ", [token.shape_ for token in documento])

Tokens:  ['Alega√ß√µes', 'extraordin√°rias', 'requerem', 'evid√™ncias', 'extraordin√°rias', '.', '√â', 'uma', 'frase', 'do', 'famoso', 'cientista', 'e', 'astr√¥nomo', 'Carl', 'Sagan', ':', "'", 'https://carlsagan.com', "'"]
Formato:  ['Xxxxx', 'xxxx', 'xxxx', 'xxxx', 'xxxx', '.', 'X', 'xxx', 'xxxx', 'xx', 'xxxx', 'xxxx', 'x', 'xxxx', 'Xxxx', 'Xxxxx', ':', "'", 'xxxx://xxxx.xxx', "'"]


In [None]:
for token in documento:
  if token.like_num:
    print("N√∫mero encontrado: ", token.text)
  if token.is_punct:
    print("Pontua√ß√£o encontrada: ", token.text)

Pontua√ß√£o encontrada:  .
Pontua√ß√£o encontrada:  :
Pontua√ß√£o encontrada:  '
Pontua√ß√£o encontrada:  '


##POS Taggin e Depend√™ncias

O objetivo principal do POS-Tagging (Part-of-Speech Tagging) √© identificar a fun√ß√£o gramatical de cada palavra em um texto, o que pode ajudar em v√°rias tarefas de PLN. Exemplo b√°sico de fun√ß√£o gramatical:

Frase: "O gato preto dorme no sof√°."

* O: ARTIGO
* gato: SUBSTANTIVO
* preto: ADJETIVO
* dorme: VERBO
* no: PREPOSI√á√ÉO + ARTIGO
* sof√°: SUBSTANTIVO

In [None]:
for token in documento:
  print(token.text, " - ", token.pos_, " - ", token.dep_, " - ", token.lemma_, " - ", token.shape_)

Alega√ß√µes  -  NOUN  -  nsubj  -  Alega√ß√µes  -  Xxxxx
extraordin√°rias  -  ADJ  -  amod  -  extraordin√°rio  -  xxxx
requerem  -  VERB  -  ROOT  -  requerer  -  xxxx
evid√™ncias  -  NOUN  -  obj  -  evid√™ncia  -  xxxx
extraordin√°rias  -  ADJ  -  amod  -  extraordin√°rio  -  xxxx
.  -  PUNCT  -  punct  -  .  -  .
√â  -  AUX  -  cop  -  √â  -  X
uma  -  DET  -  det  -  umar  -  xxx
frase  -  NOUN  -  ROOT  -  frase  -  xxxx
do  -  ADP  -  case  -  do  -  xx
famoso  -  ADJ  -  amod  -  famoso  -  xxxx
cientista  -  NOUN  -  nmod  -  cientista  -  xxxx
e  -  CCONJ  -  cc  -  e  -  x
astr√¥nomo  -  NOUN  -  conj  -  astr√¥nomo  -  xxxx
Carl  -  PROPN  -  appos  -  Carl  -  Xxxx
Sagan  -  PROPN  -  flat:name  -  Sagan  -  Xxxxx
:  -  PUNCT  -  punct  -  :  -  :
'  -  PUNCT  -  punct  -  '  -  '
https://carlsagan.com  -  ADP  -  dep  -  https://carlsagan.com  -  xxxx://xxxx.xxx
'  -  PUNCT  -  punct  -  '  -  '


In [None]:
#morfologia

for token in documento:
  print(token.text, " - ", token.morph)

Alega√ß√µes  -  Gender=Fem|Number=Plur
extraordin√°rias  -  Gender=Fem|Number=Plur
requerem  -  Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
evid√™ncias  -  Gender=Fem|Number=Plur
extraordin√°rias  -  Gender=Fem|Number=Plur
.  -  
√â  -  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
uma  -  Definite=Ind|Gender=Fem|Number=Sing|PronType=Art
frase  -  Gender=Fem|Number=Sing
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
famoso  -  Gender=Masc|Number=Sing
cientista  -  Gender=Masc|Number=Sing
e  -  
astr√¥nomo  -  Gender=Masc|Number=Sing
Carl  -  Gender=Masc|Number=Sing
Sagan  -  Number=Sing
:  -  
'  -  
https://carlsagan.com  -  
'  -  


In [None]:
#tag

for token in documento:
  print(token.text, " - ", token.tag_)

Alega√ß√µes  -  NOUN
extraordin√°rias  -  ADJ
requerem  -  VERB
evid√™ncias  -  NOUN
extraordin√°rias  -  ADJ
.  -  PUNCT
√â  -  AUX
uma  -  DET
frase  -  NOUN
do  -  ADP
famoso  -  ADJ
cientista  -  NOUN
e  -  CCONJ
astr√¥nomo  -  NOUN
Carl  -  PROPN
Sagan  -  PROPN
:  -  PUNCT
'  -  PUNCT
https://carlsagan.com  -  ADP
'  -  PUNCT


##Listando Entidades Nomeadas

A busca de Entidades Nomeadas (Named Entity Recognition - NER) visa identificar e classificar entidades significativas em textos n√£o estruturados, como nomes de pessoas, locais, organiza√ß√µes, datas, quantidades, entre outros. Essas entidades s√£o geralmente informa√ß√µes chave que ajudam na compreens√£o e na extra√ß√£o de informa√ß√µes de documentos textuais.

In [None]:
for ent in documento.ents:
  print(ent.text, " - ", ent.label_)

Carl Sagan  -  PER


##Gerenciando Stop Words

Stop words s√£o palavras comuns que geralmente n√£o carregam muito significado em an√°lises textuais, como "e", "a", "o", "de", "que", etc. A remo√ß√£o de stop words e pontua√ß√£o pode ajudar a simplificar o texto e melhorar a efic√°cia de muitos algoritmos de PLN.

In [None]:
#listando stop words no documento
for token in documento:
  if token.is_stop:
    print("Stop Word: ", token.text)

Stop Word:  √â
Stop Word:  uma
Stop Word:  do
Stop Word:  e


In [None]:
#listando stop words da biblioteca
for words in nlp.Defaults.stop_words:
  print(words)

vens
sois
v√≥s
fazia
quais
todas
todo
sabe
√°rea
tivemos
vez
aquele
sempre
sou
fa√ßo
dezoito
tarde
como
sexto
tenho
n√≠vel
sua
coisa
a√≠
um
nesta
desse
vindo
teus
meio
obrigada
√∫ltimo
for
assim
daquela
tivestes
quarto
isso
que
aos
temos
seus
segunda
todos
dessa
do
tiveram
aquelas
muitos
naquele
tiveste
eles
estivestes
neste
na
quinta
muito
s√£o
estar
quanto
pouco
tendes
fazeis
dar
em
des
se
conhecida
quest√£o
sem
apenas
essa
al√©m
outras
grande
adeus
cento
logo
porquanto
iniciar
bom
caminho
fazer
vai
das
vezes
apoia
porque
agora
tipo
bem
estar√°
lado
tempo
treze
inicio
posi√ß√£o
maiorias
est√°
foram
l√°
nesse
nessa
s√≥
ontem
cada
ora
√†
quieta
ela
partir
quero
bastante
tem
seu
posso
qual
com
tal
lugar
dever√°
tudo
ambos
povo
quinze
ele
estado
vinda
pois
isto
deve
geral
naquela
puderam
meu
somente
tu
mal
primeiro
mesmo
toda
nas
obrigado
alguns
momento
m√™s
v√£o
nos
fostes
os
usa
foste
podia
ser
voc√™
est√°s
baixo
parte
algo
esse
nova
comprido
vem
qualquer
valor
quatro
teu
saber
tuas
aq

In [None]:
#adicionar nova stop word

nlp.Defaults.stop_words.add("eita")
nlp.vocab['eita'].is_stop = True

In [None]:
# verificando

nlp.vocab['eita'].is_stop

True

In [None]:
#remo√ß√£o de stop words
token_lista = []
for token in documento:
  token_lista.append(token.text)


stop_lista =[]
for words in nlp.Defaults.stop_words:
  stop_lista.append(words)

#esse for gera um la√ßo com as palavras que est√£o na lista de token mas n√£o est√£o na lista de stop words
semstop = [word for word in token_lista if not word in stop_lista]

print(documento.text)
print(semstop)

Alega√ß√µes extraordin√°rias requerem evid√™ncias extraordin√°rias. √â uma frase do famoso cientista e astr√¥nomo Carl Sagan: 'https://carlsagan.com'
['Alega√ß√µes', 'extraordin√°rias', 'requerem', 'evid√™ncias', 'extraordin√°rias', '.', '√â', 'frase', 'famoso', 'cientista', 'astr√¥nomo', 'Carl', 'Sagan', ':', "'", 'https://carlsagan.com', "'"]


##Vocabul√°rio

Se refere ao conjunto de palavras √∫nicas que o modelo reconhece e pode processar. O vocabul√°rio ajuda o modelo a entender e processar textos ao associar cada palavra a vetores de palavras, √≠ndices e outras informa√ß√µes relevantes.

In [None]:
print("Hash: ", nlp.vocab.strings["dados"])
print("Hash: ", documento.vocab.strings["dados"])
print("String: ", nlp.vocab.strings[6013848609874238634])

Hash:  6013848609874238634
Hash:  6013848609874238634
String:  dados


In [None]:
lex = nlp.vocab["dados"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

dados  -  6013848609874238634  -  True  -  True


In [None]:
#print(nlp("dados").vector.shape)
#print(nlp("dados").vector)
print(nlp("dados s√£o uma nova forma de ver o mundo").vector)

[ 0.5255733  -1.0520301  -1.0489888   0.22808893 -2.7599888   0.91837215
 -1.6993556  -0.44524103 -2.209261   -1.2901455   0.9939946  -1.3996754
  0.7378708  -1.6957022  -1.382649   -1.1241877   2.503239    1.3766589
 -0.63682556  2.7080245  -0.6679023   0.7990059  -1.3761922   1.6491444
 -0.6950322   0.69378555 -0.19840002  1.6926199  -0.3071023   0.71506053
  0.03211441  0.27212894 -1.9055911  -1.5586021  -0.9775556   0.7999823
 -0.9553054   0.5265729  -0.87427455 -1.2073755  -2.117481    1.2241988
  1.5149522  -0.79308677 -1.1521667   0.13741441 -1.7882053   0.50415283
  1.3089666   0.06542712 -0.6260744  -1.5624356  -0.707184   -1.2425367
 -0.04237115 -0.5879791   1.7004043  -0.24798778  0.11633212 -0.55506223
  2.0148706   0.01965364  0.92778563  2.3571968  -0.49526003  1.0151839
  0.57112557  1.3510779  -0.3038622  -0.24523441 -0.42284998 -0.69732666
  0.71998227  0.2875956   0.10309222 -0.6866155   2.128672    0.9791889
 -1.4044011  -0.4600078   0.10599887  0.84635675  1.2420444

##Buscando Similaridade

√â poss√≠vel calcular a similaridade entre tokens, senten√ßas ou documentos inteiros com base em seus vetores de palavras. A similaridade calculada ajuda a entender o qu√£o semanticamente pr√≥ximos est√£o os elementos processados.

In [None]:
documento1 = nlp("Ele viaja regularmente de carro")
documento2 = nlp("Ela viaja regularmente de avi√£o")

print(documento1.similarity(documento2))
print(documento2.similarity(documento1))

0.894174124950273
0.894174124950273


In [None]:
documento3 = nlp("Devemos dizer comprimento ou cumprimento?")
tokenA = documento3[2]
print(tokenA)
tokenB = documento3[4]
print(tokenB)

print(tokenA.similarity(tokenB))

comprimento
cumprimento
0.580434


In [None]:
documento4 = nlp("Ele pede descri√ß√£o. Ele pede discri√ß√£o")
partA = documento4[0:3]
print(partA)
partB = documento3[4:7]
print(partB)

print(partA.similarity(partB))

Ele pede descri√ß√£o
cumprimento?
0.0978557


##Busca de Express√µes com Matching

Para realizar busca de express√µes espec√≠ficas em textos utilizando SpaCy, √© poss√≠vel utilizar o recurso de *pattern matching* dispon√≠vel na biblioteca. Isso envolve definir padr√µes que descrevem as express√µes que se deseja encontrar no texto.

In [None]:
from spacy.matcher import Matcher

In [None]:
#identificando um padr√£o
documento5 = nlp("Voc√™ pode ligar para (51) - 996465670 ou (11) 123456789")

matcher = Matcher(nlp.vocab)
padrao = [{"ORTH": "("}, {"SHAPE": "dd"}, {"ORTH": ")"}, {"ORTH": "-", "OP": "?"}, {"IS_DIGIT": True}]
matcher.add("telefone", [padrao])
matches = matcher(documento5)
for id, inicio, fim in matches:
  print(documento5[inicio:fim])

(51) - 996465670
(11) 123456789


In [None]:
#identificando palavras escritas de forma diferente

documento6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS s√£o perigosos. N√£o enxergamos micro-organismos")
matcher = Matcher(nlp.vocab)
padrao1 = [{"LOWER": "micro-organismos"}]
padrao2 = [{"LOWER": "microorganismos"}]
padrao3 = [{"LOWER": "micro"}, {"LOWER": "organismos"}]

matcher.add("padrao", [padrao1, padrao2, padrao3])

matches = matcher(documento6)
for id, inicio, fim in matches:
  print(documento6[inicio:fim])


micro organismos
MICROORGANISMOS
micro-organismos


##Visualiza√ß√£o com Displacy

Para visualizar an√°lises lingu√≠sticas e estruturas sint√°ticas de textos usando SpaCy, √© poss√≠vel utilizar a fun√ß√£o displacy. Essas visualiza√ß√µes s√£o √∫teis para entender como o SpaCy analisa e interpreta o texto em termos de entidades, depend√™ncias sint√°ticas, POS tagging, entre outros aspectos lingu√≠sticos.

Existem dois estilos principais de visualiza√ß√£o:
* Visualiza√ß√£o de Entidades nomeadas
* Visualiza√ß√£o de Depend√™ncia

√â personaliz√°vel, pois √© poss√≠vel modificar cor, fundo, fonte, dist√¢ncia, etc.

In [None]:
from spacy import displacy

In [None]:
#visualiza√ß√£o de entidades
documento = nlp("O Studio Ghibli, fundado por Hayao Miyazaki e Isao Takahata em 1985, √© um dos est√∫dios de anima√ß√£o mais ic√¥nicos do mundo. Com filmes aclamados como Meu Vizinho Totoro, A Viagem de Chihiro e Princesa Mononoke, o est√∫dio conquistou uma base de f√£s global apaixonada e dedicada.")
displacy.render(documento, style="ent", jupyter=True)

In [None]:
#visualiza√ß√£o de depend√™ncia
displacy.render(documento, style="dep", jupyter=True)

In [None]:
#estilizando a visualiza√ß√£o
displacy.render(documento, style="dep", jupyter=True,
                options={'compact': True, 'distance':100, 'color': '#493082', 'bg': '#56D8FD', 'font': 'Arial'})

##Gerenciando Pipelines

Gerenciar pipelines no SpaCy envolve adicionar, remover ou modificar esses componentes para personalizar o processamento de texto de acordo com suas necessidades espec√≠ficas.

In [None]:
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [None]:
#removendo etapa

nlp.remove_pipe('tok2vec')
print("Pipeline sem tok2vec: ", nlp.pipe_names)

Pipeline sem tok2vec:  ['morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [None]:
#adicionando etapa e escolhendo onde adicionar

nlp.add_pipe('tok2vec', after='morphologizer')
print("Pipeline: ", nlp.pipe_names)

Pipeline:  ['morphologizer', 'tok2vec', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
