<a href="https://colab.research.google.com/github/Vitor-Sallenave/Formacao-em-NLP/blob/main/Spacy/Spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Installing the most recent version of the lib Spacy
!pip install -U spacy



In [2]:
# Downloading 1 of the 3 existing pre-trained models
!python -m spacy download 'pt_core_news_lg'

2023-09-08 01:20:56.944369: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
Collecting pt-core-news-lg==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.6.0/pt_core_news_lg-3.6.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.6.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')


In [3]:
import spacy

In [4]:
# Loading the model in order to create a nlp object
nlp = spacy.load('pt_core_news_lg')

In [5]:
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


In [6]:
# Showing the model's pipeline: stages that will be executed when a document
# is created
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


## ***1. Producing tokens***

In [7]:
# Creating a document
t = 'As ações na bolsa de valores pertencentes a empresa Coca-Cola despencaram após o episódio ocorrido na entrevista de Cristiano Ronaldo, que atualmente atua no futebol árabe, onde o atleta retirou uma bebida da grande marca de sua frente, passando a seguinte mensagem para os internautas: "bebam água!".'
doc = nlp(t)

In [8]:
# Quantity of tokens
len(doc)

55

In [9]:
print(type(doc))

<class 'spacy.tokens.doc.Doc'>


In [10]:
# Analyzing the doc's tokens
print(f'Tokens: {[token.text for token in doc]}')
print(f'Stopword: {[token.is_stop for token in doc]}')
print(f'Alphanumeric: {[token.is_alpha for token in doc]}')
print(f'Upper: {[token.is_upper for token in doc]}')
print(f'Punctuation: {[token.is_punct for token in doc]}')
print(f'Number: {[token.like_num for token in doc]}')
print(f'Initial sentence: {[token.is_sent_start for token in doc]}')

Tokens: ['As', 'ações', 'na', 'bolsa', 'de', 'valores', 'pertencentes', 'a', 'empresa', 'Coca-Cola', 'despencaram', 'após', 'o', 'episódio', 'ocorrido', 'na', 'entrevista', 'de', 'Cristiano', 'Ronaldo', ',', 'que', 'atualmente', 'atua', 'no', 'futebol', 'árabe', ',', 'onde', 'o', 'atleta', 'retirou', 'uma', 'bebida', 'da', 'grande', 'marca', 'de', 'sua', 'frente', ',', 'passando', 'a', 'seguinte', 'mensagem', 'para', 'os', 'internautas', ':', '"', 'bebam', 'água', '!', '"', '.']
Stopword: [True, False, True, False, True, False, False, True, False, False, False, True, True, False, False, True, False, True, False, False, False, True, False, False, True, False, False, False, True, True, False, False, True, False, True, True, False, True, True, False, False, False, True, False, False, True, True, False, False, False, False, False, False, False, False]
Alphanumeric: [True, True, True, True, True, True, True, True, True, False, True, True, True, True, True, True, True, True, True, True, Fals

In [11]:
print(f'Tokens: {[token.text for token in doc]}')
print(f'Shape: {[token.shape_ for token in doc]}')

Tokens: ['As', 'ações', 'na', 'bolsa', 'de', 'valores', 'pertencentes', 'a', 'empresa', 'Coca-Cola', 'despencaram', 'após', 'o', 'episódio', 'ocorrido', 'na', 'entrevista', 'de', 'Cristiano', 'Ronaldo', ',', 'que', 'atualmente', 'atua', 'no', 'futebol', 'árabe', ',', 'onde', 'o', 'atleta', 'retirou', 'uma', 'bebida', 'da', 'grande', 'marca', 'de', 'sua', 'frente', ',', 'passando', 'a', 'seguinte', 'mensagem', 'para', 'os', 'internautas', ':', '"', 'bebam', 'água', '!', '"', '.']
Shape: ['Xx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', 'xxxx', 'x', 'xxxx', 'Xxxx-Xxxx', 'xxxx', 'xxxx', 'x', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', ',', 'xxx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xxxx', ',', 'xxxx', 'x', 'xxxx', 'xxxx', 'xxx', 'xxxx', 'xx', 'xxxx', 'xxxx', 'xx', 'xxx', 'xxxx', ',', 'xxxx', 'x', 'xxxx', 'xxxx', 'xxxx', 'xx', 'xxxx', ':', '"', 'xxxx', 'xxxx', '!', '"', '.']


## ***2. Pos-tagging and Dependencies***

In [12]:
for token in doc:
    print(f'{token.text} - {token.pos_} - {token.dep_} - {token.lemma_} - {token.shape_}')

As - DET - det - o - Xx
ações - NOUN - nsubj - ação - xxxx
na - ADP - case - em o - xx
bolsa - PROPN - nmod - Bolsa - xxxx
de - ADP - case - de - xx
valores - NOUN - nmod - valor - xxxx
pertencentes - ADJ - amod - pertencente - xxxx
a - DET - det - o - x
empresa - NOUN - obj - empresa - xxxx
Coca-Cola - PROPN - appos - Coca-Cola - Xxxx-Xxxx
despencaram - VERB - ROOT - despencar - xxxx
após - ADP - case - após - xxxx
o - DET - det - o - x
episódio - NOUN - obl - episódio - xxxx
ocorrido - VERB - acl - ocorrer - xxxx
na - ADP - case - em o - xx
entrevista - NOUN - obl - entrevista - xxxx
de - ADP - case - de - xx
Cristiano - PROPN - nmod - Cristiano - Xxxxx
Ronaldo - PROPN - flat:name - Ronaldo - Xxxxx
, - PUNCT - punct - , - ,
que - PRON - nsubj - que - xxx
atualmente - ADV - advmod - atualmente - xxxx
atua - VERB - acl:relcl - atuar - xxxx
no - ADP - case - em o - xx
futebol - NOUN - obl - futebol - xxxx
árabe - ADJ - amod - árabe - xxxx
, - PUNCT - punct - , - ,
onde - PRON - obl - on

In [13]:
# Morphologies
for token in doc:
    print(f'{token.text} - {token.morph}')

As - Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações - Gender=Fem|Number=Plur
na - Definite=Def|Gender=Fem|Number=Sing|PronType=Art
bolsa - Gender=Fem|Number=Sing
de - 
valores - Gender=Masc|Number=Plur
pertencentes - Gender=Masc|Number=Plur
a - Definite=Def|Gender=Fem|Number=Sing|PronType=Art
empresa - Gender=Fem|Number=Sing
Coca-Cola - Gender=Fem|Number=Sing
despencaram - Mood=Ind|Number=Plur|Person=3|VerbForm=Fin
após - 
o - Definite=Def|Gender=Masc|Number=Sing|PronType=Art
episódio - Gender=Masc|Number=Sing
ocorrido - Gender=Masc|Number=Sing|VerbForm=Part
na - Definite=Def|Gender=Fem|Number=Sing|PronType=Art
entrevista - Gender=Fem|Number=Sing
de - 
Cristiano - Gender=Masc|Number=Sing
Ronaldo - Number=Sing
, - 
que - Gender=Masc|Number=Sing|PronType=Rel
atualmente - 
atua - Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
no - Definite=Def|Gender=Masc|Number=Sing|PronType=Art
futebol - Gender=Masc|Number=Sing
árabe - Gender=Masc|Number=Sing
, - 
onde - Gender=Masc|Numbe

In [14]:
# Tags
for token in doc:
    print(f'{token.text} - {token.tag_}')

As - DET
ações - NOUN
na - ADP
bolsa - PROPN
de - ADP
valores - NOUN
pertencentes - ADJ
a - DET
empresa - NOUN
Coca-Cola - PROPN
despencaram - VERB
após - ADP
o - DET
episódio - NOUN
ocorrido - VERB
na - ADP
entrevista - NOUN
de - ADP
Cristiano - PROPN
Ronaldo - PROPN
, - PUNCT
que - PRON
atualmente - ADV
atua - VERB
no - ADP
futebol - NOUN
árabe - ADJ
, - PUNCT
onde - PRON
o - DET
atleta - NOUN
retirou - VERB
uma - DET
bebida - NOUN
da - ADP
grande - ADJ
marca - NOUN
de - ADP
sua - DET
frente - NOUN
, - PUNCT
passando - VERB
a - DET
seguinte - ADJ
mensagem - NOUN
para - ADP
os - DET
internautas - NOUN
: - PUNCT
" - PUNCT
bebam - VERB
água - NOUN
! - PUNCT
" - PUNCT
. - PUNCT


## ***3. Named Entities Recognition (NER)***

In [15]:
for ent in doc.ents:
    print(f'{ent.text} - {ent.label_}')

Coca-Cola - ORG
Cristiano Ronaldo - PER


## ***4. Managing Stopwords***

In [16]:
for token in doc:
    if token.is_stop:
        print(token.text)

As
na
de
a
após
o
na
de
que
no
onde
o
uma
da
grande
de
sua
a
para
os


In [17]:
# Consulting the model's default stopwords
for word in nlp.Defaults.stop_words:
    print(word)

põe
novas
caminho
momento
tal
dizer
estivestes
certamente
vossas
somente
nove
quer
apontar
primeira
novo
três
pelas
sois
quatro
ao
ademais
fazia
disso
esta
estás
és
minha
alguns
o
ontem
tentar
desta
ou
os
cima
vem
oitavo
tuas
inclusive
cujo
entre
aí
poder
em
sem
das
dos
catorze
deve
eventual
vindo
nunca
teus
daquele
dois
seu
fomos
vêm
oito
quinze
partir
questão
essas
estará
uma
fez
para
nuns
pode
vocês
apenas
contudo
a
umas
dizem
boa
talvez
bem
estes
fazer
fazes
posição
duas
ora
sete
vários
treze
isso
com
nesse
estiveste
usa
estava
aquela
num
nem
novos
por
vez
numa
maior
são
pelo
irá
tens
ver
acerca
tentaram
cedo
fostes
ir
tudo
estão
número
apoio
puderam
cada
longe
ponto
tivemos
nossa
nível
ele
me
direita
sobre
mais
nada
isto
tanto
tivestes
neste
nas
saber
atrás
porém
cinco
meu
teve
foi
dessa
vós
lado
custa
querem
faço
exemplo
um
relação
nessa
área
parece
deste
vinte
somos
através
vão
foram
sétima
tem
tão
des
aquilo
logo
todo
lá
quarta
todas
fará
próximo
quieta
no
números
ela
às
fazeis

In [18]:
# Adding a new stopword
nlp.Defaults.stop_words.add("eita")

In [19]:
nlp.vocab['eita'].is_stop

True

In [20]:
# Removing stopwords
tokens = [token.text for token in doc]
print('Tokens: ', tokens)

stopwords = list(nlp.Defaults.stop_words)
print('Stopwords: ', stopwords)

last_tokens = [w for w in tokens if not w in stopwords]
print('Tokens after stopwords removal: ', last_tokens)

Tokens:  ['As', 'ações', 'na', 'bolsa', 'de', 'valores', 'pertencentes', 'a', 'empresa', 'Coca-Cola', 'despencaram', 'após', 'o', 'episódio', 'ocorrido', 'na', 'entrevista', 'de', 'Cristiano', 'Ronaldo', ',', 'que', 'atualmente', 'atua', 'no', 'futebol', 'árabe', ',', 'onde', 'o', 'atleta', 'retirou', 'uma', 'bebida', 'da', 'grande', 'marca', 'de', 'sua', 'frente', ',', 'passando', 'a', 'seguinte', 'mensagem', 'para', 'os', 'internautas', ':', '"', 'bebam', 'água', '!', '"', '.']
Stopwords:  ['põe', 'novas', 'caminho', 'momento', 'tal', 'dizer', 'estivestes', 'certamente', 'vossas', 'somente', 'nove', 'quer', 'apontar', 'primeira', 'novo', 'três', 'pelas', 'sois', 'quatro', 'eita', 'ao', 'ademais', 'fazia', 'disso', 'esta', 'estás', 'és', 'minha', 'alguns', 'o', 'ontem', 'tentar', 'desta', 'ou', 'os', 'cima', 'vem', 'oitavo', 'tuas', 'inclusive', 'cujo', 'entre', 'aí', 'poder', 'em', 'sem', 'das', 'dos', 'catorze', 'deve', 'eventual', 'vindo', 'nunca', 'teus', 'daquele', 'dois', 'seu',

## ***5. Vocabulary***

In [21]:
len(doc.vocab)

393

In [22]:
# Each token of the document has an unique hash code archived in the vocabulary
print('Hash: ', nlp.vocab.strings['ações'])
print('String: ', nlp.vocab.strings[15070471850793687229])

Hash:  15070471850793687229
String:  ações


In [23]:
lex = nlp.vocab["ações"]
print(f'{lex.text} - {lex.orth} - {lex.is_alpha} - {lex.is_lower}')

ações - 15070471850793687229 - True - True


In [24]:
# Verifying in what depth the word "ações" is related to the others words
print(nlp('dados').vector.shape)
print(nlp('dados').vector)

(300,)
[-1.8078e+00 -2.8421e+00 -5.5345e-01 -4.0565e+00 -2.3565e+00  4.7295e+00
 -3.3508e+00 -1.2036e+00 -5.3749e+00 -7.5768e-01 -2.0015e+00  5.3618e+00
  2.2789e-01  1.2136e+00 -1.4418e+00 -3.0621e+00  2.2060e+00  1.1943e+00
 -1.8689e+00 -5.9128e+00 -5.1929e-01  2.1897e+00 -2.4651e+00  1.7600e+00
 -5.6308e+00  1.0053e+00  7.3080e-01  2.0417e-01 -6.0370e+00  1.7474e+00
  2.0375e+00  2.7541e+00 -1.0423e+00  1.7632e+00 -1.4484e+00 -2.4344e+00
 -8.6094e-01  1.7867e+00 -4.9920e+00 -3.1162e+00 -5.3973e-01  2.4241e+00
  4.4410e-01 -4.7503e+00  2.1383e+00  3.8537e-01 -2.2418e+00  5.8104e+00
 -1.1731e+00  2.4686e-02 -1.8413e+00 -5.9321e+00 -7.0872e-03 -2.3093e+00
  5.5101e+00 -4.1795e-01  2.9754e+00  3.6709e-01 -8.0867e-01 -1.3751e+00
  4.8132e+00 -2.2835e+00 -2.0920e-01  1.2578e+00  4.3466e+00  1.3846e+00
 -1.5847e+00  3.3322e+00 -4.3669e+00  1.8883e+00 -1.2312e+00  3.7902e-01
  8.6331e-01 -4.0607e+00 -1.3444e+00  4.5210e+00  2.2995e-01 -5.9245e+00
 -2.0598e-01 -3.1810e+00 -3.8640e+00  7.2114

## ***6. Similarity***

In [25]:
# Similiarity among documents
doc1 = nlp('Ele viaja de avião regurlarmente')
doc2 = nlp('Ela viaja regularmente de avião')
print(doc1.similarity(doc2))

0.9172040561465675


In [26]:
# Similarity among tokens
doc3 = nlp('O certo é cumprimento ou comprimento?')
token1, token2 = doc3[3], doc[5]
print(token1.similarity(token2))

0.45345428586006165


In [27]:
# Similarity
doc4 = nlp('Ele pede descrição. Ele pede discrição')
part1, part2 = doc4[0:4], doc4[4:]
print(part1.similarity(part2))

0.8153641223907471


## ***7. Matching***

In [28]:
from spacy.matcher import Matcher
from typing import Match

In [29]:
doc5 = nlp('Você pode ligar para (21) - 987358734 ou para (33) 123456789')

In [30]:
# Initializing the matcher
matcher = Matcher(doc5.vocab)

In [31]:
# Creating a pattern
pattern = [{'ORTH':'('}, {'SHAPE':'dd'}, {'ORTH':')'}, {'ORTH':'-', 'OP':'?'},
            {'IS_DIGIT':True}]

matcher.add('telephone', [pattern])

In [32]:
# Apllying the pattern
matches = matcher(doc5)

In [33]:
for id, init, end in matches:
    print(doc5[init:end])

(21) - 987358734
(33) 123456789


In [34]:
doc6 = nlp('Microorganismos são nocivos. Os micro-organismos possuem uma alta capacidade de contaminação. os micro organismos também podem se multiplicar.')

In [35]:
matcher = Matcher(doc6.vocab)

In [36]:
# Creating multiple patterns
patt1 = [{'LOWER':'micro-organismos'}]
patt2 = [{'LOWER':'microorganismos'}]
patt3 = [{'LOWER':'micro'}, {'LOWER':'organismos'}]

matcher.add('microorganismos', [patt1, patt2, patt3])

In [37]:
matches = matcher(doc6)

In [38]:
for id, init, end in matches:
    print(doc6[init:end])

Microorganismos
micro-organismos
micro organismos


## ***8. Displacy***

In [39]:
from spacy import displacy

In [40]:
# Showing the named entities in a formatted manner
displacy.render(doc, style='ent', jupyter=True)

In [41]:
# Showing the dependencies in a formatted manner
displacy.render(doc, style='dep', jupyter=True,
                options={'compact':True, 'distance':120, 'color':'#000000',
                         'bg':'#F0F8FF', 'font':'Arial',
                         'offset_x':30, 'arrow_spacing':18,
                         'word_spacing':35})

## ***9. Managing Pipelines***

In [42]:
print(f'Default Pipeline: ', nlp.pipe_names)

Default Pipeline:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [43]:
# Removing a process
nlp.remove_pipe('tok2vec')
print(f'Default Pipeline: ', nlp.pipe_names)

Default Pipeline:  ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [44]:
# Adding a process
nlp.add_pipe('tok2vec', after='morphologizer')
print(f'Default Pipeline: ', nlp.pipe_names)

Default Pipeline:  ['morphologizer', 'tok2vec', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
