# Instalando o modelo


In [1]:
!python -m spacy download 'pt_core_news_lg'

Collecting pt-core-news-lg==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.7.0/pt_core_news_lg-3.7.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


# Tinkering with Spacy

In [2]:
import spacy

In [3]:
nlp = spacy.load('pt_core_news_lg')

In [4]:
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


In [5]:
#By calling this method I can check all the steps that are in the pipeline and make part of it

print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [6]:
document = nlp("Hoje de noite decidi gastar mais de 20 reais com jogos no Brasil, gastei menos de 20% do meu salário então não me incomodou muito. A Inglaterra é melhor")
document2 = nlp("Alegaçõese extraordinárias requerem evidências extraordinárias. Carl Sagan: 'https://carlsagan.com'")

In [7]:
len(document.vocab)

384

In [8]:
print(type(document))

<class 'spacy.tokens.doc.Doc'>


In [9]:
for token in document:
  print(token.text)

Hoje
de
noite
decidi
gastar
mais
de
20
reais
com
jogos
no
Brasil
,
gastei
menos
de
20
%
do
meu
salário
então
não
me
incomodou
muito
.
A
Inglaterra
é
melhor


In [10]:
#By calling some methods I can check if a certain token fits a certain property

print("Tokens:", [token.text for token in document])
print("Stop word:",[token.is_stop for token in document])
print("Alfanumérico:", [token.is_alpha for token in document])
print("Maiúsculo:",[token.is_upper for token in document])
print("Minúsculo:",[token.is_lower for token in document] )

Tokens: ['Hoje', 'de', 'noite', 'decidi', 'gastar', 'mais', 'de', '20', 'reais', 'com', 'jogos', 'no', 'Brasil', ',', 'gastei', 'menos', 'de', '20', '%', 'do', 'meu', 'salário', 'então', 'não', 'me', 'incomodou', 'muito', '.', 'A', 'Inglaterra', 'é', 'melhor']
Stop word: [False, True, False, False, False, True, True, False, False, True, False, True, False, False, False, True, True, False, False, True, True, False, True, True, True, False, True, False, True, False, True, False]
Alfanumérico: [True, True, True, True, True, True, True, False, True, True, True, True, True, False, True, True, True, False, False, True, True, True, True, True, True, True, True, False, True, True, True, True]
Maiúsculo: [False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False, False, False]
Minúsculo: [False, True, True, True, True, True, True, False, True, Tru

In [11]:
print("Tokens:", [token.text for token in document])
print("Formato:",[token.shape_ for token in document])

Tokens: ['Hoje', 'de', 'noite', 'decidi', 'gastar', 'mais', 'de', '20', 'reais', 'com', 'jogos', 'no', 'Brasil', ',', 'gastei', 'menos', 'de', '20', '%', 'do', 'meu', 'salário', 'então', 'não', 'me', 'incomodou', 'muito', '.', 'A', 'Inglaterra', 'é', 'melhor']
Formato: ['Xxxx', 'xx', 'xxxx', 'xxxx', 'xxxx', 'xxxx', 'xx', 'dd', 'xxxx', 'xxx', 'xxxx', 'xx', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%', 'xx', 'xxx', 'xxxx', 'xxxx', 'xxx', 'xx', 'xxxx', 'xxxx', '.', 'X', 'Xxxxx', 'x', 'xxxx']


In [12]:
for token in document:
  if token.like_num:
    print("Número encontrado:", token.text)
  if token.is_punct:
    print("Pontuação foi encontrada:", token.text)

Número encontrado: 20
Pontuação foi encontrada: ,
Número encontrado: 20
Pontuação foi encontrada: %
Pontuação foi encontrada: .


# Checking Pos-Taggin for each Token

In [13]:
for token in document:
  print(token.text, " - ", token.pos_, " - ", token.dep_, " - ",token.lemma_," - ", token.shape_)

Hoje  -  NOUN  -  nsubj  -  hoje  -  Xxxx
de  -  ADP  -  case  -  de  -  xx
noite  -  NOUN  -  nmod  -  noite  -  xxxx
decidi  -  VERB  -  ROOT  -  decidir  -  xxxx
gastar  -  VERB  -  xcomp  -  gastar  -  xxxx
mais  -  ADV  -  advmod  -  mais  -  xxxx
de  -  ADP  -  fixed  -  de  -  xx
20  -  NUM  -  nummod  -  20  -  dd
reais  -  NOUN  -  obj  -  real  -  xxxx
com  -  ADP  -  case  -  com  -  xxx
jogos  -  NOUN  -  obl  -  jogo  -  xxxx
no  -  ADP  -  case  -  em o  -  xx
Brasil  -  PROPN  -  obl  -  Brasil  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
gastei  -  VERB  -  parataxis  -  gastar  -  xxxx
menos  -  ADV  -  advmod  -  menos  -  xxxx
de  -  ADP  -  fixed  -  de  -  xx
20  -  NUM  -  nummod  -  20  -  dd
%  -  SYM  -  nsubj  -  %  -  %
do  -  ADP  -  case  -  de o  -  xx
meu  -  DET  -  det  -  meu  -  xxx
salário  -  NOUN  -  nmod  -  salário  -  xxxx
então  -  ADV  -  advmod  -  então  -  xxxx
não  -  ADV  -  advmod  -  não  -  xxx
me  -  PRON  -  obj  -  eu  -  xx
incomodo

In [14]:
for token in document:
  print(token.text, " - ", token.morph)

Hoje  -  Gender=Masc|Number=Sing
de  -  
noite  -  Gender=Fem|Number=Sing
decidi  -  Mood=Ind|Number=Sing|Person=1|Tense=Past|VerbForm=Fin
gastar  -  VerbForm=Inf
mais  -  
de  -  
20  -  NumType=Card
reais  -  Gender=Masc|Number=Plur
com  -  
jogos  -  Gender=Masc|Number=Plur
no  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Brasil  -  Gender=Masc|Number=Sing
,  -  
gastei  -  Mood=Ind|Number=Sing|Person=1|Tense=Past|VerbForm=Fin
menos  -  
de  -  
20  -  NumType=Card
%  -  
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
meu  -  Gender=Masc|Number=Sing|PronType=Prs
salário  -  Gender=Masc|Number=Sing
então  -  
não  -  Polarity=Neg
me  -  Case=Acc|Number=Sing|Person=1|PronType=Prs
incomodou  -  Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
muito  -  
.  -  
A  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
Inglaterra  -  Gender=Fem|Number=Sing
é  -  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
melhor  -  


In [15]:
for token in document:
  print(token.text, " - ", token.tag_)

Hoje  -  NOUN
de  -  ADP
noite  -  NOUN
decidi  -  VERB
gastar  -  VERB
mais  -  ADV
de  -  ADP
20  -  NUM
reais  -  NOUN
com  -  ADP
jogos  -  NOUN
no  -  ADP
Brasil  -  PROPN
,  -  PUNCT
gastei  -  VERB
menos  -  ADV
de  -  ADP
20  -  NUM
%  -  SYM
do  -  ADP
meu  -  DET
salário  -  NOUN
então  -  ADV
não  -  ADV
me  -  PRON
incomodou  -  VERB
muito  -  ADV
.  -  PUNCT
A  -  DET
Inglaterra  -  PROPN
é  -  AUX
melhor  -  ADV


In [16]:
for token in document.ents:
  print(token.text, " - ", token.label_)

Brasil  -  LOC
Inglaterra  -  LOC


In [17]:
#each word contains a hash associated with them

print("Hash:", nlp.vocab.strings["jogos"])
print("Hash:", document.vocab.strings["jogos"])
print("String: ", nlp.vocab.strings[6841378219212148181])

Hash: 6841378219212148181
Hash: 6841378219212148181
String:  jogos


In [18]:
lex = nlp.vocab["jogos"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

jogos  -  6841378219212148181  -  True  -  True


In [19]:
# Here we can see an array of the word jogos that contains 300 positions, each one having the
  # the weight of the relation between the word "jogos" and other words

#print(nlp("jogos").vector.shape)
#print(nlp("jogos").vector)
print(nlp("Jogos são uma forma de diversão").vector)

[-6.26371682e-01  7.53940046e-01 -9.99884903e-01 -2.15685010e-01
 -3.30518341e+00 -1.05553508e+00 -1.74581337e+00 -8.57631683e-01
 -1.70849836e+00 -2.47769856e+00  2.46715832e+00 -8.24998379e-01
 -6.66923821e-01 -1.19468653e+00 -6.02441669e-01 -6.24018371e-01
  3.84109187e+00 -1.13850117e-01  3.93196672e-01  2.66921997e+00
 -3.15501094e-02  1.92950916e+00 -1.78865826e+00  1.20178497e+00
 -9.21918333e-01  5.32518327e-01 -1.17646682e+00  1.39303172e+00
  3.59618306e-01  2.40519667e+00  1.15996170e+00  6.57083392e-01
 -1.87657344e+00 -1.71210337e+00 -5.55233359e-01 -7.11803377e-01
 -1.88409841e+00  5.06295025e-01 -1.27618325e+00  4.68621701e-01
 -1.23836660e+00  1.06369674e+00  1.08828175e+00 -6.34733260e-01
 -1.20403337e+00  1.26681161e+00 -1.27050841e+00 -1.30483508e-03
  7.62399971e-01 -6.97830021e-01 -1.50058329e+00 -3.04674506e+00
 -7.09488213e-01 -5.98704994e-01  5.91916621e-01 -2.07407311e-01
  1.00342000e+00 -1.23674355e-01  1.12359500e+00 -9.06366646e-01
  1.06526005e+00 -1.01519

# Similarity Finder

## A similarity finder can tell me level of similarity between two sentences


In [20]:
newdocument = nlp("Ele gosta muito de comer macarrão")
newdocument2 = nlp("Ela gosta muito de comer macarrão")

#The level of similarity here is pretty high, the only difference here is the word "Ele"
print(newdocument.similarity(newdocument2))

0.9586358242850286


In [21]:
# We can even get the similarity between two tokens

document3 = nlp("A palavra é comprimento ou cumprimento?")
tokenA = document3[3]
print(tokenA)
tokenB = document3[5]
print(tokenB)
print(tokenA.similarity(tokenB))

comprimento
cumprimento
0.5804340243339539


# **Matching, finding patterns**

In [22]:
from typing import Match
from spacy.matcher import Matcher

document4 = nlp("Você pode ligar para (51) - 9964656570 ou (11) 12344988")

matcher = Matcher (nlp.vocab)
pattern = [{"ORTH": "("}, {"SHAPE":"dd"}, {"ORTH": ")"}, {"ORTH": "-", "OP": "?"}, {"IS_DIGIT": True}]
matcher.add("telefone", [pattern])
matches = matcher(document4)
for id, inicio, fim in matches:
  print(document4[inicio:fim])

(51) - 9964656570
(11) 12344988


In [23]:
document5 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não exergamos micro-organismos")
mathcer = Matcher(nlp.vocab)
padrão1 = [{"LOWER": "micro-organismos"}]
padrão2 = [{"LOWER": "microorganismos"}]
padrão3 = [{"LOWER": "micro"}, {"LOWER": "organismos"}]

matcher.add("padrão", [padrão1, padrão2, padrão3])

matches = matcher(document5)
for id, inicio, fim in matches:
  print(document5[inicio:fim])

micro organismos
MICROORGANISMOS
micro-organismos


# **Displacy - It's a module for displaying in Spacy**

In [24]:
from spacy import displacy

displacy.render(document, style="ent", jupyter= True)

In [25]:
displacy.render(document2, style="ent",jupyter= True)

In [26]:
document2.user_data['title'] = "Exemplo"

displacy.render(document2, style="dep",jupyter= True, options ={'compact': False, 'distance': 160, 'color': '#000FF' })

# **Pipelines**

In [27]:
# A pipeline is a set of sequenced actions that perform on a data.
  #This set of actions were performed on the documments created by me for instance.

print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [30]:
nlp.remove_pipe('tok2vec')
print("Pipeline sem uma das etapas: ", nlp.pipe_names)

Pipeline sem uma das etapas:  ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [29]:
# It's possible to remove and add actions wherever I please.

nlp.add_pipe("tok2vec", after= 'morphologizer')

<spacy.pipeline.tok2vec.Tok2Vec at 0x7f6d212094f0>

In [31]:
print("Pipeline sem uma das etapas: ", nlp.pipe_names)

Pipeline sem uma das etapas:  ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']
