In [1]:
#Before using and applying the model, it's necessary to download the large portuguese model
 #which has more features than the other two

!python -m spacy download 'pt_core_news_lg'

Collecting pt-core-news-lg==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.7.0/pt_core_news_lg-3.7.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [2]:
#Impoting the Spacy library and loading the trained model then instantiating a class

import spacy
nlp = spacy.load('pt_core_news_lg')
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


In [3]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [4]:
#This function processes these two texts through the pipeline that was shown in the code above

text = nlp("Eu adoraria tomar uma xícara de chá de baixo da catedral de Paris, esse texto não foi gerado por IA")
text2 = nlp("As ávores são seres vivos muito importantes para o controle do aquecimento global")

In [5]:
#As it can be seen, the words were made into tokens

for token in text:
  print(token)

Eu
adoraria
tomar
uma
xícara
de
chá
de
baixo
da
catedral
de
Paris
,
esse
texto
não
foi
gerado
por
IA


In [6]:
#There is a possibility to check propeties related to the tokens

print("Tokens:", [token.text for token in text2]) #prints all tokens
print("Stop word:", [token.text for token in text2 if token.is_stop]) #Check if a token is a stop word
print("Maiúsculo:", [token.is_upper for token in text2]) #check if has upper scale word

Tokens: ['As', 'ávores', 'são', 'seres', 'vivos', 'muito', 'importantes', 'para', 'o', 'controle', 'do', 'aquecimento', 'global']
Stop word: ['As', 'são', 'muito', 'para', 'o', 'do']
Maiúsculo: [False, False, False, False, False, False, False, False, False, False, False, False, False]


In [7]:
# It's also possible to check Pos-Taggin, feature which classify tokens as it can be seen bellow

text3 = nlp("O Imperador viveu por 200 anos no Brasil e depois se mudou para a Coreia do Sul para tomar café")

for token in text3:
  print(token.text, " - ", token.pos_, " - ", token.shape_, " - ", token.dep_)

O  -  DET  -  X  -  det
Imperador  -  PROPN  -  Xxxxx  -  nsubj
viveu  -  VERB  -  xxxx  -  ROOT
por  -  ADP  -  xxx  -  case
200  -  NUM  -  ddd  -  nummod
anos  -  NOUN  -  xxxx  -  obl
no  -  ADP  -  xx  -  case
Brasil  -  PROPN  -  Xxxxx  -  obl
e  -  CCONJ  -  x  -  cc
depois  -  ADV  -  xxxx  -  advmod
se  -  PRON  -  xx  -  expl
mudou  -  VERB  -  xxxx  -  conj
para  -  ADP  -  xxxx  -  case
a  -  DET  -  x  -  det
Coreia  -  PROPN  -  Xxxxx  -  obl
do  -  ADP  -  xx  -  case
Sul  -  PROPN  -  Xxx  -  nmod
para  -  SCONJ  -  xxxx  -  mark
tomar  -  VERB  -  xxxx  -  advcl
café  -  NOUN  -  xxxx  -  obj


In [8]:
text3 = nlp("A Imperadora,junto com sua prima, viveu por 200 anos no Brasil e depois se mudou para a Coreia do Sul para tomar café")

for token in text3:
  print(token.text, " - ", token.morph)

A  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
Imperadora  -  Gender=Fem|Number=Sing
,  -  
junto  -  
com  -  
sua  -  Gender=Fem|Number=Sing|PronType=Prs
prima  -  Gender=Fem|Number=Sing
,  -  
viveu  -  Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
por  -  
200  -  NumType=Card
anos  -  Gender=Masc|Number=Plur
no  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Brasil  -  Gender=Masc|Number=Sing
e  -  
depois  -  
se  -  Case=Acc|Gender=Masc|Number=Sing|Person=3|PronType=Prs
mudou  -  Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
para  -  
a  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
Coreia  -  Gender=Fem|Number=Sing
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Sul  -  Number=Sing
para  -  
tomar  -  VerbForm=Inf
café  -  Gender=Masc|Number=Sing


In [9]:
#It's possible to check the level o similarity between two texts

text4 = nlp("Mario gosta muito da culinária da Coreia, pois adora comida apimentada")
text5 = nlp("Maria adora pouco da culinária Coreana, pois não gosta tanto de comida apimentada")

print(text4.similarity(text5))

0.8818369857779318


In [10]:
from spacy import displacy

displacy.render(text3, style="ent",jupyter= True)

In [13]:
#It's also possible to find matches throuh patterns in texts

from typing import Match
from spacy.matcher import Matcher

text4 = nlp("America é um país. EUA é um país. Estados Unidos é um pais")
matcher = Matcher(nlp.vocab)
padrão1 = [{"LOWER": "America"}]
padrão2 = [{"LOWER": "EUA"}]
padrão3 = [{"LOWER": "Estados"}, {"LOWER": "Unidos"}]

matcher.add("padrão", [padrão1, padrão2, padrão3])

matches = matcher(text4)
for id, inicio, fim in matches:
  print(text4[inicio:fim])