<a href="https://colab.research.google.com/github/karenngomes/nlp_studies/blob/main/spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# instalar uma versão mais atualizada do spacy

!pip install -U spacy==3.7.2

In [3]:
# ver a versão
!pip show spacy

Name: spacy
Version: 3.7.2
Summary: Industrial-strength Natural Language Processing (NLP) in Python
Home-page: https://spacy.io
Author: Explosion
Author-email: contact@explosion.ai
License: MIT
Location: /usr/local/lib/python3.10/dist-packages
Requires: catalogue, cymem, jinja2, langcodes, murmurhash, numpy, packaging, preshed, pydantic, requests, setuptools, smart-open, spacy-legacy, spacy-loggers, srsly, thinc, tqdm, typer, wasabi, weasel
Required-by: en-core-web-sm, fastai


In [None]:
# baixar um modelo pre-treinado. Tem 3 em cada idioma (inclusive em pt): pequeno (_sm), médio (_md) e grande (_lg)
!python -m spacy download 'pt_core_news_lg'

In [5]:
import spacy

In [6]:
nlp = spacy.load('pt_core_news_lg')

In [7]:
print(type(nlp))

<class 'spacy.lang.pt.Portuguese'>


In [8]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [41]:
document = nlp("As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia")

Se fosse carregar texto de um arquivo:


```
with open("documento.txt", "r", encoding="utf-8") as file:
    texto = file.read()

doc = nlp(texto)
```



In [42]:
len(document.vocab)

383

In [43]:
print(type(document))

<class 'spacy.tokens.doc.Doc'>


In [44]:
for token in document:
  print(token.text)

As
ações
do
Magazine
Luiza
S.A.
,
Franca
,
Brasil
,
acumularam
baixa
de
70
%
ao
ano
.
Assim
já
devolveram
todos
os
ganhos
do
período
da
pandemia


In [45]:
document2 = nlp("Alegações extraordinárias requerem evidências extraordinárias. Carl Sagan: 'http://carlsagan.com'")

In [46]:
for token in document2:
  print(token.text)

Alegações
extraordinárias
requerem
evidências
extraordinárias
.
Carl
Sagan
:
'
http://carlsagan.com
'


In [47]:
print(document[3])

Magazine


In [48]:
print(document[3:5])

Magazine Luiza


In [49]:
print(len(document))

29


In [50]:
print("Tokens:", [token.text for token in document])
print("Stop word:", [token.is_stop for token in document])
print("Alfanumerico:", [token.is_alpha for token in document])
print("Maiúsculo:", [token.is_upper for token in document])
print("Pontuação:", [token.is_punct for token in document])
print("Número:", [token.like_num for token in document])
print("Senteça Inicial:", [token.is_sent_start for token in document])

Tokens: ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia']
Stop word: [True, False, True, False, False, False, False, False, False, False, False, False, False, True, False, False, True, False, False, True, True, False, True, True, False, True, False, True, False]
Alfanumerico: [True, True, True, True, True, False, False, True, False, True, False, True, True, True, False, False, True, True, False, True, True, True, True, True, True, True, True, True, True]
Maiúsculo: [False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação: [False, False, False, False, False, False, True, False, True, False, True, False, False, False, False, True, False, False, True, Fals

In [51]:
print("Tokens:", [token.text for token in document])
print("Formato:", [token.shape_ for token in document])

Tokens: ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemia']
Formato: ['Xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', 'X.X.', ',', 'Xxxxx', ',', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%', 'xx', 'xxx', '.', 'Xxxxx', 'xx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx']


In [52]:
for token in document:
  if token.like_num:
    print("Número encontrado: ", token.text)
  if token.is_punct:
    print("Pontuação encontrada: ", token.text)

Pontuação encontrada:  ,
Pontuação encontrada:  ,
Pontuação encontrada:  ,
Número encontrado:  70
Pontuação encontrada:  %
Pontuação encontrada:  .


In [58]:
for token in document:
  print(token.text, ":", token.pos_, " - ", token.dep_, " - ", token.lemma_, " - ", token.shape_)
# sem o underline, o que é mostrado é a referência para o tipo

As : DET  -  det  -  o  -  Xx
ações : NOUN  -  nsubj  -  ação  -  xxxx
do : ADP  -  case  -  de o  -  xx
Magazine : PROPN  -  nmod  -  Magazine  -  Xxxxx
Luiza : PROPN  -  appos  -  Luiza  -  Xxxxx
S.A. : PROPN  -  flat:name  -  S.A.  -  X.X.
, : PUNCT  -  punct  -  ,  -  ,
Franca : PROPN  -  conj  -  Franca  -  Xxxxx
, : PUNCT  -  punct  -  ,  -  ,
Brasil : PROPN  -  conj  -  Brasil  -  Xxxxx
, : PUNCT  -  punct  -  ,  -  ,
acumularam : VERB  -  ROOT  -  acumular  -  xxxx
baixa : NOUN  -  obj  -  baixa  -  xxxx
de : ADP  -  case  -  de  -  xx
70 : NUM  -  nummod  -  70  -  dd
% : SYM  -  nmod  -  %  -  %
ao : ADP  -  case  -  a o  -  xx
ano : NOUN  -  nmod  -  ano  -  xxx
. : PUNCT  -  punct  -  .  -  .
Assim : ADV  -  advmod  -  assim  -  Xxxxx
já : ADV  -  advmod  -  já  -  xx
devolveram : VERB  -  ROOT  -  devolver  -  xxxx
todos : DET  -  det  -  todo  -  xxxx
os : DET  -  det  -  o  -  xx
ganhos : NOUN  -  obj  -  ganho  -  xxxx
do : ADP  -  case  -  de o  -  xx
período : NOUN  -

In [59]:
# morfologia da palavra
for token in document:
  print(token.text, " - ", token.morph)

As  -  Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações  -  Gender=Fem|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Magazine  -  Gender=Fem|Number=Sing
Luiza  -  Gender=Fem|Number=Sing
S.A.  -  Number=Sing
,  -  
Franca  -  Gender=Fem|Number=Sing
,  -  
Brasil  -  Gender=Masc|Number=Sing
,  -  
acumularam  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
baixa  -  Gender=Fem|Number=Sing
de  -  
70  -  NumType=Card
%  -  
ao  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
ano  -  Gender=Masc|Number=Sing
.  -  
Assim  -  
já  -  
devolveram  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
todos  -  Gender=Masc|Number=Plur|PronType=Tot
os  -  Definite=Def|Gender=Masc|Number=Plur|PronType=Art
ganhos  -  Gender=Masc|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
período  -  Gender=Masc|Number=Sing
da  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
pandemia  -  Gender=Fem|Number=Sing


In [62]:
for token in document:
  print(token.text, " - ", token.tag_, " - ", token.pos_)

As  -  DET  -  DET
ações  -  NOUN  -  NOUN
do  -  ADP  -  ADP
Magazine  -  PROPN  -  PROPN
Luiza  -  PROPN  -  PROPN
S.A.  -  PROPN  -  PROPN
,  -  PUNCT  -  PUNCT
Franca  -  PROPN  -  PROPN
,  -  PUNCT  -  PUNCT
Brasil  -  PROPN  -  PROPN
,  -  PUNCT  -  PUNCT
acumularam  -  VERB  -  VERB
baixa  -  NOUN  -  NOUN
de  -  ADP  -  ADP
70  -  NUM  -  NUM
%  -  SYM  -  SYM
ao  -  ADP  -  ADP
ano  -  NOUN  -  NOUN
.  -  PUNCT  -  PUNCT
Assim  -  ADV  -  ADV
já  -  ADV  -  ADV
devolveram  -  VERB  -  VERB
todos  -  DET  -  DET
os  -  DET  -  DET
ganhos  -  NOUN  -  NOUN
do  -  ADP  -  ADP
período  -  NOUN  -  NOUN
da  -  ADP  -  ADP
pandemia  -  NOUN  -  NOUN


In [63]:
# entidades nomeadas: 'ner'
for ent in document.ents:
  print(ent.text, " - ", ent.label_)

Magazine Luiza S.A.  -  ORG
Franca  -  LOC
Brasil  -  LOC


In [66]:
# stop words
for token in document:
  if token.is_stop:
    print("Stop word: ", token.text)

Stop word:  As
Stop word:  do
Stop word:  de
Stop word:  ao
Stop word:  Assim
Stop word:  já
Stop word:  todos
Stop word:  os
Stop word:  do
Stop word:  da


In [None]:
# listar stop words
for words in nlp.Defaults.stop_words:
  print(words)

In [70]:
# adicionar uma palavra como stop word
nlp.Defaults.stop_words.add("eita") # adiiona no banco de dado
nlp.vocab['eita'].is_stop = True # seta como stop word

In [72]:
nlp.vocab['eita'].is_stop

True

### Remover as stop words do documento

In [73]:
# cria uma lista com os tokens

token_list = []
for token in document:
  token_list.append(token.text)

In [74]:
# coloca todas as stop words em uma list

stop_words_list = []
for word in nlp.Defaults.stop_words:
  stop_words_list.append(word)

In [76]:
# adiciona uma terceira lista apenas com os tokens que não forem stop word

nostop = [word for word in token_list if not word in stop_words_list]

print(document.text)
print(nostop)

As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemia
['As', 'ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'ganhos', 'período', 'pandemia']


In [78]:
# outro modo

nostop2 = [token for token in document if not token.is_stop]

print(nostop)
print(nostop2)

['As', 'ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'ganhos', 'período', 'pandemia']
[ações, Magazine, Luiza, S.A., ,, Franca, ,, Brasil, ,, acumularam, baixa, 70, %, ano, ., devolveram, ganhos, período, pandemia]
