<a href="https://colab.research.google.com/github/PriscilaMrozinski/ia-pln/blob/main/spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

spaCy é uma biblioteca de Processamento de Linguagem Natural (PLN) em Python

Algumas tarefas que realiza:

-- Tokenização: dividir o texto em palavras ou frases.

-- Lematização: reduzir palavras à sua forma base (ex: “correndo” → “correr”).

-- Part-of-speech tagging (POS tagging): identificar a classe gramatical de cada palavra (substantivo, verbo etc.).

-- Named Entity Recognition (NER): reconhecer entidades como nomes de pessoas, locais, empresas, datas, etc.

-- Parsing: analisar a estrutura sintática de uma frase.

-- Vetorização semântica: transformar texto em vetores numéricos para uso em modelos de IA.

In [1]:
!pip install -U Spacy==3.8.7




Baixar Modelo de Treinamento

In [3]:
import spacy
print(spacy.__version__)

!python -m spacy download 'pt_core_news_lg'
print("Lib carregada")

3.8.7
Collecting pt-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.8.0/pt_core_news_lg-3.8.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
Lib carregada


In [6]:
nlp = spacy.load("pt_core_news_lg")

In [8]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [43]:
documento = nlp("Os alunos do 6º módulo da Fatec os 100% presentes aqui chegarão ao fim de uma jornada que começou com sonhos, dúvidas, expectativas e desafios. E, ao olhar para trás e hoje, cada esforço, cada noite estudando, cada projeto entregue e cada obstáculo superado formam a base sólida que formarão vocês")

In [18]:
##documento = nlp("A segurança de banco de dados pode ser entendida como a proteção dos dados contra acesso não autorizado e uso indevido, baseada em trê pilares: confidencialidade, integridade e disponibilidade. www.ibm.com.br/security")

Contar o texto:

In [44]:
len(documento.vocab)

417

Verificar tipo de documento

In [45]:
print(type(documento))

<class 'spacy.tokens.doc.Doc'>


TexTos são codificados em hashes únicos

--- Token ---

In [24]:
for token in documento: print(token.text)

A
segurança
de
banco
de
dados
pode
ser
entendida
como
a
proteção
dos
dados
contra
acesso
não
autorizado
e
uso
indevido
,
baseada
em
trê
pilares
:
confidencialidade
,
integridade
e
disponibilidade
.
www.ibm.com.br/security


In [25]:
## Buscar a palavra na posição 3 (Atenção! Começa posição zero)
print(documento[3])

banco


In [26]:
## Printar a posição 3 a 6
print(documento[3:6])

banco de dados


In [27]:
## Busca a posição 33
print(documento[33])

www.ibm.com.br/security


In [28]:
##Conta quantas palavras tem o documento
print(len(documento))

34


In [29]:
##Verificar os Atributos
print("Tokens:", [token.text for token in documento])

Tokens: ['A', 'segurança', 'de', 'banco', 'de', 'dados', 'pode', 'ser', 'entendida', 'como', 'a', 'proteção', 'dos', 'dados', 'contra', 'acesso', 'não', 'autorizado', 'e', 'uso', 'indevido', ',', 'baseada', 'em', 'trê', 'pilares', ':', 'confidencialidade', ',', 'integridade', 'e', 'disponibilidade', '.', 'www.ibm.com.br/security']


In [30]:
## Verifica se o elemento é ou não uma palavra, segurança é true, virgula é false
print("Stop Word:", [token.is_stop for token in documento])

Stop Word: [True, False, True, False, True, False, True, True, False, True, True, False, True, False, True, False, True, False, True, False, False, False, False, True, False, False, False, False, False, False, True, False, False, False]


In [31]:
print("Alfanumérico:", [token.is_alpha for token in documento])

Alfanumérico: [True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, False, True, True, True, True, False, True, False, True, True, True, False, False]


In [32]:
print("Maíusculo:", [token.is_upper for token in documento])

Maíusculo: [True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]


In [33]:
print("Pontuação:", [token.like_num for token in documento])

Pontuação: [False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]


In [34]:
print("Sentença inicial:", [token.is_sent_start for token in documento])

Sentença inicial: [True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True]


In [35]:
print("Tokens:", [token.text for token in documento])
print("Stop Word:", [token.is_stop for token in documento])
print("Alfanumérico:", [token.is_alpha for token in documento])
print("Maíusculo:", [token.is_upper for token in documento])
print("Pontuação:", [token.like_num for token in documento])
print("Sentença inicial:", [token.is_sent_start for token in documento])


Tokens: ['A', 'segurança', 'de', 'banco', 'de', 'dados', 'pode', 'ser', 'entendida', 'como', 'a', 'proteção', 'dos', 'dados', 'contra', 'acesso', 'não', 'autorizado', 'e', 'uso', 'indevido', ',', 'baseada', 'em', 'trê', 'pilares', ':', 'confidencialidade', ',', 'integridade', 'e', 'disponibilidade', '.', 'www.ibm.com.br/security']
Stop Word: [True, False, True, False, True, False, True, True, False, True, True, False, True, False, True, False, True, False, True, False, False, False, False, True, False, False, False, False, False, False, True, False, False, False]
Alfanumérico: [True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, False, True, True, True, True, False, True, False, True, True, True, False, False]
Maíusculo: [True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False,

In [38]:
print("=== Tokens e Partes do Discurso ===")
for token in documento:
    print(f"{token.text:<15} | {token.pos_:<10} | {token.dep_:<10}")

print("\n=== Entidades Nomeadas (NER) ===")
for ent in documento.ents:
    print(f"{ent.text:<30} -> {ent.label_}")

=== Tokens e Partes do Discurso ===
A               | DET        | det       
segurança       | NOUN       | nsubj:pass
de              | ADP        | case      
banco           | NOUN       | nmod      
de              | ADP        | case      
dados           | NOUN       | nmod      
pode            | VERB       | ROOT      
ser             | AUX        | aux:pass  
entendida       | VERB       | xcomp     
como            | ADP        | case      
a               | DET        | det       
proteção        | NOUN       | xcomp     
dos             | ADP        | case      
dados           | NOUN       | nmod      
contra          | ADP        | case      
acesso          | NOUN       | nmod      
não             | ADV        | advmod    
autorizado      | VERB       | acl       
e               | CCONJ      | cc        
uso             | NOUN       | conj      
indevido        | ADJ        | amod      
,               | PUNCT      | punct     
baseada         | VERB       | acl      

In [40]:
import re

texto = "A segurança de banco de dados pode ser entendida como a proteção dos dados contra acesso não autorizado e uso indevido, baseada em três pilares: confidencialidade, integridade e disponibilidade. www.ibm.com.br/security"

urls = re.findall(r'(https?://[^\s]+|www\.[^\s]+)', texto)

print("URLs encontradas:", urls)



URLs encontradas: ['www.ibm.com.br/security']


In [41]:
print("Tokens:", [token.text for token in documento])
print("POS:", [token.pos_ for token in documento])
print("Formato:", [token.shape_ for token in documento])

Tokens: ['A', 'segurança', 'de', 'banco', 'de', 'dados', 'pode', 'ser', 'entendida', 'como', 'a', 'proteção', 'dos', 'dados', 'contra', 'acesso', 'não', 'autorizado', 'e', 'uso', 'indevido', ',', 'baseada', 'em', 'trê', 'pilares', ':', 'confidencialidade', ',', 'integridade', 'e', 'disponibilidade', '.', 'www.ibm.com.br/security']
POS: ['DET', 'NOUN', 'ADP', 'NOUN', 'ADP', 'NOUN', 'VERB', 'AUX', 'VERB', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', 'ADP', 'NOUN', 'ADV', 'VERB', 'CCONJ', 'NOUN', 'ADJ', 'PUNCT', 'VERB', 'ADP', 'NOUN', 'NOUN', 'PUNCT', 'NOUN', 'PUNCT', 'NOUN', 'CCONJ', 'NOUN', 'PUNCT', 'NOUN']
Formato: ['X', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', 'xxxx', 'xxx', 'xxxx', 'xxxx', 'x', 'xxxx', 'xxx', 'xxxx', 'xxxx', 'xxxx', 'xxx', 'xxxx', 'x', 'xxx', 'xxxx', ',', 'xxxx', 'xx', 'xxx', 'xxxx', ':', 'xxxx', ',', 'xxxx', 'x', 'xxxx', '.', 'xxx.xxx.xxx.xx/xxxx']


In [47]:
for token in documento:
  if token.like_num:
    print("Número encontrado: ", token.text)
    if token.is_punct:
      print("Pontuação encontrada: ", token.text)

Número encontrado:  6º
Número encontrado:  100
