<a href="https://colab.research.google.com/github/osmarbraz/exemplos_spacy/blob/main/Exemplo_Spacy_NER_pt_br.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplo uso Spacy com Modelo em Português para NER

Exemplo do uso Spacy Python Library com execução através do Google Colaboratory para reconhecimento de entidade nomeada.<br>

Funciona no Jupiter Notebook com algumas modificações.

Site ferramenta: https://spacy.io/

Tutorial<br>
https://medium.com/@van3ssabandeira/o-famoso-spacy-90afb683b6fe


# 0 Preparação do ambiente
Preparação do ambiente para executar o spacy.

##Tratamento de logs

In [1]:
#biblioteca de logging
import logging

#Formato da mensagem
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# 1 Instala e carrega o spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [2]:
# Instala o spacy
!pip install -U pip==25.3 setuptools==80.9.0 wheel==0.45.1



In [3]:
# Instala a última versão disponível
#!pip install -U spacy

# Instala uma versão específica
!pip install -U spacy==3.8.11



Realiza o download e carrega os modelos necessários a biblioteca

https://spacy.io/models/pt

In [4]:
# Definição do nome do arquivo do modelo
#MODELO_SPACY = 'pt_core_news_sm'
#MODELO_SPACY = 'pt_core_news_md'
MODELO_SPACY = 'pt_core_news_lg'

logging.info('Parâmetros definidos!')

In [5]:
# Baixa automaticamente o arquivo do modelo
!python -m spacy download $MODELO_SPACY

Collecting pt-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.8.0/pt_core_news_lg-3.8.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m33.5 MB/s[0m  [33m0:00:14[0m
[?25hInstalling collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


## Importa as bibliotecas

In [6]:
# Importando as bibliotecas.
import spacy
from spacy  import displacy

logging.info('Import realizado!')

##Carrega o modelo.

Outros modelos estão disponíveis em https://spacy.io/models

Para tornar os modelos compactos e rápidos, os modelos pequenos do spaCy (todos os pacotes que terminam em **sm**(small) não contêm  vetores de palavras e incluem apenas tensores sensíveis ao contexto.


In [7]:
# Instala somente os pipelines necessários
#nlp = spacy.load(MODELO_SPACY, disable=['tokenizer', 'lemmatizer', 'ner', 'parser', 'textcat', 'custom'])

nlp = spacy.load(MODELO_SPACY)

logging.info('Modelo carregado !')

# 2 Exemplos de uso

## 2.1 Exemplo 1

In [8]:
documento = u"Estou bem, mas não tenho certeza se viajarei para São Paulo amanhã às 8:30."

### Armazena um texto.

In [9]:
doc = nlp(documento)
logging.info('Texto armazenado!')

### Identificando as entidades. (NER/Named Entity Recognition)

**Text**: o texto original da entidade.<br>
**Start**: Índice de início da entidade no Doc.<br>
**End**: Índice do fim da entidade no Doc.<br>
**Label**: rótulo da entidade, ou seja, tipo.<br>

https://medium.com/botsbrasil/como-reconhecer-entidades-na-l%C3%ADngua-portuguesa-usando-spacy-8a5ca6f42c4f

### Listando as entidades identificadas

In [10]:
for ent in doc.ents:
   print(ent.text, ent.start_char, ent.end_char, ent.label_)

São Paulo 50 59 LOC


ou

In [11]:
[(entity, entity.label_) for entity in doc.ents]

[(São Paulo, 'LOC')]

### Visualizando o texto marcado

In [12]:
# Importando as bibliotecas.
import spacy
from spacy  import displacy

displacy.render(doc,style="ent",jupyter=True)

## 2.2 Exemplo 2

In [13]:
documento = u"O governo do estado de São Paulo anunciou nesta quarta-feira a liberação de 100% da capacidade de público dos estádios paulistas. A medida, segundo o governador João Doria (PSDB), vale já a partir desta quarta.."

### Armazena um texto.

In [14]:
doc = nlp(documento)
logging.info('Texto armazenado!')

### Identificando as entidades. (NER/Named Entity Recognition)

**Text**: o texto original da entidade.<br>
**Start**: Índice de início da entidade no Doc.<br>
**End**: Índice do fim da entidade no Doc.<br>
**Label**: rótulo da entidade, ou seja, tipo.<br>

https://medium.com/botsbrasil/como-reconhecer-entidades-na-l%C3%ADngua-portuguesa-usando-spacy-8a5ca6f42c4f

### Listando as entidades identificadas

In [15]:
for ent in doc.ents:
   print(ent.text, ent.start_char, ent.end_char, ent.label_)

estado de São Paulo 13 32 LOC
João Doria 161 171 PER
PSDB 173 177 ORG


ou

In [16]:
[(entity, entity.label_) for entity in doc.ents]

[(estado de São Paulo, 'LOC'), (João Doria, 'PER'), (PSDB, 'ORG')]

### Visualizando o texto marcado

In [17]:
# Importando as bibliotecas.
import spacy
from spacy  import displacy

displacy.render(doc,style="ent",jupyter=True)