## **Extração de Entidades Nomeadas (NER)**

In [1]:
# Instalação de bibliotecas
!pip install -U spacy
!python -m spacy download pt_core_news_sm  # Modelo em português do spaCy

Collecting pt-core-news-sm==3.8.0
  Using cached https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


## **Carregamento do modelo e preparação do texto**

In [4]:
import spacy

# Carrega o modelo em português do spaCy
nlp = spacy.load("pt_core_news_sm")

# Importa o texto limpo
from pathlib import Path

# Carrega o texto limpo
texto = Path("/content/leitor_nlp/data/textp_limpo.txt").read_text(encoding="utf-8")

## **Processamento do texto com spaCy**

In [5]:
# Processa o texto com spaCy
doc = nlp(texto)

# Lista para armazenar entidades encontradas
entidades = []

# Itera sobre as entidades reconhecidas
for ent in doc.ents:
  entidades.append((ent.text, ent.label_))

# Mostra as entidades extraídas
for texto, label in entidades:
  print(f"{label:15} - {texto}")

PER             - joao da silva
ORG             - xyz ltda
PER             - cnpj 12.345.678000100
LOC             - belo horizontemg
LOC             - sao paulo


## **Agrupar entidades por tipo (opcional, mas útil)**

In [6]:
from collections import defaultdict

# Cria um dicionário para armazenar entidades por tipo
entidades_por_tipo = defaultdict(list)

# Agrupa as entidades
for texto, label in entidades:
  entidades_por_tipo[label].append(texto)

# Exibe entidades agrupadas
for tipo, valores in entidades_por_tipo.items():
  print(f"\nTipo: {tipo}")
  for v in set(valores):  # usa set() para evitar repetições
    print(f" - {v}")


Tipo: PER
 - joao da silva
 - cnpj 12.345.678000100

Tipo: ORG
 - xyz ltda

Tipo: LOC
 - sao paulo
 - belo horizontemg


| Label   | Significado        |
| ------- | ------------------ |
| `PER`   | Pessoa             |
| `LOC`   | Localização        |
| `ORG`   | Organização        |
| `DATE`  | Data               |
| `MONEY` | Valores monetários |
| `TIME`  | Hora               |
| `EVENT` | Evento             |
