Importando as bibliotecas python e configurando o modelo a ser utilizado pelo spacy

In [4]:
!pip install pandas
!pip install spacy
!pip install requests
!pip install beautifulsoup4



In [5]:
import pandas as pd
import spacy
import requests
from bs4 import BeautifulSoup
nlp = spacy.load("en_core_web_sm")
pd.set_option("display.max_rows", 200)

Definição do texto a ser analisado e exibição das entidades encontradas

In [6]:
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Apple 0 5 ORG
U.K. 27 31 GPE
$1 billion 44 54 MONEY


Importando a lib displacy e exibindo o resultado da análise NER de forma visual

In [7]:
from spacy import displacy
displacy.render(doc, style="ent")

Analisando um bloco de texto

In [8]:
sample_txt = """
Hello Zhang Wei. Your AnyCompany Financial Services, LLC credit card account 1111-0000-1111-0000 has a minimum payment of $24.53 that is due by July 31st.
Based on your autopay settings, we will withdraw your payment on the due date from your bank account XXXXXX1111 with the routing number XXXXX0000.

Your latest statement was mailed to 100 Main Street, Anytown, WA 98121.
After your payment is received, you will receive a confirmation text message at 206-555-0100.
If you have questions about your bill, AnyCompany Customer Service is available by phone at 206-555-0199 or email at support@anycompany.com.
"""
newdoc = nlp(sample_txt)
displacy.render(newdoc, style="ent")

Visualizando o resultado da análise de forma tabular

In [9]:
entities = [(ent.text, ent.label_, ent.lemma_) for ent in newdoc.ents]
df = pd.DataFrame(entities, columns=['text', 'type', 'lemma'])
df.head()

Unnamed: 0,text,type,lemma
0,Hello Zhang Wei,PERSON,Hello Zhang Wei
1,AnyCompany Financial Services,ORG,AnyCompany Financial Services
2,LLC,ORG,LLC
3,1111-0000-1111-0000,DATE,1111-0000-1111-0000
4,24.53,MONEY,24.53


Utilizando modelos no idioma português

In [11]:
!python -m spacy download pt
import pkg_resources,imp
imp.reload(pkg_resources)

[38;5;3m⚠ As of spaCy v3.0, shortcuts like 'pt' are deprecated. Please use the
full pipeline package name 'pt_core_news_sm' instead.[0m
Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m68.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


  import pkg_resources,imp


<module 'pkg_resources' from '/usr/local/lib/python3.11/dist-packages/pkg_resources/__init__.py'>

In [13]:
import spacy
import requests
from bs4 import BeautifulSoup
from spacy import displacy

# Professor(a), nesta linha foi necessário alterar o módulo do enunciado "en_core_web_sm" para "pt_core_news_sm"
nlp = spacy.load("pt_core_news_sm")

txt_br="""
ONU aprova missão internacional para restabelecer segurança no Haiti
O Conselho de Segurança das Nações Unidas (ONU) aprovou na noite de segunda-feira (2) a criação e o envio de uma força internacional para a manutenção de paz no Haiti, devido aos conflitos entre as gangues que dominam o país.
O Haiti é o país mais pobre do hemisfério ocidental. A história do país é marcada por golpes, deposições e massacres que geraram grande instabilidade política, turbulência econômica e crise social. Em 30 de abril de 2004 o Conselho de Segurança da Organização das Nações Unidas aprovou, por unanimidade, a criação da Missão de Estabilização do Haiti, a MINUSTAH.
A missão, planejada para ter uma duração inicial de seis meses, vem sendo prorrogada. O objetivo é combater a insegurança no país após a crise que forçou a saída do ex-presidente Jean Bertrand Aristide, em fevereiro de 2004.
Coube ao Brasil a chefia da missão, instalada no mês de junho de 2004, bem como constituir o maior contingente nacional de "boinas azuis" : 1.470 militares, de um total de 6.700, militares de 21 países. Apesar das dificuldades estruturais do Haiti, as atividades da MINUSTAH trouxeram avanços, como a realização das eleições ocorridas em fevereiro deste ano.
"""
docbr = nlp(txt_br)
displacy.render(docbr, style="ent")