In [1]:
# Importando bibliotecas necessárias
import spacy
from spacy.matcher import Matcher, PhraseMatcher
from spacy.tokens import Span
import pandas as pd
from collections import Counter


!python -m spacy download en_core_web_sm
# Carregando o modelo
nlp = spacy.load("en_core_web_sm")

Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m50.1 MB/s[0m  [33m0:00:00[0m.4 MB/s[0m eta [36m0:00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [2]:
""""
Criação do texto de exemplo.
Processamento dos dados para o objeto que é utilizado no spaCy.
Análise detalhada de cada token presente do texto.
Todas as sentenças dentro do texto.
""" 
texto_complexo = """In 2023, Apple Inc. released its latest iPhone 15 Pro for $999. 
The CEO, Tim Cook, announced AI features that will revolutionize mobile technology.
The company's stock (AAPL) rose 5% after the announcement."""

#Instaciação objeto doc
doc = nlp(texto_complexo)

print("Análise detalhada dos tokens:")
print("Token  |  Lema  |  POS  |  Tag  |  Dep  |  É Entidade?")
print("-" * 60)
for token in doc:
    is_ent = "Sim" if token.ent_type_ else "Não"
    print(f"{token.text:8} | {token.lemma_:8} | {token.pos_:6} | {token.tag_:6} | {token.dep_:6} | {is_ent}")

print("\nSentenças identificadas:")
for sent in doc.sents:
    print(f"- {sent}")

Análise detalhada dos tokens:
Token  |  Lema  |  POS  |  Tag  |  Dep  |  É Entidade?
------------------------------------------------------------
In       | in       | ADP    | IN     | prep   | Não
2023     | 2023     | NUM    | CD     | pobj   | Sim
,        | ,        | PUNCT  | ,      | punct  | Não
Apple    | Apple    | PROPN  | NNP    | compound | Sim
Inc.     | Inc.     | PROPN  | NNP    | nsubj  | Sim
released | release  | VERB   | VBD    | ROOT   | Não
its      | its      | PRON   | PRP$   | poss   | Não
latest   | late     | ADJ    | JJS    | amod   | Não
iPhone   | iPhone   | PROPN  | NNP    | nmod   | Não
15       | 15       | NUM    | CD     | nummod | Sim
Pro      | pro      | NOUN   | NN     | dobj   | Não
for      | for      | ADP    | IN     | prep   | Não
$        | $        | SYM    | $      | nmod   | Não
999      | 999      | NUM    | CD     | pobj   | Sim
.        | .        | PUNCT  | .      | punct  | Não

        | 
        | SPACE  | _SP    | dep    | Não
The 

In [3]:
"""
Criando novos padrões para reconhecer outras entidades.
Printando as entidades reconhecidas e a explicação delas.
"""

ruler = nlp.add_pipe("entity_ruler", before="ner")

patterns = [
    {"label": "PRODUTO", "pattern": "iPhone 15 Pro"},
    {"label": "TICKER", "pattern": "AAPL"},
    {"label": "CARGO", "pattern": "CEO"}
]

ruler.add_patterns(patterns)

doc = nlp(texto_complexo)

print("Entidades encontradas (incluindo customizadas):")
for ent in doc.ents:
    print(f"\nTexto: {ent.text}")
    print(f"Tipo: {ent.label_}")
    if spacy.explain(ent.label_):
        print(f"Explicação: {spacy.explain(ent.label_)}")

Entidades encontradas (incluindo customizadas):

Texto: 2023
Tipo: DATE
Explicação: Absolute or relative dates or periods

Texto: Apple Inc.
Tipo: ORG
Explicação: Companies, agencies, institutions, etc.

Texto: iPhone 15 Pro
Tipo: PRODUTO

Texto: 999
Tipo: MONEY
Explicação: Monetary values, including unit

Texto: CEO
Tipo: CARGO

Texto: Tim Cook
Tipo: PERSON
Explicação: People, including fictional

Texto: AI
Tipo: GPE
Explicação: Countries, cities, states

Texto: AAPL
Tipo: TICKER

Texto: 5%
Tipo: PERCENT
Explicação: Percentage, including "%"




In [5]:
"""
Criação de padrões para encontrar o que é desejado.
Adicionando esses padrões ao matcher.
Demonstração de como funcionou.
"""

matcher = Matcher(nlp.vocab)

padrao_monetario = [
    {"LIKE_NUM": True},
    {"LOWER": {"IN": ["billion", "million", "thousand"]}}
]

padrao_data = [
    {"LIKE_NUM": True},
    {"LOWER": {"IN": ["january", "february", "march", "april", "may", "june",
                      "july", "august", "september", "october", "november", "december"]}},
    {"LIKE_NUM": True}
]

padrao_acao = [
    {"ENT_TYPE": "ORG"},
    {"IS_PUNCT": True, "OP": "?"},
    {"LOWER": "stock"}
]

matcher.add("VALOR", [padrao_monetario])
matcher.add("DATA", [padrao_data])
matcher.add("ACAO", [padrao_acao])

texto_teste = """On 15 December 2023, Apple's stock reached $200 billion in value. 
Microsoft stock also performed well, reaching €180 billion."""

doc = nlp(texto_teste)
matches = matcher(doc)

print("Padrões encontrados:")
for match_id, start, end in matches:
    nome_padrao = nlp.vocab.strings[match_id]
    texto_encontrado = doc[start:end].text
    print(f"Padrão: {nome_padrao} | Texto: {texto_encontrado}")

Padrões encontrados:
Padrão: DATA | Texto: 15 December 2023
Padrão: VALOR | Texto: 200 billion
Padrão: ACAO | Texto: Microsoft stock
Padrão: VALOR | Texto: 180 billion
