<a href="https://colab.research.google.com/github/matheus-haruki/Processamento-de-Linguagem-Natural/blob/main/Aula_7_Descoberta_de_Conhecimento_em_Textos_(Knowledge_Discovery_in_Texts).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Objetivo do Notebook:

O objetivo deste notebook é demonstrar, por meio de exemplos práticos, como realizar a descoberta de conhecimento em textos utilizando técnicas fundamentais de Processamento de Linguagem Natural (PLN). A proposta é mostrar como extrair informações relevantes de textos em linguagem natural — como entidades nomeadas, padrões, profissões, datas e estruturas linguísticas — utilizando ferramentas clássicas da área, como spaCy, NLTK e expressões regulares.

A aula foca na extração automatizada de conhecimento a partir de dados textuais, preparando o terreno para aplicações como análise de tendências, mineração de informações e construção de bases de conhecimento.

Técnicas de PLN Implementadas:

- Reconhecimento de Entidades Nomeadas (NER) com spaCy

  - Identificação de pessoas, organizações, locais, valores, datas etc.

  - Exemplo com o modelo pt_core_news_sm para textos em português.

- Reconhecimento de Entidades com NLTK

  - Tokenização, POS tagging (etiquetagem gramatical) e chunking.

  - Uso do ne_chunk para extrair entidades em inglês.

- Extração de Informações com Expressões Regulares

  - Busca de padrões textuais como datas.

  - Uso de re.findall() com padrões pré-definidos.

- Extração Baseada em Regras e Dicionários

  - Heurísticas simples para identificação de profissões em textos.

  - Verificação da presença de palavras-chave com base em listas.

- Mineração de Texto com Frequência e N-gramas

  - Tokenização e contagem de palavras com nltk.

  - Extração de n-gramas para identificar padrões e colaborações frequentes de palavras.

Exemplo 01 - NER com spaCy

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm


Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m87.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy
# Carrega o modelo de português
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo
texto = "Elon Musk, CEO da Tesla, visitou o Brasil em maio de 2022 para discutir investimentos de R$ 5 bilhões."

# Processa o texto
doc = nlp(texto)

# Imprime as entidades identificadas
for entidade in doc.ents:
    print(f"{entidade.text} - {entidade.label_}")


Elon Musk - LOC
Tesla - ORG
Brasil - LOC
R$ - MISC


Exemplo 02 - NER com NLTK

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

# Baixar os pacotes certos (não 'punkt_tab')
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')

# Texto de exemplo
texto = "Barack Obama was the president of the United States and won the Nobel Peace Prize."

# Tokenização e POS tagging
tokens = word_tokenize(texto)
tags = pos_tag(tokens)

# Identificação de entidades
entidades = ne_chunk(tags)

# Exibir entidades
print(entidades)


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker_tab.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


(S
  (PERSON Barack/NNP)
  (PERSON Obama/NNP)
  was/VBD
  the/DT
  president/NN
  of/IN
  the/DT
  (GPE United/NNP States/NNPS)
  and/CC
  won/VBD
  the/DT
  (ORGANIZATION Nobel/NNP Peace/NNP Prize/NNP)
  ./.)


Exemplo 03 - Extração de Informações com Expressões Regulares

In [None]:
import re

texto = "O pagamento deve ser feito até 30 de junho de 2025."

# Expressão regular para encontrar datas
padrao = r"\d{1,2} de [a-zA-Z]+ de \d{4}"
datas = re.findall(padrao, texto)

print(datas)


['30 de junho de 2025']


Exemplo 04 - Extração de informação com Regras heurísticas e Dicionários

In [None]:
profissoes = ["engenheiro", "cientista de dados", "médico", "advogado"]

texto = "João é engenheiro de software e trabalha na Tesla."

for profissao in profissoes:
    if profissao in texto:
        print(f"Profissão identificada: {profissao}")


Profissão identificada: engenheiro


Exemplo 05 - Mineração de Textos com Frequência de Palavras e N-gramas

In [None]:
import nltk
from nltk.util import ngrams
from collections import Counter

texto = "Mineração de textos envolve análise de palavras, palavras importantes e padrões."
palavras = nltk.word_tokenize(texto.lower())

frequencia = Counter(palavras)
print(frequencia.most_common(5))  # Top 5 palavras mais frequentes

bigrams = list(ngrams(palavras, 2))

print(bigrams)


[('de', 2), ('palavras', 2), ('mineração', 1), ('textos', 1), ('envolve', 1)]
[('mineração', 'de'), ('de', 'textos'), ('textos', 'envolve'), ('envolve', 'análise'), ('análise', 'de'), ('de', 'palavras'), ('palavras', ','), (',', 'palavras'), ('palavras', 'importantes'), ('importantes', 'e'), ('e', 'padrões'), ('padrões', '.')]


Exemplo 06 - Mineração de Texto

In [None]:
!pip install gensim
!pip install --force-reinstall gensim


Collecting gensim
  Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Using cached smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Collecting wrapt (from smart-open>=1.8.1->gensim)
  Using cached wrapt-1.17.2-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.4 kB)
Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (

In [None]:
from gensim import corpora, models

# Texto de exemplo
documentos = [
    ["mineração", "textos", "dados"],
    ["inteligência", "artificial", "aprendizado"],
    ["dados", "aprendizado", "estatística"]
]

# Criar dicionário e corpus
dicionario = corpora.Dictionary(documentos)
corpus = [dicionario.doc2bow(texto) for texto in documentos]

# Aplicar LDA
lda_modelo = models.LdaModel(corpus, num_topics=2, id2word=dicionario)
print(lda_modelo.print_topics())




[(0, '0.204*"aprendizado" + 0.176*"dados" + 0.153*"artificial" + 0.151*"inteligência" + 0.111*"textos" + 0.106*"mineração" + 0.099*"estatística"'), (1, '0.201*"dados" + 0.168*"aprendizado" + 0.156*"estatística" + 0.147*"mineração" + 0.142*"textos" + 0.095*"inteligência" + 0.092*"artificial"')]
