<a href="https://colab.research.google.com/github/Polt3r/PLN/blob/main/Aula_07_Descoberta_de_Conhecimento_em_Textos_(Knowledge_Discovery_in_Texts).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Resumo da Aula 07 - Mineração de Textos e Modelagem de Tópicos
Introdução à mineração de textos para identificar padrões e informações em grandes volumes textuais.
Utilização de NLTK e Gensim para:
>- Frequência de palavras e N-gramas (identificação de termos e sequências relevantes).
- Criação de dicionário e corpus para análise de tópicos.
- Modelagem de Tópicos (LDA) (descoberta de temas latentes nos documentos).
- Visualização dos tópicos e termos associados.

---

In [3]:
!pip install spacy
!python -m spacy download pt_core_news_sm

import spacy

# Carrega o modelo de português
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo
texto = "Elon Musk, CEO da Tesla, visitou o Brasil em maio de 2022 para discutir investimentos de R$ 5 bilhões."

# Processa o texto
doc = nlp(texto)

# Imprime as entidades identificadas
print("Entidades identificadas:")
for entidade in doc.ents:
  print(f"{entidade.text} - {entidade.label_}")

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m43.8 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
Entidades identificadas:
Elon Musk - LOC
Tesla - ORG
Brasil - LOC
R$ - MISC


# Exemplo 02 - NER com NTLK

In [4]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

# Baixar pacotes necessários (execute apenas uma vez)
nltk.download('punkt')
nltk.download('maxent_ne_chunker')
nltk.download('words')
nltk.download('averaged_perceptron_tagger')

# Texto de exemplo
texto = "Barack Obama foi presidente dos Estados Unidos e ganhou o Prêmio Nobel da Paz."

# Tokenização e POS tagging
tokens = word_tokenize(texto)
tags = pos_tag(tokens)

# Identificação de entidades
entidades = ne_chunk(tags)

# Exibir as entidades reconhecidas
print(entidades)

AttributeError: module 'numpy' has no attribute 'bool'.
`np.bool` was a deprecated alias for the builtin `bool`. To avoid this error in existing code, use `bool` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.bool_` here.
The aliases was originally deprecated in NumPy 1.20; for more details and guidance see the original release note at:
    https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations

Observação: A saída dessa imagem (com NLTK) será uma estrutura em árvore (nltk.tree.Tree) que representa as entidades nomeadas e suas categorias gramaticais. Para visualizar as entidades de forma mais direta como na imagem anterior (com spaCy), você precisaria iterar sobre essa árvore e extrair as informações relevantes.

# Exemplo 03 - Extração de Informações com Expressões Regulares

In [None]:
import re

texto = "O pagamento deve ser feito até 30 de junho de 2025."

# Expressão regular para encontrar datas
padrao = r"\d{1,2} de [a-zA-Z]+ de \d{4}"
datas = re.findall(padrao, texto)

print(datas)

# Exemplo 04 - Extração de informação com Regras Heurísticas e Dicionários

In [None]:
profissoes = ["engenheiro", "cientista de dados", "médico", "advogado"]
texto = "João é engenheiro de software e trabalha na Tesla."

for profissao in profissoes:
  if profissao in texto:
    print(f"Profissão identificada: {profissao}")

# Exemplo 05 - Mineração de Textos com Frequência de Palavras e N-gramas

In [None]:
import nltk
from nltk.util import ngrams
from collections import Counter

texto = "Mineração de textos envolve análise de palavras, palavras importantes e padrões."
palavras = nltk.word_tokenize(texto.lower())

frequencia = Counter(palavras)
print(frequencia.most_common(5)) # Top 5 palavras mais frequentes

bigramas = list(ngrams(palavras, 2))
print(bigramas)

#Exemplo 06 - Mineração de Texto

In [None]:
!pip install gensim
!pip install --force-reinstall gensim

from gensim import corpora, models

# Texto de exemplo
documentos = [["mineração", "textos", "dados"],
              ["inteligência", "artificial", "aprendizado"],
              ["dados", "aprendizado", "estatística"]]

# Criar dicionário e corpus
dicionario = corpora.Dictionary(documentos)
corpus = [dicionario.doc2bow(texto) for texto in documentos]

# Aplicar LDA
lda_model = models.LdaModel(corpus, num_topics=2, id2word=dicionario)
print(lda_model.print_topics())

Observação: A saída do LDA pode variar ligeiramente dependendo da inicialização aleatória do algoritmo. A saída acima representa uma possível configuração dos tópicos encontrados. A mensagem de warning indica que o modelo LDA pode precisar de mais dados para convergir adequadamente.