# Extração de Tópicos LDA (Latent Dirichlet Allocation)

In [None]:
%pip install pandas numpy nltk gensim pyLDAvis matplotlib

In [9]:
# Importando bibliotecas
import pandas as pd
import numpy as np
import nltk
import gensim
import gensim.corpora as corpora
import pyLDAvis.gensim_models as gensimvis
import pyLDAvis
import matplotlib.pyplot as plt
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from gensim.models import LdaModel
from gensim.corpora.dictionary import Dictionary

In [4]:
# Carregar textos
documentos = [
    "A inteligência artificial está transformando a indústria da saúde.",
    "Os algoritmos de aprendizado profundo são amplamente utilizados na IA.",
    "O aquecimento global é um problema crítico para o futuro da humanidade.",
    "Novas políticas ambientais estão sendo implementadas para reduzir a poluição.",
    "A tecnologia blockchain está revolucionando a segurança digital."
]

In [6]:
# Pré-processamento
nltk.download('stopwords')
nltk.download('punkt_tab')

stop_words = set(stopwords.words('portuguese'))

def preprocess_text(text):
  tokens = word_tokenize(text.lower())
  tokens = [word for word in tokens if word.isalnum() and word not in stop_words]
  return tokens

textos_processados = [preprocess_text(doc) for doc in documentos]

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\josaf\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\josaf\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.


In [7]:
# Criar o dicionario e o corpus
dicionario = Dictionary(textos_processados)
corpus = [dicionario.doc2bow(text) for text in textos_processados]

In [8]:
# Treinar o modelo LDA
lda_model = LdaModel(corpus=corpus, id2word=dicionario, num_topics=3, random_state=42, passes=10)

In [10]:
# Visualizar os Tópicos
pyLDAvis.enable_notebook()
vis = gensimvis.prepare(lda_model, corpus, dicionario)
vis

In [13]:
# Interpretar os Tópicos
for idx, topic in lda_model.show_topics(num_topics=3, formatted=False):
  print(f"Tópico {idx + 1}: {[word[0] for word in topic]}")

Tópico 1: ['transformando', 'blockchain', 'inteligência', 'segurança', 'tecnologia', 'saúde', 'digital', 'artificial', 'indústria', 'revolucionando']
Tópico 2: ['ambientais', 'reduzir', 'poluição', 'novas', 'implementadas', 'sendo', 'políticas', 'ia', 'amplamente', 'algoritmos']
Tópico 3: ['global', 'aquecimento', 'problema', 'humanidade', 'futuro', 'crítico', 'aprendizado', 'profundo', 'utilizados', 'algoritmos']
