<a href="https://colab.research.google.com/github/nathaliadutra15/fatec_PLN_Codes/blob/master/Aula07/%5BPLN%5D_Aula_7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 07 - Modelagem de Tópicos com Latent Dirichlet Allocation (LDA)
O que é LDA?
* O LDA é um modelo generativo de modelagem de tópicos. Isso significa que ele tenta entender o processo que "gerou" os documentos. Especificamente, ele assume que:
* Cada documento é composto por uma mistura de tópicos. Ou seja, um texto sobre “esportes” pode também falar de “saúde” ou “política”.
* Cada tópico é uma distribuição de palavras, isto é, um conjunto de palavras que ocorrem com maior probabilidade dentro daquele tema.

## Exemplo 01 - Implementação do LDA em um Corpus de Notícias

In [None]:
pip install nltk



In [None]:
# escolha do corpus para implementação
import nltk

# Download do corpus Reuters (já categorizado)
nltk.download('reuters')

# Download das stopwords em inglês
nltk.download('stopwords')

# Importação do corpus Reuters
from nltk.corpus import reuters

# Importação de módulos necessários para pré-processamento
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# Download de recursos adicionais do NLTK
nltk.download('wordnet')  # Necessário para lematização
nltk.download('punkt_tab')  # Tokenizador

# Configuração de stopwords e lematizador
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

# Função para pré-processamento do texto
def preprocess(text):
  # Converte o texto para letras minúsculas e realiza a tokenização
  tokens = word_tokenize(text.lower())
  # Remove tokens que não são palavras alfabéticas ou que estão em stopwords
  tokens = [word for word in tokens if word.isalpha() and word not in stop_words]
  # Aplica lematização em cada palavra
  tokens = [lemmatizer.lemmatize(word) for word in tokens]
  return tokens

# Aplicação da função de pré-processamento em todos os documentos do corpus
documents = [preprocess(reuters.raw(fileid)) for fileid in reuters.fileids()]

# Importação do módulo Dictionary do Gensim
from gensim.corpora import Dictionary

# Criação do dicionário a partir dos documentos pré-processados
dictionary = Dictionary(documents)

# Filtragem de palavras muito raras ou muito frequentes
dictionary.filter_extremes(no_below=10, no_above=0.5)

# Transformação dos documentos no formato bag-of-words
corpus = [dictionary.doc2bow(doc) for doc in documents]

# Importação do modelo LDA do Gensim
from gensim.models import LdaModel

# Treinamento do modelo LDA
lda_model = LdaModel(
    corpus=corpus,       # Corpus em formato bag-of-words
    id2word=dictionary,  # Dicionário criado anteriormente
    num_topics=5,        # Número de tópicos desejados
    passes=10,           # Número de iterações sobre o corpus
    random_state=42      # Garantir reprodutibilidade
)

# Impressão dos tópicos gerados pelo modelo
topics = lda_model.print_topics(num_words=5)
for idx, topic in topics:
  print(f"Tópico {idx}: {topic}")

[nltk_data] Downloading package reuters to /root/nltk_data...
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Tópico 0: 0.135*"v" + 0.101*"mln" + 0.081*"ct" + 0.064*"net" + 0.055*"loss"
Tópico 1: 0.022*"tonne" + 0.014*"trade" + 0.012*"export" + 0.010*"year" + 0.009*"would"
Tópico 2: 0.027*"company" + 0.026*"share" + 0.021*"dlrs" + 0.014*"inc" + 0.013*"corp"
Tópico 3: 0.013*"market" + 0.012*"bank" + 0.012*"would" + 0.011*"rate" + 0.010*"dollar"
Tópico 4: 0.045*"pct" + 0.034*"mln" + 0.032*"billion" + 0.025*"year" + 0.022*"dlrs"


### Visualização através da ferramenta pyLDAvis

In [None]:
pip install --upgrade pyLDAvis

Collecting pyLDAvis
  Downloading pyLDAvis-3.4.1-py3-none-any.whl.metadata (4.2 kB)
Collecting funcy (from pyLDAvis)
  Downloading funcy-2.0-py2.py3-none-any.whl.metadata (5.9 kB)
Downloading pyLDAvis-3.4.1-py3-none-any.whl (2.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m42.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading funcy-2.0-py2.py3-none-any.whl (30 kB)
Installing collected packages: funcy, pyLDAvis
Successfully installed funcy-2.0 pyLDAvis-3.4.1


In [None]:
import pyLDAvis.gensim_models as gensimvis
import pyLDAvis

pyLDAvis.enable_notebook()

# Visualizar os tópicos
lda_vis = gensimvis.prepare(lda_model, corpus, dictionary)
pyLDAvis.display(lda_vis)


## Exemplo 02 - Implementação do LDA com um corpus de texto

In [None]:
# Implementação de LDA com Visualização

# 01 - Preparação do corpus
import nltk
from nltk.tokenize import word_tokenize
from gensim.corpora import Dictionary

# Download do recurso necessário para tokenização
nltk.download('punkt_tab')

# Conjunto de documentos de exemplo
documents = [
    "Eu gosto de aprender sobre inteligência artificial e ciência de dados",
    "A análise de dados é muito importante em projetos de aprendizado de máquina",
    "Redes neurais são úteis para processamento de linguagem natural",
    "A modelagem de tópicos ajuda a descobrir temas em textos grandes",
    "Python é uma ferramenta poderosa para trabalhar com PLN"
]

# Pré-processamento: tokenização
tokenized_docs = [word_tokenize(doc.lower()) for doc in documents]
# Converte o texto para letras minúsculas para garantir uniformidade
# Divide cada documento em uma lista de palavras (tokens)

# 02 - Criação do dicionário e BoW
from gensim.corpora import Dictionary

# Criação do dicionário que mapeia palavras únicas para IDs numéricos
dictionary = Dictionary(tokenized_docs)

# Criação do BoW (Bag of Words) para cada documento
corpus_bow = [dictionary.doc2bow(doc) for doc in tokenized_docs]
# Representa cada documento como uma lista de pares (ID da palavra, frequência)

# Exibir o dicionário e o corpus BoW
print("Dicionário: ", dictionary.token2id)  # Exibe o mapeamento de palavras para IDs
print("Corpus BoW: ", corpus_bow)  # Exibe a representação BoW dos documentos

# 03 - Treinamento do Modelo LDA
from gensim.models import LdaModel

# Treinamento do modelo LDA
lda_model = LdaModel(
    corpus=corpus_bow,       # Corpus em formato BoW
    id2word=dictionary,      # Tradução de IDs para palavras
    num_topics=3,            # Número de tópicos principais a identificar
    random_state=42,         # Garante consistência nos resultados
    passes=10,               # Número de passes pelo corpus
    iterations=100           # Número de iterações para ajuste dos parâmetros
)

# Exibir os tópicos gerados pelo modelo
for idx, topic in lda_model.print_topics(num_words=5):
    # Retorna as 5 palavras mais representativas para cada tópico
    print(f"Tópico {idx}: {topic}")

# 04 - Visualização com pyLDAvis
import pyLDAvis
from pyLDAvis import gensim_models as gensimvis

# Preparar os dados para visualização
lda_vis = gensimvis.prepare(lda_model, corpus_bow, dictionary)

# Exibir a visualização no notebook
pyLDAvis.enable_notebook()  # Ativa a visualização interativa no ambiente Jupyter Notebook
pyLDAvis.display(lda_vis)   # Renderiza a visualização gráfica dos tópicos

  and should_run_async(code)
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Dicionário:  {'aprender': 0, 'artificial': 1, 'ciência': 2, 'dados': 3, 'de': 4, 'e': 5, 'eu': 6, 'gosto': 7, 'inteligência': 8, 'sobre': 9, 'a': 10, 'análise': 11, 'aprendizado': 12, 'em': 13, 'importante': 14, 'muito': 15, 'máquina': 16, 'projetos': 17, 'é': 18, 'linguagem': 19, 'natural': 20, 'neurais': 21, 'para': 22, 'processamento': 23, 'redes': 24, 'são': 25, 'úteis': 26, 'ajuda': 27, 'descobrir': 28, 'grandes': 29, 'modelagem': 30, 'temas': 31, 'textos': 32, 'tópicos': 33, 'com': 34, 'ferramenta': 35, 'pln': 36, 'poderosa': 37, 'python': 38, 'trabalhar': 39, 'uma': 40}
Corpus BoW:  [[(0, 1), (1, 1), (2, 1), (3, 1), (4, 2), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1)], [(3, 1), (4, 3), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1)], [(4, 1), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1)], [(4, 1), (10, 2), (13, 1), (27, 1), (28, 1), (29, 1), (30, 1), (31, 1), (32, 1), (33, 1)], [(18, 1), (22, 1), (34, 1), (35, 1), (36, 1), (3