<a href="https://colab.research.google.com/github/caroline-dainezi-fatec/fatec_PLN_Codes/blob/main/Aula7_ModelagemTopicosLDA%20/%5BPLN%5D_Aula_7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 7 - Modelagem de Tópicos com Latent Allocation (LDA)

## Exemplo 01 - Implementação do LDA em um Corpus de Notícias

### Explicação do código

O código abaixo utiliza as bibliotecas `nltk` e `gensim` para realizar análise de tópicos no corpus **Reuters**, fornecido pela própria `nltk`.

1. O corpus **Reuters** é carregado com `nltk.corpus.reuters`. Também foi baixado o `punkt` para tokenização, `stopwords` para remover palavras comuns irrelevantes e `wordnet` para lematização.

2. Foi criada uma função de pré-processamento chamada preprocess(), que recebe um texto e:
  - Converte para minúsculas.
  - Remove stopwords e caracteres não alfabéticos.
  - Aplica lematização para normalizar palavras.

  Cada documento do corpus Reuters é processado com essa função.

3. Foi criado um dicionário com `gensim.corpora.Dictionary`. Ele então mapeia cada palavra única do corpus para um ID numérico.
  
4. `dictionary.filter_extremes` remove palavras que aparecem em menos de 10 documentos e estão presentes em mais de 50% dos documentos.

5. O `dictionary.doc2bow` representa cada documento como um vetor de frequências das palavras.

6. Treinamento do Modelo LDA
    - `num_topics=5`: O modelo identifica 5 tópicos ocultos no corpus.
    - `passes=10`: Realiza 10 iterações para refinar os tópicos.
    - `random_state=42`: Garante reprodutibilidade.

7. Cada tópico é exibido como uma lista de palavras mais representativas e seus pesos.

8. A biblioteca `pyLDAvis` é importada e a função `pyLDAvis.display` é utilizado para gerar um gráfico interativo.

In [None]:
pip install nltk

  and should_run_async(code)




In [None]:
# escolha do corpus para implementação
import nltk

nltk.download('reuters') # corpus já categorizado
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import reuters

# etapas de pré-processamento
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('punkt_tab')

stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def preprocess(text):
  tokens = word_tokenize(text.lower())
  tokens = [word for word in tokens if word.isalpha() and word not in stop_words]
  tokens = [lemmatizer.lemmatize(word) for word in tokens]
  return tokens

documents = [preprocess(reuters.raw(fileid)) for fileid in reuters.fileids()]

# Criação do dicionário e Corpus
from gensim.corpora import Dictionary

dictionary = Dictionary(documents)

dictionary.filter_extremes(no_below=10, no_above=0.5)

corpus = [dictionary.doc2bow(doc) for doc in documents]

# Treinamento no modelo LDA
from gensim.models import LdaModel

lda_model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=5, passes=10, random_state=42)

topics = lda_model.print_topics(num_words=5)
for idx, topic in topics:
  print(f"Tópico {idx}: {topic}")

[nltk_data] Downloading package reuters to /root/nltk_data...
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Tópico 0: 0.135*"v" + 0.101*"mln" + 0.081*"ct" + 0.064*"net" + 0.055*"loss"
Tópico 1: 0.022*"tonne" + 0.014*"trade" + 0.012*"export" + 0.010*"year" + 0.009*"would"
Tópico 2: 0.027*"company" + 0.026*"share" + 0.021*"dlrs" + 0.014*"inc" + 0.013*"corp"
Tópico 3: 0.013*"market" + 0.012*"bank" + 0.012*"would" + 0.011*"rate" + 0.010*"dollar"
Tópico 4: 0.045*"pct" + 0.034*"mln" + 0.032*"billion" + 0.025*"year" + 0.022*"dlrs"


## Visualização das ferramentas pyLDAvis

In [None]:
pip install --upgrade pyLDAvis

Collecting pyLDAvis
  Downloading pyLDAvis-3.4.1-py3-none-any.whl.metadata (4.2 kB)
Collecting funcy (from pyLDAvis)
  Downloading funcy-2.0-py2.py3-none-any.whl.metadata (5.9 kB)
Downloading pyLDAvis-3.4.1-py3-none-any.whl (2.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m20.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading funcy-2.0-py2.py3-none-any.whl (30 kB)
Installing collected packages: funcy, pyLDAvis
Successfully installed funcy-2.0 pyLDAvis-3.4.1


In [None]:
import pyLDAvis.gensim_models as gensimvis
import pyLDAvis

pyLDAvis.enable_notebook()

# Visualizar os tópicos
lda_vis = gensimvis.prepare(lda_model, corpus, dictionary)
pyLDAvis.display(lda_vis)

  and should_run_async(code)


## Exemplo 02 - Implementação do LDA com um corpus de texto

### Explicação do código

Este código utiliza as bibliotecas `nltk`, `gensim` e `pyLDAvis` para realizar análise de tópicos em um corpus.

1. A biblioteca `nltk` é usada para dividir os documentos em tokens depois de converter o texto para letras minúsculas.

2. O `gensim.corpora.Dictionary` mapeia cada palavra única no corpus para um ID numérico.

3. A BoW representa os documentos como vetores de frequência de palavras. Ex: `[(0, 1), (1, 1)]` quer dizer que as palavras com IDs `0` e `1` aparecem uma vez no documento.

4. O modelo LDA encontra tópicos ocultos no corpus.
  - `num_topics=3`: Define 3 tópicos para análise.
  - `passes=10`: Número de iterações sobre o corpus.
  - `iterations=100`: Refinamento interno do modelo.

5. Os tópicos exibidos são listas de palavras mais representativas com seus pesos.

6. O `pyLDAvis` transforma o modelo LDA em uma visualização interativa para exploração. A função `pyLDAvis.display` mostra o gráfico de forma interativa na tela.


In [None]:
# 01 - Preparação do corpus
import nltk
from nltk.tokenize import word_tokenize
from gensim.corpora import Dictionary

nltk.download('punkt_tab')

documents = [
    "Eu gosto de aprender sobre inteligência artificial e ciência de dados",
    "A análise de dados é muito importante em projetos de aprendizado de máquina",
    "Redes neurais são úteis para processamento de linguagem natural",
    "A modelagem de tópicos ajuda a descobrir temas em textos grandes",
    "Python é uma ferramenta poderosa para trabalhar com PLN"
]

# Pré-processamento: tokenização
tokenized_docs = [word_tokenize(doc.lower()) for doc in documents]

# 02 - Criação do dicionário e BoW
dictionary = Dictionary(tokenized_docs)

# Criação de BoW para cada documento
corpus_bow = [dictionary.doc2bow(doc) for doc in tokenized_docs]

# Exibir o dicionário e o corpus BoW
print("Dicionário: ", dictionary.token2id)
print("Corpus BoW: ", corpus_bow)

# 03 - Treinamento do Modelo LDA
from gensim.models import LdaModel

# Treinar o modelo LDA
lda_model = LdaModel(
    corpus=corpus_bow,
    id2word=dictionary,
    num_topics=3,
    random_state=42,
    passes=10,
    iterations=100
)

# Exibir os tópicos gerados
for idx, topic in lda_model.print_topics(num_words=5):
  print(f"Tópico {idx}: {topic}")

# 04 - Visualização com pyLDAvis
import pyLDAvis
from pyLDAvis import gensim_models as gensimvis

# Preparar os dados para visualização
lda_vis = gensimvis.prepare(lda_model, corpus_bow, dictionary)

# Exibir a visualização no notebook
pyLDAvis.enable_notebook()
pyLDAvis.display(lda_vis)

Dicionário:  {'aprender': 0, 'artificial': 1, 'ciência': 2, 'dados': 3, 'de': 4, 'e': 5, 'eu': 6, 'gosto': 7, 'inteligência': 8, 'sobre': 9, 'a': 10, 'análise': 11, 'aprendizado': 12, 'em': 13, 'importante': 14, 'muito': 15, 'máquina': 16, 'projetos': 17, 'é': 18, 'linguagem': 19, 'natural': 20, 'neurais': 21, 'para': 22, 'processamento': 23, 'redes': 24, 'são': 25, 'úteis': 26, 'ajuda': 27, 'descobrir': 28, 'grandes': 29, 'modelagem': 30, 'temas': 31, 'textos': 32, 'tópicos': 33, 'com': 34, 'ferramenta': 35, 'pln': 36, 'poderosa': 37, 'python': 38, 'trabalhar': 39, 'uma': 40}
Corpus BoW:  [[(0, 1), (1, 1), (2, 1), (3, 1), (4, 2), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1)], [(3, 1), (4, 3), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1)], [(4, 1), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1)], [(4, 1), (10, 2), (13, 1), (27, 1), (28, 1), (29, 1), (30, 1), (31, 1), (32, 1), (33, 1)], [(18, 1), (22, 1), (34, 1), (35, 1), (36, 1), (3

  and should_run_async(code)
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
