# **DISCLAIMER/AVISO**

O script a seguir é uma junção do script obtido pelo Chat GPT (a partir do prompt: "Como uso a LDA no Python?"), com adições e trocas a partir de sugestões do Gemini, que reformulou algumas linhas de acordo com o nosso arquivo. Portanto, que fique claro que esse script não foi escrito por nenhum membro desse grupo.

# **(1) Instalar as bibliotecas**

In [None]:
!pip install gensim
!pip install nltk
!pip install spacy
!pip install pandas
!pip install -U pyLDAvis
!pip install pyLDAvis==3.4.1
!pip install gensim

# **(2) Importar as bibliotecas**

In [None]:
import gensim
from gensim import corpora
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import pandas as pd
import pyLDAvis
from pyLDAvis import gensim
import pyLDAvis.gensim

In [None]:
# (2.1) Importando a library Natural Language Toolkit - NLTK para tratamento de linguagem natural

import nltk
nltk.download('stopwords')
nltk.download('punkt')

# **(3) Abrindo e lendo a planilha**

In [None]:
df = pd.read_excel('terceirarodada_LDA.xlsx')

nomes_colunas = ["key", "jornal", "transcrito"]

# **(4) Criando o dicionário e o corpus**

In [None]:
# (4.1) Criar o dicionário (mapear palavras a IDs)

dictionary = corpora.Dictionary(df['transcrito'].apply(lambda x: x.split()))

In [None]:
# (4.2) Criar o corpus (conjunto de documentos em formato vetorial)

corpus = [dictionary.doc2bow(doc) for doc in df['transcrito'].apply(lambda x: x.split())]

# **(5) Treinando o modelo LDA**

In [None]:
# (5.1) Definir o número de tópicos
num_topics = 5

In [None]:
# (5.2) Treinar o modelo LDA

import gensim
lda_model = gensim.models.ldamodel.LdaModel(
    corpus,
    num_topics=num_topics,
    id2word=dictionary,
    passes=15
)

# **(6) Visualizar os tópicos**

In [None]:
for idx, topic in lda_model.print_topics(-1):
    print(f"Tópico {idx}: {topic}")


# **(7) Tabulando a distribuição dos tópicos para cada documento**

In [None]:
# (7.1) Para cada documento, pegar a distribuição dos tópicos
topic_distribution = []

for doc in corpus:
    doc_topics = lda_model.get_document_topics(doc, minimum_probability=0)
    topic_distribution.append([prob for _, prob in doc_topics])

In [None]:
# (7.2) Criar um DataFrame com essa distribuição

df_topic_distribution = pd.DataFrame(topic_distribution, columns=[f'Tópico {i+1}' for i in range(num_topics)])

In [None]:
# (7.3) Exibir a tabela

print(df_topic_distribution)

# **(8) Visualização dos dados**

In [None]:
import pyLDAvis
import pyLDAvis.gensim_models
from pyLDAvis import gensim

lda_display = gensim.prepare(lda_model, corpus, dictionary)

pyLDAvis.save_html(lda_display, 'lda_visualization.html')

pyLDAvis.enable_notebook()

lda_display = pyLDAvis.gensim_models.prepare(lda_model, corpus, dictionary)
pyLDAvis.display(lda_display)

# **(9) Baixando o arquivo**

In [None]:
from google.colab import files
files.download('lda_visualization.html')