# Modelagem de Tópicos com LDA, NMF e SVD
Neste notebook, vamos explorar a modelagem de tópicos utilizando três algoritmos diferentes: Latent Dirichlet Allocation (LDA), Non-negative Matrix Factorization (NMF), e Singular Value Decomposition (SVD). Nosso objetivo é encontrar o melhor valor de \( k \) (número de tópicos) para cada um desses algoritmos, utilizando métricas específicas a cada um. Por fim, vamos comparar os resultados de cada modelo.


In [1]:
# Libraries

import warnings

warnings.filterwarnings('ignore')
import re

import gensim
import matplotlib.pyplot as plt
import pandas as pd
import pyLDAvis
import pyLDAvis.gensim
import seaborn as sns
from gensim import corpora
from gensim.models import CoherenceModel, LdaModel, LsiModel, Nmf
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (accuracy_score, confusion_matrix, f1_score,
                             precision_score, recall_score)
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC

## Preparar dados 

In [None]:
bbc_df = pd.read_csv("../data/bbc_data.csv")



## Modelagem de Tópicos com LDA
O **Latent Dirichlet Allocation (LDA)** é um modelo probabilístico que gera uma distribuição de tópicos para um conjunto de documentos. Vamos utilizar as métricas de **coerência de tópicos** e **perplexidade** para encontrar o melhor número de tópicos \( k \).



## Leitura dos dados

### Análise dos Resultados do LDA
Com base no gráfico de coerência, podemos selecionar o valor de \( k \) que maximiza a coerência dos tópicos. Também consideraremos a **perplexidade** para refinar a escolha de \( k \).


## Modelagem de Tópicos com NMF
O **Non-negative Matrix Factorization (NMF)** é um algoritmo de decomposição matricial que fatoriza a matriz de documentos em componentes não-negativos. Vamos otimizar \( k \) utilizando o **erro de reconstrução**.


### Análise dos Resultados do NMF
Aqui analisamos o **erro de reconstrução** para encontrar o melhor número de tópicos. Menores valores de erro indicam uma melhor qualidade na decomposição dos tópicos.


## Modelagem de Tópicos com SVD
O **Singular Value Decomposition (SVD)** é uma técnica de fatoração matricial. Vamos utilizar a **variância explicada** e **validação cruzada** para definir o número ideal de componentes \( k \).


### Análise dos Resultados do SVD
Aqui analisamos a **variância explicada** para identificar o número ideal de componentes. Um valor de \(k\) que explica uma alta porcentagem da variância é geralmente o melhor ponto de corte.


## Comparação Final e Conclusão
Após realizar a modelagem de tópicos com os algoritmos **LDA**, **NMF**, e **SVD**, observamos as diferenças entre cada método:

- **LDA**: Gera tópicos probabilísticos com uma interpretação semântica clara. O número de tópicos \(k\) foi otimizado com base na coerência de tópicos.
- **NMF**: Utilizou o erro de reconstrução como métrica principal. O NMF é eficaz para gerar tópicos esparsos e interpretáveis.
- **SVD**: Baseado na variância explicada, o SVD é útil para redução de dimensionalidade, mas pode não ser tão interpretável quanto LDA ou NMF.

Cada método tem suas vantagens e desvantagens. O LDA é mais adequado quando a semântica dos tópicos é importante, enquanto o NMF pode ser mais eficaz quando a interpretação esparsa é desejada. O SVD é uma ferramenta poderosa para análise quantitativa.
