Funções simples para pré-processar textos e treinar modelos de tópicos LDA (Latent Dirichlet Allocation), construído sobre spaCy e gensim.
pip install GhuLDABaixe também o modelo de português do spaCy:
python -m spacy download pt_core_news_lg| Função / Classe | Para que serve |
|---|---|
Tokenizer |
Tokeniza, lematiza e filtra tokens por classe gramatical (substantivo, verbo, adjetivo, nome próprio). |
add_bigram |
Junta pares de palavras que aparecem juntas com frequência (ex.: aprendizado_maquina). |
create_dictionary |
Cria o dicionário de termos, com filtro opcional de palavras muito raras/frequentes. |
create_corpus |
Converte os documentos em bag-of-words. |
ModelLDA |
Treina o modelo LDA (alpha/eta automáticos por padrão). |
calc_coherence |
Calcula a coerência dos tópicos (c_v, u_mass, etc.). |
- Python 3.10+
gensim,spacy,tqdm(instalados automaticamente)
MIT — Erick Ghuron