# Topic Modeling for Everybody with Google Colab

**Super simple topic modeling using both the Non Negative Matrix Factorization (NMF) and Latent Dirichlet Allocation (LDA) algorithms.**

This Google Colab Notebook makes topic modeling accessible to everybody. Textual data can be loaded from a Google Sheet and topics derived from NMF and LDA can be generated. Only simple form entry is required to set:

* the name of the google sheet
* the number of topics to be generated
* the number of top words and documents that must be printed out for each topic





In [5]:
import pandas as pd

num_rows_to_preview = 10

df = pd.read_csv("../tdc.csv", sep='\t', header=1, names=['label', 'text'], dtype={'label': str, 'text': str})

documents = [ val for val in df['text']]
labels = [ l for l in df['label']]

print(df.head(num_rows_to_preview))

                                   label  \
1                       __label__Nha_dat   
2                       __label__Nha_dat   
3                       __label__Nha_dat   
4                       __label__Mua_sam   
5                       __label__Nha_dat   
6                     __label__Tai_chinh   
7                       __label__Mua_sam   
8                       __label__Du_lich   
9   __label__Mang_internet_va_vien_thong   
10                      __label__Nha_dat   

                                                 text  
1   phòng quanh khu_vực hồ tùng mậu phòng khép_kín...  
2   thuê nhà_riêng dt sàn phòng ngủ thoáng mát an_...  
3   thuê tầng khép_kín nguyễn_khoái bếp đầy_đủ tủ_...  
4   crumpler jackpack full photo giá vnđ vnđ đựng ...  
5   đăng hộ chủ ngõ đào_tấn lotte công_viên thủ_lệ...  
6   công_ty phát_sinh công_việc bắt_buộc nhân_viên...  
7   pin hãng samsung galaxy_grand prime g cell mad...  
8   miền đất mạc dubai mênh_mông sa_mạc dubai nhỏ_...  
9   viettel



---



---



In [6]:
#@title Set topic modeling algorithm arguments

no_topics =  23#@param {type:"integer"}

no_top_words =  10#@param {type:"integer"}

no_top_documents =  20#@param {type:"integer"}

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation
import numpy as np

In [None]:
def display_topics(H, W, feature_names, documents, no_top_words, no_top_documents):
    for topic_idx, topic in enumerate(H):
        print("Topic %d:" % (topic_idx))
        print(" ".join([feature_names[i] for i in topic.argsort()[:-no_top_words - 1:-1]]))
        top_doc_indices = np.argsort( W[:,topic_idx] )[::-1][0:no_top_documents]
        for doc_index in top_doc_indices:
            print(labels[doc_index] + " | " + documents[doc_index])

In [7]:
#@title Run NMF

# NMF is able to use tf-idf
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, stop_words='english')
tfidf = tfidf_vectorizer.fit_transform(documents)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()

# Run NMF
nmf_model = NMF(n_components=no_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf)
nmf_W = nmf_model.transform(tfidf)
nmf_H = nmf_model.components_

print("NMF Topics")
display_topics(nmf_H, nmf_W, tfidf_feature_names, documents, no_top_words, no_top_documents)
print("--------------")



 e đẹp tháp đôi đi phở giò vs bún_bò quán đường nguyễn_huệ đi góc ngã tư đông thử phở hn dã_man e ăn_không quen bt nước_dùng ngon giá xong đi tháp đôi tham_quan chụp ảnh một_chút bọn quán cf uống cbi đi rơi ví qlai tháp đôi nhân_viên vs bảo_vệ cảm_động đi thùng rác bọn dắt công_an phường trình_báo vs giấy xác_nhận công_an lắm giấy_tờ hết_mức chiều bọn e bay cảnh đẹp con_người chuyến đi bài_học trải nghiệm đi đàng học sàng khôn
__label__Du_lich | nha trang ngày_đêm r review siêu chi_tiết lê_hạnh đầu viết review sai_sót thông_cảm_nhaa kết_thúc chuyến đi ngày_đêm nha_trang đi đẹp đồng_tiền bát gạo bay sân_bay thọ_xuân thanh_hoá vé máy_bay book trc tuần giá vé r khứ_hồi vj mua g hành_lí kí_gửi chiều đi chiều tổng_tiền vé lưu_ý nho_nhỏ đi đứa con_gái bay thành_phố nha_trang bay bus sân_bay sân_bay thọ_xuân nằm trung_tâm thành_phố m giá vé lượt chuyến bay sân_bay cam_ranh hành_lí may_mắn đc đi ghép taxi khách_sạn trung_tâm thành_phố nha_trang tiền đi ban_đầu định đi xe bus mấy đi ghép taxi đ

In [8]:
#@title Run LDA

# LDA can only use raw term counts for LDA because it is a probabilistic graphical model
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, stop_words='english')
tf = tf_vectorizer.fit_transform(documents)
tf_feature_names = tf_vectorizer.get_feature_names()

# Run LDA
lda_model = LatentDirichletAllocation(n_components=no_topics, max_iter=5, learning_method='online', learning_offset=50.,random_state=0).fit(tf)
lda_W = lda_model.transform(tf)
lda_H = lda_model.components_

print("LDA Topics")
display_topics(lda_H, lda_W, tf_feature_names, documents, no_top_words, no_top_documents)

í_dụ hóa_đơn cục thuế hà_nội in phát_hành ký_hiệu a thể_hiện hóa_đơn ký_hiệu cục thuế_hà_nội in b thể_hiện hóa_đơn ký_hiệu cục thuế_tp hcm in danh_sách mã_hóa_đơn cục thuế_các tỉnh thành_phố trực_thuộc trung_ương phát_hành phụ_lục kèm thông_tư tt btc tự_hóa_đơn ghi dãy tự_nhiên liên_tiếp ký_hiệu_hóa_đơn bao_gồm chữ_số liên_hóa_đơn hóa_đơn liên trở tối_đa liên liên bắt_buộc o liên_lưu o liên_giao mua liên_từ liên trở đi công_dụng_cụ_thể tạo_hóa đơn quy_định mã_số thuế tổ_chức in_hóa_đơn tổ_chức cung_cấp phần_mềm in_hóa_đơn cạnh tờ hóa_đơn ms _yến
__label__Tai_chinh | hướng_dẫn ký_hiệu ghi thông_tin bắt_buộc hóa_đơn ban_hành kèm thông_tư tt btc tài_chính loại_hóa_đơn hóa_đơn_giá_trị gia_tăng hóa_đơn hàng phiếu xuất kho kiêm vận_chuyển nội_bộ phiếu xuất kho hàng gửi đại_lý tem vé thẻ ký_hiệu mẫu_số hóa_đơn mẫu_hóa_đơn ký_hiệu mẫu_số hóa_đơn ký_tự ký_tự đầu thể_hiện loại_hóa đơn tối_đa ký_tự thể_hiện tên_hóa đơn ký_tự thể_hiện liên hóa_đơn ký_tự phân_biệt liên thứ_tự mẫu loại_hóa_đơn ký_tự

In [None]:
def plot_word_cloud(category_name, category_text):
    plt.subplots(figsize=(8, 8))
    wc = WordCloud(background_color="white", stopwords=en_stop_words, width=1000, height=600)
    wc.generate(category_text)
    plt.title(label=category_name)
    plt.axis("off")
    plt.imshow(wc, interpolation="bilinear")
    plt.show()

