In [1]:
import io
import numpy as np
import pandas as pd
import jieba
import jieba.posseg as pseg
from pymongo import MongoClient
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation

In [2]:
client = MongoClient("mongodb://fragrance:fragrance@35.164.86.3:27017/fragrance")
db = client.fragrance
collection = db.perfume_comments
raw_df = pd.DataFrame(list(collection.find({}, {'_id': 0}))) # not including _id column
client.close()

In [3]:
def get_corpus(df):
    '''Build corpus from dataframe'''
    corpus = []
    for doc in df['comments']:
        corpus.append(doc[0])
    return corpus

In [4]:
def split_to_words(corpus):
    '''Use jieba to split Chinese text return a list string of words'''
    seg_list = []
    for doc in corpus:
        words = jieba.cut(doc)
        string = " ".join(words)
        seg_list.append(string)
    return seg_list

In [5]:
def get_perfume_stopwords():
    '''Get stopwords file customized for perfume reviews, return a list of words'''
    with io.open('models/chinese_stopwords.txt', 'r', encoding='utf8') as f:
        stpwdlst = f.read().split()
    return stpwdlst

In [6]:
def get_vectorized_mat(seg_list, use_tfidf, stop_words, max_features=1000):
    '''Get TFIDF or TF matrix from tokenized documents corpus
    If use_tfidf is True --> TFIDF Vectorizer
    If user_tfidf is False --> Count Vectorizer'''
    Vectorizer = TfidfVectorizer if use_tfidf else CountVectorizer
    vectorizer_model = Vectorizer(stop_words=stop_words,
                           analyzer='word',
                           max_features=max_features)
    vec_docs = vectorizer_model.fit_transform(seg_list) # return a sparse matrix
    return vectorizer_model, vec_docs

# 1. Using NMF and LDA in sklearn

In [7]:
def display_topics(model, feature_names, no_top_words):
    '''Display topics generated from NMF and LDA mdoel'''
    for topic_idx, topic in enumerate(model.components_):
        print("Topic %d:" % (topic_idx))
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-no_top_words - 1:-1]]))

In [8]:
# Tokenize corpus
stpwdlst = get_perfume_stopwords()
corpus = get_corpus(raw_df)
seg_list = split_to_words(corpus)

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/hw/_zx541317jn081zp18m2fp900000gn/T/jieba.cache
Loading model cost 0.639 seconds.
Prefix dict has been built succesfully.


In [9]:
# NMF is able to use tf-idf, thus fit documents to TFIDF
tfidf_vectorizer, tfidf_docs = get_vectorized_mat(seg_list,
                                                  use_tfidf=True,
                                                  stop_words=stpwdlst,
                                                  max_features=1000)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()

In [10]:
# LDA can only use raw term counts for LDA because it is a probabilistic graphical model, thus fit to CountVectorizer
countvectorizer, tf_docs = get_vectorized_mat(seg_list,
                                              use_tfidf=False,
                                              stop_words=stpwdlst,
                                              max_features=1000)
tf_feature_names = countvectorizer.get_feature_names()

In [11]:
no_topics = 10
no_top_words = 20

In [12]:
# Run NMF
nmf = NMF(n_components=no_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf_docs)

In [13]:
# Run LDA
lda = LatentDirichletAllocation(n_topics=no_topics, max_iter=5, learning_method='online', learning_offset=50.,random_state=0).fit(tf_docs)

In [14]:
print("Topics found by NMF: ")
display_topics(nmf, tfidf_feature_names, no_top_words)

Topics found by NMF: 
Topic 0:
留香 时间 香气 气息 温柔 特别 麝香 柠檬 名字 少女 辛辣 温暖 甜美 女人 香调 性感 整体 浓郁 不错 脂粉
Topic 1:
玫瑰 沉香 荔枝 牡丹 花瓣 玫瑰花 女王 檀香 少女 真实 蜂蜜 绽放 丝带 乌木 幽幽 醋栗 馥郁 广藿香 大气 甜美
Topic 2:
木质 香根草 气息 树脂 香辛 鸢尾 草本 干燥 沉香 东方 胡椒 雪松 柑橘 整体 粉感 融合 烟草 温暖 烟熏 檀木
Topic 3:
花香 果香 果味 栀子花 粉感 浓郁 柔和 绿意 白色 晚香玉 整体 白花 淡淡的 牡丹 甜甜的 脂粉 混合 优雅 木兰 百合
Topic 4:
香草 广藿香 琥珀 美食 巧克力 焦糖 温暖 麝香 水果 不错 奶油 柔滑 甜味 甜美 杏仁 焚香 东方 檀香 浆果 甜腻
Topic 5:
皮革 烟草 烟熏 男人 琥珀 李子 男性 元素 奢华 粉质 鸢尾花 苦涩 爱慕 动物 传统 黑暗 强势 慢慢 贵族 深邃
Topic 6:
香味 甜甜的 皮肤 时间 持续 持久 粉末 甜味 元素 留香 柔和 混合 不错 扩散 融合 特别 淡淡的 质感 水果 无花果
Topic 7:
好闻 特别 超级 男香 持久 淡淡的 舒服 冬天 朋友 香调 奶味 夏天 专柜 牡丹 果香 木质 温婉 魅力 芒果 大众
Topic 8:
茉莉 白花 晚香玉 栀子 栀子花 吲哚 铃兰 橙花 麝香 茉莉花 百合 浓郁 香气 白色 桃子 依兰 馥郁 分辨 佛手柑 淡雅
Topic 9:
清新 柑橘 柠檬 薄荷 夏天 干净 清爽 橘子 柚子 水生 绿茶 合成 清凉 中性 麝香 夏日 调和 琥珀 罗勒 尖锐


In [15]:
print("Topics found by LDA: ")
display_topics(lda, tf_feature_names, no_top_words)

Topics found by LDA: 
Topic 0:
温柔 性感 名字 特别 广藿香 烟草 男香 胡椒 木质 风格 男人 香调 调香 好闻 气息 气质 品牌 男性 柠檬 辛辣
Topic 1:
花香 女人 香精 香草 杏仁 甜腻 美食 气息 香味 五号 香气 巧克力 感受 甜美 果香 年轻 优雅 生活 浓郁 瓶身
Topic 2:
玫瑰 花香 茉莉 气息 白花 麝香 香气 晚香玉 清新 甜美 温柔 果香 琥珀 橙花 优雅 栀子 混合 浓郁 清甜 整体
Topic 3:
香根草 辛辣 气息 檀香 欲望 东方 年代 时代 故事 改版 回忆 老版 老香 香料 元素 表达 男人 岁月 经历 新版
Topic 4:
脂粉 百合 康乃馨 海水 图书馆 苦艾 海洋 宁静 分装 海风 lys 蓝毒 珠宝 地中海 法国 调香 故事 液体 巴黎 第一个
Topic 5:
鸢尾 沉香 紫罗兰 香料 木质 乌木 动物 麝香 乳香 东方 檀香 泥土 藏红花 质感 潮湿 天然 迪奥 没药 粉质 树脂
Topic 6:
清新 柑橘 香味 留香 夏天 柠檬 木质 好闻 混合 水生 无花果 不错 绿茶 麝香 持久 特别 清爽 干净 甜味 扩散
Topic 7:
留香 薰衣草 少女 时间 清新 柠檬 香气 特别 男香 香味 好闻 香调 清爽 不错 花果 花香 冬天 女生 气息 衣服
Topic 8:
木质 皮革 琥珀 柑橘 香草 气息 树脂 香气 草本 焚香 香辛 温暖 广藿香 整体 香根草 清新 干燥 融合 烟熏 花香
Topic 9:
香味 时间 留香 柔和 花香 香草 元素 广藿香 整体 质感 粉末 紫罗兰 皮肤 推荐 柔滑 橙花 美食 水果 联想 绿色


In [16]:
W = nmf.fit_transform(tfidf_docs)
H = nmf.components_
print 'reconstruction error:', nmf.reconstruction_err_

reconstruction error: 54.9188457952


# 2. Using LDA Model in Gensim

In [17]:
# Importing Gensim
import gensim
from gensim import corpora

Using Theano backend.


In [18]:
doc_clean = [doc.split() for doc in seg_list]  

In [19]:
# Creating the term dictionary of our courpus, where every unique term is assigned an index.
dictionary = corpora.Dictionary(doc_clean)

In [None]:
# Converting list of documents (corpus) into Document Term Matrix using dictionary prepared above.
doc_term_matrix = [dictionary.doc2bow(doc) for doc in doc_clean]

In [None]:
# Creating the object for LDA model using gensim library
Lda = gensim.models.ldamodel.LdaModel
# Running and Trainign LDA model on the document term matrix.
ldamodel = Lda(doc_term_matrix, num_topics=10, id2word = dictionary, passes=50)

In [None]:
# print(ldamodel.print_topics(num_topics=10, num_words=10))

# It seems that NMF gives better topics, go with NMF with 10 topics

In [None]:
def hand_label_topics(H, vocabulary):
    '''
    Print the most influential words of each latent topic, and prompt the user
    to label each topic. The user should use their humanness to figure out what
    each latent topic is capturing.
    '''
    hand_labels = []
    for i, row in enumerate(H):
        top_five = np.argsort(row)[::-1][:20]
        print 'topic', i
        print '-->', ' '.join(vocabulary[top_five])
        label = raw_input('please label this topic: ')
        hand_labels.append(label)
        print
    return hand_labels

In [None]:
vocabulary = np.array(tfidf_feature_names)
hand_labels = hand_label_topics(H, vocabulary)

In [None]:
topic_dict = {}
for i, topic in enumerate(hand_labels):
    topic_dict[i] = topic.decode('utf-8')

In [None]:
perfume_topic = {}
for i, row in enumerate(W):
    perfume_topic[i] = topic_dict[np.argsort(row)[-1]]

In [None]:
# convert dictionary to dataframe for join convenience
perfume_topic_df = pd.DataFrame.from_dict(perfume_topic, orient='index')
# change coumn name in perfume_topic_df
perfume_topic_df.rename(columns={0:'keywords'}, inplace=True)

In [None]:
perfume_topic_df

In [None]:
keywords_df = raw_df.join(perfume_topic_df, how='left')
keywords_df.drop(['url'], inplace=True)

In [None]:
keywords_df