In [2]:
import os
import numpy as np

num_topics = 20
mallet_vocab = []
word_topic_counts = []


with open("/Users/koitaroh/Documents/GitHub/GeoTweetCollector/data/word-topic-tweet-20150709.txt") as f:
    for line in f:
        _, word, *topic_count_pairs = line.rstrip().split(' ')
        topic_count_pairs = [pair.split(':') for pair in topic_count_pairs]
        mallet_vocab.append(word)
        counts = np.zeros(num_topics)
        for topic, count in topic_count_pairs:
            counts[int(topic)] = int(count)
        word_topic_counts.append(counts)

word_topic = np.array(word_topic_counts)

In [3]:
word_topic.shape

(383187, 20)

In [4]:
# np.sum(word_topic, axis=0) sums across rows, so it yields totals of words assigned to topics
word_topic = word_topic / np.sum(word_topic, axis=0)

In [5]:
num_top_words = 10
mallet_vocab = np.array(mallet_vocab)  # convert vocab from a list to an array so we can use NumPy operations on it
for t in range(num_topics):
    top_words_idx = np.argsort(word_topic[:,t])[::-1]  # descending order
    top_words_idx = top_words_idx[:num_top_words]
    top_words = mallet_vocab[top_words_idx]
    top_words_shares = word_topic[top_words_idx, t]
    print("Topic #{}:".format(t))
    for word, share in zip(top_words, top_words_shares):
        print("{} : {}".format(np.round(share, 3), word))

Topic #0:
0.046 : 俺
0.037 : 人
0.033 : いい
0.017 : ない
0.016 : 言っ
0.016 : 誰
0.016 : 言わ
0.015 : れる
0.015 : 自分
0.012 : 思っ
Topic #1:
0.044 : 人
0.036 : くれ
0.024 : みんな
0.023 : ありがと
0.019 : 楽しかっ
0.016 : 一緒
0.013 : 歳
0.012 : 幸せ
0.011 : めっちゃ
0.011 : 大好き
Topic #2:
0.085 : o
0.065 : ありがとう
0.057 : ござい
0.053 : ﾟ
0.051 : ️
0.039 : ︎
0.032 : 今日
0.022 : おはよう
0.022 : お願い
0.02 : よろしく
Topic #3:
0.131 : w
0.076 : ω
0.035 : ww
0.034 : www
0.031 : д
0.026 : いい
0.021 : ﾉ
0.016 : やばい
0.016 : ノ
0.01 : ぁ
Topic #4:
0.031 : 見
0.021 : ｗ
0.016 : 感じ
0.016 : みたい
0.01 : 顔
0.01 : 思っ
0.009 : なかっ
0.009 : 前
0.007 : なく
0.006 : いい
Topic #5:
0.025 : t
0.013 : 買っ
0.013 : 円
0.01 : 中
0.009 : 欲しい
0.008 : ライブ
0.006 : 曲
0.006 : 枚
0.005 : 買う
0.004 : 服
Topic #6:
0.039 : in
0.034 : 東京
0.033 : 駅
0.021 : 区
0.018 : 都
0.018 : 大阪
0.017 : なう
0.014 : 店
0.012 : sta
0.011 : タッチ
Topic #7:
0.027 : いる
0.021 : する
0.02 : 人
0.012 : 的
0.011 : 自分
0.011 : 事
0.009 : もの
0.008 : 者
0.006 : なく
0.006 : 思う
Topic #8:
0.054 : 一
0.05 : 好き
0.047 : する
0.047 : 方
0.0

In [9]:
import matplotlib.pyplot as plt
num_top_words = 10
fontsize_base = 70 / np.max(word_topic) # font size for word with largest share in corpus
for t in range(num_topics):
    plt.subplot(1, num_topics, t + 1)  # plot numbering starts with 1
    plt.ylim(0, num_top_words + 0.5)  # stretch the y-axis to accommodate the words
    plt.xticks([])  # remove x-axis markings ('ticks')
    plt.yticks([]) # remove y-axis markings ('ticks')
    plt.title('Topic #{}'.format(t))
    top_words_idx = np.argsort(word_topic[:,t])[::-1]  # descending order
    top_words_idx = top_words_idx[:num_top_words]
    top_words = mallet_vocab[top_words_idx]
    top_words_shares = word_topic[top_words_idx, t]
    for i, (word, share) in enumerate(zip(top_words, top_words_shares)):
        plt.text(0.3, num_top_words-i-0.5, word, fontsize=fontsize_base*share)

In [7]:
# plt.tight_layout()



In [10]:
plt.show()

In [11]:
np.sum(word_topic > 0, axis=0)

array([19068, 18518, 18691, 22348, 23874, 28370, 32568, 29494, 17203,
       19244, 25775, 17144, 17022, 28045, 21672, 25645, 19678, 20036,
       20790, 21662])