In [2]:
import pandas as pd
import sys
sys.path.append('../gtm/')
from corpus import GTMCorpus
from gtm_customized import GTM
import pickle as p
import os

In [3]:
def load_examples(language='en'):
  df = pd.read_csv('../data/wiki_shorts/{}/corpus/docs.txt'.format(language), header=None, delimiter='\t')
  df.columns = ['doc_clean']
  # df = df.head(1000)
  return df

In [4]:
def create_dataset(language='en'):
  if not os.path.exists('train_dataset_intfloat-e5-large2-{}.pkl'.format(language)):
    print('Loading examples for {}'.format(language))
    df = load_examples(language)
    train_dataset = GTMCorpus(
      df,
      count_words=True,
      embeddings_type='SentenceTransformer',
      sbert_model_to_load='intfloat/multilingual-e5-large',
      content=None,
      prevalence=None,
      batch_size=64,
      max_seq_length=512)
    print('Saving train_dataset_intfloat-e5-large2-{}.pkl'.format(language))
    with open('train_dataset_intfloat-e5-large2-{}.pkl'.format(language), 'wb') as f:
      p.dump(train_dataset, f)
  else:
    with open('train_dataset_intfloat-e5-large2-{}.pkl'.format(language), 'rb') as f:
      train_dataset = p.load(f)
  return train_dataset

In [5]:
train_dataset_en = create_dataset('en')
train_dataset_zh = create_dataset('zh')

In [23]:
tm_en = GTM(
  train_dataset_en,
  n_topics=6,
  doc_topic_prior='dirichlet', # logistic_normal, dirichlet
  alpha=0.02,
  update_prior=False,
  encoder_input='embeddings', # 'bow', 'embeddings'
  encoder_hidden_layers=[], # structure of the encoder neural net
  decoder_hidden_layers=[256], # structure of the decoder neural net
  encoder_bias=True,
  decoder_bias=True,
  num_epochs=0, # 50 epochs
  print_every=10000,
  dropout=0.0,
  learning_rate=0.01,
  log_every=1,
  w_prior=None,
  batch_size=256,
  patience=5,
	save_path='../ckpt2/task1_en',
  ckpt='../ckpt2/task1_en/best_model.ckpt'
)

Loading checkpoint from ../ckpt2/task1_en/best_model.ckpt
OrderedDict([('encoder.enc_0.weight', tensor([[ 0.4536, -0.7238,  2.6460,  ..., -0.4699, -0.8799,  0.4664],
        [-1.0211, -1.4354, -0.0118,  ...,  1.1624,  0.1975,  0.8284],
        [ 0.5008,  0.8586,  0.2046,  ...,  2.0222, -0.4142,  2.2033],
        [ 1.0811,  1.0285, -1.5761,  ..., -1.6318, -0.7141,  1.8879],
        [-0.7161,  1.5786,  0.5370,  ...,  1.4915, -0.2338, -1.9148],
        [-0.4268, -1.6493, -1.5913,  ..., -2.1195,  1.8097, -3.5316]],
       device='mps:0')), ('encoder.enc_0.bias', tensor([ 0.0139, -0.0108, -0.0522,  0.0589,  0.0621,  0.0035], device='mps:0')), ('decoder.dec_0.weight', tensor([[ 0.0564,  0.0578,  0.0527,  0.2293,  0.0075,  0.1453],
        [-0.0970, -0.0717, -0.0420, -0.1237, -0.0975, -0.1016],
        [-0.0315,  0.1089,  0.1339,  0.0933,  0.0857, -0.0085],
        ...,
        [-0.1515, -0.1384, -0.1487, -0.1940, -0.0943, -0.1760],
        [ 0.0295,  0.0997, -0.2063,  0.1715, -0.1166,  0.118

In [24]:
tm_zh = GTM(
  train_dataset_zh,
  n_topics=6,
  doc_topic_prior='dirichlet', # logistic_normal, dirichlet
  alpha=0.02,
  update_prior=False,
  encoder_input='embeddings', # 'bow', 'embeddings'
  encoder_hidden_layers=[], # structure of the encoder neural net
  decoder_hidden_layers=[256], # structure of the decoder neural net
  encoder_bias=True,
  decoder_bias=True,
  num_epochs=0, # 50 epochs
  print_every=10000,
  dropout=0.0,
  learning_rate=0.01,
  log_every=1,
  w_prior=None,
  batch_size=256,
  patience=5,
	save_path='../ckpt2/task1_zh',
  ckpt='../ckpt2/task1_zh/best_model.ckpt'
)

Loading checkpoint from ../ckpt2/task1_zh/best_model.ckpt
OrderedDict([('encoder.enc_0.weight', tensor([[-2.5862,  2.3856,  0.6800,  ...,  0.2001, -0.2232,  0.7814],
        [ 0.1009,  1.9607,  1.3448,  ..., -2.0893,  0.8314,  0.4029],
        [ 0.6017, -4.6482, -0.7873,  ..., -2.9271,  0.7430,  1.9373],
        [-0.2202,  0.5377, -0.7212,  ...,  1.4909, -0.8829, -0.7499],
        [ 0.1713,  3.5410, -0.4537,  ..., -1.8829, -0.3731, -2.3525],
        [ 2.5962, -2.3525, -0.2180,  ...,  4.2278, -0.2980,  0.3390]],
       device='mps:0')), ('encoder.enc_0.bias', tensor([ 0.1230,  0.0793, -0.0701, -0.0363, -0.0590,  0.0726], device='mps:0')), ('decoder.dec_0.weight', tensor([[ 0.2514,  0.3115,  0.2769,  0.2692, -1.3361,  0.2581],
        [-0.1137, -0.1126, -0.0573, -0.0868, -0.1066, -0.1075],
        [ 0.0126,  0.1058,  0.1348,  0.1351,  0.1111,  0.0319],
        ...,
        [-0.1834, -0.1599, -0.1491, -0.1419, -0.1276, -0.1747],
        [-0.0248,  0.2050, -0.0147,  0.0640, -0.0856,  0.087

In [25]:
import numpy as np

def inspect(tm, ds):
  doc_topic_distribution = tm.get_doc_topic_distribution(ds)

  print('Number of documents per topic')
  print('Topic 0: {}'.format((doc_topic_distribution.argmax(-1) == 0).sum()))
  print('Topic 1: {}'.format((doc_topic_distribution.argmax(-1) == 1).sum()))
  print('Topic 2: {}'.format((doc_topic_distribution.argmax(-1) == 2).sum()))
  print('Topic 3: {}'.format((doc_topic_distribution.argmax(-1) == 3).sum()))
  print('Topic 4: {}'.format((doc_topic_distribution.argmax(-1) == 4).sum()))
  print('Topic 5: {}'.format((doc_topic_distribution.argmax(-1) == 5).sum()))

  # show five random documents per topic
  for topic in range(tm.n_topics):
    print('Topic {}'.format(topic))
    print('xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx')
    for i in np.random.choice(np.where(doc_topic_distribution.argmax(-1) == topic)[0], 5):
      print('=' * 50)
      print(ds.df.iloc[i]['doc_clean'])
      print('----------')
      print('Topic distribution = {}'.format(doc_topic_distribution[i]))

In [26]:
inspect(tm_en, train_dataset_en)

Number of documents per topic
Topic 0: 1896
Topic 1: 1846
Topic 2: 1994
Topic 3: 1940
Topic 4: 1532
Topic 5: 1835
Topic 0
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
leo burdock burdock popular century old fish and chip shop and dublin oldest chipper base the city and its original location werburgh street near christchurch cathedral the first have last through revolution civil war two world war irelands recession boom and bust the late they expand number other location for second time besides local frequent national and international celebrity history burdock found liberty couple bella and patrick burdock the christchurch area dublin ireland together with their son leo after whom they name the business they open number leo burdock fish and chip shop around dublin the lack fuel and ingredient during the second world war force the closure all but the original location more recent time the shop have open new venue around dublin dundrum liffey street rathmines phibsbor

In [27]:
inspect(tm_zh, train_dataset_zh)

Number of documents per topic
Topic 0: 1566
Topic 1: 1499
Topic 2: 1554
Topic 3: 1980
Topic 4: 1842
Topic 5: 1694
Topic 0
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
褐翅绿弄蝶 （ Choaspes xanthopogon ） 也 称 拟 绿 弄蝶 、 黄毛 绿弄蝶 、 清风 藤 绿 弄蝶 ， 是 绿弄蝶 属 的 一 种 弄蝶 。 分布 本 种 分布 于 中国 华西 、 喜马拉雅 山区 、 中南 半岛 北部 与 台湾 中高 海拔 山区 。
----------
Topic distribution = [9.9938929e-01 5.2745076e-04 5.0577864e-06 5.4556301e-07 7.6154181e-05
 1.5621308e-06]
黑 尾 剑 凤蝶 （ Pazala mullah ） 也 称 高岭 升天 凤蝶 、 木生 凤蝶 、 铁木 剑 凤蝶 、 台湾 剑 凤蝶 ， 是 剑 凤蝶 属 中 的 一 种 蝴蝶 。 分布 本 种 分布 于 中国 华东 、 华南 、 华西 、 中南 半岛 北部 、 台湾 本岛 北部 中低 海拔 山区 。 台湾 亚种 之 亚种 名 系以 台北市 成功 高中 教师 陈维寿 先生 命名 。
----------
Topic distribution = [9.9950552e-01 1.3623601e-04 3.4219054e-05 2.3902783e-07 3.2165897e-04
 2.1507956e-06]
圣卡塔琳娜 豚鼠 （ 学名 : Cavia intermedia ） 是 南美 特有 的 一 种 豚鼠 ， 它 被 发现 于 巴西 圣卡塔琳娜州 的 Moleques do Sul 岛 ， 该 岛 面积 仅 有 10.5 公顷 ， 而 圣卡塔琳娜 豚鼠 栖息地 仅 有 4 公顷 。 目前 圣卡塔琳娜 豚鼠 是 世界 上 分布 最为 狭小 的 动物 。 现时 它们 受到 人类 狩猎 的 威胁 。
----------
Topic distribution = [9.9871993e

In [28]:
inspect(tm_en, train_dataset_zh)

Number of documents per topic
Topic 0: 821
Topic 1: 800
Topic 2: 873
Topic 3: 1934
Topic 4: 1570
Topic 5: 4137
Topic 0
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
豉汁 排骨 是 广东 、 香港 和 澳门 地区 常见 的 点心 。 调味 料 有 豉油 、 油 、 麻油 、 糖 、 生粉 、 豆豉 、 蒜头 、 红椒 。 餐馆 的 菜单 常 误 植 为 「 鼓汁 排骨 」 。 料理 豉汁 排骨 的 原料 猪 小 排豉汁 排骨 的 配料 姜片 、 蒜头 瓣 、 小 红椒 个 、 香葱 棵 、 豉汁 排骨 的 调料 豆豉 料酒 大勺 、 酱油 大勺 、 蚝油 大勺 、 盐 小勺 、 糖 小勺 、 胡椒粉 少许 、 香油 小勺 、 淀粉 小勺 豉汁 排骨 的 做法 猪 小 排 用 清水 彻底 洗去 血水 沥干 水分 。 葱 、 姜 、 蒜 、 红 尖椒 切碎 备用 。 将 切 好 的 葱 、 姜 、 蒜 、 红椒 和 所有 腌料 、 豆豉 拌匀 。 把 排骨 放入 腌制 个 小时 左右 入味 。 腌好 的 排骨 放入 盘 中 上 蒸锅 大火 蒸分 。
----------
Topic distribution = [8.26143861e-01 2.01848941e-03 4.95565240e-04 1.10324600e-03
 6.73744082e-02 1.02864444e-01]
蛋诺类 英语 Eggnogeggnog 或 译作 蛋酒 、 甜 蛋酒 又 称 蛋奶 酒 英语 eggmilkpunch 是 一 类 饮料 。 主要 成份 为 牛奶 奶油 鸡蛋 再 加入 糖 肉桂 香草 等 香料 。 本身 不 含 酒精 但 可以 在 其中 加入 兰姆酒 白兰地 或者 甜酒 作成 鸡尾酒 以 提升 其 香味 。 最早 起源于 英格兰 英国人 相信 蛋酒 有 治疗 感冒 的 功效 常 在 冬日 食用 。 在 美国 及 加拿大 非常 流行 特别是 在 圣诞节 、 新年 等 冬季 节日 。 做法 生 鸡蛋 打碎 加入 糖粉 和 牛奶 一 起 用 摇 酒杯 摇 倒入坦 布勒杯

In [29]:
inspect(tm_zh, train_dataset_en)

Number of documents per topic
Topic 0: 1264
Topic 1: 3789
Topic 2: 1608
Topic 3: 1824
Topic 4: 1059
Topic 5: 1499
Topic 0
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
the malagasy harrier circus macrosceles bird prey belong the marsh harrier group harrier inhabit madagascar and the comoro islands the indian ocean formerly regard subspecies the runion harrier maillardi but increasingly treat separate specie also know the madagascar harrier madagascar marsh harrier malagasy marsh harrier description about long the female larger than the male the male have blackish back and greyer head with dark streak the underpart and rump whitish and the tail grey with dark bar the forewing and wingtips blackish while the secondary grey with dark bar female browner than the male the runion harrier smaller and darker with shorter leg and shorter more rounded wing male have blacker head and plainer secondary and tail distribution and habitat madagascar find marshland and grassland acr

In [30]:
# write a function to write all examples of the same topic to a file
def write_topic_to_file(topic_id, ds, doc_topic_distribution, path):
  with open(path, 'w') as f:
    for i in np.where(doc_topic_distribution.argmax(-1) == topic_id)[0]:
      f.write(ds.df.iloc[i]['doc_clean'] + '\n')

In [31]:
doc_topic_distribution_en_en = tm_en.get_doc_topic_distribution(train_dataset_en)
doc_topic_distribution_en_zh = tm_en.get_doc_topic_distribution(train_dataset_zh)
doc_topic_distribution_zh_en = tm_zh.get_doc_topic_distribution(train_dataset_en)
doc_topic_distribution_zh_zh = tm_zh.get_doc_topic_distribution(train_dataset_zh)

In [32]:
# read labels
def read_labels(language='en'):
  with open('../data/wiki_shorts/{}/corpus/docs.txt'.format(language), 'r') as file:
    docs = file.readlines()
  with open('../data/wiki_shorts/{}/labels.txt'.format(language), 'r') as file:
    labels = file.readlines()

  # one to one mapping of docs to labels
  doc2label = {}
  for i in range(len(docs)):
    doc2label[docs[i][:100].strip()] = int(labels[i].strip())
  return doc2label

doc2label_en = read_labels('en')
doc2label_zh = read_labels('zh')

In [33]:
import os
def compute_metrics(doc_topic_distribution, train_dataset, path='../data/task1', suffix='en-en'):
  if not os.path.exists(path):
    os.makedirs(path)

  write_topic_to_file(0, train_dataset, doc_topic_distribution, '../data/task1/topic_0_{}.txt'.format(suffix))
  write_topic_to_file(1, train_dataset, doc_topic_distribution, '../data/task1/topic_1_{}.txt'.format(suffix))
  write_topic_to_file(2, train_dataset, doc_topic_distribution, '../data/task1/topic_2_{}.txt'.format(suffix))
  write_topic_to_file(3, train_dataset, doc_topic_distribution, '../data/task1/topic_3_{}.txt'.format(suffix))
  write_topic_to_file(4, train_dataset, doc_topic_distribution, '../data/task1/topic_4_{}.txt'.format(suffix))
  write_topic_to_file(5, train_dataset, doc_topic_distribution, '../data/task1/topic_5_{}.txt'.format(suffix))

  # for each topic, find its majority label
  from collections import defaultdict
  
  def find_majority_label(topic):
    label2cnt = defaultdict(int)
    labels = []
    with open('../data/task1/topic_{}_{}.txt'.format(topic, suffix), 'r') as file:
      lines = file.readlines()
      for line in lines:
        k = line[:100].strip()
        if k in doc2label_en:
          v = doc2label_en[k]
        else:
          v = doc2label_zh[k]
        label2cnt[v] += 1
        labels.append(v)
    predicted = max(label2cnt, key=lambda k: label2cnt[k])
    return label2cnt, labels, predicted


  _, labels_0, predicted_0 = find_majority_label(0)
  _, labels_1, predicted_1 = find_majority_label(1)
  _, labels_2, predicted_2 = find_majority_label(2)
  _, labels_3, predicted_3 = find_majority_label(3)
  _, labels_4, predicted_4 = find_majority_label(4)
  _, labels_5, predicted_5 = find_majority_label(5)
  print(predicted_0, predicted_1, predicted_2, predicted_3, predicted_4, predicted_5)
  final_labels = labels_0 + labels_1 + labels_2 + labels_3 + labels_4 + labels_5
  final_pred = [predicted_0] * len(labels_0) + [predicted_1] * len(labels_1) + [predicted_2] * len(labels_2) + [
    predicted_3] * len(labels_3) + [predicted_4] * len(labels_4) + [predicted_5] * len(labels_5)
  model_pred = [0]*len(labels_0) + [1]*len(labels_1) + [2]*len(labels_2) + [3]*len(labels_3) + [4]*len(labels_4) + [5]*len(labels_5)


  from sklearn.metrics import f1_score, accuracy_score, adjusted_rand_score
  
  f1_macro = f1_score(y_true=final_labels, y_pred=final_pred, average='macro')
  f1_micro = f1_score(y_true=final_labels, y_pred=final_pred, average='micro')
  acc = accuracy_score(y_true=final_labels, y_pred=final_pred)
  ars = adjusted_rand_score(labels_true=final_labels, labels_pred=model_pred)


  print('f1_macro = {}'.format(f1_macro))
  print('f1_micro = {}'.format(f1_micro))
  print('acc = {}'.format(acc))
  print('ars = {}'.format(ars))


In [34]:
compute_metrics(doc_topic_distribution_en_en, train_dataset_en)

5 3 1 0 2 4
f1_macro = 0.9753055610710163
f1_micro = 0.9755501222493888
acc = 0.9755501222493888
ars = 0.9427818013153523


In [35]:
compute_metrics(doc_topic_distribution_en_zh, train_dataset_zh)

5 3 1 0 2 3
f1_macro = 0.5847096474374426
f1_micro = 0.622496299950666
acc = 0.622496299950666
ars = 0.3295871343074609


In [36]:
compute_metrics(doc_topic_distribution_zh_en, train_dataset_en)

2 5 3 0 1 3
f1_macro = 0.6327968781881484
f1_micro = 0.6814271484198134
acc = 0.6814271484198134
ars = 0.41828001565394973


In [37]:
compute_metrics(doc_topic_distribution_zh_zh, train_dataset_zh)

2 5 3 0 1 4
f1_macro = 0.8836679908169569
f1_micro = 0.8870251603354712
acc = 0.8870251603354712
ars = 0.7679993558505064
