In [1]:
# a49586 ../data/tlds_data_mc4_tw_000.json
!sha1sum ../data/tlds_data_mc4_tw_000.json

a495865eb20822c8eac1f56f976ea7e0cca44f55 *../data/tlds_data_mc4_tw_000.json


In [2]:
from pathlib import Path
import json
data = json.loads(Path("../data/tlds_data_mc4_tw_000.json").read_text(encoding="UTF-8"))
len(data)

8000

## Simple tokens

In [3]:
import re
from tqdm.auto import tqdm
from collections import Counter

tok_pat = re.compile(r"[a-zA-Z0-9./%<>]+|[^\s\x00-\x31]")
tok_freq = Counter()
for data_x in tqdm(data):
  toks = tok_pat.findall(data_x["text"])
  tok_freq.update(toks)

  0%|          | 0/8000 [00:00<?, ?it/s]

In [4]:
len(tok_freq)

53696

In [5]:
[(tok,freq) for tok, freq in tok_freq.most_common() if re.match("[一-龜]", tok)][:10]

[('的', 88862),
 ('一', 30795),
 ('學', 27586),
 ('人', 27391),
 ('是', 25457),
 ('國', 24166),
 ('有', 23559),
 ('大', 22822),
 ('中', 22133),
 ('年', 21987)]

In [6]:
[(tok,freq) for tok, freq in tok_freq.most_common() if re.match(".{2,}", tok)][:10]

[('10', 3076),
 ('11', 2480),
 ('12', 2319),
 ('2019', 2099),
 ('...', 1977),
 ('2018', 1805),
 ('iPhone', 1775),
 ('00', 1695),
 ('the', 1540),
 ('30', 1470)]

In [7]:
[(tok,freq) for tok, freq in tok_freq.most_common() if re.match(".{2,}", tok)][100:110]

[('XS', 280),
 ('Taiwan', 279),
 ('1A', 272),
 ('..', 271),
 ('false', 269),
 ('TwBsBall', 265),
 ('4.', 263),
 ('101', 257),
 ('else', 257),
 ('sqrt', 257)]

In [8]:
[(tok,freq) for tok, freq in tok_freq.most_common() if re.match("[\U0001F300-\U0001FAFF]", tok)][:10]

[('👉', 21),
 ('🔸', 12),
 ('🌸', 11),
 ('📣', 10),
 ('📌', 6),
 ('🙋', 6),
 ('🎯', 5),
 ('🔥', 4),
 ('🌏', 4),
 ('🏃', 4)]

In [9]:
from nltk.util import bigrams

bg_freq = Counter()
for data_x in tqdm(data):
  toks = tok_pat.findall(data_x["text"])
  bgs = ["".join(x) for x in bigrams(toks)]
  bg_freq.update(bgs)

  0%|          | 0/8000 [00:00<?, ?it/s]

In [10]:
print([x[0] for x in bg_freq.most_common(100)], sep=" ")

['台灣', '我們', '活動', '教育', '大學', '計畫', '可以', '教學', '服務', '，並', '國際', '一個', '工作', '學生', '公司', '資訊', '自己', '」，', '研究', '，但', '，也', '政府', '，以', '文化', '，我', '時間', '，不', '，在', '設計', '生活', '中心', '發展', '國小', '資料', '世界', '後，', '，這', '提供', '中國', '，而', '臺灣', '使用', '管理', '保護', '沒有', '，讓', '就是', '新聞', '第一', '台北', '因為', '經濟', '高雄', '學習', '科技', '學計', '相關', '畫表', '時，', '玻璃', '，因', '產業', '學校', '全球', '環境', '他們', '教授', '年度', '進行', '國家', '社會', '，一', '藝術', '美國', '，就', '問題', '中，', '企業', '日期', '這個', '..', '日本', '課程', '外，', '開始', '老師', '北市', '系統', '以及', '大家', '表示', '：「', '透過', '，他', '委員', '網路', '，是', '合作', '辦理', '安全']


## Cleaned dataset

In [11]:
import re
from tqdm.auto import tqdm
from collections import Counter

stop_pat = re.compile(r"[^\u3300-\u9fff，。！？\s]")
space_pat = re.compile(r"\s+")
ctok_freq = Counter()
cleaned_data = []
for data_x in tqdm(data):  
  proc_text = stop_pat.sub("", data_x["text"])
  data_x["text"] = space_pat.sub(" ", proc_text)
  cleaned_data.append(data_x)  

  0%|          | 0/8000 [00:00<?, ?it/s]

In [12]:
out_path = Path("../data/tlds_data_mc4_tw_000.zhonly.json")
out_path.write_text(json.dumps(cleaned_data, ensure_ascii=False, indent=2), encoding="UTF-8")

5550906

In [13]:
# e43acb *../data/tlds_data_mc4_tw_000.zhonly.json
!sha1sum ../data/tlds_data_mc4_tw_000.zhonly.json

e43acb8fd8e44e8a149e3e25b37ca1734d7dee43 *../data/tlds_data_mc4_tw_000.zhonly.json
