In [1]:
import random
from itertools import islice

In [2]:
import os
import json

# 路徑設定為 "Data" 資料夾
folder_path = './Data/Origin/'
files = os.listdir(folder_path)

# 初始化一個空的 tri-gram 列表
all_tri_grams = []

# 讀取資料夾中的所有檔案
allContent = []

for file in files:
    with open(folder_path + file, 'r', encoding='utf-8') as fileRead:
        tempFileJSON = json.load(fileRead)
        tempContentList = tempFileJSON['Context']
        allContent.extend(tempContentList)
        # 生成 tri-grams 而不是 bi-grams
        tri_grams = [(tempContentList[i-2], tempContentList[i-1], tempContentList[i]) for i in range(2, len(tempContentList))]
        all_tri_grams.extend(tri_grams)
        
allContent[:10]  # 顯示前10個內容項目

['\u3000', '\u3000', '一', '\u3000', '\u3000', '这', '是', '我', '第', '三']

In [3]:
all_tri_grams[:3000]

[('\u3000', '\u3000', '一'),
 ('\u3000', '一', '\u3000'),
 ('一', '\u3000', '\u3000'),
 ('\u3000', '\u3000', '这'),
 ('\u3000', '这', '是'),
 ('这', '是', '我'),
 ('是', '我', '第'),
 ('我', '第', '三'),
 ('第', '三', '次'),
 ('三', '次', '到'),
 ('次', '到', '这'),
 ('到', '这', '里'),
 ('这', '里', '来'),
 ('里', '来', '，'),
 ('来', '，', '屋'),
 ('，', '屋', '里'),
 ('屋', '里', '的'),
 ('里', '的', '摆'),
 ('的', '摆', '设'),
 ('摆', '设', '还'),
 ('设', '还', '是'),
 ('还', '是', '很'),
 ('是', '很', '陈'),
 ('很', '陈', '旧'),
 ('陈', '旧', '。'),
 ('旧', '。', '我'),
 ('。', '我', '局'),
 ('我', '局', '促'),
 ('局', '促', '不'),
 ('促', '不', '安'),
 ('不', '安', '的'),
 ('安', '的', '站'),
 ('的', '站', '着'),
 ('站', '着', '，'),
 ('着', '，', '双'),
 ('，', '双', '手'),
 ('双', '手', '在'),
 ('手', '在', '胸'),
 ('在', '胸', '前'),
 ('胸', '前', '不'),
 ('前', '不', '停'),
 ('不', '停', '的'),
 ('停', '的', '揉'),
 ('的', '揉', '搓'),
 ('揉', '搓', '着'),
 ('搓', '着', '“'),
 ('着', '“', '我'),
 ('“', '我', '…'),
 ('我', '…', '…'),
 ('…', '…', '我'),
 ('…', '我', '这'),
 ('我', '这', '次'),
 ('这', '次', '…'),
 

In [4]:
# 計算 Tri-gram 頻率並應用 Add-one smoothing
tri_gram_freq = {}
word_pair_freq = {}
V = len(set(allContent))  # 詞彙的大小（詞彙中不重複單詞的數量）

In [5]:
# 初始化 word_pair_freq，包括平滑
for word1, word2 in [(tg[0], tg[1]) for tg in tri_grams]:
    word_pair_freq[(word1, word2)] = V

In [6]:
# 計算未平滑的 tri-gram 頻率
for tri_gram in tri_grams:
    tri_gram_freq[tri_gram] = tri_gram_freq.get(tri_gram, 0) + 1
    word_pair_freq[(tri_gram[0], tri_gram[1])] += 1

In [7]:
dict(islice(tri_gram_freq.items(), 500))

{('\u3000', '\u3000', '我'): 2,
 ('\u3000', '我', '有'): 1,
 ('我', '有', '一'): 1,
 ('有', '一', '小'): 1,
 ('一', '小', '学'): 1,
 ('小', '学', '（'): 1,
 ('学', '（', '云'): 1,
 ('（', '云', '师'): 1,
 ('云', '师', '附'): 1,
 ('师', '附', '小'): 1,
 ('附', '小', '）'): 1,
 ('小', '）', '女'): 1,
 ('）', '女', '同'): 1,
 ('女', '同', '学'): 1,
 ('同', '学', '，'): 2,
 ('学', '，', '但'): 1,
 ('，', '但', '只'): 1,
 ('但', '只', '同'): 1,
 ('只', '同', '年'): 1,
 ('同', '年', '级'): 1,
 ('年', '级', '不'): 1,
 ('级', '不', '同'): 1,
 ('不', '同', '班'): 1,
 ('同', '班', '，'): 1,
 ('班', '，', '名'): 1,
 ('，', '名', '邓'): 1,
 ('名', '邓', '银'): 1,
 ('邓', '银', '华'): 4,
 ('银', '华', '，'): 2,
 ('华', '，', '我'): 1,
 ('，', '我', '今'): 1,
 ('我', '今', '天'): 1,
 ('今', '天', '来'): 1,
 ('天', '来', '讲'): 1,
 ('来', '讲', '她'): 1,
 ('讲', '她', '家'): 1,
 ('她', '家', '的'): 1,
 ('家', '的', '一'): 1,
 ('的', '一', '则'): 1,
 ('一', '则', '故'): 1,
 ('则', '故', '事'): 1,
 ('故', '事', '。'): 1,
 ('事', '。', '邓'): 1,
 ('。', '邓', '银'): 1,
 ('银', '华', '不'): 1,
 ('华', '不', '但'): 1,
 ('不', '但', '成'): 1

In [8]:
dict(islice(word_pair_freq.items(), 2000))

{('\u3000', '\u3000'): 5912,
 ('\u3000', '我'): 5896,
 ('我', '有'): 5895,
 ('有', '一'): 5896,
 ('一', '小'): 5895,
 ('小', '学'): 5895,
 ('学', '（'): 5895,
 ('（', '云'): 5895,
 ('云', '师'): 5895,
 ('师', '附'): 5895,
 ('附', '小'): 5895,
 ('小', '）'): 5895,
 ('）', '女'): 5895,
 ('女', '同'): 5895,
 ('同', '学'): 5896,
 ('学', '，'): 5896,
 ('，', '但'): 5901,
 ('但', '只'): 5895,
 ('只', '同'): 5895,
 ('同', '年'): 5895,
 ('年', '级'): 5895,
 ('级', '不'): 5895,
 ('不', '同'): 5895,
 ('同', '班'): 5896,
 ('班', '，'): 5895,
 ('，', '名'): 5895,
 ('名', '邓'): 5895,
 ('邓', '银'): 5898,
 ('银', '华'): 5898,
 ('华', '，'): 5896,
 ('，', '我'): 5907,
 ('我', '今'): 5895,
 ('今', '天'): 5895,
 ('天', '来'): 5895,
 ('来', '讲'): 5895,
 ('讲', '她'): 5895,
 ('她', '家'): 5895,
 ('家', '的'): 5896,
 ('的', '一'): 5895,
 ('一', '则'): 5896,
 ('则', '故'): 5895,
 ('故', '事'): 5895,
 ('事', '。'): 5895,
 ('。', '邓'): 5895,
 ('华', '不'): 5895,
 ('不', '但'): 5895,
 ('但', '成'): 5895,
 ('成', '绩'): 5895,
 ('绩', '好'): 5895,
 ('好', '，'): 5896,
 ('，', '人'): 5895,
 ('人', '也'): 589

In [9]:
# 計算概率
tri_gram_probs = {tri_gram: freq / word_pair_freq[(tri_gram[0], tri_gram[1])] for tri_gram, freq in tri_gram_freq.items()}

In [10]:
dict(islice(tri_gram_probs.items(), 500))

{('\u3000', '\u3000', '我'): 0.00033829499323410016,
 ('\u3000', '我', '有'): 0.00016960651289009497,
 ('我', '有', '一'): 0.00016963528413910093,
 ('有', '一', '小'): 0.00016960651289009497,
 ('一', '小', '学'): 0.00016963528413910093,
 ('小', '学', '（'): 0.00016963528413910093,
 ('学', '（', '云'): 0.00016963528413910093,
 ('（', '云', '师'): 0.00016963528413910093,
 ('云', '师', '附'): 0.00016963528413910093,
 ('师', '附', '小'): 0.00016963528413910093,
 ('附', '小', '）'): 0.00016963528413910093,
 ('小', '）', '女'): 0.00016963528413910093,
 ('）', '女', '同'): 0.00016963528413910093,
 ('女', '同', '学'): 0.00016963528413910093,
 ('同', '学', '，'): 0.00033921302578018993,
 ('学', '，', '但'): 0.00016960651289009497,
 ('，', '但', '只'): 0.0001694628029147602,
 ('但', '只', '同'): 0.00016963528413910093,
 ('只', '同', '年'): 0.00016963528413910093,
 ('同', '年', '级'): 0.00016963528413910093,
 ('年', '级', '不'): 0.00016963528413910093,
 ('级', '不', '同'): 0.00016963528413910093,
 ('不', '同', '班'): 0.00016963528413910093,
 ('同', '班', '，'): 0.

In [15]:
# 文本生成
current_words = ('古', '人')
generated_text = []

for _ in range(500):  # 生成100個單詞的文本
    next_words = [tri_gram[2] for tri_gram in tri_gram_probs.keys() if tri_gram[:2] == current_words]
    next_word_probs = [tri_gram_probs[tri_gram] for tri_gram in tri_gram_probs.keys() if tri_gram[:2] == current_words]
    
    # 確保有可選的後續單詞
    if next_words and next_word_probs:
        next_word = random.choices(next_words, weights=next_word_probs)[0]
        generated_text.append(next_word)
        # 更新當前單詞對
        current_words = (current_words[1], next_word)
    else:
        break  # 如果沒有後續單詞，則終止循環

# 生成完整的文本
full_text = ' '.join(generated_text)
print(full_text)

曾 在 上 面 全 是 钢 筋 “ 哗 啦 ” 一 声 横 扫 过 来 的 前 一 瞬 间 ， 老 邓 遇 一 道 家 朋 友 （ 我 不 认 识 ， 但 只 同 年 级 不 同 班 叫 李 冬 华 的 男 生 迷 得 一 愣 一 愣 的 ， 他 是 不 是 琼 瑶 阿 姨 ， 对 这 些 情 啊 爱 啊 天 生 迟 钝 ， 而 且 上 面 还 刻 有 一 小 学 （ 云 师 附 小 ） 女 同 学 ， 但 历 经 岁 月 的 洗 衣 池 内 ， 老 邓 遇 一 道 家 朋 友 看 了 一 两 天 ， 我 老 爸 是 老 城 西 坪 电 影 院 路 口 正 对 的 那 家 。 ） 　 　 老 邓 家 开 的 副 食 店 时 闲 聊 起 来 。 放 到 甲 板 上 一 看 ， 原 来 是 只 巨 龟 似 乎 能 听 懂 人 话 ， 因 为 只 有 这 样 一 件 “ 宝 贝 ” ， 说 放 手 ， 那 也 不 是 办 法 ， 给 我 讲 了 一 遍 ， 与 我 老 爸 与 邓 银 华 ， 于 是 互 留 了 手 机 号 码 。 几 天 后 ， 又 悄 悄 地 转 运 到 滚 装 船 ” （ 专 门 运 载 货 车 司 机 情 急 之 下 ， 本 希 望 此 灵 龟 ” 的 消 息 就 在 钢 筋 的 货 车 司 机 情 急 之 下 ， 这 个 结 语 跟 文 章 主 题 有 关 系 吗 ？ 我 是 不 胜 其 烦 ， 于 是 ， 老 邓 也 算 富 商 ） ， 老 邓 认 为 定 是 宝 贝 ” ， 说 不 定 吃 了 它 就 可 以 不 再 八 卦 。 　 　 船 一 靠 云 阳 人 ， 我 告 诉 你 ， 老 邓 正 在 长 江 。 （ 如 果 看 帖 的 有 老 云 阳 人 ， 我 在 成 都 碰 到 了 水 泥 吧 台 下 爬 出 来 （ 估 计 是 古 人 曾 在 上 面 全 是 钢 筋 扫 过 来 ， 2 0 0 年 左 右 ， 一 次 偶 然 的 机 会 ， 我 也 好 趁 机 卡 张 照 片 让 其 “ 掌 眼 ” ， 说 不 定 主 意 ， 一 网 就 把 它 捞 了 起 来 。 （ 我 不 是 办 法 ， 给 它 拍 了 照 片 让 其 “ 掌 眼 ” ， 说 放 手 就 放 手 ， 那 也 不 是 跑 题 啦 ？ 请 稍 候 片 刻 ， 我 当


In [12]:
print(Output)

NameError: name 'Output' is not defined

In [None]:
# # 將列表中的單詞連接成一個字符串
# combined_text = ''.join(Output)

# # 指定檔案名和路徑
# output_path = './Results/Tri-Gram_CKIP_Long.txt'

# # 寫入文件
# with open(output_path, 'w', encoding='utf-8') as file:
#     file.write(combined_text)

# print("done")

---

In [None]:
# # 計算 bi-gram 頻率並應用 Add-one smoothing
# bi_gram_freq = {}
# V = len(set(allContent))  # 詞彙的大小（詞彙中不重複單詞的數量）
# for bi_gram in all_bi_grams:
#     bi_gram_freq[bi_gram] = bi_gram_freq.get(bi_gram, 0) + 1

In [None]:
# # 應用 Add-one smoothing 到每個頻率
# for bi_gram in bi_gram_freq:
#     bi_gram_freq[bi_gram] += 1

In [None]:
# # 計算概率
# bi_gram_probs = {}
# for bi_gram, freq in bi_gram_freq.items():
#     word, _ = bi_gram
#     word_freq = sum(1 for bg in all_bi_grams if bg[0] == word) + V
#     bi_gram_probs[bi_gram] = freq / word_freq

In [None]:
# # 文本生成
# current_word = '吸血鬼'
# for _ in range(100):  # 生成100個單詞的文本
#     next_words = [pair[1] for pair in bi_gram_probs.keys() if pair[0] == current_word]
#     next_word_probs = [bi_gram_probs[(current_word, next_word)] for next_word in next_words]
    
#     # 確保有可選的後續單詞
#     if next_words and next_word_probs:
#         current_word = random.choices(next_words, weights=next_word_probs)[0]
#         print(current_word, end=' ')
#     else:
#         break  # 如果沒有後續單詞，則終止循環

In [None]:
# # 假設 text 是一個包含大量文本的字符串
# words =   # 分割文本成單詞列表
# bi_grams = [(words[i], words[i + 1]) for i in range(len(words) - 1)]  # 創建 bi-gram 列表

# 建立詞彙表
# vocabulary = set(allContent)  
# word_to_index = {word: i for i, word in enumerate(vocabulary)}

# # 計算 bi-gram 頻率
# bi_gram_freq = {}
# for bi_gram in all_bi_grams:
#     if bi_gram in bi_gram_freq:
#         bi_gram_freq[bi_gram] += 1
#     else:
#         bi_gram_freq[bi_gram] = 1

# # 計算概率
# bi_gram_probs = {}
# for bi_gram, freq in bi_gram_freq.items():
#     word, next_word = bi_gram
#     bi_gram_probs[bi_gram] = freq / allContent.count(word)

# # 文本生成
# current_word = '吸血鬼'
# for _ in range(200):  # 生成100個單詞的文本
#     next_words = [pair[1] for pair in bi_gram_probs.keys() if pair[0] == current_word]
#     next_word_probs = [bi_gram_probs[(current_word, next_word)] for next_word in next_words]
#     current_word = random.choices(next_words, weights=next_word_probs)[0]
#     print(current_word, end=' ')