In [2]:
import jieba
from collections import Counter

# 示例文本
text = "请告严程尽，西归道路寒。欲陪鹰隼集，犹恋鹡鸰单。洛邑人全少，嵩高雪尚残。满台谁不故，报我在微官。"

# 使用 Jieba 分词
words = jieba.lcut(text)

# 统计词频
word_counts = Counter(words)

# 构建词表
vocab = sorted(word_counts, key=word_counts.get, reverse=True)
word_to_index = {word: idx for idx, word in enumerate(vocab)}
index_to_word = {idx: word for word, idx in word_to_index.items()}

# 定义编码函数
def encode(text):
    words = jieba.lcut(text)
    return [word_to_index[word] for word in words if word in word_to_index]

# 定义解码函数
def decode(indices):
    return ' '.join(index_to_word[idx] for idx in indices if idx in index_to_word)

# 示例编码和解码
encoded_text = encode(text)
decoded_text = decode(encoded_text)

print("原始文本:", text)
print("编码结果:", encoded_text)
print("解码结果:", decoded_text)


原始文本: 请告严程尽，西归道路寒。欲陪鹰隼集，犹恋鹡鸰单。洛邑人全少，嵩高雪尚残。满台谁不故，报我在微官。
编码结果: [2, 3, 4, 0, 5, 6, 7, 1, 8, 9, 10, 11, 0, 12, 13, 14, 15, 1, 16, 17, 18, 0, 19, 20, 1, 21, 22, 23, 24, 0, 25, 26, 27, 28, 1]
解码结果: 请告 严程 尽 ， 西归 道路 寒 。 欲 陪 鹰隼 集 ， 犹恋 鹡 鸰 单 。 洛邑 人 全少 ， 嵩高雪尚 残 。 满台 谁 不 故 ， 报 我 在 微官 。


In [3]:
import jieba
from collections import Counter
import pickle
import os

# 示例文本
text = "请告严程尽，西归道路寒。欲陪鹰隼集，犹恋鹡鸰单。洛邑人全少，嵩高雪尚残。满台谁不故，报我在微官。"

# 文件路径
VOCAB_FILE ="./tang/vocab.pkl"

# 检查词表文件是否存在
if not os.path.exists(VOCAB_FILE):
    # 使用 Jieba 分词
    words = jieba.lcut(text)

    # 统计词频
    word_counts = Counter(words)

    # 构建词表
    vocab = sorted(word_counts, key=word_counts.get, reverse=True)
    word_to_index = {word: idx for idx, word in enumerate(vocab)}
    index_to_word = {idx: word for word, idx in word_to_index.items()}

    # 保存词表映射
    with open(VOCAB_FILE, 'wb') as f:
        pickle.dump((word_to_index, index_to_word), f)
else:
    # 加载词表映射
    with open(VOCAB_FILE, 'rb') as f:
        word_to_index, index_to_word = pickle.load(f)

# 定义编码函数
def encode(text):
    words = jieba.lcut(text)
    return [word_to_index[word] for word in words if word in word_to_index]

# 定义解码函数
def decode(indices):
    return ' '.join(index_to_word[idx] for idx in indices if idx in index_to_word)

# 示例编码和解码
encoded_text = encode(text)
decoded_text = decode(encoded_text)

print("原始文本:", text)
print("编码结果:", encoded_text)
print("解码结果:", decoded_text)


原始文本: 请告严程尽，西归道路寒。欲陪鹰隼集，犹恋鹡鸰单。洛邑人全少，嵩高雪尚残。满台谁不故，报我在微官。
编码结果: [2, 3, 4, 0, 5, 6, 7, 1, 8, 9, 10, 11, 0, 12, 13, 14, 15, 1, 16, 17, 18, 0, 19, 20, 1, 21, 22, 23, 24, 0, 25, 26, 27, 28, 1]
解码结果: 请告 严程 尽 ， 西归 道路 寒 。 欲 陪 鹰隼 集 ， 犹恋 鹡 鸰 单 。 洛邑 人 全少 ， 嵩高雪尚 残 。 满台 谁 不 故 ， 报 我 在 微官 。


In [3]:
from opencc import OpenCC

cc = OpenCC('t2s')
text = ["迨成祖，遷燕京，十七世，至崇禎。",
		"權閹肆，寇如林，至李闖，神器焚。",
		"清太祖，膺景命，靖四方，克大定。",
		"廿一史，全在茲，載治亂，知興衰。",
		"讀史者，考實錄，通古今，若親目。",
		"口而誦，心而惟，朝於斯，夕於斯。",
		"昔仲尼，師項橐，古聖賢，尚勤學。",
		"趙中令，讀魯論，彼既仕，學且勤。",
		"披蒲編，削竹簡，彼無書，且知勉。",
		"頭懸梁，錐刺股，彼不教，自勤苦。",
		"如囊螢，如映雪，家雖貧，學不輟。",
		"如負薪，如掛角，身雖勞，猶苦卓。",
		"蘇老泉，二十七，始發奮，讀書籍。",
		"彼既老，猶悔遲，爾小生，宜早思。",
		"若梁灝，八十二，對大廷，魁多士。",
		"彼既成，眾稱異，爾小生，宜立誌。",
		"瑩八歲，能詠詩，泌七歲，能賦碁。",
		"彼穎悟，人稱奇，爾幼學，當效之。",
		"蔡文姬，能辨琴，謝道韞，能詠吟。",
		"彼女子，且聰敏，爾男子，當自警。",
		"唐劉晏，方七歲，舉神童，作正字。",
		"彼雖幼，身已仕，爾幼學，勉而致。",
		"有為者，亦若是。",
		"犬守夜，雞司晨，茍不學，曷為人？",
		"蠶吐絲，蜂釀蜜，人不學，不如物。",
		"幼而學，壯而行，上致君，下澤民。",
		"揚名聲，顯父母，光於前，裕於後。",
		"人遺子，金滿籯，我教子，惟一經。",
		"勤有功，戲無益，戒之哉，宜勉力。"]
for sec in text:
	print(cc.convert(sec))


迨成祖，迁燕京，十七世，至崇祯。
权阉肆，寇如林，至李闯，神器焚。
清太祖，膺景命，靖四方，克大定。
廿一史，全在兹，载治乱，知兴衰。
读史者，考实录，通古今，若亲目。
口而诵，心而惟，朝于斯，夕于斯。
昔仲尼，师项橐，古圣贤，尚勤学。
赵中令，读鲁论，彼既仕，学且勤。
披蒲编，削竹简，彼无书，且知勉。
头悬梁，锥刺股，彼不教，自勤苦。
如囊萤，如映雪，家虽贫，学不辍。
如负薪，如挂角，身虽劳，犹苦卓。
苏老泉，二十七，始发奋，读书籍。
彼既老，犹悔迟，尔小生，宜早思。
若梁灏，八十二，对大廷，魁多士。
彼既成，众称异，尔小生，宜立志。
莹八岁，能咏诗，泌七岁，能赋碁。
彼颖悟，人称奇，尔幼学，当效之。
蔡文姬，能辨琴，谢道韫，能咏吟。
彼女子，且聪敏，尔男子，当自警。
唐刘晏，方七岁，举神童，作正字。
彼虽幼，身已仕，尔幼学，勉而致。
有为者，亦若是。
犬守夜，鸡司晨，茍不学，曷为人？
蚕吐丝，蜂酿蜜，人不学，不如物。
幼而学，壮而行，上致君，下泽民。
扬名声，显父母，光于前，裕于后。
人遗子，金满籯，我教子，惟一经。
勤有功，戏无益，戒之哉，宜勉力。


In [9]:
import json
import os
import re
from opencc import OpenCC

def json2txt(path, save_path, key='paragraphs'):
	# 读取 JSON 文件
	with open(path, 'r', encoding='utf-8') as file:
		data_list = json.load(file)

	# 提取所有 paragraphs 字段
	all_paragraphs = []

	for item in data_list:

		paragraphs = item.get(key, [])
		poem = str()
		for paragraph in paragraphs:
			# 删除破折号及其后面的内容
			if '——' in paragraph:
				paragraph = paragraph.split('——')[0].strip()
				paragraph = re.sub(r'[a-zA-Z0-9]', '', paragraph)
			poem+=paragraph
		all_paragraphs.append(poem)

	# 保存所有 paragraphs
	with open(save_path, 'a', encoding='utf-8') as output_file:
		for paragraph in all_paragraphs:
			output_file.write(cc.convert(paragraph)+'<|endoftext|>'+"\n")

def process_folder(folder_path, save_path, key='paragraphs'):
    # 遍历文件夹中的所有文件
    for filename in os.listdir(folder_path):
        if filename.endswith('.json'):
            file_path = os.path.join(folder_path, filename)
            json2txt(file_path, save_path, key)

cc = OpenCC('t2s')
# 使用示例
folder_path = r"E:\dataset\chinese-poetry-master\御定全唐詩\json"
folder_path2 = r"E:\dataset\chinese-poetry-master\曹操诗集"
folder_path3 = r"E:\dataset\chinese-poetry-master\楚辞"

# process_folder(r"E:\dataset\chinese-poetry-master\纳兰性德", "./tang/nanlan.txt", key='para')

process_folder(r"E:\dataset\chinese-poetry-master\全唐诗", r"./tang/quantang.txt")
folder_path6 = r"E:\dataset\chinese-poetry-master\五代诗词\huajianji"

# process_folder(folder_path6, "./tang/huajianji.txt")
# process_folder(r"E:\dataset\chinese-poetry-master\五代诗词\nantang", r"./tang/nantang.txt")

In [1]:
folder = "./tang"
import os
import jieba
from collections import Counter

def read_files_in_folder(folder_path):
    texts = []
    for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                texts.append(file.read())
    return texts

def build_vocab(texts, special_token='$$'):
    # 将所有文本合并成一个字符串
    combined_text = ''.join(texts)

    # 使用 jeiba 分词
    words = list(jieba.cut(combined_text))

    # 处理特殊符号
    special_tokens = [special_token]
    words.extend(special_tokens * combined_text.count(special_token))

    # 统计词频
    word_counts = Counter(words)

    # 构建词表
    vocab = list(word_counts.keys())
    return vocab

def save_vocab(vocab, save_path):
    with open(save_path, 'w', encoding='utf-8') as file:
        for word in vocab:
            file.write(word + '\n')

# 使用示例
folder_path = "./tang"
special_token = '<|endoftext|>'
save_path = "./tang/vocab.txt"

# 读取文件夹中的所有 .txt 文件
texts = read_files_in_folder(folder_path)

# 构建词表
vocab = build_vocab(texts, special_token)

# 保存词表
save_vocab(vocab, save_path)


ModuleNotFoundError: No module named 'jeiba'

In [2]:
import numpy as np
import jieba

# 加载 .npz 文件
loaded_data = np.load('./tang/word_index_mapping.npz')

# 提取数组
words = loaded_data['words']
indices = loaded_data['indices']

# 重新构建字典
word_to_index = {word: index for word, index in zip(words, indices)}
index_to_word = {index: word for index, word in zip(indices, words)}

# 打印验证
print("word_to_index:", word_to_index)
print("index_to_word:", index_to_word)

# 定义编码函数
def encode_text(text, word_to_index):
    tokens = list(jieba.cut(text))
    indices = [word_to_index[token] for token in tokens if token in word_to_index]
    return indices

# 定义解码函数
def decode_indices(indices, index_to_word):
    tokens = [index_to_word[index] for index in indices if index in index_to_word]
    decoded_text = ''.join(tokens)
    return decoded_text

# 示例输入文本
input_text = "我喜欢编程"

# 编码
encoded_indices = encode_text(input_text, word_to_index)
print("Encoded Indices:", encoded_indices)

# 解码
decoded_text = decode_indices(encoded_indices, index_to_word)
print("Decoded Text:", decoded_text)


IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\HP\AppData\Local\Temp\jieba.cache
IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)

Loading model cost 0.726 seconds.
Prefix dict has been built successfully.


Encoded Indices: [6, 17484]
Decoded Text: 我喜欢


## 直接加载词表进行分词和encoder

In [4]:
def load_vocab(vocab_file):
    with open(vocab_file, 'r', encoding='utf-8') as f:
        vocab = [line.strip() for line in f.readlines()]
    word_to_index = {word: idx for idx, word in enumerate(vocab)}
    index_to_word = {idx: word for idx, word in enumerate(vocab)}
    return word_to_index, index_to_word

# 加载词汇表
vocab_file = './tang/vocab.txt'
word_to_index, index_to_word = load_vocab(vocab_file)



In [8]:
def tokenize_with_vocab(text, vocab):
    tokens = []
    i = 0
    while i < len(text):
        max_len = min(len(text) - i, max(len(word) for word in vocab))
        found = False
        for length in range(max_len, 0, -1):
            candidate = text[i:i + length]
            if candidate in vocab:
                tokens.append(candidate)
                i += length
                found = True
                break
        if not found:
            tokens.append(text[i])
            i += 1
    return tokens

def encode_text_with_vocab(text, word_to_index, vocab):
    tokens = tokenize_with_vocab(text, vocab)
    print("Tokens from vocab:", tokens)  # 打印分词结果

    encoded_indices = []
    for token in tokens:
        if token in word_to_index:
            encoded_indices.append(word_to_index[token])
        else:
            # 处理未知词，可以选择跳过或使用特殊标记
            unknown_token = '[UNK]'
            if unknown_token in word_to_index:
                encoded_indices.append(word_to_index[unknown_token])
            else:
                encoded_indices.append(len(word_to_index))  # 假设 [UNK] 是最后一个词
            print(f"Unknown token '{token}' replaced with '{unknown_token}'")  # 打印未知词替换信息
    return encoded_indices

def decode_indices(indices, index_to_word):
    tokens = [index_to_word.get(index, '[UNK]') for index in indices]  # 处理未知索引
    decoded_text = ''.join(tokens)
    return decoded_text

# 示例输入文本
# input_text = "<|endoftext|>舳舻衔尾日无虚，更凿都城引漕渠。何事馁来贪雀谷，不知留得几年储。竹影桐阴满旧山，凤凰多载不飞还。登台只有吹箫者，争得和鸣堕世间。<|endoftext|>"
input_text = "明主不弃士，我自志山林。爵服岂无华，才疏力难任。鸟向深山栖，鱼由深渊沉。吾亦爱吾庐，高歌复微吟。<|endoftext|>深岩有老翁，庞眉须鬓雪。夜半呼我名，授我微妙诀。字画古籀样，体势讹复缺。双眸忽炯炯，须臾竟披阅。至今得其传，心会口难说。"

# 获取词汇表列表
vocab = list(word_to_index.keys())

# 编码
encoded_indices = encode_text_with_vocab(input_text, word_to_index, vocab)
print("Encoded Indices:", encoded_indices)

# 解码
# decoded_text = decode_indices(encoded_indices, index_to_word)
# print("Decoded Text:", decoded_text)


Tokens from vocab: ['明主', '不弃士', '，', '我', '自志', '山林', '。', '爵服', '岂', '无华', '，', '才', '疏力', '难任', '。', '鸟向', '深山', '栖', '，', '鱼', '由', '深渊', '沉', '。', '吾', '亦', '爱吾庐', '，', '高歌', '复微吟', '。', '<|endoftext|>', '深岩', '有', '老翁', '，', '庞眉须', '鬓雪', '。', '夜半', '呼', '我名', '，', '授', '我', '微妙', '诀', '。', '字画', '古', '籀', '样', '，', '体势', '讹', '复缺', '。', '双眸', '忽', '炯炯', '，', '须臾', '竟', '披阅', '。', '至今', '得', '其传', '，', '心会口', '难说', '。']
Encoded Indices: [10764, 10765, 1, 99, 10766, 10767, 4, 10768, 61, 10769, 1, 1410, 10770, 5067, 4, 10771, 8741, 472, 1, 4698, 1040, 10772, 5171, 4, 194, 769, 10773, 1, 6057, 10774, 4, 1273723, 10775, 24, 10776, 1, 10777, 30432, 4, 2809, 10778, 269071, 1, 10779, 99, 10780, 10781, 4, 10782, 8927, 10783, 10784, 1, 10785, 10786, 9487, 4, 10787, 3901, 10788, 1, 10485, 1246, 10789, 4, 95, 167, 10790, 1, 10791, 3103, 4]


## 使用jieba加载本地词表，进行分词

In [13]:
import jieba

def load_vocab(vocab_file):
    with open(vocab_file, 'r', encoding='utf-8') as f:
        vocab = [line.strip() for line in f.readlines()]
    return vocab

# 加载词汇表
vocab_file = './tang/vocab.txt'
vocab = load_vocab(vocab_file)

# 将词汇表添加到 jieba 的用户词典
for word in vocab:
    jieba.add_word(word)
def encode_text_with_vocab(text, word_to_index):
    tokens = list(jieba.cut(text))
    print("Tokens from jieba:", tokens)  # 打印分词结果

    encoded_indices = []
    for token in tokens:
        if token in word_to_index:
            encoded_indices.append(word_to_index[token])
        else:
            # 处理未知词，可以选择跳过或使用特殊标记
            unknown_token = '[UNK]'
            if unknown_token in word_to_index:
                encoded_indices.append(word_to_index[unknown_token])
            else:
                encoded_indices.append(len(word_to_index))  # 假设 [UNK] 是最后一个词
            print(f"Unknown token '{token}' replaced with '{unknown_token}'")  # 打印未知词替换信息
    return encoded_indices

def decode_indices(indices, index_to_word):
    tokens = [index_to_word.get(index, '[UNK]') for index in indices]  # 处理未知索引
    decoded_text = ''.join(tokens)
    return decoded_text

# 示例输入文本
input_text = "<|endoftext|>舳舻衔尾日无虚，更凿都城引漕渠。何事馁来贪雀谷，不知留得几年储。竹影桐阴满旧山，凤凰多载不飞还。登台只有吹箫者，争得和鸣堕世间。<|endoftext|>"

# 加载词汇表
vocab_file = './tang/vocab.txt'
vocab = load_vocab(vocab_file)

# 将词汇表添加到 jieba 的用户词典
for word in vocab:
    jieba.add_word(word)

# 加载词汇表并构建映射
word_to_index = {word: idx for idx, word in enumerate(vocab)}
index_to_word = {idx: word for idx, word in enumerate(vocab)}

# 编码
encoded_indices = encode_text_with_vocab(input_text, word_to_index)
print("Encoded Indices:", encoded_indices)

# 解码
decoded_text = decode_indices(encoded_indices, index_to_word)
print("Decoded Text:", decoded_text)


Tokens from jieba: ['<', '|', 'endoftext', '|', '>', '舳舻', '衔尾', '日无虚', '，', '更凿', '都城', '引', '漕渠', '。', '何事', '馁', '来', '贪雀谷', '，', '不知', '留得', '几年', '储', '。', '竹影', '桐阴满', '旧山', '，', '凤凰', '多载', '不飞', '还', '。', '登台', '只有', '吹箫', '者', '，', '争得', '和', '鸣', '堕', '世间', '。', '<', '|', 'endoftext', '|', '>']
Encoded Indices: [67, 68, 69, 68, 70, 10670, 10671, 10672, 1, 329805, 10674, 4590, 10675, 4, 1702, 10676, 110, 10677, 1, 1062, 5881, 2412, 255, 4, 7153, 10678, 10679, 1, 1316, 10680, 10681, 363, 4, 10682, 10617, 4286, 46, 1, 10527, 2332, 2982, 829, 4296, 4, 67, 68, 69, 68, 70]
Decoded Text: <|endoftext|>舳舻衔尾日无虚，更凿都城引漕渠。何事馁来贪雀谷，不知留得几年储。竹影桐阴满旧山，凤凰多载不飞还。登台只有吹箫者，争得和鸣堕世间。<|endoftext|>
