# 分词部分

In [1]:
import os 
import re

import jieba
import json
import pandas as pd

In [2]:
### ONLY FOR TEST
def test_segmentation(poem, user_dict=None):   
    for s in poem:
        seg_list = jieba.cut(s, cut_all=False)  
        print('/'.join(list(seg_list)))
        
def run_test_1(user_dict=None):
    poem = ['秦川雄帝宅，函谷壯皇居。', '綺殿千尋起，離宮百雉餘。', '連甍遙接漢，飛觀迥凌虛。', '雲日隱層闕，風煙出綺疎。']
    print('Poem #1')
    test_segmentation(poem, user_dict)
    
    poem = ['遠山媚平楚，宿雨漲清溪。', '沿泝任舟檝，歡言無町畦。', '夜深忽梦少年事，梦啼妆泪红阑干']
    print('Poem #2')
    test_segmentation(poem, user_dict)
    
    poem = ['剑外忽传收蓟北，初闻涕泪满衣裳。',
            '却看妻子愁何在，漫卷诗书喜欲狂。',
            '白日放歌须纵酒，青春作伴好还乡。',
            '即从巴峡穿巫峡，便下襄阳向洛阳。']
    print('Poem #3')
    test_segmentation(poem, user_dict)
    
    poem = ['明月几时有，把酒问青天。', '不知天上宫阙，今夕是何年。', '我欲乘风归去，又恐琼楼玉宇，高处不胜寒。', '起舞弄清影，何似在人间。',
              '转朱阁，低绮户，照无眠。', '不应有恨，何事长向别时圆。', '人有悲欢离合，月有阴晴圆缺，此事古难全。', '但愿人长久，千里共婵娟。']
    print('Poem #4')
    test_segmentation(poem, user_dict)

In [3]:
LYRIC_DIR = './ci/'
POEM_DIR = './json/'

## 唐诗

先测试一下jieba分词的原始分词功能，以下诗句明显分错：
+ 秦川/雄帝/宅/
+ 沿/泝/任舟/檝/，/歡言/無/町/畦/
+ /月/有/阴晴圆/缺/

In [4]:
run_test_1()

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\30561\AppData\Local\Temp\jieba.cache


Poem #1


Loading model cost 0.610 seconds.
Prefix dict has been built successfully.


秦川/雄帝/宅/，/函谷壯/皇居/。
綺/殿/千尋起/，/離宮/百雉/餘/。
連/甍/遙/接漢/，/飛觀/迥凌虛/。
雲日/隱層/闕/，/風煙出/綺/疎/。
Poem #2
遠山媚/平楚/，/宿雨漲/清溪/。
沿/泝/任舟/檝/，/歡言/無/町/畦/。
夜深/忽梦/少年/事/，/梦啼妆泪/红/阑干
Poem #3
剑外/忽/传收/蓟北/，/初闻/涕泪/满/衣裳/。
却/看/妻子/愁/何在/，/漫卷/诗书/喜欲狂/。
白日/放歌/须/纵酒/，/青春/作伴/好/还乡/。
即/从/巴峡/穿/巫峡/，/便/下/襄阳/向/洛阳/。
Poem #4
明月/几时/有/，/把酒/问青天/。
不知/天上/宫阙/，/今夕/是/何年/。
我/欲/乘风/归去/，/又/恐/琼楼玉宇/，/高处不胜/寒/。
起舞/弄清/影/，/何似/在/人间/。
转朱阁/，/低绮户/，/照无眠/。
不/应有/恨/，/何事/长向/别时圆/。
人有/悲欢离合/，/月/有/阴晴圆/缺/，/此事/古难全/。
但愿人长久/，/千里/共/婵娟/。


接下来我的想法是，先根据五字句的前两个字和七字句的前四个字构建词典，然后以此作为分词词典对整句进行分词。

我用了全唐诗和全宋诗作为数据集来构建词典。经测试，比只使用全唐诗更加精确。

In [5]:
poems = []
file_list = os.listdir(POEM_DIR)
for file in file_list:
    if file.startswith('poet.'):
        poems.append(pd.read_json(f'{POEM_DIR}{file}'))
poem_df = pd.concat(poems, ignore_index=True)

In [6]:
def cut_lines(poem):
    lines = []
    pattern = r',|\.|/|;|\'|`|\[|\]|<|>|\?|:|"|\{|\}|\~|!|@|#|\$|%|\^|&|\(|\)|-|=|\_|\+|，|。|、|；|‘|’|【|】|·|！| |…|（|）'
    for pairs in poem:
        lines.extend(list(filter(lambda x: len(x) > 0, re.split(pattern, pairs))))
    return lines

In [7]:
poem_df['lines'] = poem_df['paragraphs'].apply(cut_lines)

In [8]:
def first_segment(lines):
    words = []
    for line in lines:
        if len(line) == 5: 
            words.append(line[0:2])
        if len(line) == 7: 
            words.append(line[0:2])
            words.append(line[2:4])
    return words

In [9]:
poem_df['dic'] = poem_df['lines'].apply(first_segment)

In [10]:
word_freq = dict()

dictionary = [item for sublist in poem_df['dic'] for item in sublist]
for i in dictionary:
    word_freq[i] = word_freq.get(i, 0) + 1

word_freq = {key:val for key, val in word_freq.items() if val >= 3}

with open('./poem_dict.txt', 'w', encoding='utf-8') as f:
    for k, v in word_freq.items():
        f.write(f'{k} {v}\n')

jieba.set_dictionary('./poem_dict.txt')

测试目前词典的分词效果。可见之前使用原始词典分错的地方都能分对，但是也添加了几处错误：
+ /梦啼妆泪/红/阑/干
+ /初闻涕/泪满/衣裳/
+ 我欲/乘风/归/去/

但是目前我们只关心唐诗的五字句和七字句的后三个字的分词，所以可以认为效果明显变好，毕竟“雄/帝宅”，“任/舟檝”，“無/町畦”等都能分对。

In [11]:
run_test_1()

Building prefix dict from E:\MA2\DH-412\project-local\poem_dict.txt ...


Poem #1


Dumping model to file cache C:\Users\30561\AppData\Local\Temp\jieba.u53ba07b57d0a1d675a3fbbe9e1a833d8.cache
Loading model cost 0.275 seconds.
Prefix dict has been built successfully.


秦川/雄/帝宅/，/函谷/壯/皇居/。
綺/殿/千尋/起/，/離宮/百雉/餘/。
連甍/遙接漢/，/飛觀/迥/凌虛/。
雲日/隱層/闕/，/風煙/出/綺疎/。
Poem #2
遠山/媚/平楚/，/宿雨/漲/清溪/。
沿泝/任/舟檝/，/歡言/無/町畦/。
夜深/忽梦/少年/事/，/梦啼妆泪/红/阑/干
Poem #3
剑外/忽/传收/蓟北/，/初闻涕/泪满/衣裳/。
却看/妻子/愁/何在/，/漫卷/诗书/喜欲狂/。
白日/放歌/须/纵酒/，/青春/作伴/好/还/乡/。
即/从/巴峡/穿/巫峡/，/便下/襄阳/向/洛阳/。
Poem #4
明月/几时/有/，/把酒/问/青天/。
不知/天上/宫阙/，/今夕/是何/年/。
我欲/乘风/归/去/，/又恐/琼楼/玉宇/，/高处/不胜寒/。
起舞/弄/清影/，/何似/在人/间/。
转朱阁/，/低绮户/，/照无眠/。
不应/有恨/，/何事/长向别/时/圆/。
人有/悲欢/离合/，/月有/阴晴/圆缺/，/此事/古难全/。
但愿/人长/久/，/千里/共婵娟/。


之后根据词典对后三个字再次进行分词，并据此扩充词典：

In [12]:
def addition_segment(phrase):
    result = jieba.lcut(phrase, cut_all=False)     
    if len(result) != 2:
        return phrase
    if len(result[0]) == 2:
        return result[0]
    return result[1]

def second_segment(lines):
    words = []
    for line in lines:
        if len(line) == 5:
            words.append(line[0:2])
            words.append(addition_segment(line[2:]))
        if len(line) == 7:
            words.append(line[0:2])
            words.append(line[2:4])
            words.append(addition_segment(line[4:]))
    return words

In [13]:
poem_df['dic_total'] = poem_df['lines'].apply(second_segment)

In [14]:
word_freq = dict()
dictionary = [item for sublist in poem_df['dic_total'] for item in sublist]
for i in dictionary:
    word_freq[i] = word_freq.get(i, 0) + 1

word_freq = {key:val for key, val in word_freq.items() if val >= 3}

with open('./whole_poem_dict.txt', 'w', encoding='utf-8') as f:
    for k, v in word_freq.items():
        f.write(f'{k} {v}\n')

jieba.set_dictionary('./whole_poem_dict.txt')

第二次的分词效果如下，可见效果再次变好，我觉得和上次的分词效果相当，虽然修正了“初闻/涕泪/满/衣裳”，但是“却看/妻子/愁何/在”又分错了。

In [15]:
run_test_1()

Building prefix dict from E:\MA2\DH-412\project-local\whole_poem_dict.txt ...


Poem #1


Dumping model to file cache C:\Users\30561\AppData\Local\Temp\jieba.uea27f0f562c78c0d2f19290727d1303d.cache
Loading model cost 0.314 seconds.
Prefix dict has been built successfully.


秦川/雄/帝宅/，/函谷/壯/皇居/。
綺/殿/千尋/起/，/離宮/百雉/餘/。
連甍/遙接漢/，/飛觀/迥/凌虛/。
雲日/隱層/闕/，/風煙/出/綺疎/。
Poem #2
遠山/媚/平楚/，/宿雨/漲/清溪/。
沿泝/任/舟檝/，/歡言/無/町畦/。
夜深/忽梦/少年/事/，/梦啼妆泪/红/阑/干
Poem #3
剑外/忽/传收/蓟北/，/初闻/涕泪/满/衣裳/。
却看/妻子/愁何/在/，/漫卷/诗书/喜欲狂/。
白日/放歌/须/纵酒/，/青春/作伴/好/还/乡/。
即/从/巴峡/穿/巫峡/，/便下/襄阳/向/洛阳/。
Poem #4
明月/几时/有/，/把酒/问/青天/。
不知/天上/宫阙/，/今夕/是何/年/。
我欲/乘风/归/去/，/又恐/琼楼/玉宇/，/高处/不胜寒/。
起舞/弄/清影/，/何似/在人/间/。
转朱阁/，/低绮户/，/照无眠/。
不应/有恨/，/何事/长向别/时/圆/。
人有/悲欢/离合/，/月有/阴晴/圆缺/，/此事/古难全/。
但愿/人长/久/，/千里/共婵娟/。


总结，jieba分词很有问题，词典中单词的频率并不能有效改善分词结果。比如在自定义的词典中，明明没有“愁何”，而且“何在”出现了很多次，但jieba仍然分成了“愁何/在”。

jieba的这个问题已经讨论了好几年了：
https://github.com/fxsjy/jieba/issues/14

## 宋词

我本想人工划分意向，但有些名句出现得太例外：
+ 六字句通常划分方式各异，最常见的为222式，但有的名句与众不同：七八个星天外，两三点雨山前。
+ “满江红”此句与别句的划分方式都不同：“驾长车，踏破贺兰山缺”，加之“贺兰山”是地名，故最好不要人工划分。

所以只能重回之前用的套路，先提取五字句中的前两个字和七字句中的前四字扩充词典，再根据扩充后的词典分词。

In [16]:
lyrics = []
file_list = os.listdir(LYRIC_DIR)
for file in file_list:
    if file.startswith('ci.song'):
        lyrics.append(pd.read_json(f'{LYRIC_DIR}{file}'))
lyric_df = pd.concat(lyrics, ignore_index=True)
lyric_df

Unnamed: 0,author,paragraphs,rhythmic,tags,prologue
0,和岘,"[气和玉烛，睿化著鸿明。, 缇管一阳生。, 郊禋盛礼燔柴毕，旋轸凤凰城。, 森罗仪卫振华缨。...",导引,,
1,和岘,"[严夜警，铜莲漏迟迟。, 清禁肃，森陛戟，羽卫俨皇闱。, 角声励，钲鼓攸宜。, 金管成雅奏，...",六州,,
2,和岘,"[承宝运，驯致隆平。, 鸿庆被寰瀛。, 时清俗阜，治定功成。, 遐迩咏由庚。, 严郊祀，文物...",十二时・忆少年,,
3,王禹,"[雨恨云愁，江南依旧称佳丽。, 水村渔市。, 一缕孤烟细。, 天际征鸿，遥认行如缀。, 平生...",点绛唇,,
4,苏易简,"[神仙神仙瑶池宴。, 片片。, 碧桃零落春风晚。, 翠云开处，隐隐金舆挽。, 玉麟背冷清风远。]",越江吟,,
...,...,...,...,...,...
21048,范成大,"[催下珠帘护绮丛。, 花枝红里烛枝红。, 烛光花影夜葱茏。, 锦地绣天香雾里，珠星璧月彩云中...",浣溪沙,,
21049,范成大,"[送尽残春更出游。, 风前踪迹似沙鸥。, 浅斟低唱小淹留。, 月见西楼清夜醉，雨添南浦绿波愁...",浣溪沙,,
21050,范成大,"[歙浦钱塘一水通。, 闲云如幕碧重重。, 吴山应在碧云东。, 无力海棠风淡荡，半眠官柳日葱茏...",浣溪沙,,
21051,范成大,"[宝髻双双出绮丛。, 妆光梅影各春风。, 收灯时候却相逢。, 鱼子笺中此宛转，龙香拨上语玲珑...",浣溪沙,,


词牌名概览。出现次数最多的15个词牌名占了宋词的三分之一：

In [17]:
rhythm_df = lyric_df.groupby(['rhythmic']).count()
rhythm_df.sort_values(by='paragraphs', ascending=False).head(15)

Unnamed: 0_level_0,author,paragraphs,tags,prologue
rhythmic,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
浣溪沙,776,776,16,1
水调歌头,743,743,45,0
鹧鸪天,657,657,19,0
菩萨蛮,598,598,9,0
满江红,549,549,30,0
西江月,490,490,7,2
临江仙,482,482,13,0
念奴娇,432,432,28,0
减字木兰花,425,425,4,0
沁园春,423,423,28,0


In [18]:
lyric_df['lines'] = lyric_df['paragraphs'].apply(cut_lines)

In [19]:
lyric_df['dic'] = lyric_df['lines'].apply(first_segment)
lyric_df['dic']

0        [睿化, 缇管, 郊禋, 盛礼, 旋轸, 森罗, 仪卫, 载路, 皇图, 大业, 垂象, 九...
1                         [铜莲, 羽卫, 金管, 属景, 盛德, 三秀, 合尧, 蹈咏]
2        [鸿庆, 遐迩, 星拱, 布羽, 明德, 神降, 万乘, 肃銮, 玉帛, 皇泽, 普率, 睿...
3                                     [江南, 依旧, 一缕, 遥认, 谁会]
4                             [神仙, 神仙, 碧桃, 零落, 隐隐, 玉麟, 背冷]
                               ...                        
21048     [催下, 珠帘, 花枝, 红里, 烛光, 花影, 锦地, 绣天, 珠星, 璧月, 人间, 别有]
21049     [送尽, 残春, 风前, 踪迹, 浅斟, 低唱, 月见, 西楼, 雨添, 南浦, 有人, 无计]
21050     [歙浦, 钱塘, 闲云, 如幕, 吴山, 应在, 无力, 海棠, 半眠, 官柳, 眼前, 春色]
21051     [宝髻, 双双, 妆光, 梅影, 收灯, 时候, 鱼子, 笺中, 龙香, 拨上, 明朝, 车马]
21052     [红锦, 障泥, 解鞍, 呼渡, 马骄, 不肯, 茅店, 竹篱, 绛裙, 青袂, 临平, 风物]
Name: dic, Length: 21053, dtype: object

In [20]:
word_freq = dict()
dictionary = [item for sublist in poem_df['dic'] for item in sublist]
lyric_dictionary = [item for sublist in lyric_df['dic'] for item in sublist]
dictionary.extend(lyric_dictionary)
for i in dictionary:
    word_freq[i] = word_freq.get(i, 0) + 1

word_freq = {key:val for key, val in word_freq.items() if val >= 3}
    
with open('./lyric_dict.txt', 'w', encoding='utf-8') as f:
    for k, v in word_freq.items():
        f.write(f'{k} {v * 100}\n')

jieba.set_dictionary('./lyric_dict.txt')

In [21]:
def lyric_second_segment(lines):
    words = []
    for line in lines:
        if len(line) == 5:
            words.append(line[0:2])
            words.append(addition_segment(line[2:]))
        if len(line) == 7:
            words.append(line[0:2])
            words.append(line[2:4])
            words.append(addition_segment(line[4:]))
        else:
            tmp = jieba.lcut(line, cut_all=False)
            words.extend(list(filter(lambda x: len(x) >= 2, tmp)))
    return words

In [22]:
lyric_df['dic_total'] = lyric_df['lines'].apply(lyric_second_segment)

Building prefix dict from E:\MA2\DH-412\project-local\lyric_dict.txt ...
Dumping model to file cache C:\Users\30561\AppData\Local\Temp\jieba.uad4ccb26c07432c8ccc88f552723303f.cache
Loading model cost 0.286 seconds.
Prefix dict has been built successfully.


In [23]:
run_test_1()

Poem #1
秦川/雄/帝宅/，/函谷/壯/皇居/。
綺/殿/千尋/起/，/離宮/百雉/餘/。
連甍/遙接漢/，/飛觀/迥/凌虛/。
雲日/隱層/闕/，/風煙/出/綺疎/。
Poem #2
遠山/媚/平楚/，/宿雨/漲/清溪/。
沿泝/任/舟檝/，/歡言/無/町畦/。
夜深/忽梦/少年/事/，/梦/啼妆/泪红/阑干
Poem #3
剑外/忽/传收/蓟北/，/初闻/涕泪/满/衣裳/。
却看/妻子/愁/何在/，/漫卷/诗书/喜欲狂/。
白日/放歌/须/纵酒/，/青春/作伴/好/还/乡/。
即/从/巴峡/穿/巫峡/，/便下/襄阳/向/洛阳/。
Poem #4
明月/几时/有/，/把酒/问/青天/。
不知/天上/宫阙/，/今夕/是何/年/。
我欲/乘风/归去/，/又恐/琼楼/玉宇/，/高处/不胜/寒/。
起舞/弄/清影/，/何似/在人/间/。
转/朱阁/，/低绮户/，/照/无眠/。
不应/有恨/，/何事/长向/别时/圆/。
人有/悲欢/离合/，/月有/阴晴/圆缺/，/此事/古难全/。
但愿/人长/久/，/千里/共/婵娟/。


最后一次分词的结果。“却看/妻子/愁/何在”终于分对了，虽然“梦/啼妆/泪红/阑干”分错，但是我们只关心对后三个字的分词，所以无伤大雅。最关键的是，“转/朱阁”终于分出来了，“千里/共/婵娟”的“婵娟”也分出来了。但是上述几个分词词典都没正确地分出“但愿/人长/久”，我看字典里没有“长久”和“人长”，所以我认为是它随便分了。

总结一下我的想法：

假设：五字句AABBB的前两个字AA，七字句AABBCCC的前四个字AA和BB，统一视为可以直接提取出来的“好意象”。当然这个规律也有例外，但是我只找到白居易的“家在虾蟆陵下住”这一个反例，我觉得只是因为白居易本来就专门写通俗化口语化的诗。后三个字的分法大相径庭，所以需要借助分词工具。

做法：
1. 先用唐诗和宋诗的“好意象”构建词典，然后用得到的词典对五字句AABBB的后三个字BBB，七字句AABBCCC的后三个字CCC分词。用对BBB和CCC的分词结果扩充词典。
2. 唐诗的分词完成。分词结果就是好意象+后三个字的分词。
3. 用宋词里的五字句的和七字句的“好意象”扩充词典，对宋词其他句式进行分词，
4. 宋词的分词完成。分词结果就是：
        对于五字句和七字句：好意象+后三个字的分词；
        对于其他句式：整句的分词结果

In [24]:
song_df = lyric_df

poems = []
file_list = os.listdir(POEM_DIR)
for file in file_list:
    if file.startswith('poet.tang'):
        poems.append(pd.read_json(f'{POEM_DIR}{file}'))
tang_df = pd.concat(poems, ignore_index=True)
tang_df['lines'] = tang_df['paragraphs'].apply(cut_lines)
jieba.set_dictionary('./poem_dict.txt')
tang_df['dic_total'] = tang_df['lines'].apply(second_segment)
jieba.set_dictionary('./lyric_dict.txt')

Building prefix dict from E:\MA2\DH-412\project-local\poem_dict.txt ...
Loading model from cache C:\Users\30561\AppData\Local\Temp\jieba.u53ba07b57d0a1d675a3fbbe9e1a833d8.cache
Loading model cost 0.198 seconds.
Prefix dict has been built successfully.


总之，目前可以使用tang_df['dic_total']和song_df['dic_total']来看唐诗和宋词的分词结果：

In [25]:
tang_df

Unnamed: 0,author,paragraphs,title,id,tags,lines,dic_total
0,太宗皇帝,"[秦川雄帝宅，函谷壯皇居。, 綺殿千尋起，離宮百雉餘。, 連甍遙接漢，飛觀迥凌虛。, 雲日隱...",帝京篇十首 一,3ad6d468-7ff1-4a7b-8b24-a27d70d00ed4,,"[秦川雄帝宅, 函谷壯皇居, 綺殿千尋起, 離宮百雉餘, 連甍遙接漢, 飛觀迥凌虛, 雲日隱...","[秦川, 帝宅, 函谷, 皇居, 綺殿, 千尋, 離宮, 百雉, 連甍, 遙接漢, 飛觀, ..."
1,太宗皇帝,"[巖廊罷機務，崇文聊駐輦。, 玉匣啓龍圖，金繩披鳳篆。, 韋編斷仍續，縹帙舒還卷。, 對此乃...",帝京篇十首 二,13e72581-968b-457f-b381-a3b7d95b8b7c,,"[巖廊罷機務, 崇文聊駐輦, 玉匣啓龍圖, 金繩披鳳篆, 韋編斷仍續, 縹帙舒還卷, 對此乃...","[巖廊, 機務, 崇文, 聊駐, 玉匣, 龍圖, 金繩, 鳳篆, 韋編, 仍續, 縹帙, 舒..."
2,太宗皇帝,"[移步出詞林，停輿欣武宴。, 琱弓寫明月，駿馬疑流電。, 驚雁落虛弦，啼猿悲急箭。, 閱賞誠...",帝京篇十首 三,a7ff247d-a11c-4ca9-a22f-ca420b8c537c,,"[移步出詞林, 停輿欣武宴, 琱弓寫明月, 駿馬疑流電, 驚雁落虛弦, 啼猿悲急箭, 閱賞誠...","[移步, 詞林, 停輿, 欣武宴, 琱弓, 明月, 駿馬, 流電, 驚雁, 虛弦, 啼猿, ..."
3,太宗皇帝,"[鳴笳臨樂館，眺聽歡芳節。, 急管韻朱絃，清歌凝白雪。, 彩鳳肅來儀，玄鶴紛成列。, 去茲鄭...",帝京篇十首 四,fa374b2b-c196-4362-b4ad-8931fc9a8860,,"[鳴笳臨樂館, 眺聽歡芳節, 急管韻朱絃, 清歌凝白雪, 彩鳳肅來儀, 玄鶴紛成列, 去茲鄭...","[鳴笳, 臨樂館, 眺聽, 芳節, 急管, 朱絃, 清歌, 凝白, 彩鳳, 來儀, 玄鶴, ..."
4,太宗皇帝,"[芳辰追逸趣，禁苑信多奇。, 橋形通漢上，峰勢接雲危。, 煙霞交隱映，花鳥自參差。, 何如肆...",帝京篇十首 五,86952cb3-b622-4398-a56a-01dd39f6c6ec,,"[芳辰追逸趣, 禁苑信多奇, 橋形通漢上, 峰勢接雲危, 煙霞交隱映, 花鳥自參差, 何如肆...","[芳辰, 追逸趣, 禁苑, 多奇, 橋形, 漢上, 峰勢, 接雲危, 煙霞, 隱映, 花鳥,..."
...,...,...,...,...,...,...,...
57607,梁鍠,"[莫向嵩山去，神仙多誤人。, 不如朝魏闕，天子重賢臣。]",贈李中華,bc3a22df-2cf8-43a7-971b-f0dd9b51e6d6,,"[莫向嵩山去, 神仙多誤人, 不如朝魏闕, 天子重賢臣]","[莫向, 嵩山, 神仙, 多誤, 不如, 魏闕, 天子, 賢臣]"
57608,梁鍠,"[刻木牽絲作老翁，雞皮鶴髮與真同。, 須臾弄罷寂無事，還似人生一夢中。]",詠木老人,8190cf76-f2af-400c-a09d-8877e9b25a62,,"[刻木牽絲作老翁, 雞皮鶴髮與真同, 須臾弄罷寂無事, 還似人生一夢中]","[刻木, 牽絲, 老翁, 雞皮, 鶴髮, 真同, 須臾, 弄罷, 寂無, 還似, 人生, 一夢]"
57609,梁鍠,[堂高憑上望，宅廣乘車行。],句,69b236e5-0a72-4f82-a581-7d8d83122f6c,,"[堂高憑上望, 宅廣乘車行]","[堂高, 憑上望, 宅廣, 乘車]"
57610,杜儼,"[書劒催人不暫閑，洛陽羈旅復秦關。, 容顏歲歲愁邊改，鄉國時時夢裏還。]",客中作,735c5425-745a-4a91-97e3-e6d262dce5fc,,"[書劒催人不暫閑, 洛陽羈旅復秦關, 容顏歲歲愁邊改, 鄉國時時夢裏還]","[書劒, 催人, 暫閑, 洛陽, 羈旅, 秦關, 容顏, 歲歲, 愁邊, 鄉國, 時時, 夢裏]"


In [26]:
song_df

Unnamed: 0,author,paragraphs,rhythmic,tags,prologue,lines,dic,dic_total
0,和岘,"[气和玉烛，睿化著鸿明。, 缇管一阳生。, 郊禋盛礼燔柴毕，旋轸凤凰城。, 森罗仪卫振华缨。...",导引,,,"[气和玉烛, 睿化著鸿明, 缇管一阳生, 郊禋盛礼燔柴毕, 旋轸凤凰城, 森罗仪卫振华缨, ...","[睿化, 缇管, 郊禋, 盛礼, 旋轸, 森罗, 仪卫, 载路, 皇图, 大业, 垂象, 九...","[和玉, 睿化, 著鸿明, 睿化, 著鸿明, 缇管, 一阳, 一阳, 郊禋, 盛礼, 燔柴,..."
1,和岘,"[严夜警，铜莲漏迟迟。, 清禁肃，森陛戟，羽卫俨皇闱。, 角声励，钲鼓攸宜。, 金管成雅奏，...",六州,,,"[严夜警, 铜莲漏迟迟, 清禁肃, 森陛戟, 羽卫俨皇闱, 角声励, 钲鼓攸宜, 金管成雅奏...","[铜莲, 羽卫, 金管, 属景, 盛德, 三秀, 合尧, 蹈咏]","[夜警, 铜莲, 迟迟, 铜莲漏, 迟迟, 清禁, 陛戟, 羽卫, 俨皇闱, 羽卫, 俨皇闱..."
2,和岘,"[承宝运，驯致隆平。, 鸿庆被寰瀛。, 时清俗阜，治定功成。, 遐迩咏由庚。, 严郊祀，文物...",十二时・忆少年,,,"[承宝运, 驯致隆平, 鸿庆被寰瀛, 时清俗阜, 治定功成, 遐迩咏由庚, 严郊祀, 文物声...","[鸿庆, 遐迩, 星拱, 布羽, 明德, 神降, 万乘, 肃銮, 玉帛, 皇泽, 普率, 睿...","[承宝运, 驯致, 隆平, 鸿庆, 寰瀛, 鸿庆, 寰瀛, 时清, 俗阜, 治定, 功成, ..."
3,王禹,"[雨恨云愁，江南依旧称佳丽。, 水村渔市。, 一缕孤烟细。, 天际征鸿，遥认行如缀。, 平生...",点绛唇,,,"[雨恨云愁, 江南依旧称佳丽, 水村渔市, 一缕孤烟细, 天际征鸿, 遥认行如缀, 平生事,...","[江南, 依旧, 一缕, 遥认, 谁会]","[雨恨, 云愁, 江南, 依旧, 佳丽, 水村, 渔市, 一缕, 孤烟, 一缕, 孤烟, 天..."
4,苏易简,"[神仙神仙瑶池宴。, 片片。, 碧桃零落春风晚。, 翠云开处，隐隐金舆挽。, 玉麟背冷清风远。]",越江吟,,,"[神仙神仙瑶池宴, 片片, 碧桃零落春风晚, 翠云开处, 隐隐金舆挽, 玉麟背冷清风远]","[神仙, 神仙, 碧桃, 零落, 隐隐, 玉麟, 背冷]","[神仙, 神仙, 瑶池, 片片, 碧桃, 零落, 春风, 翠云, 开处, 隐隐, 金舆, 隐..."
...,...,...,...,...,...,...,...,...
21048,范成大,"[催下珠帘护绮丛。, 花枝红里烛枝红。, 烛光花影夜葱茏。, 锦地绣天香雾里，珠星璧月彩云中...",浣溪沙,,,"[催下珠帘护绮丛, 花枝红里烛枝红, 烛光花影夜葱茏, 锦地绣天香雾里, 珠星璧月彩云中, ...","[催下, 珠帘, 花枝, 红里, 烛光, 花影, 锦地, 绣天, 珠星, 璧月, 人间, 别有]","[催下, 珠帘, 护绮丛, 花枝, 红里, 烛枝, 烛光, 花影, 夜葱, 锦地, 绣天, ..."
21049,范成大,"[送尽残春更出游。, 风前踪迹似沙鸥。, 浅斟低唱小淹留。, 月见西楼清夜醉，雨添南浦绿波愁...",浣溪沙,,,"[送尽残春更出游, 风前踪迹似沙鸥, 浅斟低唱小淹留, 月见西楼清夜醉, 雨添南浦绿波愁, ...","[送尽, 残春, 风前, 踪迹, 浅斟, 低唱, 月见, 西楼, 雨添, 南浦, 有人, 无计]","[送尽, 残春, 更出, 风前, 踪迹, 沙鸥, 浅斟, 低唱, 小淹, 月见, 西楼, 清..."
21050,范成大,"[歙浦钱塘一水通。, 闲云如幕碧重重。, 吴山应在碧云东。, 无力海棠风淡荡，半眠官柳日葱茏...",浣溪沙,,,"[歙浦钱塘一水通, 闲云如幕碧重重, 吴山应在碧云东, 无力海棠风淡荡, 半眠官柳日葱茏, ...","[歙浦, 钱塘, 闲云, 如幕, 吴山, 应在, 无力, 海棠, 半眠, 官柳, 眼前, 春色]","[歙浦, 钱塘, 一水, 闲云, 如幕, 重重, 吴山, 应在, 碧云, 无力, 海棠, 淡..."
21051,范成大,"[宝髻双双出绮丛。, 妆光梅影各春风。, 收灯时候却相逢。, 鱼子笺中此宛转，龙香拨上语玲珑...",浣溪沙,,,"[宝髻双双出绮丛, 妆光梅影各春风, 收灯时候却相逢, 鱼子笺中此宛转, 龙香拨上语玲珑, ...","[宝髻, 双双, 妆光, 梅影, 收灯, 时候, 鱼子, 笺中, 龙香, 拨上, 明朝, 车马]","[宝髻, 双双, 出绮丛, 妆光, 梅影, 春风, 收灯, 时候, 相逢, 鱼子, 笺中, ..."
