# 红楼梦——数据预处理
#### 河南城建学院——信息管理与信息系统
#### masonsxu: masonsxu@qq.com

In [4]:
# 加载数据源
import pandas as pd
RedMansion = pd.read_csv('./data/RedMansion.csv', header=None, names=['content'])
RedMansion

Unnamed: 0,content
0,第1卷
1,第一回 甄士隐梦幻识通灵 贾雨村风尘怀闺秀
2,此开卷第一回也。作者自云：因曾历过一番梦幻之后，故将真事隐去，而借“通灵”之说，撰此<<...
3,此回中凡用“梦”用“幻”等字，是提醒阅者眼目，亦是此书立意本旨。
4,列位看官：你道此书从何而来？说起根由虽近荒唐，细按则深有趣味。待在下将此来历注明，方使阅...
...,...
3049,这一日空空道人又从青埂峰前经过，见那补天未用之石仍在那里，上面字迹依然如旧，又从头的细细...
3050,那空空道人牢牢记着此言，又不知过了几世几劫，果然有个悼红轩，见那曹雪芹先生正在那里翻阅历...
3051,那空空道人听了，仰天大笑，掷下抄本，飘然而去。一面走着，口中说道：“果然是敷衍荒唐！不但...
3052,说到辛酸处，荒唐愈可悲。


In [5]:
# 随机挑选其中的一段进行查看
RedMansion.content[19]

"\u3000\u3000但不知落于何方何处？“那僧笑道：”此事说来好笑，竟是千古未闻的罕事。只因西方灵河岸上三生石畔，有绛珠草一株，时有赤瑕宫神瑛侍者，日以甘露灌溉，这绛珠草始得久延岁月。后来既受天地精华，复得雨露滋养，遂得脱却草胎木质，得换人形，仅修成个女体，终日游于离恨天外，饥则食蜜青果为膳，渴则饮灌愁海水为汤。只因尚未酬报灌溉之德，故其五内便郁结着一段缠绵不尽之意。恰近日这神瑛侍者凡心偶炽，乘此昌明太平朝世，意欲下凡造历幻缘，已在警幻仙子案前挂了号。警幻亦曾问及，灌溉之情未偿，趁此倒可了结的。那绛珠仙子道：。他是甘露之惠，我并无此水可还。他既下世为人，我也去下世为人，但把我一生所有的眼泪还他，也偿还得过他了。'因此一事，就勾出多少风流冤家来，陪他们去了结此案。“那道人道：”果是罕闻。实未闻有还泪之说。想来这一段故事，比历来风月事故更加琐碎细腻了。“那僧道：”历来几个风流人物，不过传其大概以及诗词篇章而已，至家庭闺阁中一饮一食，总未述记。再者，大半风月故事，不过偷香窃玉，暗约私奔而已，并不曾将儿女之真情发泄一二。想这一干人入世，其情痴色鬼，贤愚不肖者，悉与前人传述不同矣。“那道人道：”趁此何不你我也去下世度脱几个，岂不是一场功德？“那僧道：”正合吾意，你且同我到警幻仙子宫中，将蠢物交割清楚，待这一干风流孽鬼下世已完，你我再去。如今虽已有一半落尘，然犹未全集。“道人道：”既如此，便随你去来。“"

### 提取出红楼梦每段的内容，字数长短，名字，章节等信息

In [6]:
# 查看数据是否有空白的行，如果有就剔除
import numpy as np
np.sum(pd.isnull(RedMansion))

content    0
dtype: int64

### 删除不需要的数据，即删除每卷的卷名

In [7]:
# 使用正则表达式，删除每卷的卷名
# 包含关键字的索引
volume_index = RedMansion.content.str.match('^第+.+卷')
# 删除不需要的段，并删除旧索引重置索引
RedMansion = RedMansion[~volume_index].reset_index(drop=True)
RedMansion

Unnamed: 0,content
0,第一回 甄士隐梦幻识通灵 贾雨村风尘怀闺秀
1,此开卷第一回也。作者自云：因曾历过一番梦幻之后，故将真事隐去，而借“通灵”之说，撰此<<...
2,此回中凡用“梦”用“幻”等字，是提醒阅者眼目，亦是此书立意本旨。
3,列位看官：你道此书从何而来？说起根由虽近荒唐，细按则深有趣味。待在下将此来历注明，方使阅...
4,原来女娲氏炼石补天之时，于大荒山无稽崖练成高经十二丈，方经二十四丈顽石三万六千五百零一块...
...,...
3046,这一日空空道人又从青埂峰前经过，见那补天未用之石仍在那里，上面字迹依然如旧，又从头的细细...
3047,那空空道人牢牢记着此言，又不知过了几世几劫，果然有个悼红轩，见那曹雪芹先生正在那里翻阅历...
3048,那空空道人听了，仰天大笑，掷下抄本，飘然而去。一面走着，口中说道：“果然是敷衍荒唐！不但...
3049,说到辛酸处，荒唐愈可悲。


### 提取每一回中的人物名字

In [8]:
# 找出每一回的头部索引和尾部索引
# 找出每一回的人物名字
chapter_index = RedMansion.content.str.match('^第+.+回')
# 删除不需要的回的名称，并删除旧索引重置索引
names = RedMansion.content[chapter_index].reset_index(drop=True)
names

0        第一回 甄士隐梦幻识通灵 贾雨村风尘怀闺秀
1        第二回 贾夫人仙逝扬州城 冷子兴演说荣国府
2        第三回 贾雨村夤缘复旧职 林黛玉抛父进京都
3        第四回 薄命女偏逢薄命郎 葫芦僧乱判葫芦案
4        第五回 游幻境指迷十二钗 饮仙醪曲演红楼梦
                ...           
115    第一一六回 得通灵幻境悟仙缘 送慈柩故乡全孝道
116    第一一七回 阻超凡佳人双护玉 欣聚党恶子独承家
117    第一一八回 记微嫌舅兄欺弱女 惊谜语妻妾谏痴人
118    第一一九回 中乡魁宝玉却尘缘 沐皇恩贾家延世泽
119    第一二零回 甄士隐详说太虚情 贾雨村归结红楼梦
Name: content, Length: 120, dtype: object

In [9]:
# 处理回的名称，使用空格分割字符
names_split = names.str.split(' ').reset_index(drop=True)
names_split

0        [第一回, 甄士隐梦幻识通灵, 贾雨村风尘怀闺秀]
1        [第二回, 贾夫人仙逝扬州城, 冷子兴演说荣国府]
2        [第三回, 贾雨村夤缘复旧职, 林黛玉抛父进京都]
3        [第四回, 薄命女偏逢薄命郎, 葫芦僧乱判葫芦案]
4        [第五回, 游幻境指迷十二钗, 饮仙醪曲演红楼梦]
                  ...             
115    [第一一六回, 得通灵幻境悟仙缘, 送慈柩故乡全孝道]
116    [第一一七回, 阻超凡佳人双护玉, 欣聚党恶子独承家]
117    [第一一八回, 记微嫌舅兄欺弱女, 惊谜语妻妾谏痴人]
118    [第一一九回, 中乡魁宝玉却尘缘, 沐皇恩贾家延世泽]
119    [第一二零回, 甄士隐详说太虚情, 贾雨村归结红楼梦]
Name: content, Length: 120, dtype: object

In [10]:
# 建立保存数据的数据集
RedMansion_df = pd.DataFrame(list(names_split), columns=['Chapter', 'LeftName', 'RightName'])
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName
0,第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀
1,第二回,贾夫人仙逝扬州城,冷子兴演说荣国府
2,第三回,贾雨村夤缘复旧职,林黛玉抛父进京都
3,第四回,薄命女偏逢薄命郎,葫芦僧乱判葫芦案
4,第五回,游幻境指迷十二钗,饮仙醪曲演红楼梦
...,...,...,...
115,第一一六回,得通灵幻境悟仙缘,送慈柩故乡全孝道
116,第一一七回,阻超凡佳人双护玉,欣聚党恶子独承家
117,第一一八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人
118,第一一九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽


In [11]:
# 添加新的变量
RedMansion_df['Chapter_new'] = np.arange(1, 121)
RedMansion_df['ChapterName'] = RedMansion_df.LeftName + ',' + RedMansion_df.RightName
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName
0,第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀"
1,第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府"
2,第三回,贾雨村夤缘复旧职,林黛玉抛父进京都,3,"贾雨村夤缘复旧职,林黛玉抛父进京都"
3,第四回,薄命女偏逢薄命郎,葫芦僧乱判葫芦案,4,"薄命女偏逢薄命郎,葫芦僧乱判葫芦案"
4,第五回,游幻境指迷十二钗,饮仙醪曲演红楼梦,5,"游幻境指迷十二钗,饮仙醪曲演红楼梦"
...,...,...,...,...,...
115,第一一六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道"
116,第一一七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家"
117,第一一八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人"
118,第一一九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽"


### 找到每章的开始段序号和结束段序号

In [12]:
# 每回的开始行（段）索引
RedMansion_df['StartIndex'] = chapter_index[chapter_index == True].index
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex
0,第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0
1,第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",50
2,第三回,贾雨村夤缘复旧职,林黛玉抛父进京都,3,"贾雨村夤缘复旧职,林黛玉抛父进京都",80
3,第四回,薄命女偏逢薄命郎,葫芦僧乱判葫芦案,4,"薄命女偏逢薄命郎,葫芦僧乱判葫芦案",119
4,第五回,游幻境指迷十二钗,饮仙醪曲演红楼梦,5,"游幻境指迷十二钗,饮仙醪曲演红楼梦",149
...,...,...,...,...,...,...
115,第一一六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道",2916
116,第一一七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家",2942
117,第一一八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人",2963
118,第一一九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽",2988


In [13]:
# 每回的结束行数
RedMansion_df['EndIndex'] = RedMansion_df['StartIndex'][1: len(RedMansion_df['StartIndex'])].reset_index(drop=True) - 1
RedMansion_df['EndIndex'][[len(RedMansion_df['EndIndex']) - 1]] = RedMansion.index[-1]
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex,EndIndex
0,第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0,49.0
1,第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",50,79.0
2,第三回,贾雨村夤缘复旧职,林黛玉抛父进京都,3,"贾雨村夤缘复旧职,林黛玉抛父进京都",80,118.0
3,第四回,薄命女偏逢薄命郎,葫芦僧乱判葫芦案,4,"薄命女偏逢薄命郎,葫芦僧乱判葫芦案",119,148.0
4,第五回,游幻境指迷十二钗,饮仙醪曲演红楼梦,5,"游幻境指迷十二钗,饮仙醪曲演红楼梦",149,235.0
...,...,...,...,...,...,...,...
115,第一一六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道",2916,2941.0
116,第一一七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家",2942,2962.0
117,第一一八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人",2963,2987.0
118,第一一九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽",2988,3017.0


In [14]:
# 每回的段落长度
RedMansion_df['ChapterLength'] = RedMansion_df.EndIndex - RedMansion_df.StartIndex
RedMansion_df['Artical'] = 'Artical'
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex,EndIndex,ChapterLength,Artical
0,第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0,49.0,49.0,Artical
1,第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",50,79.0,29.0,Artical
2,第三回,贾雨村夤缘复旧职,林黛玉抛父进京都,3,"贾雨村夤缘复旧职,林黛玉抛父进京都",80,118.0,38.0,Artical
3,第四回,薄命女偏逢薄命郎,葫芦僧乱判葫芦案,4,"薄命女偏逢薄命郎,葫芦僧乱判葫芦案",119,148.0,29.0,Artical
4,第五回,游幻境指迷十二钗,饮仙醪曲演红楼梦,5,"游幻境指迷十二钗,饮仙醪曲演红楼梦",149,235.0,86.0,Artical
...,...,...,...,...,...,...,...,...,...
115,第一一六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道",2916,2941.0,25.0,Artical
116,第一一七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家",2942,2962.0,20.0,Artical
117,第一一八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人",2963,2987.0,24.0,Artical
118,第一一九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽",2988,3017.0,29.0,Artical


### 在数据中添加对应章节（回）的内容

In [15]:
# 每章节（回）的的内容
for cell in RedMansion_df.index:
    # 将内容使用句号连接
    ChapterId = np.arange(RedMansion_df.StartIndex[cell] + 1, int(RedMansion_df.EndIndex[cell]))
    # 每章节（回）的内容
    RedMansion_df['Artical'][cell] = ''.join(list(RedMansion.content[ChapterId])).replace('\u3000', '')
RedMansion_df['Artical'][19]

'话说宝玉在林黛玉房中说“耗子精”，宝钗撞来，讽刺宝玉元宵不知“绿蜡”之典，三人正在房中互相讥刺取笑。那宝玉正恐黛玉饭后贪眠，一时存了食，或夜间走了困，皆非保养身体之法，幸而宝钗走来，大家谈笑，那林黛玉方不欲睡，自己才放了心。忽听他房中嚷起来，大家侧耳听了一听，林黛玉先笑道：“这是你妈妈和袭人叫嚷呢。那袭人也罢了，你妈妈再要认真排场他，可见老背晦了。”宝玉忙要赶过来，宝钗忙一把拉住道：“你别和你妈妈吵才是，他老糊涂了，倒要让他一步为是。”宝玉道：“我知道了。”说毕走来，只见李嬷嬷拄着拐棍，在当地骂袭人：“忘了本的小娼妇！我抬举起你来，这会子我来了，你大模大样的躺在炕上，见我来也不理一理。一心只想妆狐媚子哄宝玉，哄的宝玉不理我，听你们的话。你不过是几两臭银子买来的毛丫头，这屋里你就作耗，如何使得！好不好拉出去配一个小子，看你还妖精似的哄宝玉不哄！”袭人先只道李嬷嬷不过为他躺着生气，少不得分辨说“病了，才出汗，蒙着头，原没看见你老人家”等语。后来只管听他说“哄宝玉”。“妆狐媚”，又说“配小子”等，由不得又愧又委屈，禁不住哭起来。宝玉虽听了这些话，也不好怎样，少不得替袭人分辨病了吃药等话，又说：“你不信，只问别的丫头们。”李嬷嬷听了这话，益发气起来了，说道：“你只护着那起狐狸，那里认得我了，叫我问谁去？谁不帮着你呢，谁不是袭人拿下马来的！我都知道那些事。我只和你在老太太，太太跟前去讲了。把你奶了这么大，到如今吃不着奶了，把我丢在一旁，逞着丫头们要我的强。”一面说，一面也哭起来。彼时黛玉宝钗等也走过来劝说：“妈妈你老人家担待他们一点子就完了。”李嬷嬷见他二人来了，便拉住诉委屈，将当日吃茶，茜雪出去，与昨日酥酪等事，唠唠叨叨说个不清。可巧凤姐正在上房算完输赢帐，听得后面声嚷，便知是李嬷嬷老病发了，排揎宝玉的人。——正值他今儿输了钱，迁怒于人。便连忙赶过来，拉了李嬷嬷，笑道：“好妈妈，别生气。大节下老太太才喜欢了一日，你是个老人家，别人高声，你还要管他们呢，难道你反不知道规矩，在这里嚷起来，叫老太太生气不成？你只说谁不好，我替你打他。我家里烧的滚热的野鸡，快来跟我吃酒去。”一面说，一面拉着走，又叫：“丰儿，替你李奶奶拿着拐棍子，擦眼泪的手帕子。”那李嬷嬷脚不沾地跟了凤姐走了，一面还说：“我也不要这老命了，越性今儿没了规矩，闹一场子，讨个没脸，强如受那娼妇蹄子的气！”后面宝钗黛玉

In [16]:
# 某一章（回）的段落索引
index_test = np.arange(RedMansion_df.StartIndex[19] + 1, int(RedMansion_df.EndIndex[19]))
index_test

array([635, 636, 637, 638, 639, 640, 641, 642, 643, 644, 645, 646, 647,
       648, 649, 650], dtype=int64)

In [17]:
# 某一章（回）的内容: 第十九回
RedMansion.content[index_test]

635    　　话说宝玉在林黛玉房中说“耗子精”，宝钗撞来，讽刺宝玉元宵不知“绿蜡”之典，三人正在房中互...
636    　　宝玉道：“我知道了。”说毕走来，只见李嬷嬷拄着拐棍，在当地骂袭人：“忘了本的小娼妇！我抬...
637    　　宝玉虽听了这些话，也不好怎样，少不得替袭人分辨病了吃药等话，又说：“你不信，只问别的丫头...
638    　　一面说，一面拉着走，又叫：“丰儿，替你李奶奶拿着拐棍子，擦眼泪的手帕子。”那李嬷嬷脚不沾...
639    　　宝玉点头叹道：“这又不知是那里的帐，只拣软的排揎。昨儿又不知是那个姑娘得罪了，上在他帐上...
640    　　一时杂使的老婆子煎了二和药来。宝玉见他才有汗意，不肯叫他起来，自己便端着就枕与他吃了，即...
641    　　宝玉在麝月身后，麝月对镜，二人在镜内相视。宝玉便向镜内笑道：“满屋里就只是他磨牙。”麝月...
642    　　赵姨娘见他这般，因问：“又是那里垫了踹窝来了？”一问不答，再问时，贾环便说：“同宝姐姐顽...
643    　　便隔窗说道：“大正月又怎么了？环兄弟小孩子家，一半点儿错了，你只教导他，说这些淡话作什么...
644    　　且说宝玉正和宝钗顽笑，忽见人说：“史大姑娘来了。”宝玉听了，抬身就走。宝钗笑道：“等着，...
645    　　宝玉忙跟了来，问道：“好好的又生气了？就是我说错了，你到底也还坐在那里，和别人说笑一会子...
646    　　林黛玉道：“我作践坏了身子，我死，与你何干！”宝玉道：“何苦来，大正月里，死了活了的。”...
647     　　正说着，宝钗走来道。“史大妹妹等你呢。”说着，便推宝玉走了。这里黛玉越发气闷，只向窗前流泪。
648    　　没两盏茶的工夫，宝玉仍来了。林黛玉见了，越发抽抽噎噎的哭个不住。宝玉见了这样，知难挽回，...
649    　　林黛玉啐道。“我难道为叫你疏他？我成了个什么人了呢！我为的是我的心。”宝玉道。“我也为的...
650    　　二人正说着，只见湘云走来，笑道。“二哥哥，林姐姐，你们天天一处顽，我好容易来了，也不理我...
Name: content, dtype: object

In [18]:
# 将某章的所有段落使用句号连接: 第十九章
''.join(list(RedMansion.content[index_test]))

'\u3000\u3000话说宝玉在林黛玉房中说“耗子精”，宝钗撞来，讽刺宝玉元宵不知“绿蜡”之典，三人正在房中互相讥刺取笑。那宝玉正恐黛玉饭后贪眠，一时存了食，或夜间走了困，皆非保养身体之法，幸而宝钗走来，大家谈笑，那林黛玉方不欲睡，自己才放了心。忽听他房中嚷起来，大家侧耳听了一听，林黛玉先笑道：“这是你妈妈和袭人叫嚷呢。那袭人也罢了，你妈妈再要认真排场他，可见老背晦了。”宝玉忙要赶过来，宝钗忙一把拉住道：“你别和你妈妈吵才是，他老糊涂了，倒要让他一步为是。”\u3000\u3000宝玉道：“我知道了。”说毕走来，只见李嬷嬷拄着拐棍，在当地骂袭人：“忘了本的小娼妇！我抬举起你来，这会子我来了，你大模大样的躺在炕上，见我来也不理一理。一心只想妆狐媚子哄宝玉，哄的宝玉不理我，听你们的话。你不过是几两臭银子买来的毛丫头，这屋里你就作耗，如何使得！好不好拉出去配一个小子，看你还妖精似的哄宝玉不哄！”袭人先只道李嬷嬷不过为他躺着生气，少不得分辨说“病了，才出汗，蒙着头，原没看见你老人家”等语。后来只管听他说“哄宝玉”。“妆狐媚”，又说“配小子”等，由不得又愧又委屈，禁不住哭起来。\u3000\u3000宝玉虽听了这些话，也不好怎样，少不得替袭人分辨病了吃药等话，又说：“你不信，只问别的丫头们。”李嬷嬷听了这话，益发气起来了，说道：“你只护着那起狐狸，那里认得我了，叫我问谁去？谁不帮着你呢，谁不是袭人拿下马来的！我都知道那些事。我只和你在老太太，太太跟前去讲了。把你奶了这么大，到如今吃不着奶了，把我丢在一旁，逞着丫头们要我的强。”一面说，一面也哭起来。彼时黛玉宝钗等也走过来劝说：“妈妈你老人家担待他们一点子就完了。”李嬷嬷见他二人来了，便拉住诉委屈，将当日吃茶，茜雪出去，与昨日酥酪等事，唠唠叨叨说个不清。可巧凤姐正在上房算完输赢帐，听得后面声嚷，便知是李嬷嬷老病发了，排揎宝玉的人。——正值他今儿输了钱，迁怒于人。便连忙赶过来，拉了李嬷嬷，笑道：“好妈妈，别生气。大节下老太太才喜欢了一日，你是个老人家，别人高声，你还要管他们呢，难道你反不知道规矩，在这里嚷起来，叫老太太生气不成？你只说谁不好，我替你打他。我家里烧的滚热的野鸡，快来跟我吃酒去。”\u3000\u3000一面说，一面拉着走，又叫：“丰儿，替你李奶奶拿着拐棍子，擦眼泪的手帕子。”那李嬷嬷脚不沾地跟了凤姐走了，一面还说

In [19]:
# 去除某一章的 \u3000 字符串
''.join(list(RedMansion.content[index_test])).replace('\u3000', '')

'话说宝玉在林黛玉房中说“耗子精”，宝钗撞来，讽刺宝玉元宵不知“绿蜡”之典，三人正在房中互相讥刺取笑。那宝玉正恐黛玉饭后贪眠，一时存了食，或夜间走了困，皆非保养身体之法，幸而宝钗走来，大家谈笑，那林黛玉方不欲睡，自己才放了心。忽听他房中嚷起来，大家侧耳听了一听，林黛玉先笑道：“这是你妈妈和袭人叫嚷呢。那袭人也罢了，你妈妈再要认真排场他，可见老背晦了。”宝玉忙要赶过来，宝钗忙一把拉住道：“你别和你妈妈吵才是，他老糊涂了，倒要让他一步为是。”宝玉道：“我知道了。”说毕走来，只见李嬷嬷拄着拐棍，在当地骂袭人：“忘了本的小娼妇！我抬举起你来，这会子我来了，你大模大样的躺在炕上，见我来也不理一理。一心只想妆狐媚子哄宝玉，哄的宝玉不理我，听你们的话。你不过是几两臭银子买来的毛丫头，这屋里你就作耗，如何使得！好不好拉出去配一个小子，看你还妖精似的哄宝玉不哄！”袭人先只道李嬷嬷不过为他躺着生气，少不得分辨说“病了，才出汗，蒙着头，原没看见你老人家”等语。后来只管听他说“哄宝玉”。“妆狐媚”，又说“配小子”等，由不得又愧又委屈，禁不住哭起来。宝玉虽听了这些话，也不好怎样，少不得替袭人分辨病了吃药等话，又说：“你不信，只问别的丫头们。”李嬷嬷听了这话，益发气起来了，说道：“你只护着那起狐狸，那里认得我了，叫我问谁去？谁不帮着你呢，谁不是袭人拿下马来的！我都知道那些事。我只和你在老太太，太太跟前去讲了。把你奶了这么大，到如今吃不着奶了，把我丢在一旁，逞着丫头们要我的强。”一面说，一面也哭起来。彼时黛玉宝钗等也走过来劝说：“妈妈你老人家担待他们一点子就完了。”李嬷嬷见他二人来了，便拉住诉委屈，将当日吃茶，茜雪出去，与昨日酥酪等事，唠唠叨叨说个不清。可巧凤姐正在上房算完输赢帐，听得后面声嚷，便知是李嬷嬷老病发了，排揎宝玉的人。——正值他今儿输了钱，迁怒于人。便连忙赶过来，拉了李嬷嬷，笑道：“好妈妈，别生气。大节下老太太才喜欢了一日，你是个老人家，别人高声，你还要管他们呢，难道你反不知道规矩，在这里嚷起来，叫老太太生气不成？你只说谁不好，我替你打他。我家里烧的滚热的野鸡，快来跟我吃酒去。”一面说，一面拉着走，又叫：“丰儿，替你李奶奶拿着拐棍子，擦眼泪的手帕子。”那李嬷嬷脚不沾地跟了凤姐走了，一面还说：“我也不要这老命了，越性今儿没了规矩，闹一场子，讨个没脸，强如受那娼妇蹄子的气！”后面宝钗黛玉

In [20]:
# 计算某章（回）有多少字: 第19章
len(''.join(list(RedMansion.content[index_test])).replace('\u3000', ''))

4994

### 计算每个章节（回）有多少字

In [21]:
RedMansion_df['CountWord'] = RedMansion_df.Artical.apply(len)
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex,EndIndex,ChapterLength,Artical,CountWord
0,第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0,49.0,49.0,此开卷第一回也。作者自云：因曾历过一番梦幻之后，故将真事隐去，而借“通灵”之说，撰此<<石头...,7594
1,第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",50,79.0,29.0,诗云一局输赢料不真，香销茶尽尚逡巡。欲知目下兴衰兆，须问旁观冷眼人。却说封肃因听见公差传唤，...,5659
2,第三回,贾雨村夤缘复旧职,林黛玉抛父进京都,3,"贾雨村夤缘复旧职,林黛玉抛父进京都",80,118.0,38.0,却说雨村忙回头看时，不是别人，乃是当日同僚一案参革的号张如圭者。他本系此地人，革后家居，今打...,8332
3,第四回,薄命女偏逢薄命郎,葫芦僧乱判葫芦案,4,"薄命女偏逢薄命郎,葫芦僧乱判葫芦案",119,148.0,29.0,却说黛玉同姊妹们至王夫人处，见王夫人与兄嫂处的来使计议家务，又说姨母家遭人命官司等语。因见王...,5841
4,第五回,游幻境指迷十二钗,饮仙醪曲演红楼梦,5,"游幻境指迷十二钗,饮仙醪曲演红楼梦",149,235.0,86.0,第四回中既将薛家母子在荣府内寄居等事略已表明，此回则暂不能写矣。如今且说林黛玉自在荣府以来，...,7401
...,...,...,...,...,...,...,...,...,...,...
115,第一一六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道",2916,2941.0,25.0,话说宝玉一听麝月的话，身往后仰，复又死去，急得王夫人等哭叫不止。麝月自知失言致祸，此时王夫人...,6551
116,第一一七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家",2942,2962.0,20.0,话说王夫人打发人来叫宝钗过去商量，宝玉听见说是和尚在外头，赶忙的独自一人走到前头，嘴里乱嚷道...,7129
117,第一一八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人",2963,2987.0,24.0,说话邢王二夫人听尤氏一段话，明知也难挽回。王夫人只得说道：“姑娘要行善，这也是前生的夙根，我...,7285
118,第一一九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽",2988,3017.0,29.0,话说莺儿见宝玉说话摸不着头脑，正自要走，只听宝玉又说道：“傻丫头，我告诉你罢。你姑娘既是有造...,9339


### 章节（回）段落数量与章节（回）字数的散点图

In [24]:
from pyecharts.globals import ThemeType
from pyecharts.commons.utils import JsCode
import pyecharts.options as opts

from pyecharts.charts import Scatter

Chapter_Word_Scatter = (
    Scatter(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add_xaxis(xaxis_data=RedMansion_df.ChapterLength)
    .add_yaxis(series_name='章节（回）字数', y_axis=RedMansion_df.CountWord, label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opts.TitleOpts(title='《红楼梦》120 回'))
)
Chapter_Word_Scatter.render_notebook()

### 折线图

In [25]:
RedMansion_df.head(2)

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex,EndIndex,ChapterLength,Artical,CountWord
0,第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0,49.0,49.0,此开卷第一回也。作者自云：因曾历过一番梦幻之后，故将真事隐去，而借“通灵”之说，撰此<<石头...,7594
1,第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",50,79.0,29.0,诗云一局输赢料不真，香销茶尽尚逡巡。欲知目下兴衰兆，须问旁观冷眼人。却说封肃因听见公差传唤，...,5659


In [27]:
from pyecharts.charts import Line

line = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add_xaxis(xaxis_data=RedMansion_df.Chapter_new)
    .add_yaxis(series_name='字数', y_axis=RedMansion_df.CountWord, label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opts.TitleOpts(title='《红楼梦》120 回'))
)
line.render_notebook()

In [42]:
from pyecharts.charts import Grid
Chapter_Length_Line = (
    Line()
    .add_xaxis(RedMansion_df.Chapter_new)
    .add_yaxis('章节（回）序号', y_axis=RedMansion_df.ChapterLength, label_opts=opts.LabelOpts(is_show=False),
    markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_="average", name="平均值")]))
)
Chapter_Word_Line = (
    Line()
    .add_xaxis(RedMansion_df.Chapter_new)
    .add_yaxis('章节（回）序号', y_axis=RedMansion_df.CountWord, label_opts=opts.LabelOpts(is_show=False),
    markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_="average", name="平均值")]))
)
grid = (
    Grid(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add(Chapter_Length_Line, grid_opts=opts.GridOpts(pos_left=50, pos_right=50, height="35%"))
    .add(Chapter_Word_Line, grid_opts=opts.GridOpts(pos_left=50, pos_right=50, pos_top="55%", height="35%"))
)
grid.render_notebook()