# 红楼梦——数据预处理
#### 河南城建学院——信息管理与信息系统
#### masonsxu: masonsxu@qq.com

In [1]:
# 加载数据源
import pandas as pd
RedMansion = pd.read_csv('./data/RedMansion.txt', header=None, names=['content'])
RedMansion

Unnamed: 0,content
0,《红楼梦》第一回 甄士隐梦幻识通灵 贾雨村风尘怀闺秀
1,――此开卷第一回也。作者自云：曾历过一番梦幻之后，故将真事隐去，而借通灵说此《石头记》一...
2,看官你道此书从何而起?说来虽近荒唐，细玩颇有趣味。却说那女娲氏炼石补天之时，于大荒山无稽...
3,又不知过了几世几劫，因有个空空道人访道求仙，从这大荒山无稽崖青埂峰下经过。忽见一块大石，...
4,空空道人听如此说，思忖半晌，将这《石头记》再检阅一遍。因见上面大旨不过谈情，亦只是实录其...
...,...
2550,雨村还要再问，士隐不答，便命人设具盘飧，邀雨村共食。食毕，雨村还要问自己的终身。士隐便道...
2551,这士隐自去度脱了香菱，送到太虚幻境，交那警幻仙子对册。刚过牌坊，见那一僧一道缥缈而来，士...
2552,这一日，空空道人又从青埂峰前经过，见那补天未用之石仍在那里，上面字迹依然如旧，又从头的细...
2553,那空空道人牢牢记着此言，又不知过了几世几劫，果然有个悼红轩，见那曹雪芹先生正在那里翻阅历...


In [2]:
# 随机挑选其中的一段进行查看
RedMansion.content[19]

'\u3000\u3000陋室空堂，当年笏满床。衰草枯杨，曾为歌舞场。蛛丝儿结满雕粱，绿纱今又在蓬窗上。说甚么脂正浓、粉正香，如何两鬓又成霜?昨日黄土陇头埋白骨，今宵红绡帐底卧鸳鸯。金满箱，银满箱，转眼乞丐人皆谤。正叹他人命不长，那知自己归来丧?训有方，保不定日后作强梁。择膏粱，谁承望流落在烟花巷!因嫌纱帽小，致使锁枷扛。昨怜破袄寒，今嫌紫蟒长：乱烘烘你方唱罢我登场，反认他乡是故乡。甚荒唐，到头来都是“为他人作嫁衣裳”。'

### 提取出红楼梦每段的内容，字数长短，名字，章节等信息

In [3]:
# 查看数据是否有空白的行，如果有就剔除
import numpy as np
np.sum(pd.isnull(RedMansion))

content    0
dtype: int64

### 提取每一回中的人物名字

In [4]:
# 找出每一回的头部索引和尾部索引
# 找出每一回的人物名字
chapter_index = RedMansion.content.str.match('^《红楼梦》第+.+回')
# 删除不需要的回的名称，并删除旧索引重置索引
names = RedMansion.content[chapter_index].reset_index(drop=True)
names

0         《红楼梦》第一回 甄士隐梦幻识通灵 贾雨村风尘怀闺秀 
1         《红楼梦》第二回 贾夫人仙逝扬州城 冷子兴演说荣国府 
2         《红楼梦》第三回 托内兄如海荐西宾 接外孙贾母惜孤女 
3         《红楼梦》第四回 薄命女偏逢薄命郎 葫芦僧判断葫芦案 
4         《红楼梦》第五回 贾宝玉神游太虚境 警幻仙曲演红楼梦 
                    ...              
115    《红楼梦》第一百十六回 得通灵幻境悟仙缘 送慈柩故乡全孝道 
116    《红楼梦》第一百十七回 阻超凡佳人双护玉 欣聚党恶子独承家 
117     《红楼梦》第一百十八回 记微嫌舅兄欺弱女 惊谜语妻妾谏痴人
118    《红楼梦》第一百十九回 中乡魁宝玉却尘缘 沐皇恩贾家延世泽 
119    《红楼梦》第一百二十回 甄士隐详说太虚情 贾雨村归结红楼梦 
Name: content, Length: 120, dtype: object

In [5]:
# 处理回的名称，使用空格分割字符
names_split = names.str.split(' ').reset_index(drop=True)
names_split

0         [《红楼梦》第一回, 甄士隐梦幻识通灵, 贾雨村风尘怀闺秀, ]
1         [《红楼梦》第二回, 贾夫人仙逝扬州城, 冷子兴演说荣国府, ]
2         [《红楼梦》第三回, 托内兄如海荐西宾, 接外孙贾母惜孤女, ]
3         [《红楼梦》第四回, 薄命女偏逢薄命郎, 葫芦僧判断葫芦案, ]
4         [《红楼梦》第五回, 贾宝玉神游太虚境, 警幻仙曲演红楼梦, ]
                      ...                 
115    [《红楼梦》第一百十六回, 得通灵幻境悟仙缘, 送慈柩故乡全孝道, ]
116    [《红楼梦》第一百十七回, 阻超凡佳人双护玉, 欣聚党恶子独承家, ]
117      [《红楼梦》第一百十八回, 记微嫌舅兄欺弱女, 惊谜语妻妾谏痴人]
118    [《红楼梦》第一百十九回, 中乡魁宝玉却尘缘, 沐皇恩贾家延世泽, ]
119    [《红楼梦》第一百二十回, 甄士隐详说太虚情, 贾雨村归结红楼梦, ]
Name: content, Length: 120, dtype: object

In [6]:
# 建立保存数据的数据集
RedMansion_df = pd.DataFrame(list(names_split), columns=['Chapter', 'LeftName', 'RightName', 'None']).drop(columns='None')
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName
0,《红楼梦》第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀
1,《红楼梦》第二回,贾夫人仙逝扬州城,冷子兴演说荣国府
2,《红楼梦》第三回,托内兄如海荐西宾,接外孙贾母惜孤女
3,《红楼梦》第四回,薄命女偏逢薄命郎,葫芦僧判断葫芦案
4,《红楼梦》第五回,贾宝玉神游太虚境,警幻仙曲演红楼梦
...,...,...,...
115,《红楼梦》第一百十六回,得通灵幻境悟仙缘,送慈柩故乡全孝道
116,《红楼梦》第一百十七回,阻超凡佳人双护玉,欣聚党恶子独承家
117,《红楼梦》第一百十八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人
118,《红楼梦》第一百十九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽


In [7]:
# 添加新的变量
RedMansion_df['Chapter_new'] = np.arange(1, 121)
RedMansion_df['ChapterName'] = RedMansion_df.LeftName + ',' + RedMansion_df.RightName
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName
0,《红楼梦》第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀"
1,《红楼梦》第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府"
2,《红楼梦》第三回,托内兄如海荐西宾,接外孙贾母惜孤女,3,"托内兄如海荐西宾,接外孙贾母惜孤女"
3,《红楼梦》第四回,薄命女偏逢薄命郎,葫芦僧判断葫芦案,4,"薄命女偏逢薄命郎,葫芦僧判断葫芦案"
4,《红楼梦》第五回,贾宝玉神游太虚境,警幻仙曲演红楼梦,5,"贾宝玉神游太虚境,警幻仙曲演红楼梦"
...,...,...,...,...,...
115,《红楼梦》第一百十六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道"
116,《红楼梦》第一百十七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家"
117,《红楼梦》第一百十八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人"
118,《红楼梦》第一百十九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽"


### 找到每章的开始段序号和结束段序号

In [8]:
# 每回的开始行（段）索引
RedMansion_df['StartIndex'] = chapter_index[chapter_index == True].index
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex
0,《红楼梦》第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0
1,《红楼梦》第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",23
2,《红楼梦》第三回,托内兄如海荐西宾,接外孙贾母惜孤女,3,"托内兄如海荐西宾,接外孙贾母惜孤女",39
3,《红楼梦》第四回,薄命女偏逢薄命郎,葫芦僧判断葫芦案,4,"薄命女偏逢薄命郎,葫芦僧判断葫芦案",62
4,《红楼梦》第五回,贾宝玉神游太虚境,警幻仙曲演红楼梦,5,"贾宝玉神游太虚境,警幻仙曲演红楼梦",78
...,...,...,...,...,...,...
115,《红楼梦》第一百十六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道",2440
116,《红楼梦》第一百十七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家",2458
117,《红楼梦》第一百十八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人",2478
118,《红楼梦》第一百十九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽",2496


In [9]:
# 每回的结束行数
RedMansion_df['EndIndex'] = RedMansion_df['StartIndex'][1: len(RedMansion_df['StartIndex'])].reset_index(drop=True) - 1
RedMansion_df['EndIndex'][[len(RedMansion_df['EndIndex']) - 1]] = RedMansion.index[-1]
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex,EndIndex
0,《红楼梦》第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0,22.0
1,《红楼梦》第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",23,38.0
2,《红楼梦》第三回,托内兄如海荐西宾,接外孙贾母惜孤女,3,"托内兄如海荐西宾,接外孙贾母惜孤女",39,61.0
3,《红楼梦》第四回,薄命女偏逢薄命郎,葫芦僧判断葫芦案,4,"薄命女偏逢薄命郎,葫芦僧判断葫芦案",62,77.0
4,《红楼梦》第五回,贾宝玉神游太虚境,警幻仙曲演红楼梦,5,"贾宝玉神游太虚境,警幻仙曲演红楼梦",78,110.0
...,...,...,...,...,...,...,...
115,《红楼梦》第一百十六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道",2440,2457.0
116,《红楼梦》第一百十七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家",2458,2477.0
117,《红楼梦》第一百十八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人",2478,2495.0
118,《红楼梦》第一百十九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽",2496,2529.0


In [10]:
# 每回的段落长度
RedMansion_df['ChapterLength'] = RedMansion_df.EndIndex - RedMansion_df.StartIndex
RedMansion_df['Artical'] = 'Artical'
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex,EndIndex,ChapterLength,Artical
0,《红楼梦》第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0,22.0,22.0,Artical
1,《红楼梦》第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",23,38.0,15.0,Artical
2,《红楼梦》第三回,托内兄如海荐西宾,接外孙贾母惜孤女,3,"托内兄如海荐西宾,接外孙贾母惜孤女",39,61.0,22.0,Artical
3,《红楼梦》第四回,薄命女偏逢薄命郎,葫芦僧判断葫芦案,4,"薄命女偏逢薄命郎,葫芦僧判断葫芦案",62,77.0,15.0,Artical
4,《红楼梦》第五回,贾宝玉神游太虚境,警幻仙曲演红楼梦,5,"贾宝玉神游太虚境,警幻仙曲演红楼梦",78,110.0,32.0,Artical
...,...,...,...,...,...,...,...,...,...
115,《红楼梦》第一百十六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道",2440,2457.0,17.0,Artical
116,《红楼梦》第一百十七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家",2458,2477.0,19.0,Artical
117,《红楼梦》第一百十八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人",2478,2495.0,17.0,Artical
118,《红楼梦》第一百十九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽",2496,2529.0,33.0,Artical


### 在数据中添加对应章节（回）的内容

In [11]:
# 每章节（回）的的内容
for cell in RedMansion_df.index:
    # 将内容使用句号连接
    ChapterId = np.arange(RedMansion_df.StartIndex[cell] + 1, int(RedMansion_df.EndIndex[cell]))
    # 每章节（回）的内容
    RedMansion_df['Artical'][cell] = ''.join(list(RedMansion.content[ChapterId])).replace('\u3000', '')
RedMansion_df['Artical'][19]

'话说宝玉在黛玉房中说“耗子精”，宝钗撞来，讽刺宝玉元宵不知“绿蜡”之典，三人正在房中互相取笑。那宝玉恐黛玉饭后贪眠，一时存了食，或夜间走了困，身体不好；幸而宝钗走来，大家谈笑，那黛玉方不欲睡，自己才放了心。忽听他房中嚷起来，大家侧耳听了一听，黛玉先笑道：“这是你妈妈和袭人叫唤呢。那袭人待他也罢了，你妈妈再要认真排揎他，可见老背晦了。”宝玉忙欲赶过去，宝钗一把拉住道：“你别和你妈妈吵才是呢!他是老糊涂了，倒要让他一步儿的是。”宝玉道：“我知道了。”说毕走来。只见李嬷嬷拄着拐杖，在当地骂袭人：“忘了本的小娼妇儿!我抬举起你来，这会子我来了，你大模厮样儿的躺在炕上，见了我也不理一理儿。一心只想妆狐媚子哄宝玉，哄的宝玉不理我，只听你的话。你不过是几两银子买了来的小丫头子罢咧，这屋里你就作起耗来了!好不好的，拉出去配一个小子，看你还妖精似的哄人不哄！”袭人先只道李嬷嬷不过因他躺着生气，少不得分辩说：“病了，才出汗，蒙着头，原没看见你老人家。”后来听见他说“哄宝玉”，又说“配小子”，由不得又羞又委屈，禁不住哭起来了。宝玉虽听了这些话，也不好怎样，少不得替他分辩，说“病了，吃药”，又说：“你不信，只问别的丫头。”李嬷嬷听了这话，越发气起来了，说道：“你只护着那起狐狸，那里还认得我了呢?叫我问谁去?谁不帮着你呢?谁不是袭人拿下马来的?我都知道那些事!我只和你到老太太、太太跟前去讲讲：把你奶了这么大，到如今吃不着奶了，把我扔在一边儿，逞着丫头们要我的强！”一面说，一面哭。彼时黛玉宝钗等也过来劝道：“妈妈，你老人家担待他们些就完了。”李嬷嬷见他二人来了，便诉委屈，将当日吃茶，茜雪出去，和昨日酥酪等事，唠唠叨叨说个不了。可巧凤姐正在上房算了输赢帐，听见后面一片声嚷，便知是李嬷嬷老病发了，又值他今儿输了钱，迁怒于人，排揎宝玉的丫头。便连忙赶过来拉了李嬷嬷，笑道：“妈妈别生气。大节下，老太太刚喜欢了一日。你是个老人家，别人吵，你还要管他们才是；难道你倒不知规矩，在这里嚷起来，叫老太太生气不成?你说谁不好，我替你打他。我屋里烧的滚热的野鸡，快跟了我喝酒去罢。”一面说，一面拉着走，又叫：“丰儿，替你李奶奶拿着拐棍子、擦眼泪的绢子。”那李嬷嬷脚不沾地跟了凤姐儿走了，一面还说：“我也不要这老命了，索性今儿没了规矩，闹一场子，讨了没脸，强似受那些娼妇的气！”后面宝钗黛玉见凤姐儿这般，都拍手笑道：“亏

In [12]:
# 某一章（回）的段落索引
index_test = np.arange(RedMansion_df.StartIndex[19] + 1, int(RedMansion_df.EndIndex[19]))
index_test

array([424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436,
       437], dtype=int64)

In [13]:
# 某一章（回）的内容: 第十九回
RedMansion.content[index_test]

424    　　话说宝玉在黛玉房中说“耗子精”，宝钗撞来，讽刺宝玉元宵不知“绿蜡”之典，三人正在房中互相...
425    　　只见李嬷嬷拄着拐杖，在当地骂袭人：“忘了本的小娼妇儿!我抬举起你来，这会子我来了，你大模...
426    　　可巧凤姐正在上房算了输赢帐，听见后面一片声嚷，便知是李嬷嬷老病发了，又值他今儿输了钱，迁...
427    　　宝玉点头叹道：“这又不知是那里的帐，只拣软的欺负!又不知是那个姑娘得罪了，上在他帐上了。...
428    　　饭毕，贾母犹欲和那几个老管家的嬷嬷斗牌。宝玉惦记袭人，便回至房中。见袭人朦胧睡去，自己要...
429    　　只篦了三五下儿，见晴雯忙忙走进来取钱，一见他两个，便冷笑道：“哦!交杯盏儿还没吃，就上了...
430    　　次日清晨，袭人已是夜间出了汗，觉得轻松了些，只吃些米汤静养。宝玉才放了心，因饭后走到薛姨...
431    　　彼时正月内学房中放年学，闺阁中忌针黹，都是闲时，因贾环也过来玩。正遇见宝钗、香菱、莺儿三...
432    　　宝钗不等说完，连忙喝住了。贾环道：“我拿什么比宝玉?你们怕他，都和他好，都欺负我不是太太...
433    　　贾环听了，只得回来。赵姨娘见他这般，因问：“是那里垫了踹窝来了？”贾环便说：“同宝姐姐玩...
434    　　且说宝玉正和宝钗玩笑，忽见人说：“史大姑娘来了。”宝玉听了，连忙就走。宝钗笑道：“等着，...
435    　　宝玉忙跟了来，问道：“好好儿的又生气了!就是我说错了，你到底也还坐坐儿，合别人说笑一会子...
436    　　没两盏茶时，宝玉仍来了。黛玉见了，越发抽抽搭搭的哭个不住。宝玉见了这样，知难挽回，打叠起...
437    　　二人正说着，只见湘云走来，笑道：“爱哥哥，林姐姐，你们天天一处玩，我好容易来了，也不理我...
Name: content, dtype: object

In [14]:
# 将某章的所有段落使用句号连接: 第十九章
''.join(list(RedMansion.content[index_test]))

'\u3000\u3000话说宝玉在黛玉房中说“耗子精”，宝钗撞来，讽刺宝玉元宵不知“绿蜡”之典，三人正在房中互相取笑。那宝玉恐黛玉饭后贪眠，一时存了食，或夜间走了困，身体不好；幸而宝钗走来，大家谈笑，那黛玉方不欲睡，自己才放了心。忽听他房中嚷起来，大家侧耳听了一听，黛玉先笑道：“这是你妈妈和袭人叫唤呢。那袭人待他也罢了，你妈妈再要认真排揎他，可见老背晦了。”宝玉忙欲赶过去，宝钗一把拉住道：“你别和你妈妈吵才是呢!他是老糊涂了，倒要让他一步儿的是。”宝玉道：“我知道了。”说毕走来。\u3000\u3000只见李嬷嬷拄着拐杖，在当地骂袭人：“忘了本的小娼妇儿!我抬举起你来，这会子我来了，你大模厮样儿的躺在炕上，见了我也不理一理儿。一心只想妆狐媚子哄宝玉，哄的宝玉不理我，只听你的话。你不过是几两银子买了来的小丫头子罢咧，这屋里你就作起耗来了!好不好的，拉出去配一个小子，看你还妖精似的哄人不哄！”袭人先只道李嬷嬷不过因他躺着生气，少不得分辩说：“病了，才出汗，蒙着头，原没看见你老人家。”后来听见他说“哄宝玉”，又说“配小子”，由不得又羞又委屈，禁不住哭起来了。宝玉虽听了这些话，也不好怎样，少不得替他分辩，说“病了，吃药”，又说：“你不信，只问别的丫头。”李嬷嬷听了这话，越发气起来了，说道：“你只护着那起狐狸，那里还认得我了呢?叫我问谁去?谁不帮着你呢?谁不是袭人拿下马来的?我都知道那些事!我只和你到老太太、太太跟前去讲讲：把你奶了这么大，到如今吃不着奶了，把我扔在一边儿，逞着丫头们要我的强！”一面说，一面哭。彼时黛玉宝钗等也过来劝道：“妈妈，你老人家担待他们些就完了。”李嬷嬷见他二人来了，便诉委屈，将当日吃茶，茜雪出去，和昨日酥酪等事，唠唠叨叨说个不了。\u3000\u3000可巧凤姐正在上房算了输赢帐，听见后面一片声嚷，便知是李嬷嬷老病发了，又值他今儿输了钱，迁怒于人，排揎宝玉的丫头。便连忙赶过来拉了李嬷嬷，笑道：“妈妈别生气。大节下，老太太刚喜欢了一日。你是个老人家，别人吵，你还要管他们才是；难道你倒不知规矩，在这里嚷起来，叫老太太生气不成?你说谁不好，我替你打他。我屋里烧的滚热的野鸡，快跟了我喝酒去罢。”一面说，一面拉着走，又叫：“丰儿，替你李奶奶拿着拐棍子、擦眼泪的绢子。”那李嬷嬷脚不沾地跟了凤姐儿走了，一面还说：“我也不要这老命了，索性今儿没了规矩，闹一场子，讨

In [15]:
# 去除某一章的 \u3000 字符串
''.join(list(RedMansion.content[index_test])).replace('\u3000', '')

'话说宝玉在黛玉房中说“耗子精”，宝钗撞来，讽刺宝玉元宵不知“绿蜡”之典，三人正在房中互相取笑。那宝玉恐黛玉饭后贪眠，一时存了食，或夜间走了困，身体不好；幸而宝钗走来，大家谈笑，那黛玉方不欲睡，自己才放了心。忽听他房中嚷起来，大家侧耳听了一听，黛玉先笑道：“这是你妈妈和袭人叫唤呢。那袭人待他也罢了，你妈妈再要认真排揎他，可见老背晦了。”宝玉忙欲赶过去，宝钗一把拉住道：“你别和你妈妈吵才是呢!他是老糊涂了，倒要让他一步儿的是。”宝玉道：“我知道了。”说毕走来。只见李嬷嬷拄着拐杖，在当地骂袭人：“忘了本的小娼妇儿!我抬举起你来，这会子我来了，你大模厮样儿的躺在炕上，见了我也不理一理儿。一心只想妆狐媚子哄宝玉，哄的宝玉不理我，只听你的话。你不过是几两银子买了来的小丫头子罢咧，这屋里你就作起耗来了!好不好的，拉出去配一个小子，看你还妖精似的哄人不哄！”袭人先只道李嬷嬷不过因他躺着生气，少不得分辩说：“病了，才出汗，蒙着头，原没看见你老人家。”后来听见他说“哄宝玉”，又说“配小子”，由不得又羞又委屈，禁不住哭起来了。宝玉虽听了这些话，也不好怎样，少不得替他分辩，说“病了，吃药”，又说：“你不信，只问别的丫头。”李嬷嬷听了这话，越发气起来了，说道：“你只护着那起狐狸，那里还认得我了呢?叫我问谁去?谁不帮着你呢?谁不是袭人拿下马来的?我都知道那些事!我只和你到老太太、太太跟前去讲讲：把你奶了这么大，到如今吃不着奶了，把我扔在一边儿，逞着丫头们要我的强！”一面说，一面哭。彼时黛玉宝钗等也过来劝道：“妈妈，你老人家担待他们些就完了。”李嬷嬷见他二人来了，便诉委屈，将当日吃茶，茜雪出去，和昨日酥酪等事，唠唠叨叨说个不了。可巧凤姐正在上房算了输赢帐，听见后面一片声嚷，便知是李嬷嬷老病发了，又值他今儿输了钱，迁怒于人，排揎宝玉的丫头。便连忙赶过来拉了李嬷嬷，笑道：“妈妈别生气。大节下，老太太刚喜欢了一日。你是个老人家，别人吵，你还要管他们才是；难道你倒不知规矩，在这里嚷起来，叫老太太生气不成?你说谁不好，我替你打他。我屋里烧的滚热的野鸡，快跟了我喝酒去罢。”一面说，一面拉着走，又叫：“丰儿，替你李奶奶拿着拐棍子、擦眼泪的绢子。”那李嬷嬷脚不沾地跟了凤姐儿走了，一面还说：“我也不要这老命了，索性今儿没了规矩，闹一场子，讨了没脸，强似受那些娼妇的气！”后面宝钗黛玉见凤姐儿这般，都拍手笑道：“亏

In [16]:
# 计算某章（回）有多少字: 第19章
len(''.join(list(RedMansion.content[index_test])).replace('\u3000', ''))

5110

### 计算每个章节（回）有多少字

In [17]:
RedMansion_df['CountWord'] = RedMansion_df.Artical.apply(len)
RedMansion_df

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex,EndIndex,ChapterLength,Artical,CountWord
0,《红楼梦》第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0,22.0,22.0,――此开卷第一回也。作者自云：曾历过一番梦幻之后，故将真事隐去，而借通灵说此《石头记》一书也...,6336
1,《红楼梦》第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",23,38.0,15.0,却说封肃听见公差传唤，忙出来陪笑启问，那些人只嚷：“快请出甄爷来。”封肃忙陪笑道：“小人姓封...,5637
2,《红楼梦》第三回,托内兄如海荐西宾,接外孙贾母惜孤女,3,"托内兄如海荐西宾,接外孙贾母惜孤女",39,61.0,22.0,却说雨村忙回头看时，不是别人，乃是当日同僚一案参革的张如圭。他系此地人，革后家居，今打听得都...,7856
3,《红楼梦》第四回,薄命女偏逢薄命郎,葫芦僧判断葫芦案,4,"薄命女偏逢薄命郎,葫芦僧判断葫芦案",62,77.0,15.0,却说黛玉同姐妹们至王夫人处，见王夫人正和兄嫂处的来使计议家务，又说姨母家遭人命官司等语。因见...,5336
4,《红楼梦》第五回,贾宝玉神游太虚境,警幻仙曲演红楼梦,5,"贾宝玉神游太虚境,警幻仙曲演红楼梦",78,110.0,32.0,第四回中既将薛家母子在荣府中寄居等事略已表明，此回暂可不写了。如今且说林黛玉自在荣府，一来贾...,7245
...,...,...,...,...,...,...,...,...,...,...
115,《红楼梦》第一百十六回,得通灵幻境悟仙缘,送慈柩故乡全孝道,116,"得通灵幻境悟仙缘,送慈柩故乡全孝道",2440,2457.0,17.0,话说宝玉一听麝月的话，身往后仰，复又死去，急得王夫人等哭叫不止。麝月自知失言致祸，此时王夫人...,6840
116,《红楼梦》第一百十七回,阻超凡佳人双护玉,欣聚党恶子独承家,117,"阻超凡佳人双护玉,欣聚党恶子独承家",2458,2477.0,19.0,话说王夫人打发人来叫宝钗过去商量，宝玉听见说是和尚在外头，赶忙的独自一人走到前头，嘴里乱嚷道...,7659
117,《红楼梦》第一百十八回,记微嫌舅兄欺弱女,惊谜语妻妾谏痴人,118,"记微嫌舅兄欺弱女,惊谜语妻妾谏痴人",2478,2495.0,17.0,话说邢王二夫人听尤氏一段话，明知也难挽回。王夫人只得说道：“姑娘要行善，这也是前生的夙根，我...,7543
118,《红楼梦》第一百十九回,中乡魁宝玉却尘缘,沐皇恩贾家延世泽,119,"中乡魁宝玉却尘缘,沐皇恩贾家延世泽",2496,2529.0,33.0,话说莺儿见宝玉说话，摸不着头脑，正自要走，只听宝玉又说道：“傻丫头，我告诉你罢。你姑娘既是有...,9567


### 章节（回）段落数量与章节（回）字数的散点图

In [18]:
from pyecharts.globals import ThemeType
from pyecharts.commons.utils import JsCode
import pyecharts.options as opts

from pyecharts.charts import Scatter

Chapter_Word_Scatter = (
    Scatter(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add_xaxis(xaxis_data=RedMansion_df.ChapterLength)
    .add_yaxis(series_name='章节（回）字数', y_axis=RedMansion_df.CountWord, label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opts.TitleOpts(title='《红楼梦》120 回'))
)
Chapter_Word_Scatter.render_notebook()

### 折线图

In [19]:
RedMansion_df.head(2)

Unnamed: 0,Chapter,LeftName,RightName,Chapter_new,ChapterName,StartIndex,EndIndex,ChapterLength,Artical,CountWord
0,《红楼梦》第一回,甄士隐梦幻识通灵,贾雨村风尘怀闺秀,1,"甄士隐梦幻识通灵,贾雨村风尘怀闺秀",0,22.0,22.0,――此开卷第一回也。作者自云：曾历过一番梦幻之后，故将真事隐去，而借通灵说此《石头记》一书也...,6336
1,《红楼梦》第二回,贾夫人仙逝扬州城,冷子兴演说荣国府,2,"贾夫人仙逝扬州城,冷子兴演说荣国府",23,38.0,15.0,却说封肃听见公差传唤，忙出来陪笑启问，那些人只嚷：“快请出甄爷来。”封肃忙陪笑道：“小人姓封...,5637


In [20]:
from pyecharts.charts import Line

line = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add_xaxis(xaxis_data=RedMansion_df.Chapter_new)
    .add_yaxis(series_name='字数', y_axis=RedMansion_df.CountWord, label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opts.TitleOpts(title='《红楼梦》120 回'))
)
line.render_notebook()

In [21]:
from pyecharts.charts import Grid
Chapter_Length_Line = (
    Line()
    .add_xaxis(RedMansion_df.Chapter_new)
    .add_yaxis('章节（回）序号', y_axis=RedMansion_df.ChapterLength, label_opts=opts.LabelOpts(is_show=False),
    markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_="average", name="平均值")]))
)
Chapter_Word_Line = (
    Line()
    .add_xaxis(RedMansion_df.Chapter_new)
    .add_yaxis('章节（回）序号', y_axis=RedMansion_df.CountWord, label_opts=opts.LabelOpts(is_show=False),
    markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_="average", name="平均值")]))
)
grid = (
    Grid(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add(Chapter_Length_Line, grid_opts=opts.GridOpts(pos_left=50, pos_right=50, height="35%"))
    .add(Chapter_Word_Line, grid_opts=opts.GridOpts(pos_left=50, pos_right=50, pos_top="55%", height="35%"))
)
grid.render_notebook()

## 对红楼梦进行分词
### 中文分词（Chinese Word Segmentation）指的是将一个汉字序列切分成一个一个单独的词
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，维度没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过再词这一层上，中文比之英文要复杂的多、困难得多。

In [22]:
# 加载 jieba、re 库
import re
import jieba

In [23]:
# 将红楼梦每一章节(回)的内容提取出来
RMContent = RedMansion_df.Artical
RMContent

0      ――此开卷第一回也。作者自云：曾历过一番梦幻之后，故将真事隐去，而借通灵说此《石头记》一书也...
1      却说封肃听见公差传唤，忙出来陪笑启问，那些人只嚷：“快请出甄爷来。”封肃忙陪笑道：“小人姓封...
2      却说雨村忙回头看时，不是别人，乃是当日同僚一案参革的张如圭。他系此地人，革后家居，今打听得都...
3      却说黛玉同姐妹们至王夫人处，见王夫人正和兄嫂处的来使计议家务，又说姨母家遭人命官司等语。因见...
4      第四回中既将薛家母子在荣府中寄居等事略已表明，此回暂可不写了。如今且说林黛玉自在荣府，一来贾...
                             ...                        
115    话说宝玉一听麝月的话，身往后仰，复又死去，急得王夫人等哭叫不止。麝月自知失言致祸，此时王夫人...
116    话说王夫人打发人来叫宝钗过去商量，宝玉听见说是和尚在外头，赶忙的独自一人走到前头，嘴里乱嚷道...
117    话说邢王二夫人听尤氏一段话，明知也难挽回。王夫人只得说道：“姑娘要行善，这也是前生的夙根，我...
118    话说莺儿见宝玉说话，摸不着头脑，正自要走，只听宝玉又说道：“傻丫头，我告诉你罢。你姑娘既是有...
119    话说宝钗听秋纹说袭人不好，连忙进去瞧看，巧姐儿同平儿也随着。走到袭人炕前，只见袭人心痛难禁，...
Name: Artical, Length: 120, dtype: object

In [24]:
print(RedMansion.content[19])

　　陋室空堂，当年笏满床。衰草枯杨，曾为歌舞场。蛛丝儿结满雕粱，绿纱今又在蓬窗上。说甚么脂正浓、粉正香，如何两鬓又成霜?昨日黄土陇头埋白骨，今宵红绡帐底卧鸳鸯。金满箱，银满箱，转眼乞丐人皆谤。正叹他人命不长，那知自己归来丧?训有方，保不定日后作强梁。择膏粱，谁承望流落在烟花巷!因嫌纱帽小，致使锁枷扛。昨怜破袄寒，今嫌紫蟒长：乱烘烘你方唱罢我登场，反认他乡是故乡。甚荒唐，到头来都是“为他人作嫁衣裳”。


### 分词
进行分词结果测试

In [25]:
# 分词后返回的是一个 generator 发生器
# 去标点符号
test_line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+--！，；：。？、~@#￥%……&*（）]+", " ", RedMansion.content[19]) 
jieba_test = jieba.cut(test_line, cut_all=True)
jieba_test

<generator object Tokenizer.cut at 0x0000016223FD73C8>

In [26]:
print('/'.join(jieba_test))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\90934\AppData\Local\Temp\jieba.cache
Loading model cost 0.952 seconds.
Prefix dict has been built successfully.
/ //陋室/空/堂// //当年/笏/满/床// //衰草/枯/杨// //曾/为/歌舞/舞场// //蛛丝/儿/结满/雕/粱// //绿/纱/今/又/在/蓬/窗上// //说/甚么/脂/正浓// //粉/正/香// //如何/两鬓/又/成/霜// //昨日/黄土/陇/头/埋/白骨// //今宵/红/绡/帐/底/卧/鸳鸯// //金/满/箱// //银/满/箱// //转眼/乞丐/人/皆/谤// //正/叹/他人/人命/不长// //那/知/自己/归来/丧// //训/有方// //保不定/不定/定日/日后/作/强梁// //择/膏粱// //谁/承望/流落/在/烟花/烟花巷/花巷// //因/嫌/纱帽/小// //致使/锁/枷/扛// //昨/怜/破/袄/寒// //今/嫌/紫/蟒/长// //乱烘烘/你/方/唱/罢/我/登场// //反/认/他/乡/是/故乡// //甚/荒唐// //到头/到头来/都/是// //为/他人/作嫁/作嫁衣裳/嫁衣/嫁衣裳/衣裳// /


## 使用自定义的词典分词
使用自定义的词典后，之前可能分错的词语，将不会再发生错误

In [27]:
# 加载自定义词典
jieba.load_userdict('./data/RedMansionDict.txt')

In [28]:
jieba_test_dict = jieba.cut(test_line, cut_all=True)
print('/'.join(jieba_test_dict))

/ //陋室/陋室空堂// //当年/当年笏满床// //衰草/衰草枯杨// //曾为歌舞场/歌舞/舞场// //蛛丝/儿/结满/雕/粱// //绿/纱/今/又/在/蓬/窗上// //说/甚么/脂正浓/正浓// //粉正香// //如何/如何两鬓又成霜/两鬓/又/成/霜// //昨日/黄土/陇/头/埋/白骨// //今宵/红/绡/帐/底/卧/鸳鸯// //金满箱// //银满箱// //转眼/乞丐/人/皆/谤// //正叹他人命不长/他人/人命/不长// //那知自己归来丧/自己/归来/丧// //训有方/有方// //保不定/保不定日后作强梁/不定/定日/日后/作/强梁// //择膏粱/膏粱// //谁承望流落在烟花巷/承望/流落/在/烟花/烟花巷/花巷// //因嫌纱帽小/纱帽/小// //致使/锁/枷/扛// //昨怜破袄寒// //今嫌紫蟒长// //乱烘烘/乱烘烘你方唱罢我登场/登场// //反认他乡是故乡/故乡// //甚荒唐/荒唐// //到头/到头来/都/是// //为/他人/作嫁/作嫁衣裳/嫁衣/嫁衣裳/衣裳// /


### 提取分此后的关键字

In [29]:
# 提取长度大于 1 的词
test_content = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+--！，；：。？、~@#￥%……&*（）]+", " ", RMContent[19]) 
jieba_word_list = jieba.cut(test_content, cut_all=True)
WordList = []
for cell in jieba_word_list:
    if len(cell) > 1:
        WordList.append(cell)

In [30]:
# 构建数据表
Word_df = pd.DataFrame({'Word': WordList})
Word_df

Unnamed: 0,Word
0,宝玉
1,黛玉
2,房中
3,耗子
4,宝钗
...,...
1363,现在
1364,眼里
1365,宝玉
1366,湘云


In [31]:
# 加载停用词
StopWords = pd.read_csv('./data/cn_stopwords.txt', header=None, names=['stopwords'])
# 去除停用词, 词频统计
Word_df = Word_df[~Word_df.Word.isin(StopWords.stopwords)]
WordStat = Word_df.groupby(by=['Word'])['Word'].agg({np.size}).rename(columns={'size': 'number'})
WordStat = WordStat.reset_index().sort_values(by='number', ascending=False)
WordStat

Unnamed: 0,Word,number
292,宝玉,55
670,黛玉,23
584,贾环,16
293,宝钗,16
565,袭人,13
...,...,...
251,头一回,1
250,夫人,1
248,天长日久,1
247,天长,1


## 对全文进行分词

In [32]:
row, col = RedMansion_df.shape
print('row: {}, col: {}'.format(row, col))

row: 120, col: 10


In [33]:
# 预定义列表
RedMansion_df['cutword'] = 'cutword'
for index in np.arange(row):
    # 分词
    artiacl_content = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+--！，；：。？、~@#￥%……&*（）]+", " ", RedMansion_df.Artical[index]) 
    cutwords = list(jieba.cut(artiacl_content, cut_all=True))
    # 去除长度为 1 的词
    cutwords = pd.Series(cutwords)[pd.Series(cutwords).apply(len) > 1]
    # 去掉停用词
    cutwords = cutwords[~cutwords.isin(StopWords.stopwords)]
    RedMansion_df.cutword[index] = cutwords.values

In [34]:
# 查看最后一段的分词结果
print(cutwords)

2         宝钗
4         秋纹
6         袭人
7         不好
11        连忙
        ... 
7867      不知
7872      游戏
7873    游戏笔墨
7874      笔墨
7878    陶情适性
Length: 2088, dtype: object


In [35]:
# 查看全文分词结果
RedMansion_df.cutword

0      [开卷, 第一, 第一回, 一回, 作者, 一番, 梦幻, 之后, 真事, 隐去, 石头, ...
1      [却说, 封肃, 听见, 公差, 传唤, 陪笑, 请出, 封肃, 陪笑, 小人, 当日, 小...
2      [却说, 回头, 乃是, 当日, 同僚, 一案, 张如圭, 家居, 打听, 起复, 复旧, ...
3      [却说, 黛玉, 姐妹, 王夫人, 夫人, 王夫人, 夫人, 兄嫂, 计议, 家务, 姨母,...
4      [第四, 第四回, 四回, 回中, 家母, 母子, 荣府, 寄居, 事略, 表明, 可不, ...
                             ...                        
115    [宝玉, 麝月, 往后, 往后仰, 后仰, 死去, 王夫人, 夫人, 哭叫, 不止, 麝月,...
116    [王夫人, 夫人, 打发, 发人, 宝钗, 过去, 商量, 宝玉, 听见, 和尚, 在外, ...
117    [邢王二, 王二夫人, 夫人, 尤氏, 一段, 一段话, 明知, 挽回, 王夫人, 夫人, ...
118    [莺儿, 宝玉, 说话, 摸不着, 摸不着头脑, 不着, 头脑, 听宝玉, 宝玉, 说道, ...
119    [宝钗, 秋纹, 袭人, 不好, 连忙, 进去, 巧姐, 巧姐儿, 姐儿, 平儿, 走到, ...
Name: cutword, Length: 120, dtype: object

### 统计全文词频，绘制词云
在一份给定的文件里，**词频**（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防他偏向长的文件。（同一个词语在长文件里可能会比段文件有更高的词频，而不管词语的重要与否。）
**词云**是将感兴趣的词云放在一幅图像中，可以控制词语的位置、大小、字体等。通常使用字体的大小来反映词云出现的频率。出现的频率越大，在词云中的字体大小越大

In [36]:
# 连接list
print(np.concatenate(RedMansion_df.cutword))
Words = np.concatenate(RedMansion_df.cutword)
print(Words.shape)

['开卷' '第一' '第一回' ... '游戏笔墨' '笔墨' '陶情适性']
(216388,)


In [37]:
# 统计词频
Word_df = pd.DataFrame({'Word': Words})
Word_stat = Word_df.groupby(by=['Word'])['Word'].agg({np.size}).rename(columns={'size': 'number'})
Word_stat = Word_stat.reset_index().sort_values(by='number', ascending=False)
Word_stat['wordlen'] = Word_stat.Word.apply(len)
Word_stat

Unnamed: 0,Word,number,wordlen
9775,宝玉,3947,2
8747,太太,1918,2
4874,凤姐,1753,2
23759,贾母,1663,2
36,一个,1435,2
...,...,...,...
5354,劝戒,1,2
16337,死灰,1,2
16339,死生有命,1,4
16340,死症,1,2


In [38]:
# 计算分词后的词语出现的平均值
print('频率平均值: {}, 长度平均值: {}'.format(Word_stat.number.mean(), Word_stat.wordlen.mean()))

频率平均值: 7.930657870624885, 长度平均值: 2.5107934762690123


In [39]:
# 去除长度大于 5 的词
print(np.where(Word_stat.Word.apply(len) > 5))
Word_stat = Word_stat.loc[Word_stat.Word.apply(len) < 5, :]
Word_stat = Word_stat.sort_values(by='number', ascending=False)
Word_stat

(array([ 6967,  7056,  7541,  8046,  9499,  9654, 10086, 10237, 10398,
       10419, 10651, 11063, 11084, 11131, 11202, 11313, 11392, 11478,
       11621, 11806, 11976, 12168, 12215, 12219, 12354, 12819, 13047,
       13073, 13245, 13325, 13334, 13351, 13358, 13603, 13638, 13908,
       14071, 14273, 14429, 14432, 14457, 14464, 14483, 14485, 14514,
       14515, 14522, 14523, 14528, 14531, 14569, 14592, 14602, 14609,
       14612, 14616, 14617, 14624, 14626, 14632, 14636, 14675, 14699,
       14731, 14739, 14755, 14758, 14775, 14780, 14783, 14788, 14789,
       14812, 14825, 14826, 14833, 14839, 14846, 14849, 14851, 14854,
       14856, 14860, 14865, 14871, 14876, 14913, 14927, 14959, 14972,
       14989, 15016, 15034, 15047, 15054, 15058, 15066, 15071, 15078,
       15134, 15135, 15138, 15157, 15165, 15182, 15193, 15207, 15213,
       15219, 15223, 15224, 15228, 15240, 15244, 15247, 15258, 15277,
       15284, 15287, 15289, 15295, 15316, 15326, 15332, 15338, 15341,
       15350, 15353

Unnamed: 0,Word,number,wordlen
9775,宝玉,3947,2
8747,太太,1918,2
4874,凤姐,1753,2
23759,贾母,1663,2
36,一个,1435,2
...,...,...,...
22884,西西,1,2
2369,事已至此,1,4
2368,事实,1,2
22890,西面,1,2


### 词云

In [40]:
from pyecharts.charts import WordCloud

wordcloud = (
    WordCloud(init_opts=opts.InitOpts(theme=ThemeType.DARK, bg_color='white'))
    .add("", [list(z) for z in zip(Word_stat.Word, Word_stat.number)])
    .set_colors('white')
)
wordcloud.render_notebook()

### 直方图

In [41]:
from pyecharts.charts import Bar

newData = Word_stat.loc[Word_stat.number > 500]

bar_500 = (
    Bar(init_opts = opts.InitOpts(theme = ThemeType.DARK))
    .add_xaxis(newData.Word.tolist())
    .add_yaxis("频数", [int(x) for x in newData.number],category_gap="50%")
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opts.TitleOpts(title = "RedMansion-WordCloud"),
    xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=30, interval=0)),
    datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_='inside')])
)
bar_500.render_notebook()

In [42]:
newData = Word_stat.loc[Word_stat.number > 250]

bar_250 = (
    Bar(init_opts = opts.InitOpts(theme = ThemeType.DARK))
    .add_xaxis(newData.Word.tolist())
    .add_yaxis("频数", [int(x) for x in newData.number],category_gap="50%")
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opts.TitleOpts(title = "RedMansion-WordCloud"),
    xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=30, interval=0)),
    datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_='inside')])
)
bar_250.render_notebook()

In [43]:
# 计算词频的平均数
print('Top250的平均数: {}'.format(np.mean(newData.number)))

Top250的平均数: 638.3260869565217


In [44]:
# 保存数据
RedMansion_df.to_json('./data/RedMansion_Data.json')