# 词袋模型

词袋模型（Bag of Words，简称 BoW）是自然语言处理（NLP）中常用的文本表示方法，它将文本转化为数值特征（向量），进而可以用于机器学习等高阶处理。词袋模型将语料转化为二维矩阵，横向为所有在训练数据中出现的不重复的词汇（word），纵向为语料各句子或文档（document）。

简单来说，词袋模型可以帮助大家计算词频。

## chapter 5 bag of words for chinese

### 1.1 导入数据

In [2]:
# 导入数据
import pandas as pd
text_ana = pd.read_csv('text_analysis_weibo.csv', index_col = 0)
# text_ana = text_ana.drop(['Unnamed: 0'], axis=1)
text_ana

Unnamed: 0,标题/微博内容,点赞,转发,评论,账号昵称UID加密,粉丝数,关注数,地域
0,#高校通报教师图书馆打电话声音过大出言不逊#公道自在人心，谣言自在人心 ​​,0,0,0,a2331b38901d62d2d9a20529177ef3b3,0,22,湖北
1,转发C,0,0,0,d6dc4470f51fce93cc0cbad8abf55a75,0,33,广西
2,【#刘雨昕运动者联濛#河山覆冰雪，健儿迎冬奥[金牌]全能唱跳不设限，运动联濛开新年🇨🇳 期待...,0,0,0,372bc4782eb442b88035f920a7c1a68e,6,85,广东
3,丁程鑫//@丁程鑫后援会官博:#丁程鑫[超话]# ✨#丁程鑫 二十成金筑梦鑫世界# 大年初一...,0,0,0,6fe0d482bd3e78a3483e2a1d57f14ef2,75,1012,广东
4,诶，你们真不要脸诶。。。没资格宣传奥运。。。抵制抵制！,0,0,0,872380d71d6ee9130e8b49d331f2baa9,0,10,广东
...,...,...,...,...,...,...,...,...
49995,935天气路况早知道 2022年3月2日 星期三 今日限行尾号3和8 8：00分发布 ...,0,0,0,2231ab79796d569625633acafd9f1351,445,74,河南
49996,4月1日起，交通违法记分规则重大调整！ http://t.cn/A66zxfR0 ​​,0,0,0,91c9d380c1cc7811be5ee10ce510d77a,842,54,甘肃
49997,转发C,0,0,1,301771db13798e2dd493c02a44e59444,99,3433,江苏
49998,全体 甘肃车主注意 4月1日起，全面实施！ ...,0,0,0,,0,0,甘肃


In [3]:
# 分析语料
text = list(text_ana['标题/微博内容'])
text

['#高校通报教师图书馆打电话声音过大出言不逊#公道自在人心，谣言自在人心 \u200b\u200b',
 '转发C',
 '【#刘雨昕运动者联濛#河山覆冰雪，健儿迎冬奥[金牌]全能唱跳不设限，运动联濛开新年🇨🇳 期待全能音乐人@刘雨昕 与#运动者联濛#一起，为冬奥赛事助力加油！】',
 '丁程鑫//@丁程鑫后援会官博:#丁程鑫[超话]# ✨#丁程鑫 二十成金筑梦鑫世界# 大年初一锁定@北京卫视 和门面主舞@时代少年团-丁程鑫 一起过大年，拥抱冰雪，致敬冬奥！',
 '诶，你们真不要脸诶。。。没资格宣传奥运。。。抵制抵制！',
 '转发C',
 '#熊猫守护者##全面二创冰墩墩#北京冬奥会如火如荼地进行中，滚滚我的好朋友冰墩墩也十分活跃，看滚滚我做一组舒展运动，为中国健儿加油鼓劲儿！[嘻嘻][嘻嘻] http://t.cn/A6ilerDZ 视频来源：@桃花源生态保护基金会 \u200b\u200b\u200b',
 '转发C',
 '2022北京冬奥会加油！冰墩墩雪容融也非常可爱！期待我国奥运健儿们的精彩表现[开学季]#云支教迎冬奥# \u200b\u200b',
 '和@TFBOYS-易烊千玺 一起助力东奥！一起向未来！',
 '转发C',
 '[心]',
 '守护[心]',
 '#易烊千玺邀你唱响一起向未来# //@M28号星球:#易烊千玺邀你唱响一起向未来# 26.17',
 '//@翔霖神谕:感谢@爱奇艺 的分享。新年胜旧年，春妍惹绚烂，万事胜意与平安喜乐的祝福徒增和乐，@时代少年团-严浩翔 @时代少年团-贺峻霖  同少年关注北京台春晚，拥锦瑟年华岁岁。',
 '好棒[打call][打call][打call]//@只是叭呐呐:哇晒哇晒！厉害我顶起！！！#蔡徐坤代言燕京啤酒# //@蔡徐坤的大喇叭萱:#蔡徐坤[超话]# I#蔡徐坤代言燕京啤酒# 恭喜燕京啤酒，在北京冬奥会官方赞助商冬奥营销传播声量总榜单正式发布位列第三！和代言人@蔡徐坤 一起释放活力，点燃激情，喝彩冬奥！[干杯]',
 '转发C',
 '//@杰克涛:金牌稳了[笑而不语]',
 '转发C',
 '//@许佳琪kiki:#一起冬奥吧# 中国队加油呀⛽️',
 '转发C',
 '蹲',
 '转发',
 '#周深一起向未来高音太绝了#@卡布叻_周深 录制《一起向未来》花絮来了！这漂亮的高音简直绝绝

### 1.2jieba分词

In [4]:
# pip install jieba
import jieba

def word_segmentation(text):
    words = jieba.lcut(text)
    return ' '.join(words)

text_ana['标题/微博内容'] = text_ana['标题/微博内容'].iloc[:100]\
                                .astype(str).apply(word_segmentation)
text_ana['标题/微博内容'].head()

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\123\AppData\Local\Temp\jieba.cache
Loading model cost 0.875 seconds.
Prefix dict has been built successfully.


0    # 高校 通报 教师 图书馆 打电话 声音 过大 出言不逊 # 公道 自 在 人心 ， 谣言...
1                                                 转发 C
2    【 # 刘雨昕 运动 者 联 濛 # 河山 覆 冰雪 ， 健儿 迎 冬奥 [ 金牌 ] 全能...
3    丁程鑫 / / @ 丁程鑫 后援会 官博 : # 丁程鑫 [ 超话 ] #   ✨ # 丁程...
4        诶 ， 你们 真 不要脸 诶 。 。 。 没 资格 宣传 奥运 。 。 。 抵制 抵制 ！
Name: 标题/微博内容, dtype: object

In [5]:
text = list(text_ana['标题/微博内容'].dropna())
text

['# 高校 通报 教师 图书馆 打电话 声音 过大 出言不逊 # 公道 自 在 人心 ， 谣言 自 在 人心   \u200b \u200b',
 '转发 C',
 '【 # 刘雨昕 运动 者 联 濛 # 河山 覆 冰雪 ， 健儿 迎 冬奥 [ 金牌 ] 全能 唱 跳 不 设限 ， 运动 联 濛 开 新年 🇨 🇳   期待 全能 音乐 人 @ 刘雨昕   与 # 运动 者 联 濛 # 一起 ， 为 冬奥 赛事 助力 加油 ！ 】',
 '丁程鑫 / / @ 丁程鑫 后援会 官博 : # 丁程鑫 [ 超话 ] #   ✨ # 丁程鑫   二十 成金筑梦鑫 世界 #   大年初一 锁定 @ 北京 卫视   和 门面 主舞 @ 时代 少年 团 - 丁程鑫   一起 过大年 ， 拥抱 冰雪 ， 致敬 冬奥 ！',
 '诶 ， 你们 真 不要脸 诶 。 。 。 没 资格 宣传 奥运 。 。 。 抵制 抵制 ！',
 '转发 C',
 '# 熊猫 守护者 ## 全面 二 创冰墩 墩 # 北京 冬奥会 如火如荼 地 进行 中 ， 滚滚 我 的 好 朋友 冰墩 墩 也 十分 活跃 ， 看 滚滚 我 做 一组 舒展 运动 ， 为 中国 健儿 加油 鼓 劲儿 ！ [ 嘻嘻 ] [ 嘻嘻 ]   http : / / t . cn / A6ilerDZ   视频 来源 ： @ 桃花源 生态 保护 基金会   \u200b \u200b \u200b',
 '转发 C',
 '2022 北京 冬奥会 加油 ！ 冰墩 墩 雪容融 也 非常 可爱 ！ 期待 我国 奥运健儿 们 的 精彩 表现 [ 开学 季 ] # 云 支教 迎 冬奥 #   \u200b \u200b',
 '和 @ TFBOYS - 易 烊 千玺   一起 助力 东奥 ！ 一起 向 未来 ！',
 '转发 C',
 '[ 心 ]',
 '守护 [ 心 ]',
 '# 易 烊 千玺 邀 你 唱响 一起 向 未来 #   / / @ M28 号 星球 : # 易 烊 千玺 邀 你 唱响 一起 向 未来 #   26.17',
 '/ / @ 翔霖 神谕 : 感谢 @ 爱奇艺   的 分享 。 新年 胜 旧年 ， 春妍 惹 绚烂 ， 万事 胜意 与 平安 喜乐 的 祝福 徒增 和 乐 ， @ 时代 少年 团 - 严浩翔   @ 

### 1.3 构建词袋模型

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

# 初始化CountVectorizer
vectorizer = CountVectorizer()

# 将文本数据转换为词袋特征矩阵
X = vectorizer.fit_transform(text)

# 展示特征矩阵的形状
print('词袋特征矩阵的形状:', X.shape)

词袋特征矩阵的形状: (100, 602)


In [7]:
# 展示词袋模型中的所有特征词
print('特征词列表:', vectorizer.get_feature_names_out())

特征词列表: ['0414' '1020' '167' '17' '18' '19' '2022' '25' '26' '50' 'a669n33f'
 'a66hqzun' 'a66v9mln' 'a6i5bc1o' 'a6ierqv2' 'a6igrcur' 'a6ikvewj'
 'a6ikxrlc' 'a6ilerdz' 'a6ipxoe0' 'a6jy3xv2' 'a6mn51qh' 'a6xwbtdu' 'an35'
 'c2021' 'call' 'cn' 'cosmo' 'cosmo5' 'cup' 'heytea' 'http' 'into1' 'kiki'
 'liveshow' 'lm' 'm28' 'mv' 'rap' 'tfboys' 'to19' 'um' 'vocal' 'wzy'
 'yyds' '一个' '一休' '一天' '一定' '一封' '一届' '一张' '一日' '一片' '一种' '一组' '一起' '一辈子'
 '丁哥' '丁程鑫' '万事' '万里' '三珩' '不仅' '不停' '不是' '不畏' '不要' '不要脸' '不语' '世界' '东奥'
 '东方' '东西' '东进' '严浩翔' '中华' '中国' '中国画' '中国队' '中央美术学院' '丰富多彩' '主舞' '之后' '之火'
 '之约' '之美' '了解' '二十' '产生' '京东' '人心' '人生' '什么' '他们' '代入' '代表团' '代言' '代言人'
 '以此' '休息' '优秀' '会长' '传播' '位列' '位送' '低沉' '你们' '你好' '便是' '保护' '信号' '健儿'
 '兄弟' '全能' '全面' '公道' '六个' '共祝' '关心' '关注' '关键' '其中' '养乐多' '兼好' '再说' '写下'
 '冠军' '冬天' '冬奥' '冬奥会' '冬季' '冬日' '冬梦之约' '冰墩' '冰壶' '冰雪' '准时' '凝聚' '出演'
 '出言不逊' '分享' '刘耀文' '刘雨昕' '刚刚开始' '创冰墩' '前辈' '加油' '加盟' '助力' '助威' '助阵' '努力'
 '劲儿' '勇士' '北京' '十八' '十八岁' '十六个' '十分' '十大' '千玺' '单人滑' '单届' 

In [8]:
list(X.toarray())

[array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

### 1.4 词频统计

In [9]:
# 获取词汇表
feature_words = vectorizer.get_feature_names_out()

# 计算词频统计
word_freq = dict(zip(feature_words, X.sum(axis=0).A1))

In [10]:
# 词袋模型中不重复的词汇的数量
len(word_freq)

602

In [11]:
# 观察词袋模型的词频计数结果
sorted(word_freq.items(), key=lambda x: x[1], reverse=True)

[('转发', 33),
 ('冬奥', 30),
 ('一起', 29),
 ('北京', 25),
 ('刘雨昕', 20),
 ('运动', 18),
 ('加油', 17),
 ('少年', 14),
 ('cn', 13),
 ('http', 13),
 ('冬奥会', 12),
 ('未来', 12),
 ('冰雪', 11),
 ('健儿', 10),
 ('宋亚轩', 10),
 ('时代', 10),
 ('call', 9),
 ('期待', 8),
 ('中国', 7),
 ('全能', 6),
 ('分享', 6),
 ('徐坤', 6),
 ('我们', 6),
 ('超话', 6),
 ('into1', 5),
 ('丁程鑫', 5),
 ('冰墩', 5),
 ('努力', 5),
 ('周深', 5),
 ('感谢', 5),
 ('林墨', 5),
 ('真的', 5),
 ('自己', 5),
 ('金牌', 5),
 ('音乐', 5),
 ('关注', 4),
 ('助力', 4),
 ('卫视', 4),
 ('后援会', 4),
 ('唱响', 4),
 ('尹浩宇', 4),
 ('新年', 4),
 ('春晚', 4),
 ('朱一龙', 4),
 ('李宇春', 4),
 ('歌手', 4),
 ('温柔', 4),
 ('致敬', 4),
 ('赛场', 4),
 ('19', 3),
 ('一定', 3),
 ('不是', 3),
 ('千玺', 3),
 ('卡布', 3),
 ('可以', 3),
 ('声音', 3),
 ('奥运健儿', 3),
 ('官方', 3),
 ('害羞', 3),
 ('张哥', 3),
 ('日常', 3),
 ('时间', 3),
 ('明星', 3),
 ('涵江', 3),
 ('照亮', 3),
 ('照顾', 3),
 ('燕京啤酒', 3),
 ('生日', 3),
 ('直播', 3),
 ('相信', 3),
 ('相约', 3),
 ('祝福', 3),
 ('罗一舟', 3),
 ('视频', 3),
 ('觉得', 3),
 ('赛事', 3),
 ('越来越', 3),
 ('进行', 3),
 ('一个', 2),
 ('一辈子', 2),
 (

## chapter 5 bag of words in English

### 2.1 导入数据

In [12]:
# 导入数据
import pandas as pd
text_ana = pd.read_csv('text_analysis_twitter.csv')
text_ana = text_ana.drop(['Unnamed: 0'], axis=1)

### 2.2 数据预处理

In [13]:
import re

def preprocess_text(text):    
    # 转换为小写
    text = text.lower()   
    # 移除URL
    text = re.sub(r'http\S+', '', text)    
    return text

###  2.3 构建词袋模型

In [14]:
from sklearn.feature_extraction.text import CountVectorizer

# 初始化CountVectorizer
vectorizer = CountVectorizer()

# 将文本数据转换为词袋特征矩阵
X = vectorizer.fit_transform(text_ana["text"].apply(preprocess_text))

# 展示特征矩阵的形状
print('词袋特征矩阵的形状:', X.shape)

# 展示词袋模型中的所有特征词
print('特征词列表:', vectorizer.get_feature_names_out())

词袋特征矩阵的形状: (300000, 121376)
特征词列表: ['00' '000' '0000' ... '투표하십시오' '한국어' 'ﬂees']


In [15]:
list(X.toarray())

MemoryError: Unable to allocate 271. GiB for an array with shape (300000, 121376) and data type int64

### 2.4 词频统计

In [16]:
# 获取词汇表
feature_words = vectorizer.get_feature_names_out()

# 计算词频统计
word_freq = dict(zip(feature_words, X.sum(axis=0).A1))

In [17]:
# 观察词袋模型的词频计数结果
sorted (word_freq.items(), key=lambda x: x[1], reverse=True)

[('the', 247160),
 ('to', 235370),
 ('of', 112428),
 ('in', 104912),
 ('and', 104025),
 ('for', 102100),
 ('rt', 83461),
 ('on', 72986),
 ('amp', 65500),
 ('is', 64785),
 ('we', 53564),
 ('our', 49736),
 ('this', 45532),
 ('you', 40235),
 ('with', 39027),
 ('it', 38749),
 ('that', 38161),
 ('qt', 35691),
 ('at', 33821),
 ('are', 31301),
 ('will', 29565),
 ('tax', 28529),
 ('my', 27644),
 ('be', 26920),
 ('from', 26202),
 ('today', 24574),
 ('have', 23005),
 ('by', 22865),
 ('more', 22665),
 ('trump', 19894),
 ('bill', 19534),
 ('their', 19129),
 ('about', 18973),
 ('as', 18391),
 ('all', 18295),
 ('not', 18197),
 ('your', 17615),
 ('who', 17098),
 ('can', 15465),
 ('health', 14215),
 ('has', 14119),
 ('an', 13861),
 ('they', 13858),
 ('us', 13825),
 ('here', 13799),
 ('house', 13680),
 ('people', 13486),
 ('great', 13468),
 ('now', 13113),
 ('families', 12838),
 ('must', 12787),
 ('up', 12602),
 ('was', 12513),
 ('need', 12313),
 ('americans', 12279),
 ('help', 12145),
 ('act', 12064),

### 3.1 导入数据

In [2]:
import pandas as pd
text_ana = pd.read_csv('《消失的她》豆瓣短评数据.csv', index_col = 0)
# text_ana = text_ana.drop(['Unnamed: 0'], axis=1)
text_ana

Unnamed: 0_level_0,评价,评论,评论时间,评论地点,评论点赞数
评论者网名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
淹死海星的凶手,还行,如果一个谋杀老婆的男人却为了无意谋杀了自己的孩子而流泪，这不是很讽刺吗,2023-06-22 13:04:14,江苏,28211.0
申报记者何书桓,较差,倪妮的角色是个T吧，《铁T复仇记》。,2023-06-20 00:08:16,北京,17443.0
ฅ ฅ,推荐,其实我觉得男主最后看到b超照片崩溃不是因为看到了孩子的存在，杀了老婆眼都不眨一下的恶魔只会崩...,2023-06-22 21:13:50,吉林,21534.0
orangesavage,推荐,建议情人节档安排上，更适合情侣宝宝的好电影❤️,2023-06-21 20:42:27,广东,19532.0
树木夕凉,还行,故事看20分钟就能猜到，表演上，倪妮好似没什么信念感，朱一龙则是信念感过足了。导演对声光的滥...,2023-06-15 20:45:02,北京,18004.0
...,...,...,...,...,...
小夜子,力荐,太牛了啊。颠覆性表演啊 。,2023-04-23 20:58:25,北京,1570.0
仿真男孩哪吒,较差,好久没看到过这么假模假式并离谱的电影了,2023-06-23 20:05:35,宁夏,258.0
思小泡,还行,渣男的一滴泪是为了肚子里的孩子？我不相信。以及彩蛋真的莫名其妙极了🤷,2023-07-02 23:35:47,北京,50.0
,,,,,


In [4]:
text = list(text_ana['评论'])
# 取出数据中的评论文本
text

['如果一个谋杀老婆的男人却为了无意谋杀了自己的孩子而流泪，这不是很讽刺吗',
 '倪妮的角色是个T吧，《铁T复仇记》。',
 '其实我觉得男主最后看到b超照片崩溃不是因为看到了孩子的存在，杀了老婆眼都不眨一下的恶魔只会崩溃在明明可以轻松地就得到一切，结果现在命搭上了煮熟的鸭子还在不知情的情况下飞了所以他才崩溃，他怎么可能在意孩子的死活，只是他悔在这一切居然本就已经是他的但他却费尽心思策划了这一切还把自己搭进去了，说到底还是一个彻头彻尾的人渣',
 '建议情人节档安排上，更适合情侣宝宝的好电影❤️',
 '故事看20分钟就能猜到，表演上，倪妮好似没什么信念感，朱一龙则是信念感过足了。导演对声光的滥用，不遗余力地暴露着自己的庸俗审美。吃女性题材红利也就罢了，最后还要蹭一下lgbt。只能说，csc搞女性关怀，很难不让人觉得可疑。',
 '集合了我喜欢的悬疑元素，唯一的败笔是最后那张纸。难道坏人会因为这个后悔么？一个既无视爱情，又不尊重女性的人，不会因为这个就心软的。',
 '陈思诚可能你拍的时候肯定想着我真太牛逼了编出来这故事，中国悬疑片就靠我振兴了。但是我要告诉你，中国悬疑片有你真是倒了八辈子血霉了。。。',
 '杀妻不会后悔 看到孩子了才会 陈思成别太恶心',
 '咱就是说 结尾你说他老婆帮他把钱还了都比这来个孩子强',
 '富婆不要随便跟男的去东南亚旅游，哪怕对方长得跟朱一龙似的都请冷静三思。另外，赌棍最后怎么可能是在哭孩子？只是哭自己沉不住气，把牌桌踹翻了才发现草其实早抓了一手赢面这么大的牌罢了，这是世上唯一能让他肠子悔青的事',
 '给男人花钱倒霉一辈子....\n何非到最后都没后悔杀了他老婆，结果b超照片一出来就痛哭流涕，拜托，没有孩子的女性的命也是命……',
 '你们男导演再自以为是拍girls help girls我觉得可以埋了。\n别再点开我主页，请专注自己的思想。',
 '更适合中国宝宝体质的反婚反赌宣传片',
 '本片最大bug：李木子没有和她闺蜜结婚，而是和一个男的结了婚。\n她闺蜜也是，她得知李木子要和别人结婚了，她还同意了？她难道不应该立马飞回去抢婚吗？',
 '哈哈哈哈哈哈哈，中国普通大众真的很好糊弄😂',
 '最烦那种说“早猜到了好无聊啊啥啥啥的”，就那几个人不是他杀就是自杀啦，值得讨论的是人性的恶，而不是你那份愚蠢的傲慢',
 '不要期

### 3.2 jieba分词

In [5]:
import jieba

def word_segmentation(text):
    words = jieba.lcut(text)
    return ' '.join(words)

# 建立分词

text_ana['评论'] = text_ana['评论'].astype(str).apply(word_segmentation)
text_ana['评论'].head()

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\123\AppData\Local\Temp\jieba.cache
Loading model cost 1.543 seconds.
Prefix dict has been built successfully.


评论者网名
淹死海星的凶手         如果 一个 谋杀 老婆 的 男人 却 为了 无意 谋杀 了 自己 的 孩子 而 流泪 ， 这...
申报记者何书桓                           倪妮 的 角色 是 个 T 吧 ， 《 铁 T 复仇记 》 。
ฅ  ฅ            其实 我 觉得 男主 最后 看到 b 超 照片 崩溃 不是 因为 看到 了 孩子 的 存在 ...
orangesavage                建议 情人节 档 安排 上 ， 更 适合 情侣 宝宝 的 好 电影 ❤ ️
树木夕凉            故事 看 20 分钟 就 能 猜 到 ， 表演 上 ， 倪妮 好似 没什么 信念 感 ， 朱...
Name: 评论, dtype: object

In [6]:
text = list(text_ana['评论'].dropna())
text

['如果 一个 谋杀 老婆 的 男人 却 为了 无意 谋杀 了 自己 的 孩子 而 流泪 ， 这 不是 很 讽刺 吗',
 '倪妮 的 角色 是 个 T 吧 ， 《 铁 T 复仇记 》 。',
 '其实 我 觉得 男主 最后 看到 b 超 照片 崩溃 不是 因为 看到 了 孩子 的 存在 ， 杀 了 老婆 眼都 不 眨 一下 的 恶魔 只会 崩溃 在 明明 可以 轻松 地 就 得到 一切 ， 结果 现在 命 搭 上 了 煮熟 的 鸭子 还 在 不知情 的 情况 下飞 了 所以 他 才 崩溃 ， 他 怎么 可能 在意 孩子 的 死活 ， 只是 他悔 在 这 一切 居然 本 就 已经 是 他 的 但他却 费尽心思 策划 了 这 一切 还 把 自己 搭进去 了 ， 说到底 还是 一个 彻头彻尾 的 人渣',
 '建议 情人节 档 安排 上 ， 更 适合 情侣 宝宝 的 好 电影 ❤ ️',
 '故事 看 20 分钟 就 能 猜 到 ， 表演 上 ， 倪妮 好似 没什么 信念 感 ， 朱一龙 则 是 信念 感过 足 了 。 导演 对 声光 的 滥用 ， 不遗余力 地 暴露 着 自己 的 庸俗 审美 。 吃 女性 题材 红利 也 就 罢了 ， 最后 还要 蹭 一下 lgbt 。 只能 说 ， csc 搞 女性 关怀 ， 很难 不让 人 觉得 可疑 。',
 '集合 了 我 喜欢 的 悬疑 元素 ， 唯一 的 败笔 是 最后 那 张纸 。 难道 坏人 会 因为 这个 后悔 么 ？ 一个 既 无视 爱情 ， 又 不 尊重 女性 的 人 ， 不会 因为 这个 就 心软 的 。',
 '陈思诚 可能 你 拍 的 时候 肯定 想着 我 真太牛 逼 了 编出来 这 故事 ， 中国 悬疑片 就 靠 我 振兴 了 。 但是 我要 告诉 你 ， 中国 悬疑片 有 你 真是 倒 了 八辈子 血霉 了 。 。 。',
 '杀妻 不会 后悔   看到 孩子 了 才 会   陈思成 别太 恶心',
 '咱 就是说   结尾 你 说 他 老婆 帮 他 把 钱 还 了 都 比 这来 个 孩子 强',
 '富婆 不要 随便 跟 男 的 去 东南亚 旅游 ， 哪怕 对方 长得 跟 朱一龙 似的 都 请 冷静 三思 。 另外 ， 赌棍 最后 怎么 可能 是 在 哭 孩子 ？ 只是 哭 自己 沉不住气 ， 把 牌

### 3.3构建词袋模型

In [7]:
from sklearn.feature_extraction.text import CountVectorizer

# 初始化CountVectorizer
vectorizer = CountVectorizer()

# 将文本数据转换为词袋特征矩阵
X = vectorizer.fit_transform(text)

# 展示特征矩阵的形状
print('词袋特征矩阵的形状:', X.shape)

词袋特征矩阵的形状: (232, 2369)


In [8]:
# 展示词袋模型中的所有特征词
print('特征词列表:', vectorizer.get_feature_names_out())

特征词列表: ['10' '100' '1000' ... '默契' '鼓励' '鼻子眼睛']


In [9]:
list(X.toarray())

[array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dt

### 3.3 计算词频

In [10]:
# 获取词汇表
feature_words = vectorizer.get_feature_names_out()

# 计算词频统计
word_freq = dict(zip(feature_words, X.sum(axis=0).A1))

In [11]:
# 词袋模型中不重复的词汇的数量
len(word_freq)

2369

In [12]:
# 观察词袋模型的词频计数结果
sorted(word_freq.items(), key=lambda x: x[1], reverse=True)

[('最后', 47),
 ('电影', 46),
 ('陈思诚', 42),
 ('一个', 40),
 ('女性', 40),
 ('孩子', 37),
 ('自己', 34),
 ('没有', 30),
 ('不是', 29),
 ('朱一龙', 29),
 ('看到', 29),
 ('真的', 29),
 ('觉得', 29),
 ('可以', 26),
 ('就是', 26),
 ('悬疑', 26),
 ('倪妮', 25),
 ('这么', 25),
 ('故事', 24),
 ('男人', 24),
 ('反转', 23),
 ('后悔', 23),
 ('因为', 23),
 ('什么', 22),
 ('但是', 22),
 ('剧情', 22),
 ('老婆', 22),
 ('这个', 22),
 ('男性', 21),
 ('还是', 21),
 ('导演', 20),
 ('照片', 20),
 ('恶心', 19),
 ('不要', 18),
 ('知道', 18),
 ('彩蛋', 17),
 ('演技', 17),
 ('其实', 16),
 ('消失', 16),
 ('出来', 15),
 ('女人', 14),
 ('应该', 14),
 ('时候', 14),
 ('表演', 14),
 ('视角', 14),
 ('结尾', 13),
 ('这样', 13),
 ('girls', 12),
 ('nan', 12),
 ('不会', 12),
 ('以为', 12),
 ('文咏珊', 12),
 ('木子', 12),
 ('杀妻', 12),
 ('男主', 12),
 ('角色', 12),
 ('一样', 11),
 ('一部', 11),
 ('不能', 11),
 ('可能', 11),
 ('感觉', 11),
 ('演员', 11),
 ('片子', 11),
 ('相信', 11),
 ('看过', 11),
 ('一切', 10),
 ('一点', 10),
 ('中国', 10),
 ('发现', 10),
 ('只是', 10),
 ('妻子', 10),
 ('开始', 10),
 ('怎么', 10),
 ('恋爱', 10),
 ('而是', 10),
 ('观众', 10),
 ('赌徒

In [1]:
!pip install snownlp  -i https://pypi.tuna.tsinghua.edu.cn/simple

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting snownlp
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/3d/b3/37567686662100d3bce62d3b0f2adec18ab4b9ff2b61abd7a61c39343c1d/snownlp-0.12.3.tar.gz (37.6 MB)
     ---------------------------------------- 37.6/37.6 MB 7.6 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: snownlp
  Building wheel for snownlp (setup.py): started
  Building wheel for snownlp (setup.py): finished with status 'done'
  Created wheel for snownlp: filename=snownlp-0.12.3-py3-none-any.whl size=37760963 sha256=0d07256a70165d6d6e40050a6aaee1b4e76d527c55c6f61b8766498b0d310d2c
  Stored in directory: c:\users\123\appdata\local\pip\cache\wheels\e3\39\48\6bf6f2fdb44ab1aeb2bbbc27b79941ff05d39d181fdaad0fb5
Successfully built snownlp
Installing collected packages: snownlp
Successfully installed snownlp-0.12.3
