In [90]:
# 从pyecharts模块 导入WordCloud功能
# 使用nltk的word_tokenize功能进行分词
# 使用nltk的FreqDist功能进行词频统计
# 从nltk.corpus中导入stopwords库进行停用词过滤
# 从nltk.stem中导入WordNetLemmatizer进行词形还原
from pyecharts.charts import WordCloud
from nltk import *
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer  

# 自定义函数获得清洗后的文本词表并统计词频
def word_list(res):
    # 大小写归一
    text = res.lower()
    # 对文本进行分词
    text_list=word_tokenize(text)
    # 去掉标点符号
    punctuation = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']
    text_list = [word for word in text_list if word not in punctuation]
    # 去掉停用词
    stop_words = set(stopwords.words('english'))
    text_list = [word for word in text_list if word not in stop_words]
    # 还原词形
    new_list=[]
    wnt = WordNetLemmatizer()  
    for word in text_list:
        word = wnt.lemmatize(word)
        new_list.append(word)
    # 我们对清洗后的词表进行词频统计
    output = FreqDist(new_list)
    # 使用pyecharts中WordCloud绘制词云图时，其分析对象可以是列表数据
    # 这里返回数据就需要将得到的FreqDist对象转化为元组列表
    # 对待FreqDist对象，我们可以使用字典的操作方法
    return list(output.items())

调用获取词频表自定义函数word_list，对一篇文章进行词云图绘制。

In [91]:
# 读取文本文件 获得作文内容
f = open('test.txt')
content = f.read()
# 调用自定义函数获得词表
freq = word_list(content)

# 生成词云图
cloud = WordCloud()
cloud.add('',freq, shape='circle')
cloud.render_notebook()

我们也可以对多篇文章进行分析统计。

In [64]:
# 使用pandas模块read_excel功能读取excel文件
from pandas import *

# 读取文本文件 获得作文内容
# 首先将文件上传，根据文件路径进行读取
path = "translation01.xlsx"
data = read_excel(path)
# 需要对第二列的文本进行分析
alltext = data.iloc[:,1]
transcontent = ''
for text in alltext:
    transcontent = transcontent+text

# 调用word_list自定义函数获得词表及词频
transfreq = word_list(transcontent)

# 生成词云图
cloud = WordCloud()
cloud.add('',transfreq, shape='circle')
cloud.render_notebook()

In [93]:
pip freeze > requirements.txt

Note: you may need to restart the kernel to use updated packages.
