Part1 01——04论文文本预处理维度
01操作 对文本进行分词
文本分词是一切文本分析的基础，在这里将用到NLTK库以及其中的分词函数word_tokenize。

In [None]:
import nltk
fn = open('计算社会科学论文集.txt','r',encoding='utf-8') # 打开文件，一定注意编码的格式是UTF-8
string_data = fn.read()  # 读出整个文件
fn.close() # 关闭文件
splitresult=nltk.word_tokenize(string_data)#得到分词结果

 02操作 移除文本中的停用词
 停止词是任何语言中出现频率最高的词，它们只是用来支持句子的结构，对句子的语义没有多大意义。
 因此在不牺牲句子含义的情况下,我们可以在NLP过程之前从任何文本中删除NLTK提供的停止词，使分析更有效率。
 我们将使用NLTK库提供的停用词列表（stop_words)来过滤文本中包含的停用词。

In [None]:
nltk.download("stopwords")  #注意！需要下载NLTK中的停止词库（如果失败，可以挂梯子后重新尝试）
from nltk.corpus import stopwords #使用NLTK加载停用词
stop_words=stopwords.words("english")#通过设定参数，表示分析文本是英文
def remove_stop_words(splitresult,stop_words):#定义停用词过滤函数
    return" ".join([word for word in splitresult if word not in stop_words])#循环遍历句子中的每一个单词并检查是否有停用词，最后将结果组合。
removeresult=remove_stop_words(splitresult,stop_words)#得到去除了停用词后的文本

03操作 文本清洗
大多数情况下，一些对句子的意义没有什么真正作用的文字和元素我们需要将其删除掉。
这些元素不仅会浪费系统内存和处理时间，还会对结果的准确性产生负面影响。
因此我们将对文本进行简单的清洗，去掉一些符号。

In [None]:
import re #导入re库
def clean_text(x):
    temp=re.sub(r'([^\s\w]|_)+','',x).split()#利用正则表达式去除掉文本中除数字、字母和空格外的字符
    return " ".join(word for word in temp)#特别注意！下一步操作需要的数据类型是字符串，而我们上一步生成的是列表，需要转换一下！
cleanoutcome=str(clean_text(removeresult))

04操作 词干提取与词形还原
词干提取是去除单词的前后缀得到词根的过程，常见的前后词缀有：名词的复数、进行时、过去分词。
词形还原是基于词典，将单词的复杂形态转变成最基础的形态。比如将“is are benn”统一转换为“be”。
目前实现词干提取和词形还原的方法均是利用语言中存在的规则/已有字典映射提取词干或获得词的原形。
在原理上，词干提取主要是采用缩减的方法，将词转换为词干,如:将cats处理为cat, 将effective处理为effect 。而词形还原主要采用转变的方法，将词转变为其原形，如将drove处理为drive, 将driving处理为drive 。
在复杂性上，词干提取方法相对简单，词形还原则需要返回词的原形，需要对词形进行分析，不仅要进行词缀的转化,还要进行词性识别，区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率，因此，词形还原更为复杂。
在实现方法上，虽然词干提取和词形还原实现的主流方法类似，但二者在具体实现上各有侧重.词干提取的实现方法主要利用规则变化进行词缀的去除和缩减，从而达到词的简化效果。词形还原则相对较复杂，有复杂的形态变化,单纯依据规则无法很好地完成。其更依赖于词典，进行词形变化和原形的映射，生成词典中的有效词。
在结果上，词干提取和词形还原也有部分区别。词干提取的结果可能并不是完整的、具有意义的词，而只是词的一部分，如: revival 词干提取的结果为reviv, ailiner 词干提取的结果为airlin. 而经词形还原处理后获得的结果是具有一定意义的、 完整的词，-般为词典中的有效词。
在应用领域上，同样各有侧重。虽然二者均被应用于信息检索和文本处理中，但侧重不同。词干提取更多被应用于信息检索领域，如: Solr, Lucene等,用于扩展检索，粒度较粗。词形还原更主要被应用于文本挖掘、自然语言处理，用于更细粒度、更为准确的文本分析和表达。
词干提取的算法一般有三种：porter/snowball(porter2)/lancaster，根据使用反馈，选择采用snowball算法，因为其速度更快，消耗内存更少。

In [None]:
from nltk import stem #使用前要在电脑中用pip安装下载SnowballStemmer: Win键+R，输入cmd，输入"pip install SnowballStemmer"
def get_stems(word,stemmerresult):
    stemmerresult=stem.SnowballStemmer("english")#特别注意！使用snowballstemmer一定要标注好目标语言，目前暂不支持中文哦！
    return stemmerresult.stem(word)#返回处理后的函数值
stemmeresult=stem.SnowballStemmer("english")
snowballoutcome=get_stems(cleanoutcome,stemmeresult)

词形还原和词干提取比较相似，将一个任意形式的单词转换为语法基础形式。 然而，词形还原是基于词典的.
Python 中的NLTK库包含英语单词的词汇数据库。这些单词基于它们的语义关系链接在一起。链接取决于单词的含义。
词形还原处理将使用到WordNetLemmatizer ，它是WordNet的NLTK接口。
WordNet是一个免费的英语词汇数据库,可以用来生成单词之间的语义关系。NLTK的WordNetLemmatizer 提供了lemmatize() 的方法。

In [None]:
nltk.download("wordnet")#注意！需要下载NLTK中的wordnet库！（如果失败，可以挂梯子后重新尝试）
from nltk.stem.wordnet import WordNetLemmatizer #导入词形还原工具WordNetLemmatizer
lemmatizer=WordNetLemmatizer()#创建一个词形还原器
def get_lemma(word):
    return lemmatizer.lemmatize(word)
wordnetoutcome=get_lemma(snowballoutcome)

#接下来就是把处理好的文本生成txt文件以便下一步分析

In [None]:
with open("文本预处理后的计算社会科学论文集.txt","a+",encoding="utf-8")as f:
    f.write(wordnetoutcome)
    f.close

Part2 情感分析维度
极性(Polarity): 极性是衡量特定语言中情绪的消极或积极程度的指标。使用极性,因为它是简单、易于测量,可以很容易地转换为一个简单的数字刻度。
它通常在-1 到1之间。接近1的值反映文档有积极情绪，而接近-1的值反映文档有消极情绪。0 左右的值反映了文档在情绪上是中立的。
强度(Intensity):与极性(由负到正)不同, 强度是根据唤醒程度(由低到高)来衡量的。最常见的情况是,情感的强度也包括在情感评分中。
它是通过观察得分接近于0或1来衡量的。
主客观性(Subjectivity versus Objectivity) :可以检测给定的文本源是主观的还是客观的。
我将使用textblob库的TextBlob 类来实现文本情感分析

In [None]:
from textblob import TextBlob
fnoutcome = open('文本预处理后的计算社会科学论文集.txt','r',encoding='utf-8') # 打开文件，一定注意编码的格式是UTF-8
data = fnoutcome.read()  # 读出整个文件
fnoutcome.close() # 关闭文件
blob=TextBlob(data) #对整个文件的情感进行分析
print(blob.sentiment)

Part3 记录词频并生成词云维度
词频（TF）表示词条（关键字）在文本中出现的频率。
IDF是逆向文件频率(Inverse Document Frequency)
逆向文件频率 (IDF) ：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。
如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。

In [None]:
import sys
sys.path.append('../')
import jieba
import jieba.analyse
from optparse import OptionParser
from wordcloud import WordCloud,ImageColorGenerator
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
# -------------------
# 下面区间和parser相关的代码只有一个作用：读入要处理的文件名和topK数量

USAGE = ["-f","文本预处理后的计算社会科学论文集.txt","-k",500,"文本预处理后的计算社会科学论文集.txt"]     #用法类似字典，“-字母”后接上对应的值
parser = OptionParser()                     #初始化Parser 生成参数构造器
parser.add_option("-f", dest="file_name")   #dest：对 -f 这类缩写含义的完整描述
parser.add_option("-k", dest="topK")
opt, args = parser.parse_args(USAGE)        #解析USAGE列表中参数，可以通过输出观察规律
print("op : ",opt)                          #观察parser.parse_args输出结果
print("ar : ",args)

#从上面代码程序知道了要分析的文件是经过文本预处理后的计算社会科学论文集.txt， 关键词数为500。
#下面是实现jieba关键词分词提取的代码

if len(args) < 1:
    print(USAGE)            #如果没有args，则程序终止。
    sys.exit(1)             #退出
file_name = args[0]         #由ar :  ['文本预处理后的计算社会科学论文集.txt']知道， args[0]为'文本预处理后的计算社会科学论文集.txt'
                            #opt.file_name也等于'文本预处理后的计算社会科学论文集.txt'

if opt.topK is None:        #如果没有输入topK值，则默认为10
    topK = 10
else:                       #若有topK，则使用自定义的。
    topK = int(opt.topK)
content = open(file_name, 'rb').read()                  # rb 对文件的操作类型：将文本预处理后的计算社会科学论文集.txt内容读到content中
tags = jieba.analyse.extract_tags(content, topK=topK)   #通过分词函数输入文本内容和topK数，得到分词结果tags（列表形式)
result=(",".join(tags))                                   #用逗号隔开每个分词，输出关键词

形成根据背景颜色变换的词云

In [None]:
mask=np.array(Image.open("头像.png")) #为词云提供形状背景
wordcloud = WordCloud(mask=mask,font_path = 'OLDENGL.TTF',max_words=500,mode='RGBA',background_color=None).generate(result)

image_colors = ImageColorGenerator(mask) #从图片的颜色生成词云的颜色
wordcloud.recolor(color_func=image_colors)

plt.imshow(wordcloud, interpolation='bilinear')# 显示词云
plt.axis("off")
plt.show()
wordcloud.to_file('wordcloud.png')# 保存到文件