### 情感分析主要有两种方法
- 基于词典的情感计算
- 机器学习


## 两种方法的利弊

|情感分析方法|优点|不足|
|---|---|---|
|基于词典的|如果有现成的词典，不需要标注数据，工作量相对较小。|如果没有现成的词典，需要使用严谨科学的方法去构建，工作量也不小|
|机器学习|不需要词典，网上有很多场景的数据天然的具有标注性信息，比如微博中的表情实际上可以替代人工的情绪标注。如果是公司，虽然标注费时费力，但标注一次，就可以商业化，通过边际效应递减，时间效益非常可观|但更多的时候由于使用场景，需要高质量的标注数据，对于我们这些非商业推广的学生而言标注一次，分析一次，标注数据只使用了一次，费时费力。|


上百G数据集

链接: https://pan.baidu.com/s/1f2i0v8zfWgq5kAuGB6MVLQ 密码: rcx3

# 一、基于词典-多个txt数据的情感分析
假设经过专业人士构建有:

- negtive.txt
- positive.txt

两个情感词典。现在对多家公司的年报进行统计，

输出结果包括**文件名、正面词语占比、负面词占比**

## 思路：
1. 先读取词典生成正负情感词列表
2. 对一个文件进行读取、分词、计算正负情感词占比，并将结果写入csv文件。
2. 之后通过for循环批量处理所有的文件

### 1.1 读取词典
生成正负情感词语列表

In [5]:
positive = open('data/年报情感统计/positive.txt').read()
positive 

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb7 in position 0: invalid start byte

### 注意文件编码BUG

### 如何知道文件的编码方式？
经常读取文件（包括但不限于txt、csv）时出现**UnicodeDecodeError** ，只有知道文件的编码方式才能让程序正常读取文件，二不出错。

encoding常用的有  **gbk、utf-8、gb2312**，一般通过一一尝试即可。

In [1]:
positive = open('data/年报情感统计/positive.txt', encoding='gbk').read() 
positive 

'发展\n产品\n管理\n增长\n提升\n建设\n生产\n推进\n持续\n销售\n创新\n收入\n研发\n品牌\n能力\n进一步\n提高\n开发\n合作\n优化\n重点\n优势\n拓展\n完善\n强化\n升级\n加快\n增加\n加大\n推动\n建立\n竞争力\n打造\n突破\n稳定\n改革\n成功\n健康\n增强\n保障\n深化\n开拓\n盈利\n增速\n稳步\n大幅\n新增\n改善\n高效\n做好\n机遇\n顺利\n平稳\n先进\n启动\n领先\n荣获\n优质\n成果\n进展\n超过\n引领\n技术创新\n加速\n增幅\n优秀\n激励\n上涨\n精益\n增效\n同比增加\n充分发挥\n复苏\n积累\n不断完善\n带动\n提质\n领先地位\n顺利完成\n积极探索\n高速\n增长点\n助力\n快速增长\n一流\n新高\n创新能力\n高质量\n积极开展\n稳步增长\n充分利用\n增值\n降本增效\n积极参与\n拓宽\n成熟\n持续增长\n进一步提高\n新兴产业\n回升\n成长\n有利于\n最佳\n共同努力\n回暖\n全新\n激发\n技术改造\n顺应\n竞争能力\n卓越\n健全\n高度\n扩张\n重视\n深化改革\n增量\n坚实基础\n贯彻落实\n圆满完成\n高度重视\n大力发展\n拉动\n资源优势\n稳步发展\n积极性\n较强\n继续加强\n核心技术\n实用新型\n优先\n人才培养\n高于\n鼓励\n不断加强\n深入开展\n和谐\n力争\n科技进步\n品牌优势\n强大\n赢得\n强劲\n稳定增长\n扩展\n高级\n开拓市场\n最大化\n全面完成\n缩短\n正确\n便捷\n关键技术\n率先\n超级\n成效显著\n信心\n美誉度\n良好基础\n攀升\n高品质\n广泛应用\n降低成本\n努力实现\n热点\n不断创新\n开创\n受益\n互补\n稳中有进\n稳中有升\n达标\n增发\n准确\n保持稳定\n凝聚力\n增大\n初见成效\n适度\n有助于\n适合\n领先水平\n超额完成\n扭亏为盈\n不断扩大\n好评\n良性\n新进展\n满意\n做强\n充实\n努力提高\n不懈努力\n全力以赴\n有望\n发达\n愿景\n高附加值\n亮点\n高性能\n优质服务\n稳妥\n缓解\n高水平\n有效性\n旺季\n提速\n跨越\n积极响应\n得益于\n逐步完善\n超越\n增长速度\n前所未有\n

得到positive的情感词列表

In [2]:
positive = open('data/年报情感统计/positive.txt', encoding='gbk').read()
wordlist = positive.split('\n')

#防止列表中的 空字符 出现
wordlist = [w for w in wordlist if w]
wordlist

['发展',
 '产品',
 '管理',
 '增长',
 '提升',
 '建设',
 '生产',
 '推进',
 '持续',
 '销售',
 '创新',
 '收入',
 '研发',
 '品牌',
 '能力',
 '进一步',
 '提高',
 '开发',
 '合作',
 '优化',
 '重点',
 '优势',
 '拓展',
 '完善',
 '强化',
 '升级',
 '加快',
 '增加',
 '加大',
 '推动',
 '建立',
 '竞争力',
 '打造',
 '突破',
 '稳定',
 '改革',
 '成功',
 '健康',
 '增强',
 '保障',
 '深化',
 '开拓',
 '盈利',
 '增速',
 '稳步',
 '大幅',
 '新增',
 '改善',
 '高效',
 '做好',
 '机遇',
 '顺利',
 '平稳',
 '先进',
 '启动',
 '领先',
 '荣获',
 '优质',
 '成果',
 '进展',
 '超过',
 '引领',
 '技术创新',
 '加速',
 '增幅',
 '优秀',
 '激励',
 '上涨',
 '精益',
 '增效',
 '同比增加',
 '充分发挥',
 '复苏',
 '积累',
 '不断完善',
 '带动',
 '提质',
 '领先地位',
 '顺利完成',
 '积极探索',
 '高速',
 '增长点',
 '助力',
 '快速增长',
 '一流',
 '新高',
 '创新能力',
 '高质量',
 '积极开展',
 '稳步增长',
 '充分利用',
 '增值',
 '降本增效',
 '积极参与',
 '拓宽',
 '成熟',
 '持续增长',
 '进一步提高',
 '新兴产业',
 '回升',
 '成长',
 '有利于',
 '最佳',
 '共同努力',
 '回暖',
 '全新',
 '激发',
 '技术改造',
 '顺应',
 '竞争能力',
 '卓越',
 '健全',
 '高度',
 '扩张',
 '重视',
 '深化改革',
 '增量',
 '坚实基础',
 '贯彻落实',
 '圆满完成',
 '高度重视',
 '大力发展',
 '拉动',
 '资源优势',
 '稳步发展',
 '积极性',
 '较强',
 '继续加强',
 '核心技术',
 '实用新型',
 '优先',
 '人才培养',
 '高于'

因为经常用到读取情感词这种需求，所以我们将该代码改造成函数，方便后期重复调用

In [3]:
def read_dict(file, encoding):
    text = open(file, 'r', encoding=encoding).read()
    wordlist = text.split('\n')
    wordlist = [w for w in wordlist if w]
    return wordlist

read_dict('data/年报情感统计/positive.txt', encoding='gbk')

['发展',
 '产品',
 '管理',
 '增长',
 '提升',
 '建设',
 '生产',
 '推进',
 '持续',
 '销售',
 '创新',
 '收入',
 '研发',
 '品牌',
 '能力',
 '进一步',
 '提高',
 '开发',
 '合作',
 '优化',
 '重点',
 '优势',
 '拓展',
 '完善',
 '强化',
 '升级',
 '加快',
 '增加',
 '加大',
 '推动',
 '建立',
 '竞争力',
 '打造',
 '突破',
 '稳定',
 '改革',
 '成功',
 '健康',
 '增强',
 '保障',
 '深化',
 '开拓',
 '盈利',
 '增速',
 '稳步',
 '大幅',
 '新增',
 '改善',
 '高效',
 '做好',
 '机遇',
 '顺利',
 '平稳',
 '先进',
 '启动',
 '领先',
 '荣获',
 '优质',
 '成果',
 '进展',
 '超过',
 '引领',
 '技术创新',
 '加速',
 '增幅',
 '优秀',
 '激励',
 '上涨',
 '精益',
 '增效',
 '同比增加',
 '充分发挥',
 '复苏',
 '积累',
 '不断完善',
 '带动',
 '提质',
 '领先地位',
 '顺利完成',
 '积极探索',
 '高速',
 '增长点',
 '助力',
 '快速增长',
 '一流',
 '新高',
 '创新能力',
 '高质量',
 '积极开展',
 '稳步增长',
 '充分利用',
 '增值',
 '降本增效',
 '积极参与',
 '拓宽',
 '成熟',
 '持续增长',
 '进一步提高',
 '新兴产业',
 '回升',
 '成长',
 '有利于',
 '最佳',
 '共同努力',
 '回暖',
 '全新',
 '激发',
 '技术改造',
 '顺应',
 '竞争能力',
 '卓越',
 '健全',
 '高度',
 '扩张',
 '重视',
 '深化改革',
 '增量',
 '坚实基础',
 '贯彻落实',
 '圆满完成',
 '高度重视',
 '大力发展',
 '拉动',
 '资源优势',
 '稳步发展',
 '积极性',
 '较强',
 '继续加强',
 '核心技术',
 '实用新型',
 '优先',
 '人才培养',
 '高于'

### 1.2 读取文件

In [4]:
import os
import re
import jieba
import csv


def read_dict(file, encoding):
    text = open(file, 'r', encoding=encoding).read()
    wordlist = text.split('\n')
    wordlist = [w for w in wordlist if w]
    return wordlist

#读取词典，生成词语列表
positives = read_dict(file='data/年报情感统计/positive.txt', encoding='gbk')
negatives= read_dict(file='data/年报情感统计/negative.txt', encoding='gbk')


reportfile = 'data/年报情感统计/txt年报文件/澳柯玛2014.txt'
report = open(reportfile, 'r', encoding='gbk').read()
report

'第四节\t董事会报告\n\n一、董事会关于公司报告期内经营情况的讨论与分析\n\n\u3000\u30002014 年度，公司以“推行 VCT，精益管理，创造价值”和“建网络、树品牌，强化终端，夯实市场”为工作主线，加快产业升级和产品结构调整，深入推行精益管理，全体员工奋发努力，积极应对日益严酷的市场环境，各项工作取得了新进展。\n\n\u3000\u3000\u3000报告期内，公司实现营业收入 41.21 亿元，实现归属于母公司所有者的净利润 7147.21 万元，实现每股收益 0.10 元，公司经营活动产生的现金流量净额-3447.85 万元；截至报告期末，公司总资产 30.07 亿元，净资产 10.51 亿元，资产负债率 65.05%，归属于公司股东的每股净资产为 1.45 元。\n\n报告期内公司重点工作推进情况：\n\n1、VCT 运营架构基本形成，推动经营平台专业化运营近年来，公司全力打造 VCT 运营模式，打破研产销分离的组织架构，建立以销售为主导、研\n\n产销协同的矩阵式组织运营新架构，建立从获取市场需求到满足市场需求的端到端的运营机制，整合资源，推动平台化、专业化运营。\n\n\u3000\u3000\u3000报告期内，公司白电 VCT 正式运营，标志着 VCT 运营架构基本形成，缩短了市场与总部的距离，促进了经营目标的顺利实现。同时，为进一步推动海外市场发展，公司调整了进出口运行机\n\n制，将进出口公司平台化，香港电器公司、香港贸易公司成为公司进口业务、出口业务的主体，取得了较好效果。报告期内，公司成功新开发了印尼、澳大利亚、台湾、斯里兰卡和赞比亚市场的澳柯玛品牌代理，自主品牌出口量进一步提升。\n\n2、加强国内营销管理基础工作，切实提升营销力报告期内，公司狠抓国内营销管理，取得了实质效果：\n\n\u3000\u3000\u3000一是网络建设有新发展。2014 年公司及时调整网络开发方向，重点开发县级及以上市场；组织各单位对现有网络进行了集中梳理，进一步明确各单位的重点发展方向；组织各单位编制了网络发展三年规划，明确了 2015-2017 年网络建设规划思路与目标和 2015 年的重点网络建设发展规划等。报告期内，公司制冷、电动车、生活电器等产业的网络数量及质量均得到了大幅提升。\n\n\u3000\u3000\u3000二是营销

初步的清洗数据，只保留中文（比较粗暴，实际上会遗漏一些英文和数字信息）

In [5]:
import os
import re
import jieba
import csv


def read_dict(file, encoding):
    text = open(file, 'r', encoding=encoding).read()
    wordlist = text.split('\n')
    wordlist = [w for w in wordlist if w]
    return wordlist

#读取词典，生成词语列表
positives = read_dict(file='data/年报情感统计/positive.txt', encoding='gbk')
negatives= read_dict(file='data/年报情感统计/negative.txt', encoding='gbk')


reportfile = 'data/年报情感统计/txt年报文件/澳柯玛2014.txt'
report = open(reportfile, 'r', encoding='gbk').read()

#只保留中文
cleaned_report = ''.join(re.findall('[\u4e00-\u9fa5]+',report))
cleaned_report

'第四节董事会报告一董事会关于公司报告期内经营情况的讨论与分析年度公司以推行精益管理创造价值和建网络树品牌强化终端夯实市场为工作主线加快产业升级和产品结构调整深入推行精益管理全体员工奋发努力积极应对日益严酷的市场环境各项工作取得了新进展报告期内公司实现营业收入亿元实现归属于母公司所有者的净利润万元实现每股收益元公司经营活动产生的现金流量净额万元截至报告期末公司总资产亿元净资产亿元资产负债率归属于公司股东的每股净资产为元报告期内公司重点工作推进情况运营架构基本形成推动经营平台专业化运营近年来公司全力打造运营模式打破研产销分离的组织架构建立以销售为主导研产销协同的矩阵式组织运营新架构建立从获取市场需求到满足市场需求的端到端的运营机制整合资源推动平台化专业化运营报告期内公司白电正式运营标志着运营架构基本形成缩短了市场与总部的距离促进了经营目标的顺利实现同时为进一步推动海外市场发展公司调整了进出口运行机制将进出口公司平台化香港电器公司香港贸易公司成为公司进口业务出口业务的主体取得了较好效果报告期内公司成功新开发了印尼澳大利亚台湾斯里兰卡和赞比亚市场的澳柯玛品牌代理自主品牌出口量进一步提升加强国内营销管理基础工作切实提升营销力报告期内公司狠抓国内营销管理取得了实质效果一是网络建设有新发展年公司及时调整网络开发方向重点开发县级及以上市场组织各单位对现有网络进行了集中梳理进一步明确各单位的重点发展方向组织各单位编制了网络发展三年规划明确了年网络建设规划思路与目标和年的重点网络建设发展规划等报告期内公司制冷电动车生活电器等产业的网络数量及质量均得到了大幅提升二是营销方式更加多元化年公司在做好传统营销的同时充分利用信息网络技术大力开发新兴销售渠道电商分公司独立运营已满一年京东冷柜销量占据第一的位置并且洽谈了国美在线苏宁易购的代理商模式生活电器电商建立了以精品专卖店为主综合专卖店为辅的淘宝分销体系初步形成淘宝唯品会京东三大平台运营体系各电商的营业增长率都在以上同时公司还充分利用电视购物模式联合举办多场电视购物活动取得了很好效果三是品牌形象进一步提升年公司进行了新标识全面更新应用推进各卖场专卖店产品包装等标识的更新提升了公司新形象积极实施媒介资源统一购买在湖南卫视爸爸去哪儿栏目投放广告积极赞助青岛世园会等同时公司疫苗冷藏箱项目的每一步进展都得到了国内外媒体的高度关注并得到盖茨基金会世卫组

对中文文本进行分词，得到词语列表

In [6]:
import os
import re
import jieba
import csv


def read_dict(file, encoding):
    text = open(file, 'r', encoding=encoding).read()
    wordlist = text.split('\n')
    wordlist = [w for w in wordlist if w]
    return wordlist

#读取词典，生成词语列表
positives = read_dict(file='data/年报情感统计/positive.txt', encoding='gbk')
negatives= read_dict(file='data/年报情感统计/negative.txt', encoding='gbk')


reportfile = 'data/年报情感统计/txt年报文件/澳柯玛2014.txt'
report = open(reportfile, 'r', encoding='gbk').read()

#只保留中文
cleaned_report = ''.join(re.findall('[\u4e00-\u9fa5]+',report))
wordlist = jieba.lcut(cleaned_report)

print(len(wordlist))
wordlist

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/y5/zfgjs5qx3kgcjxz7m4q4gltm0000gn/T/jieba.cache
Loading model cost 1.128 seconds.
Prefix dict has been built succesfully.


2377


['第四节',
 '董事会',
 '报告',
 '一',
 '董事会',
 '关于',
 '公司',
 '报告',
 '期内',
 '经营',
 '情况',
 '的',
 '讨论',
 '与',
 '分析',
 '年度',
 '公司',
 '以',
 '推行',
 '精益',
 '管理',
 '创造',
 '价值',
 '和',
 '建',
 '网络',
 '树',
 '品牌',
 '强化',
 '终端',
 '夯实',
 '市场',
 '为',
 '工作',
 '主线',
 '加快',
 '产业',
 '升级',
 '和',
 '产品',
 '结构调整',
 '深入',
 '推行',
 '精益',
 '管理',
 '全体',
 '员工',
 '奋发努力',
 '积极',
 '应对',
 '日益',
 '严酷',
 '的',
 '市场',
 '环境',
 '各项',
 '工作',
 '取得',
 '了',
 '新进展',
 '报告',
 '期内',
 '公司',
 '实现',
 '营业',
 '收入',
 '亿元',
 '实现',
 '归属于',
 '母公司',
 '所有者',
 '的',
 '净利润',
 '万元',
 '实现',
 '每股',
 '收益',
 '元',
 '公司',
 '经营',
 '活动',
 '产生',
 '的',
 '现金流量',
 '净额',
 '万元',
 '截至',
 '报告',
 '期末',
 '公司',
 '总资产',
 '亿元',
 '净资产',
 '亿元',
 '资产负债率',
 '归属于',
 '公司',
 '股东',
 '的',
 '每股',
 '净资产',
 '为元',
 '报告',
 '期内',
 '公司',
 '重点',
 '工作',
 '推进',
 '情况',
 '运营',
 '架构',
 '基本',
 '形成',
 '推动',
 '经营',
 '平台',
 '专业化',
 '运营',
 '近年来',
 '公司',
 '全力',
 '打造',
 '运营',
 '模式',
 '打破',
 '研',
 '产销',
 '分离',
 '的',
 '组织',
 '架构',
 '建立',
 '以',
 '销售',
 '为',
 '主导',
 '研',
 '产销',
 '协同',
 '的',
 '矩阵式',
 '组织',
 '运

这里我们定义一个新的函数- 计算正负情感词语数目，得到占比。

In [7]:
def wordpercentage(reportwordlist, dictwordlist):
    container = 0
    for dictword in dictwordlist:
        freq = reportwordlist.count(dictword)
        container = container + freq
    return container/len(reportwordlist)

reportwordlist = ['我们','公司','今年','的','发展','目标','销售额','突破','十亿']
dictwordlist = ['进步','创新','突破']

#测试的报告的正面情感词占比。说明函数是正常运行的
wordpercentage(reportwordlist, dictwordlist)

0.1111111111111111

In [8]:
import os
import re
import jieba
import csv


def read_dict(file, encoding):
    text = open(file, 'r', encoding=encoding).read()
    wordlist = text.split('\n')
    wordlist = [w for w in wordlist if w]
    return wordlist

def wordpercentage(reportwordlist, dictwordlist):
    container = 0
    for dictword in dictwordlist:
        freq = reportwordlist.count(dictword)
        container = container + freq
    return container/len(reportwordlist)

#读取词典，生成词语列表
positivewordlist = read_dict(file='data/年报情感统计/positive.txt', encoding='gbk')
negativewordlist = read_dict(file='data/年报情感统计/negative.txt', encoding='gbk')


reportfile = 'data/年报情感统计/txt年报文件/澳柯玛2014.txt'
report = open(reportfile, 'r', encoding='gbk').read()

#只保留中文
cleaned_report = ''.join(re.findall('[\u4e00-\u9fa5]+',report))
reportwordlist = jieba.lcut(cleaned_report)


#计算正负情感词占比
postivepercentage = wordpercentage(reportwordlist, positivewordlist)
negativepercentage = wordpercentage(reportwordlist, negativewordlist)
print(postivepercentage,negativepercentage)

0.1409339503575936 0.02440050483803113


新建一个csv文件，将分析结果保存

In [15]:
import os
import re
import jieba
import csv

#新建一个csv文件
csvf = open('data/年报情感统计/分析结果.csv','a+', encoding='gbk', newline = '')
writer = csv.writer(csvf)
writer.writerow(('年报文件名','总词语数目','正面词占比','负面词占比'))


def read_dict(file, encoding):
    text = open(file, 'r', encoding=encoding).read()
    wordlist = text.split('\n')
    wordlist = [w for w in wordlist if w]
    return wordlist

def wordpercentage(reportwordlist, dictwordlist):
    container = 0
    for dictword in dictwordlist:
        freq = reportwordlist.count(dictword)
        container = container + freq
    return container/len(reportwordlist)


#读取词典，生成词语列表
positivewordlist = read_dict(file='data/年报情感统计/positive.txt', encoding='gbk')
negativewordlist = read_dict(file='data/年报情感统计/negative.txt', encoding='gbk')


reportfile = 'data/年报情感统计/txt年报文件/澳柯玛2014.txt'
report = open(reportfile, 'r', encoding='gbk').read()

#只保留中文
cleaned_report = ''.join(re.findall('[\u4e00-\u9fa5]+',report))
reportwordlist = jieba.lcut(cleaned_report)

#词语总数
wordnum = len(reportwordlist)

#计算正负情感词占比
postivepercentage = wordpercentage(reportwordlist, positivewordlist)
negativepercentage = wordpercentage(reportwordlist, negativewordlist)

#writer.writerow(('年报文件名','总词语数目','正面词占比','负面词占比'))
writer.writerow((reportfile, wordnum, postivepercentage, negativepercentage))

csvf.close()

### 1.3 获得多个文件的路径

In [9]:
import os

reportfilelist = os.listdir('data/年报情感统计/txt年报文件')
reportfilelist = ['data/年报情感统计/txt年报文件/'+f for f in reportfilelist ]
reportfilelist

['data/年报情感统计/txt年报文件/.DS_Store',
 'data/年报情感统计/txt年报文件/澳柯玛2016.txt',
 'data/年报情感统计/txt年报文件/澳柯玛2017.txt',
 'data/年报情感统计/txt年报文件/澳柯玛2015.txt',
 'data/年报情感统计/txt年报文件/澳柯玛2014.txt',
 'data/年报情感统计/txt年报文件/宝钢股份2017.txt',
 'data/年报情感统计/txt年报文件/宝钢股份2016.txt',
 'data/年报情感统计/txt年报文件/宝钢股份2014.txt',
 'data/年报情感统计/txt年报文件/宝钢股份2015.txt']

批量读取年报文件，统计这些年报的情感信息

In [10]:
import os
import re
import jieba
import csv

#新建一个csv文件
csvf = open('data/年报情感统计/分析结果20190718.csv','a+', encoding='gbk', newline = '')
writer = csv.writer(csvf)
writer.writerow(('年报文件名','总词语数目','正面词占比','负面词占比'))


def read_dict(file, encoding):
    text = open(file, 'r', encoding=encoding).read()
    wordlist = text.split('\n')
    wordlist = [w for w in wordlist if w]
    return wordlist

def wordpercentage(reportwordlist, dictwordlist):
    container = 0
    for dictword in dictwordlist:
        freq = reportwordlist.count(dictword)
        container = container + freq
    return container/len(reportwordlist)


#读取词典，生成词语列表
positivewordlist = read_dict(file='data/年报情感统计/positive.txt', encoding='gbk')
negativewordlist = read_dict(file='data/年报情感统计/negative.txt', encoding='gbk')


#生成年报文件路径
reportfilelist = os.listdir('data/年报情感统计/txt年报文件')
reportfilelist = ['data/年报情感统计/txt年报文件/'+f for f in reportfilelist if 'txt' in f]

#批量处理年报，计算年报的情感信息
for reportfile in reportfilelist:
    report = open(reportfile, 'r', encoding='gbk').read()

    #只保留中文
    cleaned_report = ''.join(re.findall('[\u4e00-\u9fa5]+',report))
    reportwordlist = jieba.lcut(cleaned_report)

    #词语总数
    wordnum = len(reportwordlist)

    #计算正负情感词占比
    postivepercentage = wordpercentage(reportwordlist, positivewordlist)
    negativepercentage = wordpercentage(reportwordlist, negativewordlist)

    #writer.writerow(('年报文件名','总词语数目','正面词占比','负面词占比'))
    writer.writerow((reportfile, wordnum, postivepercentage, negativepercentage))
    
    
csvf.close()

In [None]:
#去重
import pandas as pd
import json


df4 = pd.read_json('data/34011097.json', lines=True)
df4.head(2)

df4.columns


#对上面的数据去重
df4.drop_duplicates(subset=['content'], inplace=True)
df4.describe()

# [下一节: pandas的groupby与agg](06-pandas的groupby与agg.ipynb)