# Text Tokenizer

In this notebook, we will be looking at the reports and attempting to tokenize the Chinese script. First, we will be using a Chinese tokenizer called jieba to tokenize our datasets. If the results are not promising, further research will be done to find a more preferable tokenizer.

In [4]:
#!pip install jieba

In [1]:
import numpy as np
import pandas as pd
import os

# Used to tokenize the data
import jieba 
import jieba.posseg as pseg

# Single-Document Example

First, we will look at and validate a single document. The folder containing filings from 2016 has been unzipped, so we will take a peek at an arbitrary filing from there and see how well the tokenizer performs.

In [26]:
directory = '../../China Fin Report Text/decompressed/2016/'
filenames = os.listdir(directory)
filenames[:5]

['002622.SZ.txt',
 '002173.SZ.txt',
 '300068.SZ.txt',
 '002495.SZ.txt',
 '002722.SZ.txt']

In [5]:
# Open a sample filing
with open(directory+filenames[0]) as f:
    text = f.readlines()

In [6]:
text.index('①智容科技有限公司主要产品：政务信用系统开发、行业解决方案、企业征信服务。目\n')

717

In [7]:
# Select a sample with lots of text
text[717:748]

['①智容科技有限公司主要产品：政务信用系统开发、行业解决方案、企业征信服务。目\n',
 '前智容科技有限公司已经为包括南昌市市场和质量监督管理局、江西省工商行政管理局、河\n',
 '南省行政工商管理局、南昌市新建区人民政府等在内的多家单位开发了包括南昌市企业监管\n',
 '警示系统、江西省企业信用监管警示系统、国家企业信用信息公示系统（江西）、江西省工\n',
 '商数据质量检查评价系统、河南省企业信用信息公示监管警示系统、基于物联网的企业信用\n',
 '名片系统、江西省水利厅数据中心应用支撑平台二期三网融合信息发布子系统、智容三网融\n',
 '\n',
 '9 \n',
 '\n',
 '\x0c融钰集团股份有限公司 2016 年年度报告全文 \n',
 '\n',
 '合统一消息发布平台等多个产品。 \n',
 '\n',
 '②上海辰商软件科技有限公司主要产品： \n',
 'Ⅰ、VMCSHOP平台，以下简称“VMC”，提供了以电商前端营业系统为应用核心，容器\n',
 '化部署，云计算运行的SAAS化电商解决方案。VMC应用市场中汇集与电商息息相关的PC端\n',
 '及移动端互联网营销、电商运营、作业效率、模板风格等应用，用户可随需一键安装、升级、\n',
 '停用、卸载。当应用场景存在行业特性化时，VMC天然的容器化部署结构及系统SOA架构，\n',
 '可快速为企业单独提供私人定制的增值服务。对于拥有技术研发团队的企业，VMC支持单独\n',
 '部署运行方式，VMC可瞬间迁移公有云完整业务设置和数据资产到企业私有云环境，同时可\n',
 '提供从运维部署到开发扩展的全套知识转移增值服务。 \n',
 '\n',
 'Ⅱ、VM COCEAN全渠道用户大数据管理平台，可以实现收集顾客任何渠道的数据，通\n',
 '过强大的UserMapping系统贯通，整合线上和线下，行为和销售数据，建立起顾客大数据基础\n',
 '平台。 \n',
 '\n',
 '①基于顾客生命周期分析价值 \n',
 '通过多种渠道收集顾客行为（浏览、注册、购买、沉睡、互动)，并与商品、订单记录交\n',
 '叉分析计算，基于成熟的大数据算法，分析出用户画像、商品基因视图、忠诚度，从而发现\n',
 '顾客价值，进行精准营销。 \n',
 '\n']

Now that we have the sample open, let's try to tokenize the text. First we will try tokenizing unadultered, even though it probably will have bad results:

In [8]:
sample = text[717:748]
tokenlist = []

for line in sample:
    words = pseg.cut(line)
    tokens = [x.word for x in words]
    tokenlist.append(tokens)

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/rs/rpbn4gmd6gs1vl6xwnzck96w0000gn/T/jieba.cache
Loading model cost 0.778 seconds.
Prefix dict has been built successfully.


In [9]:
' '.join(tokenlist[0])

'① 智容 科技 有限公司 主要 产品 ： 政务 信用 系统 开发 、 行业 解决方案 、 企业 征信 服务 。 目 \n'

# 3 Documents, 3 Paragraphs Each

We will use the tokenizer to sample 3 paragraphs from 3 separate documents. This should give us a good idea of whether or not the tokenizer works well. I will pick these arbitrarily and see how they hold up

In [10]:
# Document 1
text1 = ''.join(sample)
token1 = ''.join([' '.join(tokenlist[x]) for x in range(len(tokenlist))])

In [11]:
print(text1)
print('###########################################################\n')
print(token1)

①智容科技有限公司主要产品：政务信用系统开发、行业解决方案、企业征信服务。目
前智容科技有限公司已经为包括南昌市市场和质量监督管理局、江西省工商行政管理局、河
南省行政工商管理局、南昌市新建区人民政府等在内的多家单位开发了包括南昌市企业监管
警示系统、江西省企业信用监管警示系统、国家企业信用信息公示系统（江西）、江西省工
商数据质量检查评价系统、河南省企业信用信息公示监管警示系统、基于物联网的企业信用
名片系统、江西省水利厅数据中心应用支撑平台二期三网融合信息发布子系统、智容三网融

9 

融钰集团股份有限公司 2016 年年度报告全文 

合统一消息发布平台等多个产品。 

②上海辰商软件科技有限公司主要产品： 
Ⅰ、VMCSHOP平台，以下简称“VMC”，提供了以电商前端营业系统为应用核心，容器
化部署，云计算运行的SAAS化电商解决方案。VMC应用市场中汇集与电商息息相关的PC端
及移动端互联网营销、电商运营、作业效率、模板风格等应用，用户可随需一键安装、升级、
停用、卸载。当应用场景存在行业特性化时，VMC天然的容器化部署结构及系统SOA架构，
可快速为企业单独提供私人定制的增值服务。对于拥有技术研发团队的企业，VMC支持单独
部署运行方式，VMC可瞬间迁移公有云完整业务设置和数据资产到企业私有云环境，同时可
提供从运维部署到开发扩展的全套知识转移增值服务。 

Ⅱ、VM COCEAN全渠道用户大数据管理平台，可以实现收集顾客任何渠道的数据，通
过强大的UserMapping系统贯通，整合线上和线下，行为和销售数据，建立起顾客大数据基础
平台。 

①基于顾客生命周期分析价值 
通过多种渠道收集顾客行为（浏览、注册、购买、沉睡、互动)，并与商品、订单记录交
叉分析计算，基于成熟的大数据算法，分析出用户画像、商品基因视图、忠诚度，从而发现
顾客价值，进行精准营销。 


###########################################################

① 智容 科技 有限公司 主要 产品 ： 政务 信用 系统 开发 、 行业 解决方案 、 企业 征信 服务 。 目 
前 智容 科技 有限公司 已经 为 包括 南昌市 市场 和 质量 监督 管理局 、 江西省 工商行政管理局 、 河 
南省 行政 工商 管理局 、 南昌

In [12]:
with open(directory+filenames[1]) as f:
    text = f.readlines()

In [13]:
sample2 = text[1160:1211]
tokenlist2 = []

for line in sample2:
    words = pseg.cut(line)
    tokens = [x.word for x in words]
    tokenlist2.append(tokens)

In [14]:
# Document 2
text2 = ''.join(sample2)
token2 = ''.join([' '.join(tokenlist2[x]) for x in range(len(tokenlist2))])

In [15]:
print(text2)
print('###########################################################\n')
print(token2)

16 

创新医疗管理股份有限公司 2016 年年度报告全文 

报告期内，康华医院为完善综合门诊诊治范围，新开设邵逸夫医院甲乳外科、肛肠外科、
胸外科、骨关节科、妇科专家门诊；2015年5月27日康华医院与浙江省总工会工人疗养院合作， 
2016年12月15日期开始试营业，目前正积极按照卫生局的的整改意见进行调整和完善，预计
于2017年3月拿到许可证；2017年1月公司同意康华医院有限公司为发挥公司资源最大化，积
极抓住浙江省内医疗服务业务的投资机会，拓展新的业务领域，与杭州沃若投资共同投资设
立杭州康华医院有限公司（筹）。 

报告期内，福恬医院为扩大医疗服务人群，新增儿童康复科、口腔科、眼科白内障手术

室、疼痛手术室、外科手术室等，并有序的促进医院各项业务稳步发展。 

（三）完善医疗管理体系，不断提升医疗服务质量 
报告期内，公司进一步完善医疗管理体系，提升医疗服务质量。公司下属医院首抓医疗
核心制度的落实，在严格执行医疗卫生法律法规，健全各项医疗规章制度，规范医疗技术操
作流程，和严格执行资料质量及医疗安全核心制度的同时，结合各下属医院实际，制定了《医
疗质量考核细则》、《医疗纠纷、医疗事故处理实施细则》、《院内会诊管理规定》等规章
制度，为医疗质量与安全提供了制度保障。同时，公司下属医院还制定了医院科主任巡查方
案、医疗文件抽查方案等，进一步保障诊疗质量。另外，报告期内公司下属医院制定并实施
了院内感染自查方案，规范和监督医务人员的诊疗行为，加强医院感染管理，提高医疗质量、
保障病人安全、预防传染病传播，杜绝院内感染。建华医院以等级医院评审标准目标，以
ISO9000认证要求为管理工具，继续履行业务指导及管理职能，得到黑龙江省疾控中心给予高
度评价。2017年2月，建华医院被授予  “三级甲等医院”的称号，由“三级乙等医院”晋升为“三
级甲等医院”。 

（四）加大人才培养力度，重视人才队伍建设 
报告期内，由于公司及主要子公司的注册地均处于非省会城市，不利于公司相关业务的
拓展及人才引进，公司分别在上海和杭州设立全资子公司引进高端人才及优秀业务团队开拓
公司医疗服务业务。公司设立康尔健医疗主要为了组建一支专业的医疗服务业务团队负责公
司医疗服务业务的管理、指导工作；公司设立悦润医疗主要为便于公司引进专业人才与公司
及子公司工作人员、主要股东进行有

In [16]:
with open(directory+filenames[2]) as f:
    text = f.readlines()

In [17]:
print(''.join(text))

浙江南都电源动力股份有限公司 2016 年年度报告全文 

 

浙江南都电源动力股份有限公司 

2016 年年度报告 

2017-038 

二 O 一七年三月 

1 

浙江南都电源动力股份有限公司 2016 年年度报告全文 

第一节  重要提示、目录和释义 

本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实、准确、完整，不存在

虚假记载、误导性陈述或重大遗漏，并承担个别和连带的法律责任。 

公司负责人王海光、主管会计工作负责人陈博及会计机构负责人(会计主管人员)王莹娇声明：保证年

度报告中财务报告的真实、准确、完整。 

所有董事均已出席了审议本报告的董事会会议。 

 

风险提示： 

1、国际政治经济形势动荡及汇率变动风险 

公司在今后仍将面临严峻而复杂多变的外部政治经济形势。世界经济增速进一步放缓，大宗商品价格

触底反弹，但仍在中低价位运行。国际贸易更加低迷，全球债务水平继续上升，国际金融市场持续动荡。

世界经济潜在增长率下降，贸易投资增长乏力，同时，地缘政治风险、难民危机、大国政治周期、恐怖主

义等问题也仍然在影响世界经济的稳定与发展。国内宏观经济仍处于低位运行。在这种情况下，公司海外

市场的业务拓展因需求下降将持续受到影响。此外，公司出口规模较大，国际政治经济形势的不确定性使

公司未来仍面临汇率变动带来的外汇结算风险。 

面对不利的外部政治经济形势，公司针对海外业务采取了稳健的经营策略，持续跟踪并充分了解客户

资信情况，根据客户资信及区域政策风险等调整风控等级，加强订单管理和实时监控，同时，有效动态管

理应收账款，进一步加强财务内部控制体系的落实和执行，积极开发潜力大的新市场与新业务，规避经营

风险。             

2、原材料价格波动风险 

公司铅蓄电池类产品主要原材料为铅及其合金，铅属于期货交易品种之一，金融资本的博弈可能导致

铅价波动幅度加大；2015 年底，铅价在跌至每吨 1.2 万元以后反弹，随着国内货币政策的宽松及国内外铅

矿的大规模减产，加上锌价上涨的助推，2016 年下半年，铅价迎来了一轮快速上涨，此后随着期货走弱，

现货铅价出现回落。公司在未来仍面临着原材料价格波动的风险。 

针对此风险，除继续严格实施铅价联动机制外，还需要根据实际情况用好铅期货套期保

In [18]:
text.index('40 \n')

5059

In [19]:
sample3 = text[4987:5059]
tokenlist3 = []

for line in sample3:
    words = pseg.cut(line)
    tokens = [x.word for x in words]
    tokenlist3.append(tokens)

In [20]:
# Document 3
text3 = ''.join(sample3)
token3 = ''.join([' '.join(tokenlist3[x]) for x in range(len(tokenlist3))])

In [21]:
print(text3)
print('###########################################################\n')
print(token3)

39 

浙江南都电源动力股份有限公司 2016 年年度报告全文 

发展新能源汽车，推动传统汽车产业的战略转型，在国际上已经形成广泛共识。2016年受新能源汽车

行业补贴政策调整及行业相关规范条件的实施，行业整体受到了一定影响，但仍保持着高速增长，2016年

我国新能源汽车生产51.7万辆，销售50.7万辆，销量连续两年世界第一，比上年同期分别增长51.7%和53%。

其中纯电动汽车产销分别完成41.7万辆和40.9万辆，比上年同期分别增长63.9%和65.1%。从全年发布的数

据来看，纯电动汽车一直是新能源汽车产销的主力军，销量占全年销量比超过80%，插电式混合动力汽车

的占比为19%。根据我国新能源汽车发展规划，到2020年，我国新能源汽车保有量将达到500万辆。预计届

时全球新能源车销量将达到720万辆，保有量将达2400万辆，动力电池市场规模达到1000亿美元。 

近几年，得益于国家的相关补贴政策，新能源汽车行业保持了快速发展的势头，产业规模不断增长。

报告期内，四部委发布了《关于调整新能源汽车推广应用财政补贴政策的通知》，虽然对新能源汽车的补

贴政策进行了调整，且财政补贴将逐步退坡，但对电池的性能和技术等提出了更高的要求。未来几年，新

能源汽车动力电池领域有可能迎来更为激烈的市场竞争，但作为国家战略性新兴产业，随着动力电池成本

下降、技术进步以及国家在财政补助之外如限牌、限购、路权等不同方式的政策引导，将推动新能源汽车

产业走向更加成熟的商业化道路，未来的市场将迎来更为广阔的市场空间。 

新能源汽车用动力电池是公司战略发展的重点，公司一直坚持在技术开发上持续大力投入、在产能提

升上稳步实施、在产业布局上加速推进的策略。报告期内，公司先后参股孔辉汽车及智行鸿远，使公司成

为行业内少数几家具备从底盘设计制造到动力电池研发生产，再到动力系统总成等系统集成能力的企业之

一，为公司未来在新能源汽车产业的快速发展奠定了坚实基础。   

在新能源节能汽车领域，启停式混合动力汽车有望成为节能汽车技术主流，该技术在市场上也被称为

弱混/轻混技术，是混合动力的重要技术路线之一。我国将逐步开始实施第四阶段燃油消耗标准，强制要求

乘用车车企平均油耗由2015年的6.9L/百公里下降到2020年的5L/百公里，上汽、东风、一汽等大型车企已


# Converting All Documents

Now that the tokenizer was deemed 'good enough,' we will need to tokenize all the documents across all the folders:

In [30]:
# One year example
years = [2016]

# Create a dictionary 


for year in years:
    
    # Go to folder containing year's filings
    directory = '../../China Fin Report Text/decompressed/'+str(year)+'/'
    
    # Create a list of all files in that folder
    files = os.listdir(directory)[:5]
    
    for file in files:
        
        # Init blank list
        tokenlist = []
        
        # Open the file
        with open(directory+file) as f:
            text = f.readlines()
        
        # Iterate through each line
        for line in text:
            
            # Tokenize the file
            words = pseg.cut(line)
            tokens = [x.word for x in words]
            tokenlist.append(tokens)
        tokenized = ''.join([' '.join(tokenlist[x]) for x in range(len(tokenlist))])

In [None]:
tokenized