GitHub - sqwqwqw1/txt_financial_report: 获取文本格式的中文财务报告（或财务报告附注）

前言

由于某些原因，我需要下载一些公司的年报报告，并且将其转换为纯文本以便进行文本分析，具体地说，我需要3000家上市公司2013年到2018年的文本格式年报。

在此之前我编写了两个程序，一个用来下载新浪财经的PDF格式年报，另一个实现PDF转txt的功能，但是这并不现实。

一是因为我的电脑和服务器都没有那么大的硬盘来存储这些PDF格式的年报；二是因为PDF转txt的效率很慢，也许到我开学也做不完这些任务，所以我就放弃了之前的程序。一直搁置到现在。

直到昨天，我才发现原来网易财经已经把PDF格式的年报转成了txt格式，那么一切都变得简单许多了。

数据来源

网易财经：http://quotes.money.163.com

程序的一些说明

如何运行

进入项目根目录，在终端或者cmd里运行scrapy crawl nb即可，前提是安装好环境

如何修改年份

修改nb.spider中的year_list

如何修改股票代码

替换ndbg/ndbg/stkcd.txt中的内容

如何采集报告全文

我只需要附注，所以默认只采集附注，如果要采集全文，请参考nb.spider中parse_report的注释

如何修改存储方式

我在pipeline中设置了两种存储方式，一种是将item存储到mongodb中，另一种是直接存储为ndbg/ndbg/report文件夹下的txt文件，我想正常人应该不需要两种同时使用，所以请您按照实际情况注释掉一种。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
ndbg		ndbg
.DS_Store		.DS_Store
README.md		README.md
report_note_1.jpg		report_note_1.jpg
report_note_2.jpg		report_note_2.jpg
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

前言

数据来源

程序的一些说明

如何运行

如何修改年份

如何修改股票代码

如何采集报告全文

如何修改存储方式

效果

存储为txt

存储到mongodb

About

Releases

Packages

Languages

sqwqwqw1/txt_financial_report

Folders and files

Latest commit

History

Repository files navigation

前言

数据来源

程序的一些说明

如何运行

如何修改年份

如何修改股票代码

如何采集报告全文

如何修改存储方式

效果

存储为txt

存储到mongodb

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages