wanFangSpider-dataPretreatment

对于万方论文库进行数据爬取和数据清洗生成语料库的程序

1.下载后在安装python scrapy框架情况下（推荐用conda命令安装） 2.在此文件夹下shift+鼠标右键打开命令行 3.输入 scrapy crawl wanfang 启动爬虫

修改内容： 1.数据存入sqlite数据库中 2.增加数据清洗和模型训练

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data1		data1
wanfang		wanfang
README.md		README.md
dataclean.py		dataclean.py
librarycreate.py		librarycreate.py
scrapy.cfg		scrapy.cfg
wanfang.sqlite		wanfang.sqlite

Provide feedback