HTML提取

从银行征信html中提取有价值的信息（姓名、身份证号、电话和城市）

ToDoList

自动生成xls表格文件(已完成，使用pyExcelerator模块)
代码重构
提取doc、pdf等多种格式文件中的信息
自动锁单

ChangeLog

version5:
- 自动生成xls表格文件
version1~version4:
- 完成基本功能；
- 增加将信息提取出文件的功能；
- 增加提取目录里所有文件夹所有文件的功能；
- 增加删除空白目录的功能；
- 增加将所有文件放到一个文件夹的功能
- 增加命令行模式

How to Use

安装有Python
- 将html.py文件复制到html文件的根目录里，运行即可
编译成exe
- 在当前目录，命令行运行 python setup.py py2exe。需要安装py2exe模块

##Result

运行结束后会产生一系列文件夹和文件，分别是：

分类结果文件夹：里面包含分类成功后文件，默认按照地级市分离，如果有命令行指令则按照命令行指令分离
未提取文件夹：包含所有不在分类结果里的文件
集合文件夹：将所有文件夹里的html文件移动到一起
result.txt文件：以逗号分隔，可以当成.csv文件导入，也可以直接导入，选择分隔符为,并设置每一列都是文本即可
result.xls文件：使用pyExcelerator自动生成的电子表格。

Note

软件将会忽视所有路径带有分类结果 未提取 集合 的文件。
只应用于html和htm文件
多次运行result.txt和result.xls是会被覆盖的，注意做好备份
集合内的文件是移动过去的，其他文件夹里的文件是复制过去的。
html文件应该是名字[-*]18位身份证号.htm[l]这种格式的

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
.gitignore		.gitignore
HTML.nsi		HTML.nsi
LICENSE		LICENSE
README.md		README.md
Setup.exe		Setup.exe
aifeidai.js		aifeidai.js
auto.py		auto.py
create_setup.nsi		create_setup.nsi
html.py		html.py
setup-auto.py		setup-auto.py
setup.py		setup.py
提取.exe		提取.exe

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

HTML提取

ToDoList

ChangeLog

How to Use

Note

Reference

About

Releases

Packages

Languages

License

zYeoman/HTML--

Folders and files

Latest commit

History

Repository files navigation

HTML提取

ToDoList

ChangeLog

How to Use

Note

Reference

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages