Skip to content
No description, website, or topics provided.
Python
Branch: master
Clone or download
Pull request Compare This branch is 2 commits ahead, 15 commits behind tsechinlin:master.
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
config
docparser
extract
ner
utils
.gitignore
README.md
app.py
test

README.md

大数据项目二 -- 金融文本信息提取

参考

https://github.com/dmjvictory/fddc-extraction-release.git

基本信息

  • config: 目录包含一些配置文件
  • docparser: 实现对文档的解析,主要是对HTML文件的解析,解析HTML中的文本段落和表格信息
  • extract: 实现信息抽取器,主要基于docparser解析后的结果进行信息抽取,这里主要实现了增减持项目的抽取器
  • ner: 封装实现 NER打标签的工具
  • utils: 实现一些功能性组件
  • app.py: 主函数,实现对某篇HTML文件或某个目录下HTML文件的信息抽取
  • requirements.txt: pip 的相关依赖列表

运行方法

运行python环境为: python3.6 NER部分采用 pyltp 需要下载相关模型文件并在app.py中配置相关模型目录路径 ner_model_dir_path

完整报告

You can’t perform that action at this time.