Releases: GeneralNewsExtractor/GeneralNewsExtractor
Releases · GeneralNewsExtractor/GeneralNewsExtractor
v0.4.3
What's Changed
增强元数据提取能力
借鉴 C++ article-parser 项目思路,在不修改现有架构的前提下增强了提取能力:
- 标题提取:新增 JSON-LD
headline/name、twitter:title、dc:title支持 - 作者提取:新增 JSON-LD
author、itemprop="author"、class/rel="author"支持 - 时间提取:新增 JSON-LD
datePublished、HTML5<time>标签属性支持 - 正文提取:优先检测 Schema.org
itemprop="articleBody"标记 - 噪声过滤:新增
sharing/newsletter/subscribe等 9 个噪声关键词 - 权重识别:新增
articlebody/post-content等 6 个正文区域关键词 - 元数据:新增 14 个发布时间 meta 标签 XPath
Bug 修复
- 修复作者正则过度匹配数字的问题
- 修复
body_xpath和//body缺失时的 IndexError 崩溃 - 修复预处理阶段误删
<body>标签的问题
GNE v0.4.1
Full Changelog: v0.3.1...v0.4.1
Bug fix
支持基于可视化区域精确查找正文
0.3.0 (2021-10-07)
New Feature
- 基于可视化区域,更准确地识别正文
Bug fix
- 修复下面这种情况时,无法正确寻找正文的 bug
<div>
我是正文我是正文我是正文<a href="xxx">关键词1</a>我是正文我是正文我是正文我是正文
我是正文我是正文我是正文我是正文我是正文<a href="xxx">关键词2</a>我是正文我是正文
我是正文
</div>- 统计一个标签下面的 p 标签的时候,应该把这个标签下面的直接文档数也统计进去
限制 h 标签与 title 的最小公共子串长度
- 修复 extract_by_htag_and_title 在发现 H 标签中的文本与 title 标签的文本在最小公共子串长度小于4时被认为是标题的问题。
修复从 title 标签提取标题部分失败的问题
- 如果标题中含有-|,且在较为靠前的地方,可能导致标题只提取了半截。需要判断-|左侧字符串的长度。如果小于4,那么返回整个标题字符串。
预处理时,移除 footer 标签
- 预处理时,移除 footer 标签。
现在 useless_attr 中的属性必须完全匹配才能删除节点
0.2.3 (2020-09-15)
Bug fix
USELESS_ATTR对应的节点,只有 class 完全匹配才需要删除。之前包含就删除的匹配方式会导致 ifeng 的正文被删除。
自动提取新闻列表页
修复提取节点中的文本时只能提取最后一个节点的问题
Merge pull request #84 from kingname/develop 修复提取标签中的文本时,只能提取最后一个节点的问题