Releases · GeneralNewsExtractor/GeneralNewsExtractor

08 Mar 01:59

kingname

v0.4.3

3d5a67c

v0.4.3 Latest

Latest

What's Changed

增强元数据提取能力

借鉴 C++ article-parser 项目思路，在不修改现有架构的前提下增强了提取能力：

标题提取：新增 JSON-LD headline/name、twitter:title、dc:title 支持
作者提取：新增 JSON-LD author、itemprop="author"、class/rel="author" 支持
时间提取：新增 JSON-LD datePublished、HTML5 <time> 标签属性支持
正文提取：优先检测 Schema.org itemprop="articleBody" 标记
噪声过滤：新增 sharing/newsletter/subscribe 等 9 个噪声关键词
权重识别：新增 articlebody/post-content 等 6 个正文区域关键词
元数据：新增 14 个发布时间 meta 标签 XPath

Bug 修复

修复作者正则过度匹配数字的问题
修复 body_xpath 和 //body 缺失时的 IndexError 崩溃
修复预处理阶段误删 <body> 标签的问题

Assets 2

08 Mar 00:27

kingname

v0.4.1

e493480

GNE v0.4.1

Full Changelog: v0.3.1...v0.4.1

Assets 3

17 Apr 14:48

kingname

v0.3.1

4da1eb7

Bug fix

0.3.1 (2024-04-17)

Bug fix

有一些网站源代码不规范，在html中间突然出现。末尾又出现一次.这种情况下，会导致解析出错。现在已经修复。

Assets 3

07 Oct 07:03

kingname

v0.3.0

7067925

支持基于可视化区域精确查找正文

0.3.0 (2021-10-07)

New Feature

基于可视化区域，更准确地识别正文

Bug fix

修复下面这种情况时，无法正确寻找正文的 bug

<div>
我是正文我是正文我是正文<a href="xxx">关键词1</a>我是正文我是正文我是正文我是正文
我是正文我是正文我是正文我是正文我是正文<a href="xxx">关键词2</a>我是正文我是正文
我是正文
</div>

统计一个标签下面的 p 标签的时候，应该把这个标签下面的直接文档数也统计进去

Assets 3

17 Feb 03:04

kingname

0.2.6

5c5093d

限制 h 标签与 title 的最小公共子串长度

修复 extract_by_htag_and_title 在发现 H 标签中的文本与 title 标签的文本在最小公共子串长度小于4时被认为是标题的问题。

Assets 3

21 Dec 15:21

kingname

0.2.5

de4a338

修复从 title 标签提取标题部分失败的问题

如果标题中含有-|，且在较为靠前的地方，可能导致标题只提取了半截。需要判断-|左侧字符串的长度。如果小于4，那么返回整个标题字符串。

Assets 3

06 Oct 14:43

kingname

0.2.4

fa52c52

预处理时，移除 footer 标签

预处理时，移除 footer 标签。

Assets 3

15 Sep 04:37

kingname

0.2.3

f80ab69

现在 useless_attr 中的属性必须完全匹配才能删除节点

0.2.3 (2020-09-15)

Bug fix

USELESS_ATTR对应的节点，只有 class 完全匹配才需要删除。之前包含就删除的匹配方式会导致 ifeng 的正文被删除。

Assets 3

02 Aug 09:28

kingname

0.2.2

e4bdccf

自动提取新闻列表页

新闻列表页自动提取功能测试版已经上线，用法如下：

>>> from gne import ListPageExtractor
>>> html = '''经过渲染的网页 HTML 代码'''
>>> list_extractor = ListPageExtractor()
>>> result = list_extractor.extract(html,
                                    feature='列表中任意元素的 XPath")
>>> print(result)

Assets 3

27 Jun 08:00

kingname

0.2.1

d68e894

修复提取节点中的文本时只能提取最后一个节点的问题

Merge pull request #84 from kingname/develop

修复提取标签中的文本时，只能提取最后一个节点的问题

Assets 3

Releases: GeneralNewsExtractor/GeneralNewsExtractor

v0.4.3

What's Changed

增强元数据提取能力

Bug 修复

Uh oh!

GNE v0.4.1

Uh oh!

Bug fix

0.3.1 (2024-04-17)

Bug fix

Uh oh!

支持基于可视化区域精确查找正文

0.3.0 (2021-10-07)

New Feature

Bug fix

Uh oh!

限制 h 标签与 title 的最小公共子串长度

Uh oh!

修复从 title 标签提取标题部分失败的问题

Uh oh!

预处理时，移除 footer 标签

Uh oh!

现在 useless_attr 中的属性必须完全匹配才能删除节点

0.2.3 (2020-09-15)

Bug fix

Uh oh!

自动提取新闻列表页

Uh oh!

修复提取节点中的文本时只能提取最后一个节点的问题

Uh oh!