Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

轻小说目标源 #8

Closed
comsoi opened this issue Feb 3, 2023 · 7 comments
Closed

轻小说目标源 #8

comsoi opened this issue Feb 3, 2023 · 7 comments

Comments

@comsoi
Copy link

comsoi commented Feb 3, 2023

  • 真白萌,爬取难度尚可,需要登录,图源分辨率符合规范但有些有被劣化
  • 300论坛,图源质量高,需指定帖子id,需登录,爬取难度高,需支持选择楼层或检测Strong 元素等
@wdpm
Copy link
Member

wdpm commented Feb 3, 2023

真白萌

在真白萌,看见了一年前的一个公告。https://masiro.me/admin/announcementPage?ann_id=68

Snipaste_2023-02-03_11-28-32

既然是需要登录的,很容易标记用户。发现用户严重爬虫行为直接限流或者暂时封禁就好。

不过这些小说网站基本上都顶不住大流量,因此有必要在该项目文档中重申不要使用线性探测来抓取大量小说。要么被封号,要么会造成对面网站流量激增。本地个人自用阅读应该是没有问题的。

门槛方面:必须登录。部分小说限制等级,部分小说的部分章节要求积分。

导航方面。


300 论坛指的是 这个 https://www.yamibo.com/site/novel

@comsoi
Copy link
Author

comsoi commented Feb 3, 2023

这个是它的新站,300通常指bbs.yamibo.com 以论坛形式进行第一时间更新,通常会在文库epub出来前翻译完

@wdpm
Copy link
Member

wdpm commented Feb 3, 2023

300 论坛是论坛格式的网站,而且和日本轻小说联系不够紧密。暂时我个人不会考虑支持这个网站,目前这个项目依旧是以传统日本轻小说为主。
但是,这不意味不能支持300 论坛的爬虫抓取。而是我个人不会将其纳入一等支持的范围。目前一等支持的爬虫只有哔哩轻小说。
如果你有编程能力,可以去继承爬虫的基类,来支持300 论坛的抓取。如果想贡献代码的话,还可以发起PR请求合并。

如果需要考虑泛化的轻小说爬虫支持,那么这个项目可能不是一个好选择。 此时你应该在github寻找其他的爬虫轻小说的工具。这个项目,包括我写的很多其他项目,全部都是以传统ACGN文化为核心的。凡是不是紧密围绕传统ACGN文化的,基本不会纳入我的考虑范围。

上面的真白萌不错,以前我也了解过这个网站。它相对哔哩轻小说的优点在于个别小说更新地比哔哩轻小说新。毕竟,哔哩轻小说往往不是第一发布源,很多小说它也是爬别人的网站。因此,我认为真白萌可以进入该项目的爬虫计划候选目标源。

@wdpm
Copy link
Member

wdpm commented Feb 3, 2023

小说源的支持不是越多越好,而是应该关注点集中,追求资源覆盖和资源质量。

  • 越多的小说源会加大维护的工作量,这是开源项目,不会有太多精力去维护的。哪天我不想写了,删库跑路才是终点。
  • 这个项目的作用:轻小说爬虫 -> epub,做的只是高效聚合资源的工作。获得的只是勉强能看的epub,而不是精排的epub

这远远没有达到我的目标,我的目标是获取精美排版的轻小说,释放生产力。现在精排轻小说的民间翻译很多都渐渐弃坑了,而且大部分工作一直都是人工堆出来的,翻译后的文本 -> sigil 编辑界面编辑 -> 不断修改 -> 导出epub

这明显可以自动化部分工作。可以利用脚本语言+现代的web技术(主要是CSS)来自动化处理绝大部分的精排工作,这才是轻小说民间翻译活力的未来。这个假想中的项目我在本地已经调研了一段时间,理论上验证了实现的可能性,因此我希望放一部分时间到那里。因为可能要重写EbookLib,这个库很棒,但是不是为轻小说提供一等支持的,而且对CSS精排的支持很基础,达不到我的要求。

@comsoi
Copy link
Author

comsoi commented Feb 3, 2023

理解支持

@comsoi comsoi closed this as completed Feb 3, 2023
@wdpm
Copy link
Member

wdpm commented Oct 21, 2023

@comsoi 真白萌在有生之年终于被实现了

@wdpm wdpm pinned this issue Oct 21, 2023
@wdpm
Copy link
Member

wdpm commented Oct 23, 2023

@comsoi 得益于良好的代码抽象,现在添加对一般门槛的新小说网站的支持已是非常简单的事情了。因此我放宽了以前对轻小说源的限制。
百合会新站的爬虫已被我重新提上计划,目前正在实现中。而百合会的旧站(BBS)那个,我需要一些典型的轻小说案例地址链接,例如

  • 一本书只有单卷
  • 一本书非常多卷
  • 一本书含有部分需要coin购买的章节。

如果你能直接提供这些样品URL,将有较大的帮助。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants