Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

部分站点爬取优化建议 #39

Closed
3 tasks done
wavetg opened this issue Jan 9, 2024 · 2 comments
Closed
3 tasks done

部分站点爬取优化建议 #39

wavetg opened this issue Jan 9, 2024 · 2 comments
Labels
bug Something isn't working enhancement 功能请求 / New feature or request

Comments

@wavetg
Copy link

wavetg commented Jan 9, 2024

在提问之前...

  • 我已经搜索了现有的 issues
  • 我在提问题之前至少花费了 5 分钟来思考和准备
  • 我正在使用最新版本

描述你的问题

  1. madouqu 最新的修改中增加了一个bug,导致部分影片没有演员时,正则会溢出至第三个换行符(例如 MFK-0042 ),如果不影响其他逻辑,建议保留原始正则
  2. 国产大部分作品人名收录不全,可以考虑全局匹配仍然没有演员字段时,增加未知演员(目前设置中已有此设置项)使用当前文件夹名(同时保留可以自定义赋值的输入框,只需要增加一个 radio button 优先检查即可),以便于手动整理人名文件夹快速刮削
  3. guochan.py 文件中有使用关键字匹配文件名的获得演员名的方法,但人名列表太少且只适配了 mdtv ,可以考虑爬取 madouqu 单独已整理好的演员分区 tags 增加命中率)
  4. c*mdb 中,单文件刮削,从浏览器地址栏复制的链接中如带有中文字符(很多,只要没有号码的影片都是例子),粘贴到单文件刮削的输入框时,为 urlencode 的形式,导致刮削出形似乱码的的文件,解决方式我想可以在 ui 端捕捉粘贴信号自动将 encode 的 url decode 直接展示在输入框,或者在后端进行 decode

如何复现

  1. 前往 '...'
  2. 点击 '....'
  3. 滑动到 '....'
  4. 出现问题

预期行为

No response

相关 Logs

No response

截图

No response

还有别的吗?

本人 py 是业余水平,有不对的地方或者要求太多多包涵。

sqzw-x added a commit that referenced this issue Jan 9, 2024
madouqu blank actor (#39)
@sqzw-x sqzw-x added bug Something isn't working enhancement 功能请求 / New feature or request labels Jan 9, 2024
@sqzw-x
Copy link
Owner

sqzw-x commented Jan 9, 2024

1&4 已修复
2&3 不考虑,实现太复杂。此外,国产影片网站数据都比较混乱,实际上自动化刮削的条件并不成熟,这种字符串匹配的方式本身就已经丑陋至极,在这些网站的继续投入可能是个无底洞。

@wavetg
Copy link
Author

wavetg commented Jan 9, 2024

1&4 已修复
2&3 不考虑,实现太复杂。此外,国产影片网站数据都比较混乱,实际上自动化刮削的条件并不成熟,这种字符串匹配的方式本身就已经丑陋至极,在这些网站的继续投入可能是个无底洞。

的确如此,表示理解

@sqzw-x sqzw-x closed this as completed Jan 10, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working enhancement 功能请求 / New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants