sekai-voice-fetch

一个用于爬取sekai.best网站中角色的对话语音的爬虫？

介绍

最近在做电子鳳えむ嘛，额兄弟们大家都知道我喜欢的角色就是emu了，我有emu电子化训练的程序，emu的彩卡，emu的二次元角色图，emu的附庸ChatGPT，emu的爱。可以说所有有关emu的东西我都有了，可是大家都知道emu喜欢唱歌，我还没有给她赛博唱歌的条件。那么我还缺什么？哦！我还缺emu的语音数据集。

于是想着手动下载数据集的，后来确实感觉麻烦，所以不小心写了个这个，感觉问题还是很多，但是勉强能用。

数据集的获取主要来源自sekai.best中的角色对话和活动对话资源。设计思路是：循环模拟访问直至js加载完成-获取网页元素-遍历并找寻到以mp3结尾的链接-过滤以获取指定角色id的链接-下载。

请不要使用过多给sekai.best造成困扰哦！

文件结构

├── config
│   └── setting_fetch.ini #配置文件，在运行前你必须先配置这个文件
├── logger #logger包，主要管理日志功能
│   ├── log_manager.py
│   ├── __init__.py
│   └── logs #日志
├── main.py #程序入口点
├── requirements.txt #依赖
├── sekai #sekai包，主要管理模拟访问和下载
│   ├── voice.py
│   ├── __init__.py
│── resource #下载到的文件都存放在这个文件夹里
│
├── tests
└── venv

使用方法

配置

打开配置文件config/setting_fetch.ini

[DEFAULT]
url = https://sekai.best/storyreader/eventStory/75/1
interval = 10
character = 5
proxy = true 
proxy_ip = 127.0.0.1
proxy_port = 7890

填写或修改你所要爬取的角色语音的story链接到url。
修改角色id项目character，相应的角色id请自行到sekai.best的故事板的下载语音的文件名查看，如voice_ev_wonder_03_01_02_14.mp3是emu的语音，角色的id是14。
如有需要，可以继续修改下载间隔interval(默认10秒)，请勿调整过小，极容易触发503。

运行

Python > 3.8, Tested by Python 3.10
启用虚拟环境venv

  python3 -m venv .venv
  source .venv/bin/activate

安装依赖

  pip install -r requirements.txt

运行程序

  python3 ./main.py

可能的问题

暂且不支持捕获网站的错误如503 service unavailable。
暂且不支持异步。
暂且不支持多链接批量下载，执行一次后需要更换链接。
没有很好的异常捕获。
JS加载的处理直接使用循环有点暴力。（好像好了）

许可证

sekai-voice-fetch 采用 MIT 许可证进行开源

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS
FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR
COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER
IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

请注意！使用本程序你将默认同意，所有资源的版权方归Project Sekai和SEGA以及资源托管站（及其他们的许可要求），本程序和SEGA和资源站sekai.best团体没有关系，您将保证不对二者产生任何不利影响。本程序仅供进行技术学习和交流，使用本程序所带来的一切法律后果由用户自行承担。

感谢

感谢sekai.best资源站为大家提供关于PJSK的资源服务。

Name		Name	Last commit message	Last commit date
Latest commit History 48 Commits
.github		.github
assets/img		assets/img
config		config
logger		logger
sekai		sekai
tests		tests
.gitignore		.gitignore
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
LICENSE		LICENSE
README.md		README.md
SECURITY.md		SECURITY.md
main.py		main.py
renovate.json		renovate.json
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

sekai-voice-fetch

介绍

文件结构

使用方法

配置

运行

可能的问题

许可证

感谢

About

Releases 2

Packages

Contributors 2

Languages

License

chitsanfei/sekai-voice-fetch

Folders and files

Latest commit

History

Repository files navigation

sekai-voice-fetch

介绍

文件结构

使用方法

配置

运行

可能的问题

许可证

感谢

About

Topics

Resources

License

Code of conduct

Security policy

Stars

Watchers

Forks

Releases 2

Packages 0

Contributors 2

Languages

Packages