Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

分享一下自己目前使用的参数配置文件 #159

Open
nnnnn376 opened this issue Jun 16, 2024 · 9 comments
Open

分享一下自己目前使用的参数配置文件 #159

nnnnn376 opened this issue Jun 16, 2024 · 9 comments

Comments

@nnnnn376
Copy link

nnnnn376 commented Jun 16, 2024

在过去几个月中,我对默认参数的不满让我不断进行优化。在此过程中,我经历了诸如whisperX对齐失败、字幕断句和时间戳问题等困难,令我十分疲惫。经过六到七次的参数调整,我终于调制出了自己满意的参数设置。虽然这只是我个人的经验(不能保证每个人都会满意),但我认为效果已经非常不错。我目前使用这套参数转写的是虚拟主播直播录像和MLB比赛,语言涉及日语和英语,尚未测试其他语言和whisperX的说话人分离功能。如果你不愿意折腾,可以尝试使用我的参数设置,但无法保证每个人都会满意。

注意事项:

  1. 使用whisperX的对齐功能需要科学上网,并在huggingface网站申请密钥,具体申请方法可参考作者的B站专栏(cv26636573)。
  2. 首次使用时,请不要立即导入参数。你可以先随便找一个音频或视频进行对齐,以便软件下载所需的模型。模型下载完成后,重启软件并导入参数。
  3. 我觉得目前AI字幕还无法完全替代人工字幕,仍可能出现漏字或不转写犹豫词(思考下一句话时说出的词)的情况,多人同时说话时特别容易漏句子。
  4. 开始使用前,请调整转写语言。我发现将软件语言设置为英文似乎能提高转写精度和时间戳对齐的成功率,尽管这只是我的个人感觉。
  5. 建议先进行人声分离再转写人声分离后的音视频,以提高转写质量。
    (我写完用AI润色的)

点左下角齿轮,里面可以导入参数文件
参数分享.json

@qhgy
Copy link

qhgy commented Jun 17, 2024

THX

@nnnnn376 nnnnn376 closed this as not planned Won't fix, can't repro, duplicate, stale Jun 17, 2024
@CheshireCC
Copy link
Owner

坚持不懈进行参数测试,并且愿意分享的人,我的朋友,你是真正的英雄😍

@hhl2024
Copy link

hhl2024 commented Jul 1, 2024

你好,我在fastwhispergui中识别出来的英文字幕,有一种情况就是连续很多行字幕没有任何一个标点符号,然后我用您推荐的srt字幕工具箱进行自动断句,根据标点规则(跳过方括号),也就是默认的选择,拖文件进软件后的第一个结果,这多行无标点的字幕,被直接合并成一条非常长的字幕了,这就跟断句的目的相反了,请问这种情况如果调整fastwhispergui生成结果的标点问题,另外不是很明白你发的那个参数json文件导入到什么文件夹,非常感谢!

@nnnnn376
Copy link
Author

nnnnn376 commented Jul 7, 2024

你好,我在fastwhispergui中识别出来的英文字幕,有一种情况就是连续很多行字幕没有任何一个标点符号,然后我用您推荐的srt字幕工具箱进行自动断句,根据标点规则(跳过方括号),也就是默认的选择,拖文件进软件后的第一个结果,这多行无标点的字幕,被直接合并成一条非常长的字幕了,这就跟断句的目的相反了,请问这种情况如果调整fastwhispergui生成结果的标点问题,另外不是很明白你发的那个参数json文件导入到什么文件夹,非常感谢!

我也有发现漏标点的情况,后来我的解决办法是:用chatgpt生成三、四句和视频相对应的台词,比如游戏直播,我就以游戏主播的口吻生成几句带标点的话(和视频同语言),然后复制到“初始提示词”中,如果你是0.8.0版本,还需要复制到“热词”中;然后还需要勾选“循环提示。”这样就能解决没有标点的情况了。whisper的标点还是很准确的,只是要用提示词来告诉模型需要标点。

至于配置文件的话,在软件的左下角有一个齿轮,进入设置,有个配置文件,选择加载配置文件,就能导入了

@CheshireCC
Copy link
Owner

初始提示词正是“范式”学习,如果你能准确生成带标点的数据的话是可以的😁😁

@hhl2024
Copy link

hhl2024 commented Jul 9, 2024

你好,我在fastwhispergui中识别出来的英文字幕,有一种情况就是连续很多行字幕没有任何一个标点符号,然后我用您推荐的srt字幕工具箱进行自动断句,根据标点规则(跳过方括号),也就是默认的选择,拖文件进软件后的第一个结果,这多行无标点的字幕,被直接合并成一条非常长的字幕了,这就跟断句的目的相反了,请问这种情况如果调整fastwhispergui生成结果的标点问题,另外不是很明白你发的那个参数json文件导入到什么文件夹,非常感谢!

我也有发现漏标点的情况,后来我的解决办法是:用chatgpt生成三、四句和视频相对应的台词,比如游戏直播,我就以游戏主播的口吻生成几句带标点的话(和视频同语言),然后复制到“初始提示词”中,如果你是0.8.0版本,还需要复制到“热词”中;然后还需要勾选“循环提示。”这样就能解决没有标点的情况了。whisper的标点还是很准确的,只是要用提示词来告诉模型需要标点。

至于配置文件的话,在软件的左下角有一个齿轮,进入设置,有个配置文件,选择加载配置文件,就能导入了

--用chatgpt生成三、四句和视频相对应的台词--这个您是指随机拿一段和我目标音频(英文)不相关的英文音频文件给gpt去生成字幕(带时间轴)吗?然后这段生成的英文文本,放进去热词和提示词?还是直接拿我要处理字幕的音频文件直接去生成

@nnnnn376
Copy link
Author

你好,我在fastwhispergui中识别出来的英文字幕,有一种情况就是连续很多行字幕没有任何一个标点符号,然后我用您推荐的srt字幕工具箱进行自动断句,根据标点规则(跳过方括号),也就是默认的选择,拖文件进软件后的第一个结果,这多行无标点的字幕,被直接合并成一条非常长的字幕了,这就跟断句的目的相反了,请问这种情况如果调整fastwhispergui生成结果的标点问题,另外不是很明白你发的那个参数json文件导入到什么文件夹,非常感谢!

我也有发现漏标点的情况,后来我的解决办法是:用chatgpt生成三、四句和视频相对应的台词,比如游戏直播,我就以游戏主播的口吻生成几句带标点的话(和视频同语言),然后复制到“初始提示词”中,如果你是0.8.0版本,还需要复制到“热词”中;然后还需要勾选“循环提示。”这样就能解决没有标点的情况了。whisper的标点还是很准确的,只是要用提示词来告诉模型需要标点。
至于配置文件的话,在软件的左下角有一个齿轮,进入设置,有个配置文件,选择加载配置文件,就能导入了

--用chatgpt生成三、四句和视频相对应的台词--这个您是指随机拿一段和我目标音频(英文)不相关的英文音频文件给gpt去生成字幕(带时间轴)吗?然后这段生成的英文文本,放进去热词和提示词?还是直接拿我要处理字幕的音频文件直接去生成

不需要时间轴的,只需要句子就行。内容不相关的句子也行的,如果是你音频里面的台词(有标点符号)也是ok的,whisper的提示词是示例式的提示词,给个样板给模型看就行,模型就知道需要添加标点符号。

同时我发现这种方法的话,有几段还是会出现标点符号缺失的情况,通常是句末的句号。然后我就把whisper模型转写好的临时文件(在软件所在文件夹的temp文件夹中,需要在设置中勾选不删除临时文件)发给chatgpt 4.0,然后gpt帮我补上了标点符号。

@nnnnn376
Copy link
Author

nnnnn376 commented Jul 11, 2024

你好,我在fastwhispergui中识别出来的英文字幕,有一种情况就是连续很多行字幕没有任何一个标点符号,然后我用您推荐的srt字幕工具箱进行自动断句,根据标点规则(跳过方括号),也就是默认的选择,拖文件进软件后的第一个结果,这多行无标点的字幕,被直接合并成一条非常长的字幕了,这就跟断句的目的相反了,请问这种情况如果调整fastwhispergui生成结果的标点问题,另外不是很明白你发的那个参数json文件导入到什么文件夹,非常感谢!

我也有发现漏标点的情况,后来我的解决办法是:用chatgpt生成三、四句和视频相对应的台词,比如游戏直播,我就以游戏主播的口吻生成几句带标点的话(和视频同语言),然后复制到“初始提示词”中,如果你是0.8.0版本,还需要复制到“热词”中;然后还需要勾选“循环提示。”这样就能解决没有标点的情况了。whisper的标点还是很准确的,只是要用提示词来告诉模型需要标点。
至于配置文件的话,在软件的左下角有一个齿轮,进入设置,有个配置文件,选择加载配置文件,就能导入了

--用chatgpt生成三、四句和视频相对应的台词--这个您是指随机拿一段和我目标音频(英文)不相关的英文音频文件给gpt去生成字幕(带时间轴)吗?然后这段生成的英文文本,放进去热词和提示词?还是直接拿我要处理字幕的音频文件直接去生成

不需要时间轴的,只需要句子就行。内容不相关的句子也行的,如果是你音频里面的台词(有标点符号)也是ok的,whisper的提示词是示例式的提示词,给个样板给模型看就行,模型就知道需要添加标点符号。

同时我发现这种方法的话,有几段还是会出现标点符号缺失的情况,通常是句末的句号。然后我就把whisper模型转写好的临时文件(在软件所在文件夹的temp文件夹中,需要在设置中勾选不删除临时文件)发给chatgpt 4.0,然后gpt帮我补上了标点符号。

但是使用热词的方法加标点符号,感觉比不加热词更容易漏句子,我想着用chatgpt来加标点符号,但是chatgpt只会在句末添加句号,其他逗号问号啥的都不会添加,这个情况还不知道怎么优化,目前先试试鞭打鞭打gpt能不能听话点👀

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants