Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[asr]ASR建议输出timeline结构信息 #1257

Closed
big-pang opened this issue Jan 2, 2022 · 19 comments · Fixed by #1838
Closed

[asr]ASR建议输出timeline结构信息 #1257

big-pang opened this issue Jan 2, 2022 · 19 comments · Fixed by #1838
Assignees

Comments

@big-pang
Copy link

big-pang commented Jan 2, 2022

语音识别,很多时候需要时间轴,可以用户做提词器之类的工能。 强烈建议考虑一下

@zh794390558
Copy link
Collaborator

做解码器的时候会考虑这个需求

@bikekoala
Copy link

是的,视频转字幕的场景也同样需要 时间轴 信息

@zh794390558
Copy link
Collaborator

希望可以细化下详细的使用过程或需求,想了解下具体使用的方式。

@bikekoala
Copy link

bikekoala commented Jan 13, 2022

@yt605155624

你好,我的使用场景是:配音稿的时间轴矫正
现在短视频的配音一般是先写文案,然后转换为配音稿,人工配音后,合成至视频,最后根据平台提供的自动字幕功能由音频生成。
这里有个问题,平台自动翻译的文字经常出错。
既然有配音稿,又有带时间轴的自动字幕,通过文本比对算饭,即可将自动字幕的时间轴信息匹配到配音稿上,从而实现完美字幕。

@zh794390558 zh794390558 added this to the r0.2.0 milestone Jan 13, 2022
@zh794390558 zh794390558 changed the title ASR建议输出结构化 [asr]ASR建议输出timeline结构信息 Jan 13, 2022
@zh794390558 zh794390558 removed this from the r0.2.0 milestone Jan 13, 2022
@josh-zhu
Copy link

想问下,这个输出timeline结构信息functionality大概什么时候能有呀

@214929177
Copy link

214929177 commented Feb 11, 2022 via email

@stale
Copy link

stale bot commented Apr 2, 2022

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.

@stale stale bot added the Stale label Apr 2, 2022
@DidaDidaDidaD
Copy link

强烈建议搞时间线输出,可惜刚更新的这个还是没有该功能。语音识别不可能只识别一个句子,实际应用的时候是大段大段的语音直接输入,结果出来的是没任何标点符号,没任何时间点信息的文字,还得想别的法子实现获取时间点信息

@stale stale bot removed the Stale label Apr 28, 2022
@LeoMax-Xiong LeoMax-Xiong linked a pull request May 4, 2022 that will close this issue
@nevertoday
Copy link

请问这个根据既有文稿逐字稿 匹配音频 并得出时间轴文件的功能现在有了吗

@nevertoday
Copy link

希望可以细化下详细的使用过程或需求,想了解下具体使用的方式。

就是我有txt一行行的逐字稿 并且有播音文件了。如何将两者匹配 并得出srt带时间轴的文件

@simin75simin
Copy link

@tomfat
Copy link

tomfat commented Mar 2, 2023

今天是2023年3月2日,这个功能不会还没有加把

@iftaken
Copy link
Collaborator

iftaken commented Mar 2, 2023

已经添加了哦,可以参考这里的返回结果,包含字级别的时间戳:https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

@Dewey-Ding
Copy link

已经添加了哦,可以参考这里的返回结果,包含字级别的时间戳:https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

长音频返回时间戳的时候 socket断开了,看起来是一个bug?
[2023-03-27 10:51:15,279] [ ERROR] - Failed to speech recognition.
[2023-03-27 10:51:15,279] [ ERROR] - sent 1011 (unexpected error) keepalive ping timeout; no close frame received

@twoDogy
Copy link
Contributor

twoDogy commented Mar 31, 2023

@zh794390558 你好,针对这个需求我增加了由wav或mp3格式文件生成srt格式字幕文件的功能,提交了merge request #3123

强烈建议搞时间线输出,可惜刚更新的这个还是没有该功能。语音识别不可能只识别一个句子,实际应用的时候是大段大段的语音直接输入,结果出来的是没任何标点符号,没任何时间点信息的文字,还得想别的法子实现获取时间点信息

@mapleleafss
Copy link

长音频返回时间戳的时候 socket断开了,看起来是一个bug? [2023-03-27 10:51:15,279] [ ERROR] - Failed to speech recognition. [2023-03-27 10:51:15,279] [ ERROR] - sent 1011 (unexpected error) keepalive ping timeout; no close frame received

我在使用 paddlespeech_server 起 websocket 服务识别长音频的时候也遇到了 sent 1011 (unexpected error) keepalive ping timeout; no close frame received 。使用 conformer_online_wenetspeech 模型解码长音频的时候可以正常解码。但是使用 conformer_u2pp_online_wenetspeechdeepspeech2online_wenetspeech 解码长音频的时候就会遇到 sent 1011 这个问题,我是使用 paddlespeech_server 加载 paddlespeech/demos/streaming_asr_server/applications.yaml 配置文件启动 conformer_u2pp_online_wenetspeech 的。想请教下大家这是什么原因呢?

@entalent
Copy link

entalent commented Sep 5, 2023

已经添加了哦,可以参考这里的返回结果,包含字级别的时间戳:https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

长音频(长度超过1分钟)生成的srt文件只有结尾的最后一部分音频对应的文本,前面的所有文本都没有
paddlespeech_server进行流式语音识别的时候是不是只保留最后一部分识别出来的词汇和时间戳,把前面的文本都丢弃了?只能把长音频分段处理吗

@777sfdf
Copy link

777sfdf commented Dec 26, 2023

已经添加了哦,可以参考这里的返回结果,包含字级别的时间戳:https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

长音频(长度超过1分钟)生成的srt文件只有结尾的最后一部分音频对应的文本,前面的所有文本都没有 paddlespeech_server进行流式语音识别的时候是不是只保留最后一部分识别出来的词汇和时间戳,把前面的文本都丢弃了?只能把长音频分段处理吗

想问一下 他这个超过一分钟的音频 使用ffmpeg进行剪切 分段进行处理音频时 还是会有问题 怎么做可以把全部的词汇和时间戳都输出出来呢 谢谢!!!

@777sfdf
Copy link

777sfdf commented Jan 12, 2024

已经添加了哦,可以参考这里的返回结果,包含字级别的时间戳:https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/streaming_asr_server

长音频(长度超过1分钟)生成的srt文件只有结尾的最后一部分音频对应的文本,前面的所有文本都没有 paddlespeech_server进行流式语音识别的时候是不是只保留最后一部分识别出来的词汇和时间戳,把前面的文本都丢弃了?只能把长音频分段处理吗

想问一下 他这个超过一分钟的音频 使用ffmpeg进行剪切 分段进行处理音频时 还是会有问题 怎么做可以把全部的词汇和时间戳都输出出来呢 谢谢!!!

已解决

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
Status: Done
Development

Successfully merging a pull request may close this issue.