Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

增加百度语音识别建议 #68

Closed
walogia opened this issue Dec 9, 2019 · 16 comments
Closed

增加百度语音识别建议 #68

walogia opened this issue Dec 9, 2019 · 16 comments

Comments

@walogia
Copy link

walogia commented Dec 9, 2019

参考:
https://github.com/eric00liu/autosub

@BingLingGroup
Copy link
Owner

会考虑
首先是Google Cloud API支持,其次是讯飞,然后百度

@BingLingGroup
Copy link
Owner

会考虑
首先是Google Cloud API支持,其次是讯飞,然后百度

更新下进度:
目前Google Cloud Speech-to-Text API的短语音识别已经支持,配置文件识别已经支持,youtube样式输出ass字幕未支持,完整识别结果json文件输出已支持(可供外部处理)。

@vbqgyy
Copy link

vbqgyy commented Mar 11, 2020

支持增加百度的 谷歌普通话的字幕质量太低了

@AClon314
Copy link

现在网易见外凉了,大家都开始着急了。

@BingLingGroup
Copy link
Owner

@Lboy-C 网易见外为啥凉了?我最近没研究……
好吧我今晚开始写ORZ最近star数量骤增,我就知道事情不简单.jpg
急的话可以用这个,我看了下还可以(虽然还没试着用……) https://github.com/wxbool/video-srt-windows

@vbqgyy
Copy link

vbqgyy commented Mar 15, 2020

那个是要阿里云的api的 一天免费只有两小时

@BingLingGroup
Copy link
Owner

BingLingGroup commented Mar 16, 2020

@vbqgyy 2小时应该够用了吧,你是要多大批量地制作字幕啊……中文免费的,据我所知也就这个API最多了吧,讯飞和百度好像都是按照请求次数限制的,讯飞是500次(每次大概1分钟不到?),百度我还没看

@AClon314
Copy link

AClon314 commented Mar 16, 2020

@BingLingGroup ,百度API好像一个账号一次性50000次,用完收费
这个问题可以归类为“识别率不高”

非专业比较:(已删除)

其中标黄的是诗句,可以看到

  1. BaiduAPI对中文本地化支持很好!谷歌实在不行~
  2. 其中FastTitle的断句是较好的。
    另一方面, @BingLingGroup ,原项目的断句比您的版本还要好一些,这是什么原因呢?
    3. AutoSub能支持含多种语言的视频吗,比如一个视频同时有中文、日文和英语

FastTitle下载测试:https://www.lanzous.com/iab3q1g
希望您有空改进下。

@BingLingGroup
Copy link
Owner

BingLingGroup commented Mar 16, 2020

@Lboy-C 就一个问题,是我写代码还是你写代码?你给我钱让我写了吗?注意一下你的态度
关于断句问题,readme里面已经写得很清楚了,这个不是我写的库,需要调整参数,可能默认参数不适合你这个视频,我以后可能也会改默认参数
关于你说的什么闭源软件,如果你想让autosub改进,那至少得有代码,给个闭源的是完全没用的啊,除了证明我可能需要删库以谢天下以外没有任何意义

看你后面几个问题很明显是readme还没看完就跳出来问了

@AClon314
Copy link

AClon314 commented Mar 16, 2020

@BingLingGroup 不好意思哈,我也不是专业的,上Github也算伸手党一个,也知道业余时间维护项目不容易
我再琢磨下参数调整问题
闭源软件也只是半路搜出来的,做个比较
只是提下意见,感觉readme的用户人群不是我这类小白/抱头哭
--后记:加-et 60就行了,-et 后数值越大,断句越多

@vbqgyy
Copy link

vbqgyy commented Mar 16, 2020

其实我觉的很好用 我比较喜欢用命令行 自己写批处理 很舒服 FastTitle我也试过 却发现断句很糟糕 有的句直接在视频里面显示三行才完

@BingLingGroup
Copy link
Owner

BingLingGroup commented Mar 20, 2020

@Lboy-C -et 这个得看原音频的音量大小,如果杂音很多,且平均音量较大,那么需要调高,否则默认的50或者45用于演讲,公开课等无杂音,说话音量不是很大的场景比较合适。
另外我有提供音频预处理,使用ffmpeg-normalize和ffmpeg的滤波器对音频进行预处理,预处理之后对人声的检测会好很多。readme里有写。
关于音频分段最小限制的参数,我已经从之前的-sml调整为-nsml了,0.5.6a就是默认强制限制分段最小长度,这样可以避免过短的长度导致API返回空结果(其实一般过短的长度都是因为之前的长度超过最长的限制分割后产生的)

@BingLingGroup
Copy link
Owner

BingLingGroup commented Mar 20, 2020

更新下进度:
提交 ba90e48 已添加讯飞开放平台(流式版)WebSocket API支持,这应该算比较新的API,每日有500次免费请求次数,但实测中文识别效果好像还不如Google Speech V2那个autosub内置默认免费API……

readme还没写用法,这里简要说明一下。

命令行参数

autosub -sapi xfyun -i 输入文件 -sconf 语音配置文件 ...(其他选项)

其中配置文件写法如下

{
    "app_id": "",
    "api_secret": "",
    "api_key": "",
    "business": {
        "language": "zh_cn",
        "domain": "iat",
        "accent": "mandarin"
    }
}

business就是业务参数

@BingLingGroup
Copy link
Owner

关于易用性,0.5.6a及以后支持双击打开程序后输入参数。
另外从当前dev分支最新版开始,autosub只支持Python 3以上版本,个人建议使用Python 3.5以上。

@BingLingGroup
Copy link
Owner

以及命令行和图形界面的问题,GUI会搞的,但等我把该做的feature做完以后再考虑,我以前也没写过python的GUI界面,还需要研究。

@BingLingGroup
Copy link
Owner

提交 2054ca0 已添加百度语音识别

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants