增加百度语音识别建议 #68

walogia · 2019-12-09T12:32:20Z

参考：
https://github.com/eric00liu/autosub

BingLingGroup · 2019-12-10T01:25:08Z

会考虑
首先是Google Cloud API支持，其次是讯飞，然后百度

BingLingGroup · 2020-03-03T08:09:41Z

会考虑
首先是Google Cloud API支持，其次是讯飞，然后百度

更新下进度：
目前Google Cloud Speech-to-Text API的短语音识别已经支持，配置文件识别已经支持，youtube样式输出ass字幕未支持，完整识别结果json文件输出已支持（可供外部处理）。

vbqgyy · 2020-03-11T14:37:11Z

支持增加百度的谷歌普通话的字幕质量太低了

AClon314 · 2020-03-15T08:44:47Z

现在网易见外凉了，大家都开始着急了。

BingLingGroup · 2020-03-15T09:50:44Z

@Lboy-C 网易见外为啥凉了？我最近没研究……
好吧我今晚开始写ORZ最近star数量骤增，我就知道事情不简单.jpg
急的话可以用这个，我看了下还可以（虽然还没试着用……） https://github.com/wxbool/video-srt-windows

vbqgyy · 2020-03-15T14:12:17Z

那个是要阿里云的api的一天免费只有两小时

BingLingGroup · 2020-03-16T01:44:01Z

@vbqgyy 2小时应该够用了吧，你是要多大批量地制作字幕啊……中文免费的，据我所知也就这个API最多了吧，讯飞和百度好像都是按照请求次数限制的，讯飞是500次（每次大概1分钟不到？），百度我还没看

AClon314 · 2020-03-16T02:14:28Z

@BingLingGroup ，百度API好像一个账号一次性50000次，用完收费
这个问题可以归类为“识别率不高”

非专业比较：（已删除）

其中标黄的是诗句，可以看到

BaiduAPI对中文本地化支持很好！谷歌实在不行~
其中FastTitle的断句是较好的。
~~另一方面， @BingLingGroup ，原项目的断句比您的版本还要好一些，这是什么原因呢？~~
~~3. AutoSub能支持含多种语言的视频吗，比如一个视频同时有中文、日文和英语~~

FastTitle下载测试：https://www.lanzous.com/iab3q1g
希望您有空改进下。

BingLingGroup · 2020-03-16T03:51:56Z

@Lboy-C 就一个问题，是我写代码还是你写代码？你给我钱让我写了吗？注意一下你的态度
关于断句问题，readme里面已经写得很清楚了，这个不是我写的库，需要调整参数，可能默认参数不适合你这个视频，我以后可能也会改默认参数
关于你说的什么闭源软件，如果你想让autosub改进，那至少得有代码，给个闭源的是完全没用的啊，除了证明我可能需要删库以谢天下以外没有任何意义

看你后面几个问题很明显是readme还没看完就跳出来问了

AClon314 · 2020-03-16T04:13:05Z

@BingLingGroup 不好意思哈，我也不是专业的，上Github也算伸手党一个，也知道业余时间维护项目不容易
我再琢磨下参数调整问题
闭源软件也只是半路搜出来的，做个比较
只是提下意见，感觉readme的用户人群不是我这类小白/抱头哭
--后记：加-et 60就行了，-et 后数值越大，断句越多

vbqgyy · 2020-03-16T04:19:22Z

其实我觉的很好用我比较喜欢用命令行自己写批处理很舒服 FastTitle我也试过却发现断句很糟糕有的句直接在视频里面显示三行才完

BingLingGroup · 2020-03-20T12:54:34Z

@Lboy-C -et 这个得看原音频的音量大小，如果杂音很多，且平均音量较大，那么需要调高，否则默认的50或者45用于演讲，公开课等无杂音，说话音量不是很大的场景比较合适。
另外我有提供音频预处理，使用ffmpeg-normalize和ffmpeg的滤波器对音频进行预处理，预处理之后对人声的检测会好很多。readme里有写。
关于音频分段最小限制的参数，我已经从之前的-sml调整为-nsml了，0.5.6a就是默认强制限制分段最小长度，这样可以避免过短的长度导致API返回空结果（其实一般过短的长度都是因为之前的长度超过最长的限制分割后产生的）

BingLingGroup · 2020-03-20T13:01:58Z

更新下进度：
提交 ba90e48 已添加讯飞开放平台（流式版）WebSocket API支持，这应该算比较新的API，每日有500次免费请求次数，但实测中文识别效果好像还不如Google Speech V2那个autosub内置默认免费API……

readme还没写用法，这里简要说明一下。

命令行参数

autosub -sapi xfyun -i 输入文件 -sconf 语音配置文件 ...（其他选项）

其中配置文件写法如下

{
    "app_id": "",
    "api_secret": "",
    "api_key": "",
    "business": {
        "language": "zh_cn",
        "domain": "iat",
        "accent": "mandarin"
    }
}

business就是业务参数。

BingLingGroup · 2020-03-20T13:04:46Z

关于易用性，0.5.6a及以后支持双击打开程序后输入参数。
另外从当前dev分支最新版开始，autosub只支持Python 3以上版本，个人建议使用Python 3.5以上。

BingLingGroup · 2020-03-20T15:16:29Z

以及命令行和图形界面的问题，GUI会搞的，但等我把该做的feature做完以后再考虑，我以前也没写过python的GUI界面，还需要研究。

BingLingGroup · 2020-03-21T07:47:46Z

提交 2054ca0 已添加百度语音识别

walogia added the Status: Review Needed label Dec 9, 2019

BingLingGroup added Priority: Low Status: Accepted Type: Enhancement and removed Status: Review Needed labels Dec 10, 2019

BingLingGroup added Priority: Medium and removed Priority: Low labels Jan 31, 2020

BingLingGroup added Status: In Progress and removed Status: Accepted labels Mar 3, 2020

BingLingGroup closed this as completed in 2054ca0 Mar 21, 2020

BingLingGroup added Status: Completed and removed Priority: Medium Status: In Progress labels Mar 21, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

增加百度语音识别建议 #68

增加百度语音识别建议 #68

walogia commented Dec 9, 2019

BingLingGroup commented Dec 10, 2019

BingLingGroup commented Mar 3, 2020

vbqgyy commented Mar 11, 2020

AClon314 commented Mar 15, 2020

BingLingGroup commented Mar 15, 2020

vbqgyy commented Mar 15, 2020

BingLingGroup commented Mar 16, 2020 •

edited

Loading

AClon314 commented Mar 16, 2020 •

edited

Loading

BingLingGroup commented Mar 16, 2020 •

edited

Loading

AClon314 commented Mar 16, 2020 •

edited

Loading

vbqgyy commented Mar 16, 2020

BingLingGroup commented Mar 20, 2020 •

edited

Loading

BingLingGroup commented Mar 20, 2020 •

edited

Loading

BingLingGroup commented Mar 20, 2020

BingLingGroup commented Mar 20, 2020

BingLingGroup commented Mar 21, 2020

增加百度语音识别建议 #68

增加百度语音识别建议 #68

Comments

walogia commented Dec 9, 2019

BingLingGroup commented Dec 10, 2019

BingLingGroup commented Mar 3, 2020

vbqgyy commented Mar 11, 2020

AClon314 commented Mar 15, 2020

BingLingGroup commented Mar 15, 2020

vbqgyy commented Mar 15, 2020

BingLingGroup commented Mar 16, 2020 • edited Loading

AClon314 commented Mar 16, 2020 • edited Loading

BingLingGroup commented Mar 16, 2020 • edited Loading

AClon314 commented Mar 16, 2020 • edited Loading

vbqgyy commented Mar 16, 2020

BingLingGroup commented Mar 20, 2020 • edited Loading

BingLingGroup commented Mar 20, 2020 • edited Loading

BingLingGroup commented Mar 20, 2020

BingLingGroup commented Mar 20, 2020

BingLingGroup commented Mar 21, 2020

BingLingGroup commented Mar 16, 2020 •

edited

Loading

AClon314 commented Mar 16, 2020 •

edited

Loading

BingLingGroup commented Mar 16, 2020 •

edited

Loading

AClon314 commented Mar 16, 2020 •

edited

Loading

BingLingGroup commented Mar 20, 2020 •

edited

Loading

BingLingGroup commented Mar 20, 2020 •

edited

Loading