New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
从15秒开始之后的文字全部相同 #23
Comments
请先选择视频源语言,再右上角翻译。 |
預到一樣的問題, 前面在5分鐘左右出現過一次, 使用Large v2 model. 到最後面10分鐘左右又是這樣, 全部一樣的內容, 你可以download 原檔試. https://temp-file.org/ANOxf418CwZdAwe/file 我已經先選日本語為"视频源语言" 直接用 whisper 出來的檔沒事, 一樣是Large v2 model. 所以應該是 Memo 內的問題 另外, 我嘗試再encode 上面的原片, 用較高的audio encoding rate. 結果....memo 只聽到音樂.. |
請問你用甚麼提示词? |
我想我找到解決方案. 請問你可不可以加 --temperature_increment_on_fallback , --condition_on_previous_text 這2個switch? 因為解決方案在這裡 https://github.com/openai/whisper/pull/1253 應該加了這2個switch 後, 我會直接付費買lifetime 版. 謝啦. |
OK,后续会把参数开放开来。 |
另外, 好像提示詞跟whisper 有點不一樣. 我在whisper 加入這句 "以下係香港嘅港式廣東話", 片段內容是廣東話的話, 會直接輸出廣東話, 不過在memo 用一樣的提示詞, 輸出還是會翻譯成正體書面語. |
|
看來人声检测提取(实验功能)好像解決我之前給你們那個video 的問題. 我另外再開一個新的issue 關於上面point 2 的提示詞問題 |
用的是largev1模型。
这个里不能上图,如链接所示:
https://storage.googleapis.com/taotio/memobug.jpg
具体表现是英文视频转换完成后,从第15秒开始内容全部相同
The text was updated successfully, but these errors were encountered: