如题,我用同一段音频测试,prompt是:请转录这段音频, 输出时带上每个句子的开始和结束时间。上下文关键词有小珺,Manus,OpenClaw,姚顺宇, Meta,Gemini。
[230.00-235.00]然后你去看那个纸面上的消息, 比如看Sweebench, 你会发现哎好像好的会比不好的可能高一个百分点或者两个百分点, 但其实大家都在80%附近, 那个附近数字高一点低一点, 其实呃是主要是是noise, 就主要是是噪声, 而不是信号, 对。[235.00-240.00]但是从另一方面来说, 大家使用上确实还是能体现出呃区别的, 我觉得呃就我个人了解到的信息而言, 呃Cloud目前仍然是呃比较通用的这种工具使用类的使呃agent表现最好的。[240.00-245.00]然后在纯粹coding的方面, 可能最近呃CodeX稍微追上了一点, 啊就把这个把这个中间的gap变小了一点, 然后呃Gemini可能在纯的reasoning, 然后和一些比较日常的使用环境下, 可能目前还是比较好的, 然后在[245.00-250.00]呃在coding和agent上还处于一个比较在在接近的这个状。[250.00-255.00]
[527.37][527.75]现在就是纸面上大家其实都比较相近,然后你去看那个纸面上的消息,比如看swim bench,你会发现哎好像好的会比不好的可能高一个百分点或者两个百分点,但其实大家都在百分之八十附近,那个附近数字高一点低一点其实呃是主要是是noise,就主要是是噪声而不是信号,对。[547.19][547.65]但是从另一方面来说,大家使用上确实还是能体现出呃区别的。[551.65][551.79]我觉得呃就我个人了解到的信息而言,呃Claude目前仍然是呃比较通用的这种工具使用类的使呃agent表现最好的。[564.8][565.18]然后在纯粹coding的方面,可能最近呃CodeX稍微追上了一点啊,就把这个把这个中间的gap变小了一点。[573.48][573.86]然后呃Gemini可能在纯的reasoning,然后和一些比较日常的使用环境下,可能目前还是比较好的。[583.19][583.23]然后在呃在coding和agent上还处于一个比较在在接近的这个状。[588.03]
如题,我用同一段音频测试,prompt是:请转录这段音频, 输出时带上每个句子的开始和结束时间。上下文关键词有小珺,Manus,OpenClaw,姚顺宇, Meta,Gemini。
4B的输出时间是正确的,分句合理,8B的输出时间都错了,比如
对应4B的输出
这个结果正常吗