实测发现8B-instruct的asr质量不如4B-instruct的

如题，我用同一段音频测试，prompt是：请转录这段音频, 输出时带上每个句子的开始和结束时间。上下文关键词有小珺，Manus，OpenClaw，姚顺宇, Meta，Gemini。

4B的输出时间是正确的，分句合理，8B的输出时间都错了，比如
```
[230.00-235.00]然后你去看那个纸面上的消息, 比如看Sweebench, 你会发现哎好像好的会比不好的可能高一个百分点或者两个百分点, 但其实大家都在80%附近, 那个附近数字高一点低一点, 其实呃是主要是是noise, 就主要是是噪声, 而不是信号, 对。[235.00-240.00]但是从另一方面来说, 大家使用上确实还是能体现出呃区别的, 我觉得呃就我个人了解到的信息而言, 呃Cloud目前仍然是呃比较通用的这种工具使用类的使呃agent表现最好的。[240.00-245.00]然后在纯粹coding的方面, 可能最近呃CodeX稍微追上了一点, 啊就把这个把这个中间的gap变小了一点, 然后呃Gemini可能在纯的reasoning, 然后和一些比较日常的使用环境下, 可能目前还是比较好的, 然后在[245.00-250.00]呃在coding和agent上还处于一个比较在在接近的这个状。[250.00-255.00]
```
对应4B的输出
```
[527.37][527.75]现在就是纸面上大家其实都比较相近，然后你去看那个纸面上的消息，比如看swim bench，你会发现哎好像好的会比不好的可能高一个百分点或者两个百分点，但其实大家都在百分之八十附近，那个附近数字高一点低一点其实呃是主要是是noise，就主要是是噪声而不是信号，对。[547.19][547.65]但是从另一方面来说，大家使用上确实还是能体现出呃区别的。[551.65][551.79]我觉得呃就我个人了解到的信息而言，呃Claude目前仍然是呃比较通用的这种工具使用类的使呃agent表现最好的。[564.8][565.18]然后在纯粹coding的方面，可能最近呃CodeX稍微追上了一点啊，就把这个把这个中间的gap变小了一点。[573.48][573.86]然后呃Gemini可能在纯的reasoning，然后和一些比较日常的使用环境下，可能目前还是比较好的。[583.19][583.23]然后在呃在coding和agent上还处于一个比较在在接近的这个状。[588.03]
```

这个结果正常吗

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

实测发现8B-instruct的asr质量不如4B-instruct的 #22

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

实测发现8B-instruct的asr质量不如4B-instruct的 #22

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions