Skip to content

微调样本数据过长识别不出来 #268

@cheng-jiru

Description

@cheng-jiru

Notice: In order to resolve issues more efficiently, please raise issue following the template.
(注意:为了更加高效率解决您遇到的问题,请按照模板提问,补充细节)

🐛 Bug

To Reproduce

Steps to reproduce the behavior (always include the command you ran):

微调数据样本是不是有长度限制,当我微调添加这样的一条样本时,{"key": "762ef99a-8a9b-4838-9006-d0847b0e4380", "source": "/home/cjr/SenseVoice/data/wav/762ef99a-8a9b-4838-9006-d0847b0e4380.wav", "source_len": 74, "target": "诶诶你好你好,我张老师那个化学老师的话,我给咱们排到周日的上午可以吗。嗯。周六晚上没空是吧,对周六晚上的话,这个老师当时跟我说他没有时间,但是周六周日上午可以。哦,然后对,然后我说我跟您商量,您看您是让他分开上,就比如我们周六晚上回来,老师也可以,也可以上课,他说。还是就是说一次性让他。就是周周内都可以,你看孩子啥时候有时间。周二周三周五基本这个化学老师都有空。您看看您看就是因为咱们不是晚上,嗯上课吗。您您看您看小孩。回来啊。周二、周三、周五。对,都可以安排的。周一啊,周一可以吗?周一的话要晚太晚了有点,周一得到11点了。我看一下下周,我看看下周。稍等。10点半开始吧。下周哎,下周可以我先排一下,您稍等排个十点半,我看从下周开始,对下周开始就可以,可以十点半,您看您看会这样,就是如果觉得周内咱们不是回来的晚嘛,可能孩子还得就是洗漱那些,要不你周内排个40分钟,然后周日上午排个80分钟,然后加起来也是两个小时。嗯,行,可以吧。嗯,这样上下来的话,孩子不会特别累,不然你让他一次性上太长了,他不怕他累。那周日的话,我从9点开始先这样化学先这样安排吧,然后那个物理正好被那个化学错开给他。物理星期六晚上他嗯,先试听一下,看能不能星期六晚上安排一下,可以可以那是吧,可以可以那我给他安排。那你看那个化学的话,我从我排到周日早上9点咋样。还是起早一点。嗯,9点就可以了。行行,那我化学那个物理的话,我再找一个女老师让她听一下周六。他周六这段时间没时间是吧,就是明后天。明后天。试听啊可以啊也可以是吧,明后天试听的话,是不是要晚一点,基本上在10点半。对对对,哦,那行那行,那我先找老师,然后看看老师有没有那个匹配的时间。哎,好嗯,行行行,然后像化学的话,我们就是这周这周天的话,上完一节课,我们把规划给他出出来。更了解一点。把什么把规划给小孩出出来哦,行行好好好,那我先排这个,嗯。好嘞好嘞,那你先忙,嗯嗯,拜拜拜拜拜拜。", "target_len": 812, "with_or_wo_itn": "<|withitn|>", "text_language": "<|zh|>", "emo_target": "<|NEUTRAL|>", "event_target": "<|Speech|>"}

训练加载的时候,识别不到这个样本,爆出来的numbers是0.

Code sample

Expected behavior

能正常训练

Environment

  • OS (e.g., Linux):
  • FunASR Version (e.g., 1.0.0):
  • ModelScope Version (e.g., 1.11.0):
  • PyTorch Version (e.g., 2.0.0):
  • How you installed funasr (pip, source):
  • Python version:
  • GPU (e.g., V100M32)
  • CUDA/cuDNN version (e.g., cuda11.7):
  • Docker version (e.g., funasr-runtime-sdk-cpu-0.4.1)
  • Any other relevant information:

Additional context

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions