Fix SFTDataset sample generation #1568

alealv · 2024-07-09T18:06:05Z

Fixes #1567.

litgpt/data/base.py

rasbt · 2024-07-09T18:55:46Z

Also tagging @Andrei-Aksionov for insights here, who has done a lot of tokenizer work in LitGPT

litgpt/data/base.py

Co-authored-by: awaelchli <aedu.waelchli@gmail.com>

Andrei-Aksionov · 2024-07-10T10:57:50Z

Hello @alealv
Nice catch!
Just update the test and I think the PR is ready.

rasbt · 2024-07-10T15:11:07Z

Thanks for addressing all our feedback @alealv ! It looks good to me now!

Fix SFTDataset sample generation

d1afb89

alealv requested review from awaelchli and lantiga as code owners July 9, 2024 18:06

rasbt reviewed Jul 9, 2024

View reviewed changes

litgpt/data/base.py Outdated Show resolved Hide resolved

rasbt reviewed Jul 9, 2024

View reviewed changes

litgpt/data/base.py Outdated Show resolved Hide resolved

awaelchli reviewed Jul 9, 2024

View reviewed changes

litgpt/data/base.py Outdated Show resolved Hide resolved

alealv and others added 4 commits July 10, 2024 09:33

Avoid bos generation on response

169ca37

Co-authored-by: awaelchli <aedu.waelchli@gmail.com>

Limit prompt+response to max_seq_length

b282d44

Fix

9b87bb8

More fixes

0f3975d

alealv added 2 commits July 10, 2024 13:14

Update MockTokenizer

f7bc9c7

Fix MockTest

7e0e429

Andrei-Aksionov approved these changes Jul 10, 2024

View reviewed changes

rasbt merged commit d85d92b into Lightning-AI:main Jul 10, 2024
9 checks passed

Provide feedback