You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Я понимаю, что использовались для составления словаря самые популярные токены, но, возможно, в будущем стоит отдать отдельный приоритет токенам длинной в один символ, чтобы при генерации текста не получалось проблем вида:
In: Щелкунчик 42 щелкал щелбаны по щёчкам
Out: <unk> елкунчик сорок два щелкал щелбаны по щёчкам
Взамен таких токенов можно пожертвовать многосимвольными цифровыми токенами а-ля "2007", ".01.", etc.
The text was updated successfully, but these errors were encountered:
@Luonic спасибо, что нашел! Считаем, что с нашей стороны это нужно поправить. Возьмем в работу в ближ спринты и выложим обновление, отпишусь здесь тогда.
Только "Щ", мб сразу сходу еще что-то нашлось подобное?
Я понимаю, что использовались для составления словаря самые популярные токены, но, возможно, в будущем стоит отдать отдельный приоритет токенам длинной в один символ, чтобы при генерации текста не получалось проблем вида:
Взамен таких токенов можно пожертвовать многосимвольными цифровыми токенами а-ля "2007", ".01.", etc.
The text was updated successfully, but these errors were encountered: