Генерация упражнений на заполнение пропусков по заданному списку лексики для уроков русского языка как иностранного
Основная идея заключается в том, чтобы в тексте, который преподаватель мог бы пройти на занятии, выделить лексику и создать по ней упражнения. Для качественой генерации необходимо верно определить уровень сложности исходного текста по шкале CEFR (A1-C2), чтобы сгенерированое упражнение соответствовало этому уровню.
Мы брали списки слов из текстов из учебников, уровень которых известен, поэтому определение уровня исходного текста не делали, а текст упражнения классифицировали по уровню.
Общая схема такая:
-
Создание классификатора для определения уровня сложности исходного или сгенерированного текстов.
Мы можем обойтись без дообучения, то есть получить эмбеддинги текстов и подать их разным классификаторам.
Или мы можем дообучить модель.
Фрагмент исходного датасета с текстами здесь.
Здесь можно скачать эмбеддинги полного набора текстов, полученные с помощью ruRoberta-large.
Итоговая лучшая модель - RKI_sber_rubert_large
-
Генерируем упражнения с Llama2, затем обучаем ее и снова генерируем упражнения.
-
Получаем тексты и оцениваем их качество. Таблица с текстами, метриками и CEFR уровнями здесь.
-
Создаем упражнение на заполнение пропусков.