Skip to content

EduNetArchive/Zhukovskaya_Exercise_generation

 
 

Repository files navigation

Генерация упражнений на заполнение пропусков по заданному списку лексики для уроков русского языка как иностранного

Основная идея заключается в том, чтобы в тексте, который преподаватель мог бы пройти на занятии, выделить лексику и создать по ней упражнения. Для качественой генерации необходимо верно определить уровень сложности исходного текста по шкале CEFR (A1-C2), чтобы сгенерированое упражнение соответствовало этому уровню.

Мы брали списки слов из текстов из учебников, уровень которых известен, поэтому определение уровня исходного текста не делали, а текст упражнения классифицировали по уровню.

Общая схема такая:

  1. Создание классификатора для определения уровня сложности исходного или сгенерированного текстов.

    Мы можем обойтись без дообучения, то есть получить эмбеддинги текстов и подать их разным классификаторам.

    Или мы можем дообучить модель.

    Фрагмент исходного датасета с текстами здесь.

    Здесь можно скачать эмбеддинги полного набора текстов, полученные с помощью ruRoberta-large.

    Итоговая лучшая модель - RKI_sber_rubert_large

  2. Генерируем упражнения с Llama2, затем обучаем ее и снова генерируем упражнения.

  3. Получаем тексты и оцениваем их качество. Таблица с текстами, метриками и CEFR уровнями здесь.

  4. Создаем упражнение на заполнение пропусков.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%