Обучите генеративную модель на основе рекуррентной LSTM-сети для генерации текста художественного произведения. Используйте токенизацию текста по словам.
Исходные тексты произведений можно найти:
- Для английского языка: Project Gutenberg
- Для русского языка: Lib.ru
Реализуйте токенизацию текста с сохранением знаков препинания, чтобы получить на выходе осмысленный текст. Подумайте, как лучше поступать с прописными и строчными буквами.
При выборе произведения подумайте о возможном размере словаря, и соотнесите размер словаря с имеющимся объемом текста. Помните, что размер словаря влияет на число параметров нейросети, а от этого в свою очередь зависит то, сколько текста необходимо для обучения, чтобы избежать переобучения.