Задание нужно выполнить к 23:59 пятницы, 1-го декабря.
Необходимо создать сайт на фласке, на котором должны быть следующие страницы.
- Главная страница. Должна содержать форму, в которую пользователь может ввести слово из русского лексикона, а после отправки на сервер это слово транслитерируется в написание в старой (дореволюционной) орфографии (подробности ниже).
Кроме того, на главной странице должна показываться информация об актуальной погоде в Скопье (столица Македонии), поскольку славянская письменность была разработана на основе македонских диалектов. Погода должна "забираться" с какого-либо показывающего погоду ресурса с помощью urllib.request.
Страница должна быть оформлена в фреймворке Bootstrap. Тут есть объяснение, как она работает. Вот пара обучающих видео: 1. 2.
- Страница, при заходе пользователя на которую с определённого вами новостного ресурса (lenta.ru, kommersant.ru, sports.ru и т.д.) с помощью urllib.request скачивается главная страница, все кириллические слова на ней транслитерируются в старую орфографию и показываются пользователю.
Кроме того, на экран должна выводиться информация о том, какие 10 самых частотных слов присутствуют на странице в данный момент.
- Страница-тест для проверки знания пользователя, какие слова в старой орфографии содержат в своём составе букву "ѣ". Тест должен предлагать не менее 10 вопросов, в каждом из которых пользователю нужно выбрать между двумя вариантами, например, "хлебъ" или "хлѣбъ". Словарь слов, содержащих ѣ, можно найти здесь: http://www.dorev.ru/ru-faq-yatroots.html
Страница должна быть оформлена в фреймворке Bootstrap.
При создании страницы обязательно использовать render_template и циклы и условия в html-шаблонах, как это описано здесь.
Старая орфография, во-первых, содержала некоторые буквы, которые позднее исчезли из русского языка: ѣ,ѳ, ѵ, і. Их нужно восстановить.
Некоторые буквы восстанавливаются только по словарю (ѣ,ѳ, ѵ), а буква і рассчитывается позиционно. Она появляется перед любой гласной.
Соответственно, программа, переводящая слова в старую орфографию, должна содержать словарь правильных дореволюционных написаний. Его можно взять, например, здесь: http://www.dorev.ru/ru-index.html. Словарь этот будет содержать в себе только нормализованную (словарную форму слова). В реальном тексте слова стоят в косвенных формах. Поэтому необходимо встроить в программу запуск mystem, которая будет лемматизировать слова и только после этой лемматизации каждое слово нужно будет сравнивать со словарём.
Отдельные употребления буквы ѣ также рассчитывается позиционно. Она пишется в окончаниях дательного и предложного падежей единственного числа существительных. Таким образом, определение падежа также должно быть реализовано через mystem, потому что только mystem подскажет, что там за падеж.
Кроме того, другое значение было у буквы ъ, которая должна была ставиться после конечной буквы, обозначающей согласную фонему.
Во-вторых, в старой орфографии иначе было устроено окончание прилагательных. Подробности тут: http://www.dorev.ru/ru-faq-okonyeie.html Нужно пытаться определить род существительного, с которым согласуется прилагательное, чтобы подставить правильное окончание. Предполагается, что расположение существительного и прилагательного будет контактным. Со сложными дистантными случаями можно не заморачиваться.
В-третьих, приставки «без», «через», «чрез» всегда оканчиваются на «з» (безполезный, безтактный, безсонница, черезчуръ). Там будет какое-то количество слов, которые начинаются не с приставки, но имеют такое же начало: бесноватый, например. Можно не обращать внимание на точность, сосредоточимся на полноте. Пусть "бесноватый" ошибочно транслитерируется в "безноватый".