Skip to content

Latest commit

 

History

History
37 lines (20 loc) · 7.03 KB

File metadata and controls

37 lines (20 loc) · 7.03 KB

Дополнительное задание для группы Б. Орехова

Задание нужно выполнить к 23:59 пятницы, 1-го декабря.

Формулировка задания

Необходимо создать сайт на фласке, на котором должны быть следующие страницы.

  1. Главная страница. Должна содержать форму, в которую пользователь может ввести слово из русского лексикона, а после отправки на сервер это слово транслитерируется в написание в старой (дореволюционной) орфографии (подробности ниже).

Кроме того, на главной странице должна показываться информация об актуальной погоде в Скопье (столица Македонии), поскольку славянская письменность была разработана на основе македонских диалектов. Погода должна "забираться" с какого-либо показывающего погоду ресурса с помощью urllib.request.

Страница должна быть оформлена в фреймворке Bootstrap. Тут есть объяснение, как она работает. Вот пара обучающих видео: 1. 2.

  1. Страница, при заходе пользователя на которую с определённого вами новостного ресурса (lenta.ru, kommersant.ru, sports.ru и т.д.) с помощью urllib.request скачивается главная страница, все кириллические слова на ней транслитерируются в старую орфографию и показываются пользователю.

Кроме того, на экран должна выводиться информация о том, какие 10 самых частотных слов присутствуют на странице в данный момент.

  1. Страница-тест для проверки знания пользователя, какие слова в старой орфографии содержат в своём составе букву "ѣ". Тест должен предлагать не менее 10 вопросов, в каждом из которых пользователю нужно выбрать между двумя вариантами, например, "хлебъ" или "хлѣбъ". Словарь слов, содержащих ѣ, можно найти здесь: http://www.dorev.ru/ru-faq-yatroots.html

Страница должна быть оформлена в фреймворке Bootstrap.

При создании страницы обязательно использовать render_template и циклы и условия в html-шаблонах, как это описано здесь.

Правила транслитерации в старую орфографию

Старая орфография, во-первых, содержала некоторые буквы, которые позднее исчезли из русского языка: ѣ,ѳ, ѵ, і. Их нужно восстановить.

Некоторые буквы восстанавливаются только по словарю (ѣ,ѳ, ѵ), а буква і рассчитывается позиционно. Она появляется перед любой гласной.

Соответственно, программа, переводящая слова в старую орфографию, должна содержать словарь правильных дореволюционных написаний. Его можно взять, например, здесь: http://www.dorev.ru/ru-index.html. Словарь этот будет содержать в себе только нормализованную (словарную форму слова). В реальном тексте слова стоят в косвенных формах. Поэтому необходимо встроить в программу запуск mystem, которая будет лемматизировать слова и только после этой лемматизации каждое слово нужно будет сравнивать со словарём.

Отдельные употребления буквы ѣ также рассчитывается позиционно. Она пишется в окончаниях дательного и предложного падежей единственного числа существительных. Таким образом, определение падежа также должно быть реализовано через mystem, потому что только mystem подскажет, что там за падеж.

Кроме того, другое значение было у буквы ъ, которая должна была ставиться после конечной буквы, обозначающей согласную фонему.

Во-вторых, в старой орфографии иначе было устроено окончание прилагательных. Подробности тут: http://www.dorev.ru/ru-faq-okonyeie.html Нужно пытаться определить род существительного, с которым согласуется прилагательное, чтобы подставить правильное окончание. Предполагается, что расположение существительного и прилагательного будет контактным. Со сложными дистантными случаями можно не заморачиваться.

В-третьих, приставки «без», «через», «чрез» всегда оканчиваются на «з» (безполезный, безтактный, безсонница, черезчуръ). Там будет какое-то количество слов, которые начинаются не с приставки, но имеют такое же начало: бесноватый, например. Можно не обращать внимание на точность, сосредоточимся на полноте. Пусть "бесноватый" ошибочно транслитерируется в "безноватый".