Выполняется работа строго в репозитории python-dh-hw
в файле HW4.ipynb
, лежащем в корне репозитория.
NB! Перед выполнением обязательно посмотрите образец оформления работы.
- Скачайте из папки с домашними заданиями английский текст первой книги о Гарри Поттере. Он должен быть сохранен отдельным файлом.
- Очистите текст от пунктуации, приведите его к нижнему регистру, лемматизируйте и запишите в новый файл. Проверьте, выполняется ли здесь закон Ципфа. Для этого постройте линейную диаграмму, где по оси Х будет ранг (порядковый номер) слова в отсортированном по убыванию частотном словаре, а по оси Y -- относительная частота (абсолютная частота, разделенная на количество слов в тексте). Т.е. у самого частотного слова будет ранг 1, у второго по частоте -- 2 и т.д.
- Очистите текст от стоп-слов. Постройте barplot для 30 самых частотных слов. Эти слова должны быть по оси Х в виде подписей к делениям. Значениями по оси Х будет ряд чисел от 0 до 30, а по оси Y -- абсолютная частота.
NB! На обоих графиках должны быть заголовки и подписи осей!
После решения задач необходимо выложить решение в Github и проверить, что вы видите ваше решение по ссылке https://github.com/*ваш username на github*/python-dh-hw/blob/master/HW4.ipynb
NB! В этом и в следующих заданиях коммиты следует делать через консольный интерфейс, а сообщения коммитов должны быть осмысленными. Перед началом работы обязательно повторите Cеминар 1, где описан порядок работы с GitHub.