Skip to content

Latest commit

 

History

History
17 lines (10 loc) · 2.64 KB

HW4.md

File metadata and controls

17 lines (10 loc) · 2.64 KB

Домашнее задание №4

Выполняется работа строго в репозитории python-dh-hw в файле HW4.ipynb, лежащем в корне репозитория.

NB! Перед выполнением обязательно посмотрите образец оформления работы.

Задание №1

  1. Скачайте из папки с домашними заданиями английский текст первой книги о Гарри Поттере. Он должен быть сохранен отдельным файлом.
  2. Очистите текст от пунктуации, приведите его к нижнему регистру, лемматизируйте и запишите в новый файл. Проверьте, выполняется ли здесь закон Ципфа. Для этого постройте линейную диаграмму, где по оси Х будет ранг (порядковый номер) слова в отсортированном по убыванию частотном словаре, а по оси Y -- относительная частота (абсолютная частота, разделенная на количество слов в тексте). Т.е. у самого частотного слова будет ранг 1, у второго по частоте -- 2 и т.д.
  3. Очистите текст от стоп-слов. Постройте barplot для 30 самых частотных слов. Эти слова должны быть по оси Х в виде подписей к делениям. Значениями по оси Х будет ряд чисел от 0 до 30, а по оси Y -- абсолютная частота.

NB! На обоих графиках должны быть заголовки и подписи осей!

После решения задач необходимо выложить решение в Github и проверить, что вы видите ваше решение по ссылке https://github.com/*ваш username на github*/python-dh-hw/blob/master/HW4.ipynb

NB! В этом и в следующих заданиях коммиты следует делать через консольный интерфейс, а сообщения коммитов должны быть осмысленными. Перед началом работы обязательно повторите Cеминар 1, где описан порядок работы с GitHub.