<a href="https://colab.research.google.com/github/esta1d/SF_Data_Science_practice/blob/main/%D0%9E%D0%B6%D0%B5%D1%80%D0%B5%D0%BB%D1%8C%D0%B5%D0%B2_PYTHON_4_%D0%9F%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center> Практическое задание по теме "Циклы"

<img src=https://1gai.ru/uploads/posts/2020-12/1608804716_54441.png width=300 align="right">

→ Поздравляем с освоением важных для анализа данных конструкций Python (переменные, структуры данных, условные операторы и циклы)!

Настало время промежуточной практики, чтобы закрепить все полученные в предыдущих модулях навыки! Мы будем применять их на реальном проекте. Сегодня мы обратимся к классике: займемся анализом текстов на примере «Войны и мира» Льва Николаевича Толстого!

В рамках практического кейса мы сначала вместе познакомимся с исходными данными и произведем некоторые манипуляции над ними. После чего вам предстоит самостоятельно выполнить несколько заданий на тему поиска наиболее значимых слов в тексте с помощью методов статистического анализа текста. 

> Итак, приступим!

## <center> Знакомимся с данными

Текст произведения мы взяли в библиотеке [lib.ru](http://az.lib.ru/t/tolstoj_lew_nikolaewich/text_0073.shtml) и провели первоначальную обработку. Поскольку наша цель — обработка слов из этого произведения, мы разбили текст на слова и вывели каждое слово в отдельной строке. Кроме того, в местах, где начинаются главы, мы вывели строку `"[new chapter]"`.

> Исходный текстовый файл хранится в общем доступе и находится [здесь](https://raw.githubusercontent.com/SkillfactoryDS/Datasets/master/war_peace_processed.txt).

Для начала скачаем текст книги по ссылке.

In [2]:
# Импортируем библиотеку для выполнения HTTP-запросов в интернет
import requests 

# Читаем текстовый файл по url-ссылке
data = requests.get("https://raw.githubusercontent.com/SkillfactoryDS/Datasets/master/war_peace_processed.txt").text

# Предобрабатываем текстовый файл
data = data.split('\n')
data.remove('')
data = data + ['[new chapter]']

# Выводим первые 100 слов из книги
print(data[:100])

['1', 'в', 'два', 'раза', 'короче', 'и', 'в', 'пять', 'раз', 'интереснее', '2', 'почти', 'нет', 'философических', 'отступлений', '3', 'в', 'сто', 'раз', 'легче', 'читать', 'весь', 'французский', 'текст', 'заменен', 'русским', 'в', 'переводе', 'самого', 'толстого', '4', 'гораздо', 'больше', 'мира', 'и', 'меньше', 'войны', '5', 'хеппи-энд', 'эти', 'слова', 'я', 'поместил', 'семь', 'лет', 'назад', 'на', 'обложку', 'предыдущего', 'издания', 'указав', 'в', 'аннотации', 'первая', 'полная', 'редакция', 'великого', 'романа', 'созданная', 'к', 'концу', '1866', 'года', 'до', 'того', 'как', 'толстой', 'переделал', 'его', 'в', '1867--1869', 'годах', '--', 'и', 'что', 'я', 'использовал', 'такие-то', 'публикации', 'думая', 'что', 'все', 'всё', 'знают', 'я', 'не', 'объяснил', 'откуда', 'взялась', 'эта', 'первая', 'редакция', 'я', 'оказался', 'неправ', 'и', 'в', 'результате', 'оголтелые', 'и']


## <center> Работаем с данными

Для начала найдем общее количество слов и количество уникальных слов в тексте

In [3]:
# Превращаем список в множество, удаляя дублирующиеся слова
word_set = set(data)
# Удаляем из множества слово, символизирующее раздел между главами
word_set.discard('[new chapter]')
# Выводим результаты
print('Общее количество слов: {}'.format(len(data)))
print('Общее количество уникальных слов: {}'.format(len(word_set)))

Общее количество слов: 300080
Общее количество уникальных слов: 38210


Давайте напишем программу, которая посчитает частоту каждого слова. Для этого создадим словарь, ключами которого будут являться слова, а значения - количество вхождений этого слова в текст произведения. Заодно подсчитаем количество глав

In [4]:
# Инициализируем пустой словарь
word_counts = {}
# Инициализируем количество глав
count_chapter = 0
# Создаем цикл по всем словам из списка слов
for word in data:
    # Проверяем, что текущее слово - обозначение новой главы
    if word == '[new chapter]':
        # Если условие выполняется, то увеличиваем количество глав на 1
        count_chapter += 1
        # Переходим на новую итерацию цикла
        continue
    # Проверяем, что текущего слова еще нет в словаре слов
    if word not in word_counts:
        # Если условие выполняется, инициализируем новый ключ 1
        word_counts[word] = 1
    else:
        # В противном случае, увеличиваем количество слов на 1
        word_counts[word] += 1

# Выводим количество глав
print('Количество глав: {}'.format(count_chapter))

# Создаем цикл по ключам и их порядковым номерам полученного словаря
for i, key in enumerate(word_counts):
    # Выводим только первые 10 слов
    if i == 10:
        break
    print(key, word_counts[key])

Количество глав: 171
1 10
в 6997
два 215
раза 35
короче 3
и 14592
пять 61
раз 296
интереснее 4
2 12


Разделим все слова на главы. Для этого создадим список, в котором будем хранить списки - слова из определенной главы.

In [5]:
# Инициализируем общий список, в котором будем хранить списки слов в каждой главе
chapter_data = []
# Инициализируем список слов, в котором будет хранить слова одной главы
chapter_words = []

# Создаем цикл по всем словам из списка
for word in data:
    # Проверяем, что текущее слово - обозначение новой главы
    if word == '[new chapter]':
        # Если условие выполняется, добавляем список со словами из главы в общий список
        chapter_data.append(chapter_words)
        # Обновляем (перезаписываем) список со словами из текущей главы
        chapter_words = []
    else:
        # В противном случае, добавляем текущее слово в список со словами из главы
        chapter_words.append(word)

# Проверяем, что у нас получилось столько же списков, сколько глав в произведении
print('Вложенный список содержит {} внутренних списка'.format(len(chapter_data)))
# Выведем первые 100 слов 0-ой главы
print(chapter_data[0][:100])

Вложенный список содержит 171 внутренних списка
['1', 'в', 'два', 'раза', 'короче', 'и', 'в', 'пять', 'раз', 'интереснее', '2', 'почти', 'нет', 'философических', 'отступлений', '3', 'в', 'сто', 'раз', 'легче', 'читать', 'весь', 'французский', 'текст', 'заменен', 'русским', 'в', 'переводе', 'самого', 'толстого', '4', 'гораздо', 'больше', 'мира', 'и', 'меньше', 'войны', '5', 'хеппи-энд', 'эти', 'слова', 'я', 'поместил', 'семь', 'лет', 'назад', 'на', 'обложку', 'предыдущего', 'издания', 'указав', 'в', 'аннотации', 'первая', 'полная', 'редакция', 'великого', 'романа', 'созданная', 'к', 'концу', '1866', 'года', 'до', 'того', 'как', 'толстой', 'переделал', 'его', 'в', '1867--1869', 'годах', '--', 'и', 'что', 'я', 'использовал', 'такие-то', 'публикации', 'думая', 'что', 'все', 'всё', 'знают', 'я', 'не', 'объяснил', 'откуда', 'взялась', 'эта', 'первая', 'редакция', 'я', 'оказался', 'неправ', 'и', 'в', 'результате', 'оголтелые', 'и']


In [None]:
chapter_data[15][100]

'в'

Подсчитаем, сколько раз каждое слово встречается в каждой из глав

In [20]:
# Инициализируем список, в котором будем хранить словари
chapter_words_count = []

# Создаем цикл по элементам внешнего списка со словами
for chapter_words in chapter_data:
    # Инициализируем пустой словарь, куда будем добавлять результаты
    temp = {}
    # Создаем цикл по элементам внутреннего списка
    for word in chapter_words:
        # Проверяем, что текущего слова еще нет в словаре
        if word not in temp:
            # Если условие выполняется, добавляем ключ в словарь
            temp[word] = 1
        else:
            # В противном случае, увеличиваем количество влождений слова в главу
            temp[word] += 1
    # Добавляем получившийся словарь в список
    chapter_words_count.append(temp)

# Выводим результат
print(chapter_words_count[1])

{'автора': 1, 'я': 20, 'пишу': 2, 'до': 1, 'сих': 1, 'пор': 1, 'только': 5, 'о': 2, 'князьях': 1, 'графах': 1, 'министрах': 1, 'сенаторах': 1, 'и': 42, 'их': 3, 'детях': 1, 'боюсь': 1, 'что': 20, 'вперед': 2, 'не': 18, 'будет': 1, 'других': 1, 'лиц': 1, 'в': 10, 'моей': 1, 'истории': 2, 'может': 4, 'быть': 3, 'это': 6, 'нехорошо': 1, 'нравится': 1, 'публике': 1, 'для': 4, 'нее': 1, 'интереснее': 1, 'поучительнее': 1, 'история': 1, 'мужиков': 2, 'купцов': 2, 'семинаристов': 2, 'но': 5, 'со': 1, 'всем': 2, 'моим': 1, 'желанием': 1, 'иметь': 1, 'как': 4, 'можно': 1, 'больше': 1, 'читателей': 1, 'могу': 4, 'угодить': 1, 'такому': 1, 'вкусу': 1, 'по': 4, 'многим': 1, 'причинам': 1, 'во-первых': 1, 'потому': 11, 'памятники': 1, 'того': 3, 'времени': 2, 'котором': 1, 'остались': 1, 'переписке': 1, 'записках': 1, 'людей': 6, 'высшего': 1, 'круга': 2, 'грамотных': 1, 'даже': 1, 'интересные': 1, 'умные': 1, 'рассказы': 1, 'которые': 1, 'мне': 3, 'удалось': 1, 'слышать': 1, 'слышал': 1, 'от': 3, 

In [8]:
chapter_words_count[15]['князю']

2

In [9]:
# Создаем цикл по ключам словаря - спискам слов и их порядковым номерам
for chapter_number, chapter_dict in enumerate(chapter_words_count):
    # Выводим только первые 5 глав
    if chapter_number == 5:
        break
    # Выводим номер главы
    print('-' * 40)
    print('Chapter: {}'.format(chapter_number))
    print('-' * 40)
    # Создаем цикл по ключам - словам и их порядковым номерам
    for j, word in enumerate(chapter_dict):
        # Выводим первые 10 слов из главы
        if j == 10:
            break
        print(word, chapter_dict[word])

----------------------------------------
Chapter: 0
----------------------------------------
1 1
в 37
два 3
раза 1
короче 1
и 34
пять 1
раз 2
интереснее 1
2 1
----------------------------------------
Chapter: 1
----------------------------------------
автора 1
я 20
пишу 2
до 1
сих 1
пор 1
только 5
о 2
князьях 1
графах 1
----------------------------------------
Chapter: 2
----------------------------------------
первая 1
----------------------------------------
Chapter: 3
----------------------------------------
-- 81
ну 5
что 44
князь 21
генуя 1
и 94
лукка 1
стали 1
не 57
больше 2
----------------------------------------
Chapter: 4
----------------------------------------
гостиная 1
анны 2
павловны 2
начала 1
понемногу 1
наполняться 1
приехала 3
высшая 1
знать 1
петербурга 2


Давайте резюмировать, что мы с вами уже получили:

* `word_set` - множество из всех слов, которые есть в книге

* `count_chapter` - количество глав в книге (171)

* `word_counts` - словарь, ключами которого являются слова, а значениями - количество вхождений этих слов в книгу

* `chapter_data` - список из 171 списка, где элементы вложенных списков - все слова из главы. Каждый список соответствует своей главе

* `chapter_words_count` - список из 171 словаря, где ключи - слова, а значения - количество слов в главе. Каждый словарь соответствует своей главе

Учтите, что эти данные могут пригодиться вам при выполнении дальнейших заданий.

> А теперь к заданиями!

## <center> Задания для самостоятельного решения

### Задание 1.

Давайте введем понятие частоты употребления отдельного слова в документе (`term frequency`, или `tf`). В нашем случае речь идёт не о документах, а о главах книги (выше мы писали, что в текстовом документе главы разделяются строкой '[new chapter]').

Формула для вычисления `term frequency` для слова `word`:
$$ tf_{word, chapter} = \frac {n_{word, chapter}} {n_{chapter}}$$

где 
* ${n_{word, chapter}}$ - сколько раз слово `word` встрачается в главе `chapter`, 
* $n_{chapter}$ - количество слов в главе `chapter`.


Например, слово `"гостья"` употребляется в 15-ой главе 10 раз (${n_{word, chapter}}$).(кстати, главы у нас нумеруются с 0). Общее количество слов в тексте 15-ой главы - 1359 ($n_{chapter}$). Тогда:

$$ tf_{гостья, 15} = \frac{10}{1359} \approx 0.007358$$

**Задание:** 

Напишите программу, которая позволит получать частоту употребления любого заданного слова `target_word` в заданной главе `target_chapter`. 

**Дополнительное требование:**

*Пострайтесь сделать программу максимально обобщенной. То есть желательно рассчитать характеристику `tf` для всех слов из каждой главы, чтобы впоследствии не было необходимости производить вычисления снова.*

**Подсказка:**

*Для этого вы можете для каждой главы создать словарь, ключами которого являются слова, а значения - частота употребления этого слова в этой главе*

**Протестируйте работу программы на нескольких словах и главах.**

In [10]:
target_word = 'гостья'
target_chapter = 15

# Ваш код здесь



# ПЕРВАЯ ЧАСТЬ ЗАДАНИЯ

# Создаем переменную, в которую будем записывать количество заданных слов
chapter_data_count = chapter_data[target_chapter].count(target_word)
# Создаем переменную, которая будет считать общее количесво слов в заданной главе
chapter_data_len = len(chapter_data[target_chapter])
# Cоздаем переменную, которая будет производить расчет частоты употребления отдельного слова в документе
tf = chapter_data_count/chapter_data_len
print(tf)





# ВТОРАЯ ЧАСТЬ ЗАДАНИЯ

# Создаем пустой словарь, куда будем добавлять готовые словари
list_chapter = dict()
# Пробегаемся по всем индексам и главам из списка 
for index, chapter_value_tf in enumerate(chapter_data):
  # Создаем словарь и будем заполнять его в виде {'слово': 'частота слова в главе'}
  chapter_dict = dict()
  # Создаем вложенный цикл по элементам главы
  for value in chapter_value_tf:
    # Проверяем, что текущего слова еще нет в словаре
    if value not in chapter_dict:
      # Если условие выполняется, то задаем значение 1
      chapter_dict[value] = 1/len(chapter_data[index])
    else:
      # В противном случае, увеличиваем количество влождений слова в главу и делим на кол-во слов в главе
      chapter_dict[value] += 1/len(chapter_data[index])
  # Добавляем в основной словарь получившийся словарь 
  list_chapter[index] = chapter_dict
print(list_chapter[15]['гостья'])
      

0.007358351729212656
0.007358351729212656


### Задание 2.

Пришло время познакомиться с понятием `document frequency`.

`Document frequency` (для удобства сократим до `df`) — это доля документов, в которых встречается искомое слово. 

Вычисляется по формуле:

$$ df_{word} = \frac{N_{word}}{N} $$, 

где 
* $N_{word}$ - число документов (глав) содержащих слово `word`, 
* $N$ - общее число документов (глав).

Объясним на примере: наш текст состоит из 171 главы ($N$), а слово `"человек"` встречается в 115 главах. Тогда:

$$ df_{человек} = \frac{115}{171} \approx 0.6725$$

**Задание:** 

Напишите программу, которая позволит вычислять document frequency для заданного слова `target_word` и выведить результат на экран.

**Дополнительное требование:**

*Пострайтесь сделать программу максимально обобщенной. То есть желательно рассчитать характеристику `df` для всех уникальных слов из книги, чтобы впоследствии не было необходимости производить вычисления снова.*

**Подсказка:**
*Для этого вы можете создать словарь, ключами которого являются слова из книги, а значения - доля документов, содержащих эти слова*

**Протестируйте работу программы на нескольких словах** 

In [11]:
target_word = 'человек'

# Ваш код здесь



# ПЕРВАЯ ЧАСТЬ ЗАДАНИЯ

# Инициализируем счетчик куда будем записывать, сколько раз нам встретилось слово "target_word"
count = 0
# Находим кол-во глав
chapter_data_len = len(chapter_data)
# Прбегаемся по всем главам из списка
for chapter_list in chapter_data:
  # Если слово есть в главе, то увеличиваем счетчик на 1
  if target_word in chapter_list:
    count += 1
# Делим по формуле кол-во число глав содержащих слово "target_word" на общее кол-во глав
df = count/chapter_data_len
print(df)





# ВТОРАЯ ЧАСТЬ ЗАДАНИЯ

# Заполняем множество уникальных слов
words_set = set()
for chapter in chapter_data:
  for word in chapter:
    words_set.add(word)

# Заполняем словарь в виде {'слово': 'частота по всем главам'}        
frequency_dict = dict()
# Пробегаемся по каждому уникальному слову
for unique_word in words_set:
  # Инициализируем счетчик уникального слова по всем главам
  word_counter = 0
  for chapter in chapter_data:
    # Если слово есть в главе, то увеличиваем счетчик на 1
    if unique_word in chapter:
      word_counter += 1
  # Находим частоту слова
  frequency_dict[unique_word] = word_counter / len(chapter_data)
print(frequency_dict['человек'])
  

0.672514619883041
0.672514619883041


### Задание 3

Пришло время дать разъяснения: для чего мы делали вычисления выше и что нас ждет впереди?

> Если какое-то слово часто употребляется в документе, то, вероятно, этот документ что-то рассказывает о предмете/действии, описываемом этим словом. Скажем, если вы читаете книгу, в которой много раз употребляется слово `"заяц"`, то, вероятно, эта книга про зайцев.

> Однако, если вы возьмёте слово `"и"`, то оно будет встречаться почти в каждой книге много раз. 

Таким образом, если мы хотим найти наиболее значимые слова в книге, мы, с одной стороны, хотим найти наиболее частые слова, а с другой — убрать те, которые не несут важной информации, так как встречаются везде.

Такая задача хорошо решается с помощью `tf-idf` — статистической метрики для оценки важности слова в тексте. Другими словами, `tf-idf` — это «контрастность» слова в документе (насколько оно выделяется среди других слов). 

Формула для вычисления следующая:

`tf-idf = term frequency * inverse document frequency`

* `tf` — это частотность термина, которая измеряет, насколько часто термин встречается в документе.

* `idf` — это обратная документная частотность термина. Она измеряет непосредственно важность термина во всём множестве документов.

Чтобы получить `idf`, необходимо поделить 1 на полученную в Задании 1 документную частоту (`df`):

$$idf = \frac{1}{df}$$

Мы будем использовать не сырые значения `idf`, а их логарифмы, то есть $tf * log(idf)$. Сейчас мы не будем заострять внимания на том, почему следует использовать именно логарифм — это долгий разговор. Вернемся к нему, когда будем изучать методы машинного обучения для обработки текстов. Подробнее о `tf-idf` вы можете почитать [здесь](https://translated.turbopages.org/proxy_u/en-ru.ru.15518a02-63e76541-6895b80b-74722d776562/https/www.freecodecamp.org/news/how-to-process-textual-data-using-tf-idf-in-python-cd2bbc0a94a3/).

В качестве примера измерим `tf-idf` слова `"анна"` в главе 4. Слово `"анна"` встречается в указанной главе 7 раз, при этом в 4 главе 1060 слов, всего же слово `"анна"` упоминается в 32 главах из 171.

Таким образом, `tf-idf` данного слова в данной главе будет равно:

$$tf\_idf_{анна, 4} = tf * log(\frac{1}{df}) = \frac{7}{1060} * log(\frac {171}{32}) \approx 0.011067$$

**Примечание:** здесь используется натуральный логарифм по основанию $e$, однако в общем случае основание логарифма не имеет значения, так как характеристика `tf-idf` используется для сравнения контрастности слов между собой

**Задание**:

Напишите программу, которая позволяет вычислять значение `tf-idf` для заданного слова `target_word` в заданной главе `target_chapter`.

**Дополнительное требование:**

*Пострайтесь сделать программу максимально оптимальной. То есть желательно рассчитать характеристику `tf-idf` для всех слов из каждой главы книги, чтобы впоследствии не было необходимости производить вычисления снова.*

**Протестируйте работу программы на нескольких словах и главах.**

**Примечание:**

Натуральный логарифм можно вычислить с помощью функции [log](https://pythonim.ru/chisla/funktsiya-log-v-python) из встроенного в Python модуля math:


In [12]:
# Импортируем функцию log из модуля math:
from math import log
print(log(120))

4.787491742782046


**Примечание.** 

**Модуль (библиотека) в Python** — это любой программный файл, который содержит в себе код, включая функции. В нашем случае math — это встроенный модуль, содержащий функционал для математических вычислений. Подробнее о math вы можете почитать [здесь](https://pythonworld.ru/moduli/modul-math.html). 

In [13]:
target_word = 'анна'
target_chapter = 4

# Ваш код здесь



# ПЕРВАЯ ЧАСТЬ ЗАДАНИЯ

# Создаем переменную, в которую будем записывать количество заданных слов
chapter_data_count = chapter_data[target_chapter].count(target_word)
# Создаем переменную, которая будет считать общее количесво слов в заданной главе
chapter_data_len = len(chapter_data[target_chapter])
# Cоздаем переменную, которая будет производить расчет частоты употребления отдельного слова в документе
tf = chapter_data_count/chapter_data_len

# Инициализируем счетчик куда будем записывать, сколько раз нам встретилось слово "target_word"
count = 0
# Находим кол-во глав
chapter_data_len = len(chapter_data)
# Прбегаемся по всем главам из списка
for chapter_list in chapter_data:
  # Если слово есть в главе, то увеличиваем счетчик на 1
  if target_word in chapter_list:
    count += 1
# Делим по формуле кол-во число глав содержащих слово "target_word" на общее кол-во глав
df = count/chapter_data_len
# Находим tf_idf по формуле
tf_idf = tf * log(1/df)
print(tf_idf)





# ВТОРАЯ ЧАСТЬ ЗАДАНИЯ

# Создаем пустой список, куда будем добавлять готовые словари
dict_chapter_tf = []
# Создаем цикл по всем индексам и главам из списка 
for index, chapter_value_tf in enumerate(chapter_data):
  # Создаем словарь, куду будем помещать ключи словаря("cлова") и значеня ("будем находить частоту используемого слова в конкретной главе")
  chapter_dict = {}
  # Создаем вложенный цикл по элементам
  for value in chapter_value_tf:
    # Проверяем, что текущего слова еще нет в словаре
    if value not in chapter_dict:
      # Если условие выполняется, добавляем 1 и делим на кол-во слов в главе
      chapter_dict[value] = 1/len(chapter_data[index])
    else:
      # В противном случае, увеличиваем количество влождений слова в главу и делим на кол-во слов в главе
      chapter_dict[value] += 1/len(chapter_data[index])
  # Добавляем получившийся словарь в список
  dict_chapter_tf.append(chapter_dict)


# Заполняем множество уникальных слов
words_set = set()
for chapter in chapter_data:
  for word in chapter:
    words_set.add(word)

# Заполняем словарь в виде {'слово': 'частота по всем главам'}        
frequency_dict = dict()
# Пробегаемся по каждому уникальному слову
for unique_word in words_set:
  # Инициализируем счетчик уникального слова по всем главам
  word_counter = 0
  for chapter in chapter_data:
    # Если слово есть в главе, то увеличиваем счетчик на 1
    if unique_word in chapter:
      word_counter += 1
  # Находим частоту слова
  frequency_dict[unique_word] = word_counter / len(chapter_data)

# Создаем пустой словарь, куда будем помещать наши главы в виде словарей
contrast_list = list()
# Пробегаемся по индекса и значениям словаря
for index, contrast_value in enumerate(dict_chapter_tf):
  # Создаем словарь для главы, куда будем помещать значения
  dict_contr = {}
  # Пробегаемся по каждому уникальному слову
  for contrast_word in words_set:
    # Проверяем условие вхожжения уникального слова в словарь(главу)
    if contrast_word in contrast_value:
      # Если условие выполняется, то находим tf_idf по формуле и заносим ключ и его значение в наш словарь
      dict_contr[contrast_word] = contrast_value[contrast_word] * log(1/frequency_dict[contrast_word])
  # Добавляем получивший словарь в наш основной словарь
  contrast_list.append(dict_contr)
print(contrast_list[4]['анна'])

    
      







0.011067446769736353
0.011067446769736351


### Задание 4.

Теперь, когда мы умеем вычислять `tf-idf` для каждого слова в главе, мы можем найти те слова, которые являются самыми «контрастными» для данной главы, то есть они могут являться в своём роде заголовком для главы.

Например, для главы 3 наиболее значимыми словами будут:

`"анна", "павловна", "функе"`

**Задание:**

Напишите программу, которая позволяет вывести три слова, имеющие самое высокое значение `tf-idf` в заданной главе `target_chapter` в порядке убывания `tf-idf`.

In [17]:
target_chapter = 3

# Ваш код здесь

# Выведем на экран значения контрастности этих слов, что бы убедиться что сортировка работает
print(contrast_list[3]['анна'])
print(contrast_list[3]['павловна'])
print(contrast_list[3]['функе'])

# Производим сортировку словаря и инвертируем его. Псоле чего делаем срез первых 3-х слов
max_contrast = sorted(contrast_list[target_chapter], key=contrast_list[target_chapter].get, reverse=True)[:3]
print(max_contrast)



0.009813990764927085
0.014654901328619916
0.006948193995273866
['павловна', 'анна', 'функе']
