# "Война и Мир"

Сегодня мы обратимся к классике: применим анализ данных к «Войне и миру» Льва Толстого!

Текст произведения мы взяли в библиотеке **lib.ru** и провели первоначальную обработку. Поскольку наша цель — обработка слов из этого произведения, мы разбили текст на слова и вывели каждое слово в отдельной строке. Кроме того, в местах, где начинаются главы, мы вывели строку [new chapter].

# Задание 1

Входные данные: строка `target_word`.
Итак, начнём! Для начала посчитаем частоту использования отдельных слов в произведении. Для решения задачи воспользуемся уже знакомым нам словарём.

Задание. Напишите программу, которая переберет все слова и занесет их в словарь (назвать его можете как угодно). Увеличивайте счётчик при добавлении каждого нового слова, чтобы посчитать сколько раз это слово встречается в тексте.

Подсказка. Напоминаем, что метод `get` поможет проверить, какое значение соответствует ключу (слову) в словаре. Например, `words.get(word, 0)` вернёт либо значение из словаря, либо , если соответствующее слово пока отсутствует.

Не забудьте добавить в начало своего кода функцию для чтения текста произведения:
В качестве результата выведите, сколько раз слово `target_word` было найдено в тексте. Например, для `target_word = 'князь'` ответ будет `1289`.

In [15]:
from collections import Counter

#загружаю весь текст и разбиваю его на слова
#Функция вернёт массив всех слов по порядку, а в местах начала новых глав будет строка [new chapter].
def read_data():
    data = open('data/war_peace_processed.txt', 'rt').read()
    return data.split('\n')

data = read_data()

new_dict = Counter(read_data())

#Проверка результата
target_word = 'князь'
print(new_dict.get(target_word, 0))


1289


# Задание 2

Входные данные: строка `target_word`.

Пришло время познакомиться с понятием *document frequency*.

*Document frequency* (для удобства сократим до *df*) — это доля документов, в которых встречается искомое слово. В нашем случае речь идёт не о документах, а о главах книги (выше мы писали, что в текстовом документе главы разделяются строкой `[new chapter]` ).

**Задание.** Напишите программу, которая посчитает *document frequency* для заданного слова `target_word` и выведите результат на экран.

*Подсказка*. Вычислить df можно по формуле:

`number_of_documents_with_target_word / number_of_documents`
* `number_of_documents` — общее количество глав
* `number_of_documents_with_target_word` — количество глав, в которых встречается target_word

Объясним на примере: наш текст состоит из  главы (`number_of_documents`), а слово человек встречается в  главах (`number_of_documents_with_target_word`).

*df* слова человек = `115/171 = 0.672514619883041`

In [17]:
def read_data():
    data = open('data/war_peace_processed.txt', 'rt').read()
    return data.split('\n')
data = read_data()

index_new_chapter = [i for i, n in enumerate(data) if n == "[new chapter]"] 

# Create dictionary, where text by chapters
c = 0
dictionary_chapter = {}
for a, b in enumerate(index_new_chapter):
    dictionary_chapter[a+1] = data[c:b]
    c = b
dictionary_chapter[171] = data[299557:300079] 

# Count intances of target_word
def count_instances(target_word):
    count_1 = 0
    i = 1
    while i <= len(dictionary_chapter):
        if target_word in dictionary_chapter[i]:
            count_1 += 1
        i +=1
    return count_1

# Count document frequency
number_of_documents = count_instances(target_word)
number_of_documents_with_target_word = len(dictionary_chapter)
df = number_of_documents / number_of_documents_with_target_word

#Проверка результата
target_word = 'человек'
print(df)

0.672514619883041


# Задание 3

Сделаем следущий шаг: посчитаем частоту употребления отдельного слова в документе (`term frequency`, или `tf`).

Проще всего объяснить, что такое `term frequency`, на примере:
`tf` слова *война = количество раз, когда слово война встречается в тексте главы / количество всех слов в тексте главы*

Попробуем посчитать частоту употребления слова `гостья` в `15`-й главе (кстати, у нас главы нумеруются с `0`). Слово гостья встречается в `15`-й главе `10` раз, а общее количество слов — `1359`.

tf слова `гостья` в `15` главе = `101359` = `0.007358351729212656`.

Задание. Напишите программу, которая выведет частоту употребления заданного слова `target_word` в заданной главе `target_chapter`.

In [27]:
def read_data():
    data = open('data/war_peace_processed.txt', 'rt').read()
    return data.split('\n')

data = read_data()

index_new_chapter = [i for i, n in enumerate(data) if n == "[new chapter]"] 

# Create dictionary, where text by chapters
c = 0
dictionary_chapter = {}
for a, b in enumerate(index_new_chapter):
    dictionary_chapter[a] = data[c:b]
    c = b
dictionary_chapter[170] = data[299557:300079] 


def calculator_tf(target_word, target_chapter):
    target_word_counter = 0
    for i in dictionary_chapter[target_chapter]:
        if i == target_word:
            target_word_counter +=1
    
    total_words_in_chapter = len(dictionary_chapter[target_chapter])-1
    return target_word_counter / total_words_in_chapter

#Проверка результата
target_word = 'гостья'
target_chapter = 15
print(calculator_tf(target_word, target_chapter))

0.007358351729212656


# Задание 4

Входные данные:
* строка `target_word`
* число `target_chapter`

Пришло время дать разъяснения: для чего мы делали вычисления выше и что нас ждет впереди?

Если какое-то слово часто употребляется в документе, то, вероятно, этот документ что-то рассказывает о предмете/действии, описываемом этим словом. Скажем, если вы читаете книгу, в которой много раз употребляется слово *заяц*, то, вероятно, эта книга про зайцев.

Однако, если вы возьмёте слово *и*, то оно будет встречаться почти в каждой книге много раз. Таким образом, если мы хотим найти наиболее значимые слова в книге, мы, с одной стороны, хотим найти наиболее частые слова, а с другой — убрать те, которые не несут важной информации, так как встречаются везде.

**Подсказка**. Такая задача хорошо решается с помощью `tf*idf` — статистической метрики для оценки важности слова в тексте. Другими словами, `tf*idf` — это «контрастность» слова в документе (насколько оно выделяется среди других слов).

`tf*idf = term frequency * inverse document frequency`
* `tf` — это частотность термина, которая измеряет, насколько часто термин встречается в документе.
* `idf` — это обратная документная частотность термина. Она измеряет непосредственно важность термина во всём множестве документов.

Чтобы получить `idf`, необходимо поделить  на полученную в **Задании 2** документную частоту (`df`).

Мы будем использовать не сырые значения tf и idf, а их логарифмы, то есть `log(1+tf) * log(idf)`. Сейчас мы не будем заострять внимания на том, почему следует использовать именно логарифмы — это долгий разговор. Поговорим об этом в курсе Математика и алгоритмы для машинного обучения.

В качестве примера измерим `tf*idf`   слова `анна` в главе `4`. Слово *анна* встречается в указанной главе `7` раз (tf), при этом в `4` главе `1060` слов (`chapter_size`), всего же слово анна упоминается в  главах (df) из  (`chapter_count`).

Таким образом, tf*idf данного слова в данной главе будет равно `math.log(1+tf/chapter_size) * math.log(1 / df)`, то есть `0.011031063403921838`

Задание. Напишите программу, которая выведет значение `tf*idf` для заданного слова `target_word` в заданной главе `target_chapter`.




In [30]:
import math

def read_data():
    data = open('data/war_peace_processed.txt', 'rt').read()
    return data.split('\n')

data = read_data()
# напишите ваш код ниже
import math
index_new_chapter = [i for i, n in enumerate(data) if n == "[new chapter]"] 

# Create dictionary, where text by chapters
c = 0
dictionary_chapter = {}
for a, b in enumerate(index_new_chapter):
    dictionary_chapter[a] = data[c:b]
    c = b
dictionary_chapter[170] = data[299557:300079] 


def calculator_tf(target_word, target_chapter):
      
    target_word_counter = 0
    for i in dictionary_chapter[target_chapter]:
        if i == target_word:
            target_word_counter +=1
    
    total_words_in_chapter = len(dictionary_chapter[target_chapter])-1
    return target_word_counter / total_words_in_chapter

# Count intances of target_word
def count_instances(target_word):
    count_1 = 0
    i = 1
    while i < len(dictionary_chapter):
        if target_word in dictionary_chapter[i]:
            count_1 += 1
        i +=1
    return count_1/171

count_tartget_word_num = count_instances(target_word)

def contrast(tf, df):
    return math.log(1+tf) * math.log(1/df)

tf_x_df = contrast(calculator_tf(target_word, target_chapter),count_instances(target_word))

#Проверка результата
target_word = 'анна'
target_chapter = 4
print(tf_x_df)

0.011031063403921838


# Задание 5

Теперь, когда мы умеем вычислять `tf*idf` для каждого слова в главе, мы можем найти те слова, которые являются самыми «контрастными» для данной главы, то есть они могут являться в своём роде заголовком для главы.

**Задача:** напишите код, который выведет на экран через пробел три слова, имеющие самое высокое значение `tf*idf` в заданной главе `target_chapter` в порядке убывания `tf*idf`.

Например, для главы `4` ответом будет:
`павловна анна прядильной`


In [31]:
from math import log
from collections import Counter

def read_data():
    data = open('data/war_peace_processed.txt', 'rt').read()
    return data.split('\n')

data = read_data()
n = 0
words = 0
count = Counter(data)['[new chapter]'] + 1
chap_words = {}
uniq_chapters = {}

for i in data:
    uniq_chapters.setdefault(n, set()).add(i)
    if i == '[new chapter]':
        n += 1
    if n == target_chapter:
        words += 1
        chap_words[i] = chap_words.get(i, 0) + 1
uniq_words_count = {}

for i in chap_words.keys():
    for k in uniq_chapters:
        if i in uniq_chapters[k]:
            uniq_words_count[i] = uniq_words_count.get(i, 0) + 1
            
for i in uniq_words_count:
    uniq_words_count[i] = uniq_words_count[i] /count

tf_idf = [(i, log(1 + chap_words[i] / words) * log(1 / (uniq_words_count[i]))) for i in uniq_words_count]
print(*[j[0] for j in sorted([i for i in tf_idf], key=lambda x: x[1])[-3:][::-1]])

павловна анна прядильной
