# Работа с текстовыми файлами

Проведем простой анализ повести А. С. Пушкина "Капитанская дочка": посчитаем количество употреблений каждого слова и найдем самые популярные, то есть наиболее часто встречаемые слова.

План действий:
1. чтение текста из файла;
1. составление словаря слов;
1. сортировка словаря слов;
1. удаление стоп-слов;
1. сохранение результатов в файл.

## 1. Чтение из txt-файла и подготовка к составлению словаря слов
Считываем текст из файла в одну строковую переменную, удаляя пробельные символы по краям строки.

In [15]:
text = ''
with open('dochka.txt', encoding = 'utf8') as infile:
    for line in infile:
        text += line.strip() + ' '
        
text[:20]

' Александр Пушкин КА'

Хотим составить словарь, в котором ключ — уникальное слова текста, а значение — частота, то есть количество таких слов. Сначала нужно получить список всех слов текста.

In [12]:
almost_words = text.split()
almost_words[:5]

['Александр', 'Пушкин', 'КАПИТАНСКАЯ', 'ДОЧКА', 'Береги']

In [8]:
import string
words = []
for el in almost_words:
    word = el.lower().strip(string.punctuation)
    if word != '':
        words.append(word)
print(words[:10])

['александр', 'пушкин', 'капитанская', 'дочка', 'береги', 'честь', 'смолоду', 'пословица', 'глава', 'i']


In [9]:
import string

In [10]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

## 2. Составление словаря слов
Теперь создадим словарь по списку слов. Так как нам придется делать это неоднократно, напишем соответствующую функцию.

In [17]:
def create_dict(list_of_words):
    dictionary = {}
    for word in list_of_words:
        if word not in dictionary:
            dictionary[word] = 1
        else:
            dictionary[word] += 1
    return dictionary

Посмотрим на коротком тексте, преобразованном в список слов, как сработает эта функция.

In [18]:
small_text = "cегодня он гуляет завтра он спит послезавтра он гуляет"
small_list = small_text.split()
small_dict = create_dict(small_list)

In [19]:
small_dict

{'cегодня': 1, 'он': 3, 'гуляет': 2, 'завтра': 1, 'спит': 1, 'послезавтра': 1}

Функция сработала верно, применим ее к обрабатываемому списку слов.

In [20]:
dict_of_words = create_dict(words)

In [21]:
len(dict_of_words)

8943

In [22]:
len(words)

30690

Предыдущий маленький словарь мы легко могли посмотреть целиком, а теперь слов слишком много — хочется посмотреть на фрагмент словаря. Напишем соответствующую функцию, которая будет выводить элементы словаря в заданном диапазоне (в том порядке, в котором они хранятся в словаре).

In [25]:
def print_dict(dictionary, start, end):
    i = 0
    for w in dictionary:
        if i >= start:
            print(w, dictionary[w])
        if i == end:
            break
        i += 1

In [26]:
print_dict(dict_of_words, 150, 175)

кобеля 1
это 91
нанял 1
для 36
меня 287
француза 2
мосье 1
бопре 8
которого 8
выписали 1
из 122
москвы 2
вместе 17
годовым 1
запасом 1
вина 5
прованского 1
масла 1
приезд 1
сильно 10
понравился 1
«слава 4
богу 20
ворчал 3
про 17
себя 42


# 3. Сортировка словаря слов

Сейчас ключи словаря расположены в том порядке, как мы их записывали. А мы хотим узнать самые популярные, то есть наиболее часто употребляемые слова. Но для этого нужно отсортировать словарь по значениям. Встроенной такой функции нет — напишем свою. Сразу оговоримся, что на выходе будет не словарь, а **отсортированный список, состоящий из ключей и значений словаря**.

Сначала по шагам разберем, что будет делать функция. На этапе разработки будем использовать словарь `small_dict`.

In [27]:
small_dict

{'cегодня': 1, 'он': 3, 'гуляет': 2, 'завтра': 1, 'спит': 1, 'послезавтра': 1}

Преобразуем словарь в список. Для этого нужно преобразовать словарь в пары (ключ, значение) с помощью метода `items()`.

In [28]:
small_dict.items()

dict_items([('cегодня', 1), ('он', 3), ('гуляет', 2), ('завтра', 1), ('спит', 1), ('послезавтра', 1)])

Теперь хотим отсортировать список так, чтобы наверху списка оказались самые популярные слова. Значит, сортировать нужно по частоте, то есть по количеству употреблений слова — по второму элементу.

Но простая сортировка списка отсортирует по первым элементам списка, которые в нашем случае являются строками: 

In [30]:
items = list(small_dict.items())
items

[('cегодня', 1),
 ('он', 3),
 ('гуляет', 2),
 ('завтра', 1),
 ('спит', 1),
 ('послезавтра', 1)]

Если бы мы хотели получить сортировку слов по алфавиту, нас бы это устроило. Но мы хотим найти самые популярные слова. Это значит, что мы хотим отсортировать по "второму столбцу" — второму элементу кортежей. Для этого можем вывести его на первое место, так как сортировка списка начинается с первых элементов кортежей.

Поменяем местами слово и количество употреблений, чтобы то, по чему мы хотим сортировать, стояло на первом месте:

Осталось отсортировать полученный список:

In [31]:
sorted(items, key = lambda pair: pair[1], reverse = True)

[('он', 3),
 ('гуляет', 2),
 ('cегодня', 1),
 ('завтра', 1),
 ('спит', 1),
 ('послезавтра', 1)]

Возможно, функция сортировки по значению пригодится не только в данной задаче, но и при работе с другими словарями. Поэтому переменную `word` переименуем в `key` (_ключ_), а переменную `count` — в `value` (_значение_). И дадим пользователю возможность выбирать, по возрастанию или по убыванию значений сортировать словарь. Итого, получаем следующую функцию:

In [33]:
def sort_by_values(dictionary, reverse = True):
    items = list(dictionary.items())
    return sorted(items, key = lambda pair: pair[1], reverse = reverse)

Запустим ее на большом словаре слов:

In [34]:
sort_by_values(dict_of_words)

[('и', 1170),
 ('—', 967),
 ('я', 726),
 ('в', 688),
 ('не', 578),
 ('что', 425),
 ('с', 423),
 ('на', 421),
 ('он', 290),
 ('меня', 287),
 ('мне', 256),
 ('его', 237),
 ('к', 212),
 ('а', 200),
 ('за', 186),
 ('как', 166),
 ('ты', 165),
 ('сказал', 153),
 ('было', 133),
 ('но', 130),
 ('у', 129),
 ('ее', 125),
 ('был', 124),
 ('да', 122),
 ('по', 122),
 ('из', 122),
 ('от', 118),
 ('о', 111),
 ('мы', 111),
 ('она', 108),
 ('все', 102),
 ('это', 91),
 ('ему', 91),
 ('так', 90),
 ('же', 89),
 ('пугачев', 88),
 ('то', 87),
 ('отвечал', 85),
 ('ни', 83),
 ('ли', 78),
 ('марья', 75),
 ('ивановна', 74),
 ('тебе', 71),
 ('бы', 70),
 ('тебя', 70),
 ('еще', 66),
 ('савельич', 66),
 ('нас', 65),
 ('мой', 62),
 ('иван', 61),
 ('со', 59),
 ('батюшка', 55),
 ('швабрин', 55),
 ('крепости', 54),
 ('была', 53),
 ('под', 51),
 ('их', 51),
 ('петр', 49),
 ('стал', 48),
 ('несколько', 48),
 ('вы', 48),
 ('мог', 45),
 ('будет', 45),
 ('мною', 44),
 ('до', 44),
 ('во', 43),
 ('себе', 43),
 ('андреич', 43)

Видим, что по наиболее часто употребляемым словам нельзя ничего узнать о тексте. Требуется дополнительная обработка.

# 4. Удаление стоп-слов

Если мы хотим получить какую-то информацию о тексте по наиболее часто употребяемым словам, необходимо очистить текст от так называемых стоп-слов: в основном это местоимения и служебные части речи, которых много в каждом тексте и которые не несут информации о содержании текста.

Создадим список с общепринятыми стоп-словами для русского языка (список заимствован из модуля для обработки естественного языка Natural Language Toolkit и дополнены несколькими словами).

In [38]:
stopwords = ['—', 'и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впрочем', 'хорошо', 'свою', 'этой', 'перед', 'иногда', 'лучше', 'чуть', 'том', 'нельзя', 'такой', 'им', 'более', 'всегда', 'конечно', 'всю', 'между', 'сказал','это','сказала']

Создаем новый список всех слов текста, в который войдут только слова, не являющиеся стоп-словами (то есть не входящие в список стоп-слов).

In [39]:
words_without_stopwords = []
for word in words:
    if word not in stopwords:
        words_without_stopwords.append(word)
print(words_without_stopwords[:50])

['александр', 'пушкин', 'капитанская', 'дочка', 'береги', 'честь', 'смолоду', 'пословица', 'глава', 'i', 'сержант', 'гвардии', 'гвардии', 'завтра', 'капитан', 'надобно', 'пусть', 'армии', 'послужит', 'изрядно', 'сказано', 'пускай', 'потужит', 'отец', 'княжнин', 'отец', 'андрей', 'петрович', 'гринев', 'молодости', 'своей', 'служил', 'графе', 'минихе', 'вышел', 'отставку', 'премьер-майором', '17', 'году', 'тех', 'пор', 'жил', 'своей', 'симбирской', 'деревне', 'женился', 'девице', 'авдотье', 'васильевне', 'ю']


Создадим словарь по списку без стоп-слов и распечатаем несколько ключей и значений.

In [42]:
dict_without_stopwords = create_dict(words_without_stopwords)
l = sort_by_values(dict_without_stopwords)

Осталось отсортировать список — используем подготовленную функцию.

Теперь наиболее часто встречаемые слова текста можно назвать его _ключевыми словами_ — по ним можно узнать, как минимум, нескольких главных героев произведения.

# 5. Запись в файл

Когда все операции выполнены, может возникнуть потребность сохранить результаты в файл. Реализуем ситуацию, когда нужно сохранить список без стоп-слов по убыванию частоты встречаемости в тексте.

In [44]:
with open('words.txt', 'w') as outfile:
    print(*l, sep = '\n', file = outfile)

Сейчас в файле есть скобки:

Сделаем по-другому: будем записывать в файл в цикле, заодно поменяем местами слово и частоту.

In [46]:
with open('words.txt', 'w') as outfile:
    for value in l:
        print(value[0], value[1], sep = ', ', end = '\n', file = outfile)

Полученный файл можем открыть в виде таблицы, например, в Google Sheets.

# Задание для любознательных 
_не проверяется, не оценивается_

Как вы могли заметить, в результате сортировки слова с одинаковой частотой выстроились в обратном порядке: от Я до А. Особенно это заметно, если смотреть в конец списка, где количество употреблений каждого слова равно 1. Но вся сортировка делалась для поиска самых популярных слов, у которых редко совпадают частоты. То есть конец списка — это "побочный продукт". Тем не менее, может возникнуть желание исправить эту ситуацию. **Подумайте, как можно отсортировать так, чтобы слова шли по убыванию количества употреблений, а слова с одинаковым количеством употреблений — по возрастанию (в алфавитном порядке).**

Один из вариантов решения представлен ниже. Сначала попробуйте придумать свой способ, а потом — разобраться в предложенном решении. Раскомментируйте код, чтобы запустить программу.