# Работа с текстовыми файлами

Проведем простой анализ повести А. С. Пушкина "Капитанская дочка": посчитаем количество употреблений каждого слова и найдем самые популярные, то есть наиболее часто встречаемые слова.

План действий:
1. чтение текста из файла;
1. составление словаря слов;
1. сортировка словаря слов;
1. удаление стоп-слов;
1. сохранение результатов в файл.

## 1. Чтение из txt-файла и подготовка к составлению словаря слов
Считываем текст из файла в одну строковую переменную, удаляя пробельные символы по краям строки.

In [6]:
text = ''                          # Создаем пустую строку, в которой будем хранить текст
with open('dochka.txt', encoding = 'utf8') as infile: # Если будут проблемы с кодировкой, попробуйте encoding='utf-8'
    for line in infile:            # Последовательно для всех строк в файле:
        text += line.strip() + ' ' # удаляем пробельные символы по краям строки,
                                   # добавляем новую строку и пробел к переменной text 

# Смотрим, как выглядит начало считанного текста (первые 100 символов)
print(text[:100])                  

 Александр Пушкин КАПИТАНСКАЯ ДОЧКА Береги честь смолоду. Пословица.  ГЛАВА I СЕРЖАНТ ГВАРДИИ — Был 


In [7]:
print(text[:1000])  

 Александр Пушкин КАПИТАНСКАЯ ДОЧКА Береги честь смолоду. Пословица.  ГЛАВА I СЕРЖАНТ ГВАРДИИ — Был бы гвардии он завтра ж капитан. — Того не надобно; пусть в армии послужит. — Изрядно сказано! пускай его потужит... ........................................................ Да кто его отец? Княжнин.  Отец мой Андрей Петрович Гринев в молодости своей служил при графе Минихе и вышел в отставку премьер-майором в 17.. году. С тех пор жил он в своей Симбирской деревне, где и женился на девице Авдотье Васильевне Ю., дочери бедного тамошнего дворянина. Нас было девять человек детей. Все мои братья и сестры умерли во младенчестве. Матушка была еще мною брюхата, как уже я был записан в Семеновский полк сержантом, по милости майора гвардии князя В., близкого нашего родственника. Если бы паче всякого чаяния матушка родила дочь, то батюшка объявил бы куда следовало о смерти неявившегося сержанта, и дело тем бы и кончилось. Я считался в отпуску до окончания наук. В то время воспитывались мы не по-нон

Хотим составить словарь, в котором ключ — уникальное слова текста, а значение — частота, то есть количество таких слов. Сначала нужно получить список всех слов текста.

In [8]:
almost_words = text.split()  # Разбиваем текст в список по пробелам, 
                                # Получим список "почти-слов" (к ним "приклеены" знаки препинания)
print(almost_words[:100])        # Смотрим на начало списка "почти-слов"

['Александр', 'Пушкин', 'КАПИТАНСКАЯ', 'ДОЧКА', 'Береги', 'честь', 'смолоду.', 'Пословица.', 'ГЛАВА', 'I', 'СЕРЖАНТ', 'ГВАРДИИ', '—', 'Был', 'бы', 'гвардии', 'он', 'завтра', 'ж', 'капитан.', '—', 'Того', 'не', 'надобно;', 'пусть', 'в', 'армии', 'послужит.', '—', 'Изрядно', 'сказано!', 'пускай', 'его', 'потужит...', '........................................................', 'Да', 'кто', 'его', 'отец?', 'Княжнин.', 'Отец', 'мой', 'Андрей', 'Петрович', 'Гринев', 'в', 'молодости', 'своей', 'служил', 'при', 'графе', 'Минихе', 'и', 'вышел', 'в', 'отставку', 'премьер-майором', 'в', '17..', 'году.', 'С', 'тех', 'пор', 'жил', 'он', 'в', 'своей', 'Симбирской', 'деревне,', 'где', 'и', 'женился', 'на', 'девице', 'Авдотье', 'Васильевне', 'Ю.,', 'дочери', 'бедного', 'тамошнего', 'дворянина.', 'Нас', 'было', 'девять', 'человек', 'детей.', 'Все', 'мои', 'братья', 'и', 'сестры', 'умерли', 'во', 'младенчестве.', 'Матушка', 'была', 'еще', 'мною', 'брюхата,', 'как']


In [9]:
words = []                                           # Создаем пустой список для хранения слов

for almost_word in almost_words:                     # Последовательно для всех "почти-слов" записываем слово 
                                                     # маленькими буквами и убираем знаки препинания с краев 
    word = almost_word.lower().strip('.,;:!«»?—()"') 
    if word != '':          # Если получился не пустой элемент,
        words.append(word)  # добавляем его к  списку слов

# Смотрим на начало списка слов 
print(words[:10])   

['александр', 'пушкин', 'капитанская', 'дочка', 'береги', 'честь', 'смолоду', 'пословица', 'глава', 'i']


In [10]:
print(words[:100]) 

['александр', 'пушкин', 'капитанская', 'дочка', 'береги', 'честь', 'смолоду', 'пословица', 'глава', 'i', 'сержант', 'гвардии', 'был', 'бы', 'гвардии', 'он', 'завтра', 'ж', 'капитан', 'того', 'не', 'надобно', 'пусть', 'в', 'армии', 'послужит', 'изрядно', 'сказано', 'пускай', 'его', 'потужит', 'да', 'кто', 'его', 'отец', 'княжнин', 'отец', 'мой', 'андрей', 'петрович', 'гринев', 'в', 'молодости', 'своей', 'служил', 'при', 'графе', 'минихе', 'и', 'вышел', 'в', 'отставку', 'премьер-майором', 'в', '17', 'году', 'с', 'тех', 'пор', 'жил', 'он', 'в', 'своей', 'симбирской', 'деревне', 'где', 'и', 'женился', 'на', 'девице', 'авдотье', 'васильевне', 'ю', 'дочери', 'бедного', 'тамошнего', 'дворянина', 'нас', 'было', 'девять', 'человек', 'детей', 'все', 'мои', 'братья', 'и', 'сестры', 'умерли', 'во', 'младенчестве', 'матушка', 'была', 'еще', 'мною', 'брюхата', 'как', 'уже', 'я', 'был', 'записан']


In [11]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

## 2. Составление словаря слов
Теперь создадим словарь по списку слов. Так как нам придется делать это неоднократно, напишем соответствующую функцию.

In [12]:
# Функция создания словаря по тексту, представленному в виде списка слов
# Входные параметры: текст в виде списка слов
# Возвращаемые значения: словарь {слово: количество употреблений слова}

def create_dict(list_of_words): 
    dictionary = {}                # Создаем пустой словарь
    for word in list_of_words:     # Последовательно для всех слов в списке:
        if word not in dictionary: # если слово встречается впервые,
            dictionary[word] = 1   # указываем, что оно пока одно,
        else:                      # иначе (если слово уже есть в словаре)
            dictionary[word] += 1  # увеличиваем его значение на 1
    return dictionary              # Возвращаем заполненный словарь

Посмотрим на коротком тексте, преобразованном в список слов, как сработает эта функция.

In [14]:
# Исходный короткий текст: 
# "Сегодня он гуляет, завтра он спит, послезавтра он гуляет."
small_text = 'сегодня он гуляет завтра он спит послезавтра он гуляет'
small_list = small_text.split()
small_dict = create_dict(small_list)
print(small_dict)

{'сегодня': 1, 'он': 3, 'гуляет': 2, 'завтра': 1, 'спит': 1, 'послезавтра': 1}


In [15]:
small_list

['сегодня',
 'он',
 'гуляет',
 'завтра',
 'он',
 'спит',
 'послезавтра',
 'он',
 'гуляет']

Функция сработала верно, применим ее к обрабатываемому списку слов.

In [16]:
dict_of_words = create_dict(words)  # Получаем словарь по заданному списку

In [17]:
print(len(dict_of_words))

8631


In [18]:
len(words)

29727

In [12]:
dict_of_words

{'александр': 2,
 'пушкин': 1,
 'капитанская': 3,
 'дочка': 2,
 'береги': 2,
 'честь': 6,
 'смолоду': 2,
 'пословица': 3,
 'глава': 14,
 'i': 1,
 'сержант': 2,
 'гвардии': 10,
 'был': 124,
 'бы': 70,
 'он': 291,
 'завтра': 6,
 'ж': 25,
 'капитан': 5,
 'того': 26,
 'не': 584,
 'надобно': 13,
 'пусть': 3,
 'в': 691,
 'армии': 3,
 'послужит': 2,
 'изрядно': 1,
 'сказано': 2,
 'пускай': 3,
 'его': 241,
 'потужит': 1,
 'да': 125,
 'кто': 27,
 'отец': 22,
 'княжнин': 3,
 'мой': 62,
 'андрей': 6,
 'петрович': 6,
 'гринев': 3,
 'молодости': 2,
 'своей': 17,
 'служил': 2,
 'при': 42,
 'графе': 1,
 'минихе': 1,
 'и': 1176,
 'вышел': 15,
 'отставку': 1,
 'премьер-майором': 1,
 '17': 1,
 'году': 5,
 'с': 424,
 'тех': 5,
 'пор': 5,
 'жил': 2,
 'симбирской': 2,
 'деревне': 1,
 'где': 41,
 'женился': 3,
 'на': 422,
 'девице': 1,
 'авдотье': 1,
 'васильевне': 1,
 'ю': 1,
 'дочери': 5,
 'бедного': 7,
 'тамошнего': 1,
 'дворянина': 3,
 'нас': 66,
 'было': 133,
 'девять': 1,
 'человек': 27,
 'детей': 2,


Предыдущий маленький словарь мы легко могли посмотреть целиком, а теперь слов слишком много — хочется посмотреть на фрагмент словаря. Напишем соответствующую функцию, которая будет выводить элементы словаря в заданном диапазоне (в том порядке, в котором они хранятся в словаре).

In [20]:
# Функция вывода элементов словаря в заданном диапазоне
# Входные параметры: словарь, диапазон вывода (номера начала и конца)
# Возвращаемые значения: отсутствуют

def print_dict(dictionary, start, end):   
    i = 0                           # Заводим счетчик
    for w in dictionary:            # Последовательно для всех ключей словаря:
        if i >= start:              # если счетчик не меньше номера начала,
            print(w, dictionary[w]) # печатаем ключ и значение;
        if i == end:                # если счетчик дошел до номера конца,
            break                   # выходим из цикла
        i += 1                      # Увеличиваем счетчик

In [14]:
print_dict(dict_of_words, 0, 10)    #  Печатаем элементы словаря с 0 по 10 

александр 2
пушкин 1
капитанская 3
дочка 2
береги 2
честь 6
смолоду 2
пословица 3
глава 14
i 1
сержант 2


# 3. Сортировка словаря слов

Сейчас ключи словаря расположены в том порядке, как мы их записывали. А мы хотим узнать самые популярные, то есть наиболее часто употребляемые слова. Но для этого нужно отсортировать словарь по значениям. В этом нам поможет функция `sorted()`. Сразу оговоримся, что на выходе будет не словарь, а **отсортированный список, состоящий из ключей и значений словаря**.

In [21]:
print(small_dict)

{'сегодня': 1, 'он': 3, 'гуляет': 2, 'завтра': 1, 'спит': 1, 'послезавтра': 1}


In [22]:
help(sorted)

Help on built-in function sorted in module builtins:

sorted(iterable, /, *, key=None, reverse=False)
    Return a new list containing all items from the iterable in ascending order.
    
    A custom key function can be supplied to customize the sort order, and the
    reverse flag can be set to request the result in descending order.



В функции `sorted()` есть два параметра, которые помогают сортировать сложные структуры более эффективно. Это `key` и `reverse`. 

Параметр `key` нужен, чтобы сортировать данные по нестандартному признаку или нескольким признакам сразу. Параметр `reverse` помогает выбрать сортировку – по возрастанию (по умолчанию) или убыванию (True).

In [23]:
sorted(small_dict.keys()) # сортировка ключей словаря произошла по алфавиту

['гуляет', 'завтра', 'он', 'послезавтра', 'сегодня', 'спит']

In [24]:
sorted(small_dict.keys(), key = len) # нестандартная сортировка по длине строк (от короткой к длинной)

['он', 'спит', 'гуляет', 'завтра', 'сегодня', 'послезавтра']

In [25]:
sorted(small_dict.keys(), key = len, reverse=True) # сортировка по длине строк (от длинной к короткой)

['послезавтра', 'сегодня', 'гуляет', 'завтра', 'спит', 'он']

In [26]:
sorted(['послезавтра', 'сегодня', 'гуляет', 'завтра', 'забота', 'спит', 'он'], key=len)

['он', 'спит', 'гуляет', 'завтра', 'забота', 'сегодня', 'послезавтра']

Вернемся к нашему словарю и преобразуем его в список. Для этого нужно преобразовать словарь в пары (ключ, значение) с помощью метода `items()`.

In [27]:
small_dict.items()

dict_items([('сегодня', 1), ('он', 3), ('гуляет', 2), ('завтра', 1), ('спит', 1), ('послезавтра', 1)])

В `key` можно прописать собственную функцию. Воспользуемся lambda-функцией. 

`key = lambda x: x[1]` будет работать так: на вход принимаются все элемент списка (в нашем случае кортежи формата ('слово', частота)). В x передается каждый кортеж, на \[1\] индексе будет лежать частота слова. Соответственно функция отсортирует по частотности, а не по алфавиту (автоматически сортируется 0 элемент в кортеже, в нашем случае строки – по алфавиту). Сам список при этом на выходе никак не изменится.

In [28]:
print(sorted(small_dict.items(), key=lambda x: x[1], reverse=True))

[('он', 3), ('гуляет', 2), ('сегодня', 1), ('завтра', 1), ('спит', 1), ('послезавтра', 1)]


Сравните это с сортировкой без `key`.

In [29]:
print(sorted(small_dict.items(), reverse=True))

[('спит', 1), ('сегодня', 1), ('послезавтра', 1), ('он', 3), ('завтра', 1), ('гуляет', 2)]


Запустим сортировку на большом словаре слов:

In [30]:
sorted_list = sorted(dict_of_words.items(), key=lambda x: x[1], reverse=True) 
# Получаем из словаря отсортированный по убыванию значений список

In [75]:
print(*sorted_list[:10], sep='\n') # Печатаем 10 самых популярных слов

('и', 1176)
('я', 733)
('в', 691)
('не', 584)
('что', 446)
('с', 424)
('на', 422)
('он', 291)
('меня', 291)
('мне', 258)


Видим, что по наиболее часто употребляемым словам нельзя ничего узнать о тексте. Требуется дополнительная обработка.

# 4. Удаление стоп-слов

Если мы хотим получить какую-то информацию о тексте по наиболее часто употребяемым словам, необходимо очистить текст от так называемых стоп-слов: в основном это местоимения и служебные части речи, которых много в каждом тексте и которые не несут информации о содержании текста.

Создадим список с общепринятыми стоп-словами для русского языка (список заимствован из модуля для обработки естественного языка Natural Language Toolkit и дополнены несколькими словами).

In [31]:
stopwords = ['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 
             'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 
             'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 
             'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 
             'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 
             'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 
             'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 
             'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 
             'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 
             'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 
             'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 
             'моя', 'впрочем', 'хорошо', 'свою', 'этой', 'перед', 'иногда', 'лучше', 'чуть', 'том', 'нельзя', 
             'такой', 'им', 'более', 'всегда', 'конечно', 'всю', 'между', 'сказал','это','сказала']

Создаем новый список всех слов текста, в который войдут только слова, не являющиеся стоп-словами (то есть не входящие в список стоп-слов).

In [33]:
words_without_stopwords = []                 # Создаем пустой список
for word in words:                           # Последовательно для всех слов из списка:
    if word not in stopwords:                # если слово не находится в списке стоп-слов,
        words_without_stopwords.append(word) # добавляем его к новому списку
print(words_without_stopwords[20:31])        # Смотрим фрагмент получившегося списка, где видно, что стоп-слова исключены

['сказано', 'пускай', 'потужит', 'отец', 'княжнин', 'отец', 'андрей', 'петрович', 'гринев', 'молодости', 'своей']


In [34]:
print(words[20:41])

['не', 'надобно', 'пусть', 'в', 'армии', 'послужит', 'изрядно', 'сказано', 'пускай', 'его', 'потужит', 'да', 'кто', 'его', 'отец', 'княжнин', 'отец', 'мой', 'андрей', 'петрович', 'гринев']


Создадим словарь по списку без стоп-слов и распечатаем несколько ключей и значений.

In [35]:
dict_without_stopwords = create_dict(words_without_stopwords)
print_dict(dict_without_stopwords, 25, 35) 
# Слова "отец" и "андрей" в этом диапазоне не вывелись, 
# так как слово "отец" употреблялось в тексте ранее 
# (и слово "гвардии" встречалось дважды)

петрович 6
гринев 3
молодости 2
своей 17
служил 2
графе 1
минихе 1
вышел 15
отставку 1
премьер-майором 1
17 1


Осталось отсортировать список — используем подготовленную функцию.

In [36]:
sorted_without_stopwords = sorted(dict_without_stopwords.items(), key=lambda x: x[1], reverse=True)
print(*sorted_without_stopwords[:20], sep='\n') # Печатаем 10 самых частых слов

('пугачев', 88)
('отвечал', 85)
('марья', 75)
('ивановна', 75)
('тебе', 74)
('савельич', 66)
('иван', 62)
('батюшка', 61)
('крепости', 55)
('швабрин', 55)
('петр', 49)
('стал', 48)
('несколько', 48)
('мною', 45)
('мог', 45)
('андреич', 44)
('бог', 41)
('кузмич', 40)
('мои', 37)
('минуту', 37)


Теперь наиболее часто встречаемые слова текста можно назвать его _ключевыми словами_ — по ним можно узнать, как минимум, нескольких главных героев произведения.

# 5. Запись в файл

Когда все операции выполнены, может возникнуть потребность сохранить результаты в файл. Реализуем ситуацию, когда нужно сохранить список без стоп-слов по убыванию частоты встречаемости в тексте.

In [37]:
with open('words.txt', 'w', encoding='utf-8') as outfile:    # Выбираем имя файла, указываем, что это файл для записи: 
                                                             # 'w' (write)
    print(*sorted_without_stopwords, sep='\n', file=outfile) # Печатаем отсортированный список файл 

Сейчас в файле есть скобки:

Сделаем по-другому: будем записывать в файл в цикле.

In [38]:
with open('words.csv', 'w', encoding='utf-8') as outfile:   # Можно указать и 'a' (append) — если файла нет или он пустой и 
                                          # мы его открываем всего 1 раз, то 'a' сработает так же, как и 'w'
    for word in sorted_without_stopwords: # Последовательно для всех слов в отсортированном списке без стоп-слов
        print(word[0], word[1], sep=', ', file=outfile)

Полученный файл можем открыть в виде таблицы, например, в Google Sheets.