# Ноутбук с первичной фильтрацией текстов книг

In [1]:
import pandas as pd
import re
import os

In [2]:
path_to_raw_books = 'raw_data/books/'
path_to_save_prepared_books = 'prepared_data/books/'

In [3]:
def prepare_line(x):
    '''
    Функция для обработки одного абзаца текста
    '''
    # удаляем перенос на следующую строчку
    x = x.replace('\n', '').strip()
    
    # после заголовков не ставятся знаки конца предложения
    # удалим заголовки
    if x[-1] not in ['?', '!', '.', ',', '–']:
        return ''
    
    # ссылки указываются в числами в скобках
    x = re.sub("\[[0-9]+\]", '',  x)
    x = re.sub("\[{0-9}+\]", '',  x)
    
#     # в художественных произведениях много диалогов
#     # они начинаются на '– ' и для наших целей, скорее, не нужны
#     # ??? при этом там могут быть авторские слова; их нужно тоже исключить?
#     if x[:2] == '– ':
#         x = x[2:]
    
    # приводим скобки к одному формату
    quotes = ['«', '»', '\'']
    for quote in quotes:
        x = x.replace(quote, '\"')
        
    # на всякий случай объединяем пробелы
    x = ' '.join(x.split())
    
    return x.strip()

In [4]:
def write_prepared_book(book_name):
    with open(path_to_raw_books + book_name, encoding='utf-8') as file:
        line_list = []
        for line in file:
        
            # если пустая строка, то пропускаем
            if line.strip() == '':
                continue
            
            prepared_line = prepare_line(line)
        
            if prepared_line != '':
                line_list.append(prepared_line)
                
    with open(path_to_save_prepared_books + book_name, 'w', encoding='utf-8') as file:
        
        for line in line_list:
            file.write(line + '\n')
            
    print(book_name + 'is done!')


In [5]:
book_file_names = os.listdir(path_to_raw_books)
len(book_file_names)

16

In [6]:
book_file_names

['bytie_i_vremya.txt',
 'po.txt',
 'oblomov.txt',
 'idiot.txt',
 'tak_govoril_zaratustra.txt',
 'master_margarita.txt',
 'starik_i_more.txt',
 'detstvo_tolstoi.txt',
 'chekhov.txt',
 'voina_mir4.txt',
 'mir_v_orehovoy-skorlupke.txt',
 'anna_karenina.txt',
 'voina_mir3.txt',
 'belye_nochi.txt',
 'prestup_i_nakaz.txt',
 'voina_mir12.txt']

In [7]:
for book in book_file_names:
    write_prepared_book(book)

bytie_i_vremya.txtis done!
po.txtis done!
oblomov.txtis done!
idiot.txtis done!
tak_govoril_zaratustra.txtis done!
master_margarita.txtis done!
starik_i_more.txtis done!
detstvo_tolstoi.txtis done!
chekhov.txtis done!
voina_mir4.txtis done!
mir_v_orehovoy-skorlupke.txtis done!
anna_karenina.txtis done!
voina_mir3.txtis done!
belye_nochi.txtis done!
prestup_i_nakaz.txtis done!
voina_mir12.txtis done!
