In [1]:
import pandas as pd
import re
import tqdm
import os

In [2]:
path_to_books = 'prepared_data/books/'

In [3]:
book_file_names = os.listdir(path_to_books)
len(book_file_names)

16

In [4]:
book_file_names

['bytie_i_vremya.txt',
 'po.txt',
 'oblomov.txt',
 'idiot.txt',
 'tak_govoril_zaratustra.txt',
 'master_margarita.txt',
 'starik_i_more.txt',
 'detstvo_tolstoi.txt',
 'chekhov.txt',
 'voina_mir4.txt',
 'mir_v_orehovoy-skorlupke.txt',
 'anna_karenina.txt',
 'voina_mir3.txt',
 'belye_nochi.txt',
 'prestup_i_nakaz.txt',
 'voina_mir12.txt']

In [5]:
def get_book(book_name):
    with open(path_to_books + book_name, encoding='utf-8') as file:
        line_list = []
        for line in file:
            line_list.append(line[:-1])
                
    return line_list


In [6]:
# пример работы функции
some_book = get_book(book_file_names[5])
some_book[:4]

['Однажды весною, в час небывало жаркого заката, в Москве, на Патриарших прудах, появились два гражданина. Первый из них, одетый в летнюю серенькую пару, был маленького роста, упитан, лыс, свою приличную шляпу пирожком нес в руке, а на хорошо выбритом лице его помещались сверхъестественных размеров очки в черной роговой оправе. Второй – плечистый, рыжеватый, вихрастый молодой человек в заломленной на затылок клетчатой кепке – был в ковбойке, жеваных белых брюках и в черных тапочках.',
 'Первый был не кто иной, как Михаил Александрович Берлиоз, председатель правления одной из крупнейших московских литературных ассоциаций, сокращенно именуемой МАССОЛИТ, и редактор толстого художественного журнала, а молодой спутник его – поэт Иван Николаевич Понырев, пишущий под псевдонимом Бездомный.',
 'Попав в тень чуть зеленеющих лип, писатели первым долгом бросились к пестро раскрашенной будочке с надписью "Пиво и воды".',
 'Да, следует отметить первую странность этого страшного майского вечера. Не 

In [7]:
def get_markup(text_list):
    '''
    Функция, принимающая на вход список слов и
    возвращающая список соответствующих меток.
    Для начала используется всего несколько меток из списка:
    ['.', ',', '?', '!', 'o']. (o = other)
    '''
    
    labels_puncts = ['.', ',', '?', '!']
    labels = [token[-1] if token[-1] in labels_puncts else 'o' for token in text_list]
    
    return labels

In [8]:
whole_markup = pd.DataFrame()

for book in tqdm.tqdm(book_file_names):
    book_text = get_book(book)
    
    markup = pd.DataFrame()
    markup['text'] = book_text
    markup['tokens'] = markup.text.apply(lambda x: x.split(' '))
    markup['labels'] = markup.tokens.apply(get_markup)
    
    whole_markup = pd.concat([whole_markup, markup]).reset_index(drop=True)

whole_markup

100%|███████████████████████████████████████████| 16/16 [00:00<00:00, 17.02it/s]


Unnamed: 0,text,tokens,labels
0,"Названный вопрос пришел сегодня в забвение, хо...","[Названный, вопрос, пришел, сегодня, в, забвен...","[o, o, o, o, o, ,, o, o, o, o, o, o, o, ,, o, ..."
1,Мало того. На почве греческих подходов к интер...,"[Мало, того., На, почве, греческих, подходов, ...","[o, ., o, o, o, o, o, o, o, o, ,, o, o, o, o, ..."
2,"1) ""Бытие"" есть ""наиболее общее"" понятие: τό ŏ...","[1), ""Бытие"", есть, ""наиболее, общее"", понятие...","[o, o, o, o, o, o, o, o, o, o, o, o, o, o, o, ..."
3,"2) Понятие ""бытие"" неопределимо. Это выводили ...","[2), Понятие, ""бытие"", неопределимо., Это, выв...","[o, o, o, ., o, o, o, o, o, ., o, o, o, o, o, ..."
4,3) Бытие есть само собой разумеющееся понятие....,"[3), Бытие, есть, само, собой, разумеющееся, п...","[o, o, o, o, o, o, ., o, o, ,, ,, o, o, o, o, ..."
...,...,...,...
47751,Пьер тоже вслед за нею почти выбежал в передню...,"[Пьер, тоже, вслед, за, нею, почти, выбежал, в...","[o, o, o, o, o, o, o, o, ,, o, o, o, o, ,, o, ..."
47752,— Теперь куда прикажете? — спросил кучер.,"[—, Теперь, куда, прикажете?, —, спросил, кучер.]","[o, o, o, ?, o, o, .]"
47753,"""Куда? — спросил себя Пьер. — Куда же можно ех...","[""Куда?, —, спросил, себя, Пьер., —, Куда, же,...","[?, o, o, o, ., o, o, o, o, o, ?, o, o, o, o, ..."
47754,"— Домой, — сказал Пьер, несмотря на десять гра...","[—, Домой,, —, сказал, Пьер,, несмотря, на, де...","[o, ,, o, o, ,, o, o, o, o, o, o, o, o, o, o, ..."


In [9]:
whole_markup.to_csv('books_markup.csv', index=False)

In [10]:
labels_list = []

for row in whole_markup.values:
    labels_list += row[2]
    

In [11]:
len(labels_list)

1993736

In [12]:
pd.DataFrame(labels_list, columns=['labels']).labels.value_counts()

o    1592668
,     262814
.     107422
!      16188
?      14644
Name: labels, dtype: int64