In [8]:
import sqlalchemy
import pandas as pd

db = sqlalchemy.create_engine('sqlite:///books_db.sqlite')
df = pd.read_sql_query('select chunk_id, author, text from chunk', 
                       db, index_col='chunk_id')

df.head(5)

Unnamed: 0_level_0,author,text
chunk_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Иван Алексеевич Бунин,"В знак веры в жизнь вечную, в воскресение из м..."
2,Иван Алексеевич Бунин,"Ибо он, этот волчец, воистину чудесен. Сорванн..."
3,Иван Алексеевич Бунин,"Так утешаюсь и я, воскрешая в себе те светонос..."
4,Иван Алексеевич Бунин,"Роза Иерихона. В живую воду сердца, в чистую в..."
5,Иван Алексеевич Бунин,"Золотилось солнце на востоке, за туманной синь..."


In [9]:
df

Unnamed: 0_level_0,author,text
chunk_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Иван Алексеевич Бунин,"В знак веры в жизнь вечную, в воскресение из м..."
2,Иван Алексеевич Бунин,"Ибо он, этот волчец, воистину чудесен. Сорванн..."
3,Иван Алексеевич Бунин,"Так утешаюсь и я, воскрешая в себе те светонос..."
4,Иван Алексеевич Бунин,"Роза Иерихона. В живую воду сердца, в чистую в..."
5,Иван Алексеевич Бунин,"Золотилось солнце на востоке, за туманной синь..."
...,...,...
50002,Иван Сергеевич Тургенев,Очень строгая хозяйка — сошлась с мужем характ...
50003,Иван Сергеевич Тургенев,4. Евлампия Мартыновна Харлова.\nЭта похожа на...
50004,Иван Сергеевич Тургенев,"5. Гаврила Федулыч Житков.\nКадетина, армейщин..."
50005,Иван Сергеевич Тургенев,6. Сувенир Бычков.\nНастоящее имя его неизвест...


In [10]:
import pymorphy2
import re

morph = pymorphy2.MorphAnalyzer()

def is_cyr_word(word):
    for ch in word:
        if not ('а' <= ch <= 'я'):
            return False
    return True

def process_text(text):        
    lower = (word.lower() for word in re.split(r'\W+', text))
    cyr = (word for word in lower if len(word) > 0 and is_cyr_word(word))
    norm_form = (morph.parse(word)[0].normal_form for word in cyr)
        
    return ' '.join(norm_form)

df['text'] = df['text'].map(process_text)  

In [11]:
for text in df['text']:
    words = text.split(' ') 
words

['с',
 'один',
 'сторона',
 'рот',
 'зуб',
 'нет',
 'так',
 'что',
 'всё',
 'лицо',
 'несколько',
 'скривиться',
 'очень',
 'презирать',
 'любимый',
 'поговорка',
 'а',
 'вот',
 'позволить',
 'я',
 'сичас',
 'сичас',
 'да',
 'что',
 'сичас',
 'рука',
 'назад',
 'как',
 'приказать',
 'трус',
 'естественный',
 'я',
 'взять',
 'с',
 'себя',
 'когда',
 'послать',
 'он',
 'харлов',
 'г',
 'н',
 'квицинский']

In [12]:
df

Unnamed: 0_level_0,author,text
chunk_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Иван Алексеевич Бунин,в знак вера в жизнь вечный в воскресение из мё...
2,Иван Алексеевич Бунин,ибо он этот волчец воистину чудесный сорвать и...
3,Иван Алексеевич Бунин,так утешаться и я воскрешать в себя тот светон...
4,Иван Алексеевич Бунин,роза иерихон в живой вода сердце в чистый влаг...
5,Иван Алексеевич Бунин,золотиться солнце на восток за туманный синь д...
...,...,...
50002,Иван Сергеевич Тургенев,очень строгий хозяйка сойтись с муж характер г...
50003,Иван Сергеевич Тургенев,евлампий мартынович харлов этот похожий на оте...
50004,Иван Сергеевич Тургенев,гаврил федулович житков кадетина армейщина дос...
50005,Иван Сергеевич Тургенев,сувенир бычков настоящий имя он неизвестно про...


In [68]:
import numpy as np

In [100]:
count_dict = {}
for text in df['text']:
    words = text.split(' ')
    words_unique = np.unique(words)
    for word in words_unique:
        if word in count_dict.keys():
            count_dict[word] += 1
        else: count_dict[word] = 1 
count_dict

{'безлюдный': 41,
 'в': 33040,
 'вера': 1028,
 'вечный': 237,
 'воскресение': 114,
 'восток': 99,
 'встречаться': 111,
 'гроб': 214,
 'да': 7212,
 'древность': 22,
 'ещё': 6102,
 'жизнь': 3086,
 'жёсткий': 94,
 'знак': 567,
 'иерихон': 4,
 'из': 8043,
 'каменистый': 17,
 'класть': 220,
 'клубок': 14,
 'колючий': 25,
 'могила': 227,
 'море': 458,
 'мёртвый': 495,
 'на': 25155,
 'назвать': 214,
 'наш': 2481,
 'ниже': 104,
 'перекатить': 17,
 'песок': 243,
 'подобный': 268,
 'поле': 1182,
 'поросль': 5,
 'предгорие': 3,
 'пустынный': 63,
 'роза': 126,
 'синайский': 4,
 'стебель': 24,
 'странно': 315,
 'сухой': 319,
 'только': 6319,
 'что': 24295,
 'этот': 6852,
 'бедный': 627,
 'быть': 19642,
 'верста': 336,
 'вода': 1089,
 'воистину': 12,
 'волчец': 2,
 'гибель': 101,
 'год': 2413,
 'давать': 1106,
 'жить': 2625,
 'за': 9029,
 'и': 42438,
 'ибо': 180,
 'когда': 4930,
 'лежать': 1397,
 'листочек': 10,
 'мелкий': 321,
 'мир': 868,
 'мочь': 6134,
 'начинать': 577,
 'нет': 5542,
 'но': 11624

In [101]:
count_df = pd.DataFrame.from_dict(count_dict, 'index')
count_df

Unnamed: 0,0
безлюдный,41
в,33040
вера,1028
вечный,237
воскресение,114
...,...
кадно,1
малейший,1
кадетина,1
вейдбрехт,1


In [102]:
count_df[count_df.index=='в']

Unnamed: 0,0
в,33040


In [107]:
count_df['word'] = count_df.index.values
count_df = count_df.sort_values(by=[0, 'word'], ascending = [False, False])
count_df['number'] = range(1, 49413)
count_df

Unnamed: 0,0,word,number
и,42438,и,1
в,33040,в,2
не,29408,не,3
он,27292,он,4
на,25155,на,5
...,...,...,...
абогиня,1,абогиня,49408
абиссинский,1,абиссинский,49409
аберрация,1,аберрация,49410
абдул,1,абдул,49411


In [108]:
count_df[count_df.number==1000] # 274

Unnamed: 0,0,word,number
чевенгур,249,чевенгур,1000


In [90]:
stop_words = count_df[:200].index.values
stop_words

array(['и', 'в', 'не', 'он', 'на', 'что', 'с', 'я', 'быть', 'а', 'она',
       'как', 'это', 'к', 'то', 'но', 'сказать', 'вы', 'они', 'свой', 'у',
       'по', 'ты', 'за', 'же', 'так', 'из', 'от', 'весь', 'тот', 'да',
       'один', 'говорить', 'который', 'себя', 'этот', 'мы', 'человек',
       'о', 'только', 'мочь', 'ещё', 'какой', 'знать', 'сам', 'всё',
       'нет', 'бы', 'рука', 'мой', 'такой', 'когда', 'вот', 'уже',
       'теперь', 'другой', 'стать', 'до', 'глаз', 'хотеть', 'или',
       'слово', 'есть', 'ну', 'спросить', 'лицо', 'кто', 'ли', 'для',
       'видеть', 'голова', 'день', 'где', 'дело', 'думать', 'опять',
       'если', 'время', 'ничего', 'жизнь', 'два', 'после', 'идти',
       'вдруг', 'ни', 'там', 'потом', 'раз', 'чтобы', 'дом', 'без',
       'нибыть', 'пойти', 'жить', 'ваш', 'даже', 'под', 'большой', 'тут',
       'очень', 'начать', 'чем', 'наш', 'хороший', 'год', 'бог', 'ж',
       'надо', 'ведь', 'казаться', 'дать', 'глядеть', 'тоже', 'место',
       'взять', 'уж

In [75]:
df_pl = df[df.author == 'Андрей Платонович Платонов']
df_pl

Unnamed: 0_level_0,author,text
chunk_id,Unnamed: 1_level_1,Unnamed: 2_level_1
27651,Андрей Платонович Платонов,состариться друг у окно казаться что этот своб...
27652,Андрей Платонович Платонов,третий свисток я входить в ворота завод проход...
27653,Андрей Платонович Платонов,в мастерская входить почти радостный ведь сейч...
27654,Андрей Платонович Платонов,засыпать в печь металл пускать электромотор от...
27655,Андрей Платонович Платонов,что то свистеть и смеяться что то запереть сил...
...,...,...
38665,Андрей Платонович Платонов,только ломать стена в передний ряд можно первы...
38666,Андрей Платонович Платонов,но оглушение иногда происходить и по другой пр...
38667,Андрей Платонович Платонов,если ты начальник то ты открыть ворота сам мол...
38668,Андрей Платонович Платонов,социальный вредность выстрел не так ясный но э...


In [91]:
dict2 = {}
for text in df_pl['text']:
    words = text.split(' ')
    words_unique = np.unique(words)
    for word in words_unique:
        if word not in stop_words:
            if word in dict2.keys():
                dict2[word] += 1
            else: dict2[word] = 1 
dict2

{'будущее': 132,
 'вечер': 252,
 'внизу': 38,
 'вступить': 17,
 'далеко': 140,
 'дожить': 12,
 'именно': 59,
 'история': 50,
 'кругом': 74,
 'музыка': 161,
 'находиться': 245,
 'неслышный': 9,
 'отныне': 3,
 'охватывать': 8,
 'ощутимо': 1,
 'проникать': 20,
 'разлиться': 2,
 'расположиться': 11,
 'свобода': 39,
 'святой': 28,
 'состариться': 8,
 'спокойствие': 31,
 'счастие': 181,
 'счастливый': 154,
 'улица': 219,
 'умилённый': 1,
 'участник': 9,
 'асфальтовый': 3,
 'бежать': 133,
 'биться': 69,
 'будка': 69,
 'виться': 5,
 'вокруг': 130,
 'ворота': 45,
 'входить': 197,
 'выступ': 3,
 'двор': 322,
 'дорожка': 15,
 'завод': 95,
 'заводский': 7,
 'здание': 44,
 'колоссальный': 1,
 'контрольный': 13,
 'литейный': 4,
 'машина': 499,
 'мимо': 119,
 'мощный': 49,
 'нумероваться': 1,
 'огромный': 49,
 'покорный': 15,
 'проходить': 117,
 'пульс': 8,
 'ровный': 36,
 'свисток': 23,
 'слышать': 172,
 'стена': 138,
 'темп': 27,
 'третий': 99,
 'вагранный': 1,
 'делаться': 64,
 'железный': 154,
 '

In [92]:
df2 = pd.DataFrame.from_dict(dict2, 'index')
df2

Unnamed: 0,0
будущее,132
вечер,252
внизу,38
вступить,17
далеко,140
...,...
доработаться,1
методический,1
пролёт,1
рапп,1


In [94]:
df2['word'] = df2.index.values
df2 = df2.sort_values(by=[0,'word'], ascending = [False, True])
df2['number'] = range(1, 23389)
df2

Unnamed: 0,0,word,number
товарищ,740,товарищ,1
тело,578,тело,2
работа,532,работа,3
ответить,518,ответить,4
машина,499,машина,5
...,...,...,...
ящичек,1,ящичек,23384
ёж,1,ёж,23385
ёжик,1,ёжик,23386
ёжиться,1,ёжиться,23387


In [111]:
np.mean([2**i/i for i in range(1,21)])

5557.118722378413