# Выявление особенностей словоупотребления в текстах Л. Н. Толстого методами дистрибутивной семантики

In [1]:
import os
import re
from lxml import etree
from pymystem3 import Mystem
import string
import nltk
from langdetect import detect

## Сегментатор

In [10]:
language_punkt_vars = nltk.tokenize.punkt.PunktLanguageVars
language_punkt_vars.sent_end_chars=('.','?','!','»','…')
with open('.\\data\\traindata.txt', 'r', encoding='utf-8') as f:
    traindata = f.read()
trainer = nltk.tokenize.punkt.PunktTrainer(traindata, language_punkt_vars)
trainer.INCLUDE_ALL_COLLOCS = True 
trainer.INCLUDE_ABBREV_COLLOCS = True
params = trainer.get_params()
sbd = nltk.tokenize.punkt.PunktSentenceTokenizer(params)

  Abbreviation: [4.0916] г
  Abbreviation: [6.0209] т.п
  Abbreviation: [1.5052] ст
  Abbreviation: [1.1075] руб
  Abbreviation: [5.5374] тыс
  Abbreviation: [0.5537] стр
  Abbreviation: [4.0916] н
  Abbreviation: [0.5093] матф
  Abbreviation: [19.5680] см
  Abbreviation: [4.0916] п
  Abbreviation: [4.0916] м
  Abbreviation: [1.5052] ул
0.0004105933073290905 0.008888888888888889 0.0 4871 225 2 2
0.0004105933073290905 0.008888888888888889 0.0 4871 225 2 2
0.003284746458632724 0.008888888888888889 0.003013344812742144 4871 225 16 2
0.010264832683227263 0.044444444444444446 0.008609556607834697 4871 225 50 10
0.003284746458632724 0.008888888888888889 0.003013344812742144 4871 225 16 2
0.0012317799219872716 0.008888888888888889 0.0008609556607834697 4871 225 6 2
0.00390063641962636 0.008888888888888889 0.003659061558329746 4871 225 19 2
0.000821186614658181 0.008888888888888889 0.00043047783039173483 4871 225 4 2
0.001642373229316362 0.02666666666666667 0.00043047783039173483 4871 225 8 6


## Данные

На основе 90-томного собрания сочинений

In [15]:
tei_ns = {'tei': 'http://www.tei-c.org/ns/1.0'}

In [16]:
mystem = Mystem()

In [17]:
s = 'Пес ничего не понимает. Тот, кто его держит, пускается бегом. Вот он взбирается на две или три металлические ступени. Открывается, потом захлопывается какая‑то дверь. Заводится мотор. Но этот мотор рычит, как гром. Сквозь этот гром Пес слышит, как два человека переговариваются и хохочут. Его так крепко держат, что невозможно пошевелиться. Он боится задохнуться в этом одеяле. Да еще перчатки – они напомнили ему другие кожаные перчатки, точно такие же. Приемник!'

In [18]:
s1 = ''.join(mystem.lemmatize(s))

In [19]:
sbd.sentences_from_text(s1, realign_boundaries=True)

['пес ничто не понимать.',
 'тот, кто он держать, пускаться бег.',
 'вот он взбираться на два или три металлический ступень.',
 'открываться, потом захлопываться какой‑то дверь.',
 'заводиться мотор.',
 'но этот мотор рычать, как гром.',
 'сквозь этот гром пес слышать, как два человек переговариваться и хохотать.',
 'он так крепко держать, что невозможно пошевелиться.',
 'он бояться задыхаться в этот одеяло.',
 'да еще перчатка – они напоминать он другой кожаный перчатка, точно такой же.',
 'приемник!']

In [20]:
sbd.sentences_from_text(s, realign_boundaries=True)

['Пес ничего не понимает.',
 'Тот, кто его держит, пускается бегом.',
 'Вот он взбирается на две или три металлические ступени.',
 'Открывается, потом захлопывается какая‑то дверь.',
 'Заводится мотор.',
 'Но этот мотор рычит, как гром.',
 'Сквозь этот гром Пес слышит, как два человека переговариваются и хохочут.',
 'Его так крепко держат, что невозможно пошевелиться.',
 'Он боится задохнуться в этом одеяле.',
 'Да еще перчатки – они напомнили ему другие кожаные перчатки, точно такие же.',
 'Приемник!']

In [21]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [25]:
def preprocessing_1(text):
    text = re.sub('[0-9—A-Za-zÉéÂâÊêÎîÔôÛûÀàÈèÙùËëÏïÜüŸÿÇç«»’]+','', text)
    text = re.sub('[\n\s]+',' ', text)
    text.replace('[','').replace(']','')
    text = sbd.sentences_from_text(text, realign_boundaries=True)
    return text

In [26]:
def preprocessing_2(sentences, f):
    for text in sentences:
        if langid.classify(text)[0] not in ['fr','la'] and len(text)>25:
            text = text.translate(text.maketrans('','',string.punctuation))
            text = ''.join(mystem.lemmatize(text.strip()))
            f.write(text)

In [28]:
import langid

In [29]:
langid.classify("Радуйтесь когда мир вас оскорбляет и гонит за правду так же гнали и пророков")

('ru', -1461.9347658157349)

### Произведения

** Плохие теги: **

- note
- add
- sic
- orig
- head
- del
- figure
- table


** Ненужные теги: **

- pb
- hi
- corr
- reg
- choice
- div
- p

In [30]:
tags_for_deletion  = ['.//tei:note',
                      './/tei:add',
                      './/tei:sic',
                      './/tei:orig',
                      './/tei:head',
                      './/tei:del',
                      './/tei:figure',
                      './/tei:table'
                     ]

tegs_to_strip = ['{http://www.tei-c.org/ns/1.0}pb',
                '{http://www.tei-c.org/ns/1.0}hi',
                '{http://www.tei-c.org/ns/1.0}corr',
                '{http://www.tei-c.org/ns/1.0}reg',
                '{http://www.tei-c.org/ns/1.0}choice',
                '{http://www.tei-c.org/ns/1.0}p',
                '{http://www.tei-c.org/ns/1.0}div',
                '{http://www.tei-c.org/ns/1.0}lb']

In [31]:
def get_one_writing(filename):
    root = etree.parse(filename)#.getroot()
    for i in tags_for_deletion:
        for j in root.findall(i, tei_ns):
            parent = j.find("..")
            parent.remove(j)
    for i in tegs_to_strip:
        etree.strip_tags(root, i)
    return root.find(".//tei:text", tei_ns).text.strip()

In [32]:
get_one_writing('.\\data\\Final\\[«Ежели бы человек не желал…»] 1.xml')[:100]

'1) Ежели бы человек не желал, то и не было бы человека. Причина всякой деятельности есть желание. Же'

In [35]:
langid.classify('Et en parlant ainsi неразобр')[0]
preprocessing_1('Et en parlant ainsi неразобр')

[' неразобр']

In [37]:
preprocessing('Et en parlant ainsi неразобр')

In [36]:
len('[Иоанна V,] 27, 28.')

19

In [41]:
path = '.\\data\\Final\\'

In [42]:
from datetime import datetime

In [None]:
mystem = Mystem()
with open ('result.txt', 'w', encoding='utf-8') as f:
    for root, dirs, files in os.walk (path):
            for fl in files :
                start = datetime.now() 
                preprocessing_2(preprocessing_1(get_one_writing(path+fl)), f)
                print ('{}\t{}\t{}'.format(os.path.getsize(path+fl)//1024, 
                                          datetime.now()-start,
                                          fl))
                #print ('finished: ', datetime.now()-start, ' '+fl)
                #print (preprocessing_1(get_one_writing(path+fl)))

In [78]:
def preprocessing(text, f):
    text = re.sub('[0-9—A-Za-zÉéÂâÊêÎîÔôÛûÀàÈèÙùËëÏïÜüŸÿÇç«»’]+','', text)
    text = re.sub('[\n\s]+',' ', text)
    text = text.replace('[','').replace(']','')
    text = ''.join(mystem.lemmatize(text.strip()))
    print (len(sbd.sentences_from_text(text, realign_boundaries=True)), end='\t')
    for i in sbd.sentences_from_text(text, realign_boundaries=True):
        i2 = i.translate(i.maketrans('','',string.punctuation))
        i2 = re.sub('[\n\s]+',' ', i2)
        if langid.classify(i2)[0] not in ['fr','la','el'] and len(i2)>25:
            f.write(i2.strip()+'\n')
            pass

In [79]:
mystem = Mystem()
with open ('result.txt', 'w', encoding='utf-8') as f:
    for root, dirs, files in os.walk (path):
            for fl in files :
                start = datetime.now() 
                preprocessing(get_one_writing(path+fl), f)
                print ('{}\t{}\t{}'.format(os.path.getsize(path+fl)//1024, 
                                          datetime.now()-start,
                                          fl))
                #print ('finished: ', datetime.now()-start, ' '+fl)
                #print (preprocessing_1(get_one_writing(path+fl)))

971	125	0:00:06.817874	Abrégé de l’Evangile 24.xml
20	8	0:00:01.621808	AMOUR DE LA PATRIE 1.xml
70	37	0:00:02.102881	Carthago delenda est 39.xml
90	32	0:00:02.167435	Carthago delenda est. Черновое 39.xml
321	95	0:00:03.463955	Letter to a Hindoo (Письмо к индусу) 37.xml
46	13	0:00:01.750742	NOTES SUR LE SECOND CHAPITRE DES «CARACTÈRES» DE LA BRUYÈRE 1.xml
28	13	0:00:01.669266	The hostelry (Гостиница) 37.xml
18	19	0:00:01.594812	[Carthago delenda est] («Жизнь, та форма жизни»...) 27.xml
8	5	0:00:01.545260	[LE PRÉSENT, LE PASSÉ ET LE FUTUR] 1.xml
7	9	0:00:01.528263	[«Давно позабыл я о счастьи ...»] 1.xml
50	29	0:00:01.831079	[«Дядинька Жданов и кавалер Чернов»] 3.xml
60	42	0:00:01.928747	[«Ежели бы человек не желал…»] 1.xml
18	12	0:00:01.599006	[«Ей, Марьяна, брось работу!..»] 1.xml
36	22	0:00:01.689201	[«Знание музыки - субъективное и объективное...»] 1.xml
726	330	0:00:06.048702	[«Начала» романа «Сто лет»] 17.xml
372	203	0:00:03.873810	[«Начала» романа времен Петра I. Азовские походы] 1

### Письма

### Дневники

## Обработка текста

### Теги

In [28]:
import nltk

In [19]:
a = 'Весной 1820 года Пушкина вызвали к военному генерал-губернатору Петербурга графу М. А. Милорадовичу для объяснения по поводу содержания его стихотворений (в том числе эпиграмм на Аракчеева, архимандрита Фотия и самого Александра I), несовместимых со статусом государственного чиновника. Шла речь о его высылке в Сибирь или заточении в Соловецкий монастырь. Лишь благодаря хлопотам друзей, прежде всего Карамзина, удалось добиться смягчения наказания. Его перевели из столицы на юг в кишинёвскую канцелярию И. Н. Инзова[34]. По пути к новому месту службы Александр Сергеевич заболевает воспалением лёгких, искупавшись в Днепре. Для поправления здоровья Раевские вывозят в конце мая 1820 года больного поэта с собой на Кавказ и в Крым[35]. По дороге семья Раевских и А. С. Пушкин останавливаются в г. Таганроге, в бывшем доме градоначальника П. А. Папкова (ул. Греческая, 40).'

In [21]:
a = 'Он находится на ул. Пушкина дом 17'

In [150]:
nltk.tokenize.sent_tokenize(tobetokenized, language='czech')

['Тогда Rambler Media (контролируется "Проф-медиа" Владимира Потанина) объявил о продаже Google 100% системы контекстной рекламы ЗАО "Бегун" за $140 млн (см.',
 'Ъ от 19 июля 2008 года).',
 'Всю жизнь доказывала, что она – лучшая, ноги стирая в кровь.',
 'За 22 года турне Павлова проехала по миру более полумиллиона километров, дала около 9 тыс.',
 'спектаклей.',
 'Так, например, «умышленное причинение смерти другому человеку», конечно же, – преступление, убийство (ст.',
 '105 УК РФ), но и… подвиг на войне.']

In [29]:
language_punkt_vars = nltk.tokenize.punkt.PunktLanguageVars
language_punkt_vars.sent_end_chars=('.','?','!','»','…')

In [166]:
print(nltk.tokenize.punkt.PunktLanguageVars.sent_end_chars)

('.', '?', '!', '»', '…')


In [30]:
with open('.\\data\\traindata.txt', 'r', encoding='utf-8') as f:
    traindata = f.read()
trainer = nltk.tokenize.punkt.PunktTrainer(traindata, language_punkt_vars)
trainer.INCLUDE_ALL_COLLOCS = True 
trainer.INCLUDE_ABBREV_COLLOCS = True
params = trainer.get_params()
sbd = nltk.tokenize.punkt.PunktSentenceTokenizer(params)

  Abbreviation: [1.1180] руб
  Abbreviation: [4.1305] н
  Abbreviation: [19.7537] см
  Abbreviation: [1.5195] ул
  Abbreviation: [1.5195] ст
  Abbreviation: [4.1305] м
  Abbreviation: [6.0781] т.п
  Abbreviation: [4.1305] г
  Abbreviation: [5.5900] тыс
  Abbreviation: [4.1305] п
  Abbreviation: [0.5590] стр
0.00043010752688172043 0.009615384615384616 0.0 4650 208 2 2
0.00043010752688172043 0.009615384615384616 0.0 4650 208 2 2
0.0034408602150537634 0.009615384615384616 0.0031517334533993696 4650 208 16 2
0.01032258064516129 0.04807692307692308 0.008554705087798289 4650 208 48 10
0.0034408602150537634 0.009615384615384616 0.0031517334533993696 4650 208 16 2
0.0012903225806451613 0.009615384615384616 0.0009004952723998199 4650 208 6 2
0.003870967741935484 0.009615384615384616 0.0036019810895992796 4650 208 18 2
0.0008602150537634409 0.009615384615384616 0.00045024763619990995 4650 208 4 2
0.0017204301075268817 0.028846153846153848 0.00045024763619990995 4650 208 8 6
0.003010752688172043 

In [168]:
with open('.\\data\\testdata.txt', 'r', encoding='utf-8') as f:
    tobetokenized = f.read()
for sentence in sbd.sentences_from_text(tobetokenized, realign_boundaries=True):
    print (sentence + '\n')

Тогда Rambler Media (контролируется "Проф-медиа" Владимира Потанина) объявил о продаже Google 100% системы контекстной рекламы ЗАО "Бегун" за $140 млн (см. Ъ от 19 июля 2008 года).

Всю жизнь доказывала, что она – лучшая, ноги стирая в кровь.

За 22 года турне Павлова проехала по миру более полумиллиона километров, дала около 9 тыс. спектаклей.

Так, например, «умышленное причинение смерти другому человеку», конечно же, – преступление, убийство (ст. 105 УК РФ), но и… подвиг на войне.



In [163]:
nltk.tokenize.sent_tokenize(tobetokenized, language='czech')

['Тогда Rambler Media (контролируется "Проф-медиа"',
 'Владимира Потанина) объявил о продаже Google 100% системы контекстной рекламы ЗАО "Бегун"',
 'за $140 млн (см.',
 'Ъ от 19 июля 2008 года).',
 'Всю жизнь доказывала, что она – лучшая, ноги стирая в кровь.',
 'За 22 года турне Павлова проехала по миру более полумиллиона километров, дала около 9 тыс.',
 'спектаклей.',
 'Так, например, «умышленное причинение смерти другому человеку», конечно же, – преступление, убийство (ст.',
 '105 УК РФ), но и… подвиг на войне.']

# Try

In [69]:
import gensim



In [80]:
sentences = gensim.models.word2vec.LineSentence('result.txt')

In [13]:
sentences = [['я', 'иду'], ['я', 'иду']]

In [81]:
start = datetime.now() 
model = gensim.models.Word2Vec(sentences, min_count=1)
print(datetime.now()-start)

0:00:40.463178


In [82]:
print(model)


Word2Vec(vocab=46886, size=100, alpha=0.025)


In [83]:
print(model.wv.vocab.keys())

dict_keys(['евангелие', 'быть', 'откровение', 'истинный', 'благо', 'иисус', 'христос', 'сын', 'бог', 'воля', 'это', 'жизнь', 'и', 'весь', 'человек', 'жалеть', 'который', 'не', 'знать', 'он', 'учить', 'народ', 'говорить', 'счастливый', 'тот', 'кто', 'пресыщать', 'богатый', 'веселый', 'славный', 'среди', 'но', 'нищий', 'бедный', 'смирять', 'плакать', 'кроткий', 'искать', 'истина', 'милосердный', 'чистый', 'сердце', 'миротворец', 'изгонять', 'за', 'правда', 'они', 'даже', 'когда', 'обижать', 'преследовать', 'радоваться', 'мир', 'вы', 'оскорблять', 'гнать', 'так', 'же', 'пророк', 'горе', 'пресыщенный', 'смеяться', 'получать', 'что', 'ожидать', 'бедствие', 'этот', 'смиренный', 'ваш', 'счастие', 'в', 'бедность', 'смирение', 'ничто', 'мочь', 'нарушать', 'если', 'чувствовать', 'как', 'соль', 'потерять', 'свой', 'сила', 'должный', 'то', 'себя', 'свеча', 'закрывать', 'она', 'бесполезный', 'никто', 'освещать', 'светить', 'чтобы', 'видеть', 'прославлять', 'отец', 'на', 'небо', 'давать', 'мой', 'де