## Список источников


1. Источники текстов Н.И. Новикова и А.Н. Радищева "Путешествия из Петербурга в Москву" -- lib.ru (Библиотека Владимира Мошкова);
2. [Стихи](http://rupoem.ru/radischev/all.aspx)
 А.Н. Радищева.

## Описание задачи

Стили написания текстов различными авторами обладают своими особенностями: лексиконом, свойственным только этому автору, количеством употребляемых слов, синтаксическими конструкциями и др. Оказывается, что 100 -- 200 наиболее употребляемых автором слов имеют уже сильно различаются друг от друга, поэтому являются важным показателем в определении авторства (Evert, Proisl, 2017). Все это открывает возможности для статистического исследования текстов и применения стилометрии -- метода определения авторства текста на основе статистически выделяемых признаков.

Наша задача заключается в том, чтобы определить, дествительно ли А. Н. Радищев является автором произведения "Путешествие из И в Т", авторство которого до сих пор оспаривается: либо произведение дейстивтельно принадлежит перу Радищева, либо его, все-таки, написал Н. И. Новиков. 

## Меотды решения задачи определения авторства

Для решения задачи определения авторства были разработаны разные метрики, в том числе индекс Delta, который основывается на измерении расстояния между текстами.  Дельта -- расстояние между векторными представлениями текстов в многомерном пространстве (Argamon 2008). Где слово -- одна из осей этого пространства.


Тексты представляются в виде "мешка слов", где каждый вектор содержит относительные частоты слова по всем документам корпуса (могут быть использованы различные варианты подсчета частот).

Могут использоваться разные варианты подсчета расстояния:
1. Manhattan Distance
2. Евклидово расстояние
3. Косинусная мера близости 

На основе мер расстояния и выбранного метода нормализации выделяют разные Дельты:
1. Manhattan Distance + нормализация по относительным частотам слов = Линейная Дельта
2. Евклидово расстояние + нормализация по Z-score = Квадратичная Дельта
(частоты слов независимы друг от друга).
Существуют также 
3. Делта Эдера (Eder's Delta), которая уменшьает веса редко встречающихся слов и другие вариации. 

В основе всех методов лежит построение $n$-мерной матрицы попарного постчитанного растояния между текстами корпуса.  Затем тексты кластеризуются на основе матрицы расстояний. Например,  с помощью иерархической кластеризации и построением дендрораммы.


In [2]:
import delta
import re
import pymorphy2
morph = pymorphy2.MorphAnalyzer()
from tqdm import tqdm

In [3]:
def slurp(path):
    with open(path, 'r') as fo:
        return fo.read()
def preprocess(path):
    text = slurp(path)
    pattern = re.compile(r'[а-яё\-\d]+')
    text = re.findall(pattern, text.lower())
    return ' '.join(text)

def lemmatize_text(text):
    lemmas = [morph.parse(word)[0].normal_form for word in tqdm(text.split())]
    return ' '.join(lemmas)

def write_to_file(text, filename):
    with open(filename, 'w') as fo:
        fo.write(text)

In [6]:
raw_corpus = delta.Corpus('/home/nst/mount/data/linguistics_hse/digital_humanities/corpus/')

  self.metadata = metadata


In [7]:
raw_corpus

Unnamed: 0,и,в,не,что,на,я,его,с,то,но,...,одарен,огурцы,огромный,огромность,огромности,огромном,огромной,огромное,огорожены,яству
Новиков_Кошелек,261.0,190.0,167.0,117.0,30.0,149.0,23.0,53.0,57.0,57.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Новиков_Пословицы,575.0,342.0,250.0,221.0,159.0,91.0,204.0,118.0,63.0,123.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Новиков_Путешествия,77.0,35.0,29.0,41.0,19.0,30.0,8.0,6.0,4.0,7.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
Новиков_Трутень,278.0,150.0,196.0,145.0,52.0,118.0,34.0,50.0,54.0,47.0,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Радищев_Журналы,698.0,475.0,318.0,260.0,251.0,53.0,88.0,118.0,167.0,125.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Радищев_Путешествие_из_И_в_Т,1705.0,1517.0,980.0,578.0,711.0,462.0,455.0,320.0,320.0,277.0,...,0.0,0.0,1.0,1.0,1.0,0.0,0.0,1.0,0.0,1.0
Радищев_Стихи,164.0,222.0,112.0,50.0,68.0,67.0,19.0,48.0,28.0,11.0,...,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0


In [65]:
c2500 = raw_corpus.get_mfw_table(2500)

  self.metadata = metadata


In [66]:
c2500

Unnamed: 0,и,в,не,он,быть,что,на,я,свой,весь,...,собранный,собираться,снискать,укрепить,умеренный,схватить,пышный,шествовать,уничтожить,бедственный
lem_novikov,0.049016,0.037055,0.014976,0.018358,0.012548,0.011124,0.008696,0.005458,0.00991,0.008996,...,9.1e-05,3.9e-05,7.8e-05,3.9e-05,6.5e-05,0.0,2.6e-05,2.6e-05,1.3e-05,0.0
lem_radishev,0.036416,0.035319,0.020982,0.016452,0.01525,0.013462,0.01495,0.016752,0.009088,0.008369,...,1.3e-05,5.2e-05,2.6e-05,6.5e-05,3.9e-05,9.1e-05,7.8e-05,7.8e-05,9.1e-05,0.000104
lem_secret,0.045977,0.027011,0.017816,0.017241,0.012644,0.027011,0.011494,0.028736,0.010345,0.011494,...,0.0,0.000575,0.0,0.0,0.0,0.000575,0.0,0.0,0.0,0.0


In [68]:
distances = delta.functions.cosine_delta(c2500)
distances

  self.metadata = metadata
  self.metadata = Metadata(metadata, **kwargs)
  self.metadata = copy_from.metadata


Unnamed: 0,lem_novikov,lem_radishev,lem_secret
lem_novikov,0.0,1.282013,1.58932
lem_radishev,1.282013,0.0,1.608911
lem_secret,1.58932,1.608911,0.0


In [69]:
distances.evaluate()

  self.metadata = copy_from.metadata
  self.metadata = Metadata(metadata, **kwargs)


F-Ratio        NaN
Fisher's LD    NaN
Simple Score   NaN
dtype: float64

## Литература
_Evert, Stefan, Proisl, Thomas_. Understanding and explaining Delta measures for authorship attribution, Digital Scholarship in the Humanities, Vol. 32, Supplement 2, 2017,
[URL](https://watermark.silverchair.com/fqx023.pdf?token=AQECAHi208BE49Ooan9kkhW_Ercy7Dm3ZL_9Cf3qfKAc485ysgAAAcQwggHABgkqhkiG9w0BBwagggGxMIIBrQIBADCCAaYGCSqGSIb3DQEHATAeBglghkgBZQMEAS4wEQQM2zhQHBBa5PGycPXSAgEQgIIBd75BalV28g3663OrlPFPOCOhIWn3i0cj4XzGWQfiyxC3blSa1ukzk74M9CwpfIc9Smvi0aYfYJO_AluXPVE53uHAsc3TEFEPgYuFuGPZafOVdOu9FrH0v8M3iWaExHRoPksPZHci5LKyws1d_JTLzHcOmzCUeqlLN-EsuurJcuWGDsh-cnk5VpIYD-6WCHgwTKy95dUylozKTIw8rotGyff1d45DhDM0rsYkyrzVWp5hgrEyMSEiVHTBoLmnq1q7KD7mf4DkZq7Ytb0S6iHDdFw0hPfqsxyHrw4euKYO8bsQHBh0Xke-VtDAG7dYTQlJZnqVgGZ8Nwhbb07_SWYgWiXXyCDLRPq3W1wP3yT8b9L4bolqnqUdgyoEZys8K-VcZgyqPE5Ng1zTzRveEVQPUUMi2Vs3xEKZlHn3K5mIsl6kEMsqj7CLKyTYg86bqONzaHhdrtUu035Zt6P3gS_wFvnz5iWhcWPgDs-mJWBGwXTDxBmpAvDrhA).