## Описание статистик ruTS

Источник: https://github.com/SergeyShk/ruTS/tree/ead346d33840b11f6898b4d9329abdd370334572

### Основные метрики
* число предложений (n_sents)
* число слов (n_words)
* число уникальных слов (n_unique_words)
* число длинных слов
* число сложных слов
* число простых слов
и т.д.



### Метрики читаемости

* **тест Флеша-Кинкайда (flesch_kincaid_grade)**
Чем выше показатель, тем сложнее текст для чтения
Результатом является число лет обучения в американской системе образования, необходимых для понимания текста
return (a * n_words / n_sents) + (b * n_syllables / n_words) - c

* **индекс удобочитаемости Флеша (flesch_reading_easy)**
Чем выше показатель, тем легче текст для чтения
Значения индекса лежат в пределах от 0 до 100 и могут интерпретироваться следующим образом:
            100-90 - 5-й класс
            90-80 - 6-й класс
            80-70 - 7-й класс
            70-60 - 8-й и 9-й класс
            60-50 - 10-й и 11-й класс
            50-30 - Студент университета
            30-0 - Выпускник университета

* **индекс Колман-Лиау (coleman_liau_index)**
Чем выше показатель, тем сложнее текст для чтения
Результатом является число лет обучения в американской системе образования, необходимых для понимания текста
return (a * n_letters / n_words * 100) - (b * n_sents / n_words * 100) - c

* **индекс SMOG (smog_index)**
Simple Measure of Gobbledygook («Простое измерение разглагольствований»)
Наиболее авторитетная метрика читабельности
Чем выше показатель, тем сложнее текст для чтения
Результатом является число лет обучения в американской системе образования, необходимых для понимания текста

* **автоматический индекс удобочитаемости (automated_readability_index)**
Чем выше показатель, тем сложнее текст для чтения
Результатом является число лет обучения в американской системе образования, необходимых для понимания текста
Значения индекса могут интерпретироваться следующим образом:
            1 - 6-7 лет
            2 - 7-8 лет
            3 - 8-9 лет
            4 - 9-10 лет
            5 - 10-11 лет
            6 - 11-12 лет
            7 - 12-13 лет
            8 - 13-14 лет
            9 - 14-15 лет
            10 - 15-16 лет
            11 - 16-17 лет
            12 - 17-18 лет

* **индекс удобочитаемости LIX (lix)**
Чем выше показатель, тем сложнее текст для чтения
Значения индекса лежат в пределах от 0 до 100 и могут интерпретироваться следующим образом:
0-30 - Очень простые тексты, детская литература
30-40 - Простые тексты, художественная литература, газетные статьи
40-50 - Тексты средней сложности, журнальные статьи
50-60 - Сложные тексты, научно-популярные статьи, профессиональная литература, официальные тексты
60-100 - Очень сложные тексты, написанные канцелярским языком, законы

### Морфологические статистики
* **gender:** neut, masc, femn, none
* **tense:** pres, past, futr, none
* **voice:** pssv, actv, none
* **person:** 2, 3, 1, none

In [7]:
!pip uninstall numpy
!pip install numpy==1.22

Found existing installation: numpy 1.24.0
Uninstalling numpy-1.24.0:
  Would remove:
    /usr/local/bin/f2py
    /usr/local/bin/f2py3
    /usr/local/bin/f2py3.8
    /usr/local/lib/python3.8/dist-packages/numpy-1.24.0.dist-info/*
    /usr/local/lib/python3.8/dist-packages/numpy.libs/libgfortran-040039e1.so.5.0.0
    /usr/local/lib/python3.8/dist-packages/numpy.libs/libopenblas64_p-r0-15028c96.3.21.so
    /usr/local/lib/python3.8/dist-packages/numpy.libs/libquadmath-96973f99.so.0.0.0
    /usr/local/lib/python3.8/dist-packages/numpy/*
Proceed (y/n)? y
  Successfully uninstalled numpy-1.24.0
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting numpy==1.22
  Using cached numpy-1.22.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.8 MB)
Installing collected packages: numpy
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the fol

In [1]:
!pip install h5py
!pip install typing-extensions
!pip install wheel
import pandas as pd
import numpy as np
import matplotlib

!pip install wordcloud

from os import path
from PIL import Image
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

import matplotlib.pyplot as plt

!pip install ruts

import re
#from nltk.corpus import stopwords
#from ruts import SentsExtractor, WordsExtractor

#import nltk
#nltk.download('stopwords')

from ruts import BasicStats
from ruts import ReadabilityStats
from ruts import DiversityStats
from ruts import MorphStats


import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.manifold import TSNE
import colorsys

import os
from tqdm import tqdm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/




In [4]:
train = pd.read_csv('https://raw.githubusercontent.com/anyakazachkova/project/main/%D0%A7%D0%B5%D0%BA%D0%BF%D0%BE%D0%B8%D0%BD%D1%82%20%E2%84%964/datasets/TRAIN_500words_lemmatized.csv?token=GHSAT0AAAAAAB2L7SLJE3L6DCOJO3N6IKYEY5D5NJA')
test = pd.read_csv('https://raw.githubusercontent.com/anyakazachkova/project/main/%D0%A7%D0%B5%D0%BA%D0%BF%D0%BE%D0%B8%D0%BD%D1%82%20%E2%84%964/datasets/TEST_500words_lemmatized.csv?token=GHSAT0AAAAAAB2L7SLIAVKELNLDWQ6GMLEMY5D5N5Q')

In [5]:
print(train.shape)
print(test.shape)

(9758, 6)
(2033, 6)


In [6]:
train.head()

Unnamed: 0,author,author_surname,work_title,excerpt_num,text,lemmas
0,anton-chekhov,Чехов,antreprener-pod-divanom,0,Антрепренёр под диваном \n (Закулисная история...,антрепренёр диван закулисный история идти воде...
1,anton-chekhov,Чехов,anyuta,0,Анюта \n В самом дешевом номерке меблированных...,анюта сам дешёвый номерок меблированный комнат...
2,anton-chekhov,Чехов,anyuta,1,"Несомненно, будущее прекрасно, и из Клочкова, ...",несомненно будущее прекрасно клочков вероятно ...
3,anton-chekhov,Чехов,aptekarsha,0,"Аптекарша \n Городишко Б., состоящий из двух-т...",аптекарша городишко б состоять два три кривая ...
4,anton-chekhov,Чехов,aptekarsha,1,Входят толстяк-доктор и тонкий Обтесов. Теперь...,входить толстяк доктор тонкий обтесовый рассмо...


In [7]:
train['text'][0].strip().replace('\n', '')

'Антрепренёр под диваном  (Закулисная история)  Шел "Водевиль с переодеванием". Клавдия Матвеевна Дольская-Каучукова, молодая, симпатичная артистка, горячо преданная святому искусству, вбежала в свою уборную и начала сбрасывать с себя платье цыганки, чтобы в мгновение ока облечься в гусарский костюм. Во избежание лишних складок, чтобы этот костюм сидел возможно гладко и красиво, даровитая артистка решила сбросить с себя всё до последней нитки и надеть его поверх одеяния Евы. И вот, когда она разделась и, пожимаясь от легкого холода, стала расправлять гусарские рейтузы, до ее слуха донесся чей-то вздох. Она сделала большие глаза и прислушалась. Опять кто-то вздохнул и даже как будто прошептал:  — Грехи наши тяжкие... Охх...  Недоумевающая артистка осмотрелась и, не увидев в уборной ничего подозрительного, решила заглянуть на всякий случай под свою единственную мебель — под диван. И что же? Под диваном она увидела длинную человеческую фигуру.  — Кто здесь?! — вскрикнула она, в ужасе отск

In [10]:
# расчеты для трейна
# считаем на столбце до лемматизации, так как здесь важны именно предложения для метрик

books = []
authors = []



df = pd.DataFrame()
d = {}

for part_id in tqdm(range(0, 3115)): # первый код прервался после 3115 куска текста
  chapter_text = train['text'][part_id].strip().replace('\n', '')

  try:
    # добавляем базовые статистики
    bs = BasicStats(chapter_text)
    bs_data = dict(bs.get_stats())
    del bs_data['c_letters']
    del bs_data['c_syllables']

  
    # метрики читаемости
    rs = ReadabilityStats(chapter_text)
    rs_data = dict(rs.get_stats())


    # морфологические метрики
    ms = MorphStats(chapter_text)
    ms_data = dict(ms.get_stats())


    # метрики лексического разнообразия
    ds = DiversityStats(chapter_text)
    ds_data = dict(ds.get_stats())

    d[str(part_id) + ' ' + train['author'][part_id] + ' ' + train['work_title'][part_id]] = {**bs_data, **rs_data, **ms_data['gender'], **ms_data['number'], **ms_data['tense'], **ms_data['voice'], **ms_data['person'], **ds_data}
    df = df.append(d[str(part_id) + ' ' + train['author'][part_id] + ' ' + train['work_title'][part_id]], ignore_index=True)

    books.append(str(part_id) + ' ' + train['author'][part_id] + ' ' + train['work_title'][part_id])
    authors.append(train['author'][part_id])
    df.index = books
    df['author'] = authors
    df.to_csv('TRAIN_500words_lemmatized_metrics.csv')
  except:
      pass

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + train['author'][part_id] + ' ' + train['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + train['author'][part_id] + ' ' + train['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + train['author'][part_id] + ' ' + train['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + train['author'][part_id] + ' ' + train['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + train['author'][part_id] + ' ' + train['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + train['author'][part_id] + ' ' + train['work_title'][part_id]], ignore_index=True)


In [9]:
# расчеты для теста

books = []
authors = []



df = pd.DataFrame()
d = {}

for part_id in tqdm(range(len(test['text']))):
  chapter_text = test['text'][part_id].strip().replace('\n', '')

  try:
    # добавляем базовые статистики
    bs = BasicStats(chapter_text)
    bs_data = dict(bs.get_stats())
    del bs_data['c_letters']
    del bs_data['c_syllables']

  
    # метрики читаемости
    rs = ReadabilityStats(chapter_text)
    rs_data = dict(rs.get_stats())


    # морфологические метрики
    ms = MorphStats(chapter_text)
    ms_data = dict(ms.get_stats())


    # метрики лексического разнообразия
    ds = DiversityStats(chapter_text)
    ds_data = dict(ds.get_stats())

    d[str(part_id) + ' ' + test['author'][part_id] + ' ' + test['work_title'][part_id]] = {**bs_data, **rs_data, **ms_data['gender'], **ms_data['number'], **ms_data['tense'], **ms_data['voice'], **ms_data['person'], **ds_data}
    df = df.append(d[str(part_id) + ' ' + test['author'][part_id] + ' ' + test['work_title'][part_id]], ignore_index=True)

    books.append(str(part_id) + ' ' + test['author'][part_id] + ' ' + test['work_title'][part_id])
    authors.append(test['author'][part_id])
    df.index = books
    df['author'] = authors
    df.to_csv('TEST_500words_lemmatized_metrics.csv')
  except:
      pass

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + test['author'][part_id] + ' ' + test['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + test['author'][part_id] + ' ' + test['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + test['author'][part_id] + ' ' + test['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + test['author'][part_id] + ' ' + test['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + test['author'][part_id] + ' ' + test['work_title'][part_id]], ignore_index=True)
  values = values.astype(str)
  df = df.append(d[str(part_id) + ' ' + test['author'][part_id] + ' ' + test['work_title'][part_id]], ignore_index=True)
  values = v