## Описание статистик ruTS

Источник: https://github.com/SergeyShk/ruTS/tree/ead346d33840b11f6898b4d9329abdd370334572

### Основные метрики
* число предложений (n_sents)
* число слов (n_words)
* число уникальных слов (n_unique_words)
* число длинных слов
* число сложных слов
* число простых слов
и т.д.



### Метрики читаемости

* **тест Флеша-Кинкайда (flesch_kincaid_grade)**
Чем выше показатель, тем сложнее текст для чтения
Результатом является число лет обучения в американской системе образования, необходимых для понимания текста
return (a * n_words / n_sents) + (b * n_syllables / n_words) - c

* **индекс удобочитаемости Флеша (flesch_reading_easy)**
Чем выше показатель, тем легче текст для чтения
Значения индекса лежат в пределах от 0 до 100 и могут интерпретироваться следующим образом:
            100-90 - 5-й класс
            90-80 - 6-й класс
            80-70 - 7-й класс
            70-60 - 8-й и 9-й класс
            60-50 - 10-й и 11-й класс
            50-30 - Студент университета
            30-0 - Выпускник университета

* **индекс Колман-Лиау (coleman_liau_index)**
Чем выше показатель, тем сложнее текст для чтения
Результатом является число лет обучения в американской системе образования, необходимых для понимания текста
return (a * n_letters / n_words * 100) - (b * n_sents / n_words * 100) - c

* **индекс SMOG (smog_index)**
Simple Measure of Gobbledygook («Простое измерение разглагольствований»)
Наиболее авторитетная метрика читабельности
Чем выше показатель, тем сложнее текст для чтения
Результатом является число лет обучения в американской системе образования, необходимых для понимания текста

* **автоматический индекс удобочитаемости (automated_readability_index)**
Чем выше показатель, тем сложнее текст для чтения
Результатом является число лет обучения в американской системе образования, необходимых для понимания текста
Значения индекса могут интерпретироваться следующим образом:
            1 - 6-7 лет
            2 - 7-8 лет
            3 - 8-9 лет
            4 - 9-10 лет
            5 - 10-11 лет
            6 - 11-12 лет
            7 - 12-13 лет
            8 - 13-14 лет
            9 - 14-15 лет
            10 - 15-16 лет
            11 - 16-17 лет
            12 - 17-18 лет

* **индекс удобочитаемости LIX (lix)**
Чем выше показатель, тем сложнее текст для чтения
Значения индекса лежат в пределах от 0 до 100 и могут интерпретироваться следующим образом:
0-30 - Очень простые тексты, детская литература
30-40 - Простые тексты, художественная литература, газетные статьи
40-50 - Тексты средней сложности, журнальные статьи
50-60 - Сложные тексты, научно-популярные статьи, профессиональная литература, официальные тексты
60-100 - Очень сложные тексты, написанные канцелярским языком, законы

### Морфологические статистики
* **gender:** neut, masc, femn, none
* **tense:** pres, past, futr, none
* **voice:** pssv, actv, none
* **person:** 2, 3, 1, none

In [1]:
import pandas as pd
import numpy as np
import matplotlib

!pip install wordcloud

from os import path
from PIL import Image
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

import matplotlib.pyplot as plt

!pip install ruts

import re
from nltk.corpus import stopwords
from ruts import SentsExtractor, WordsExtractor

import nltk
nltk.download('stopwords')

from ruts import BasicStats
from ruts import ReadabilityStats
from ruts import DiversityStats
from ruts import MorphStats


import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.manifold import TSNE
import colorsys
!pip install matplotlib==3.1.3
import glob
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

import os
from tqdm import tqdm

!pip install ebooklib

import ebooklib
from ebooklib import epub
from bs4 import BeautifulSoup

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting ruts
  Downloading ruts-0.8.0-py3-none-any.whl (51 kB)
[K     |████████████████████████████████| 51 kB 4.4 MB/s 
[?25hCollecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 3.9 MB/s 
Collecting razdel
  Downloading razdel-0.5.0-py3-none-any.whl (21 kB)
Collecting matplotlib<4.0.0,>=3.3.0
  Downloading matplotlib-3.5.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (11.2 MB)
[K     |████████████████████████████████| 11.2 MB 42.8 MB/s 
Collecting fonttools>=4.22.0
  Downloading fonttools-4.38.0-py3-none-any.whl (965 kB)
[K     |████████████████████████████████| 965 kB 43.0 MB/s 
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting matplotlib==3.1.3
  Downloading matplotlib-3.1.3-cp37-cp37m-manylinux1_x86_64.whl (13.1 MB)
[K     |████████████████████████████████| 13.1 MB 6.8 MB/s 
Installing collected packages: matplotlib
  Attempting uninstall: matplotlib
    Found existing installation: matplotlib 3.5.3
    Uninstalling matplotlib-3.5.3:
      Successfully uninstalled matplotlib-3.5.3
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
ruts 0.8.0 requires matplotlib<4.0.0,>=3.3.0, but you have matplotlib 3.1.3 which is incompatible.[0m
Successfully installed matplotlib-3.1.3


Mounted at /gdrive
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting ebooklib
  Downloading EbookLib-0.17.1.tar.gz (111 kB)
[K     |████████████████████████████████| 111 kB 7.4 MB/s 
Building wheels for collected packages: ebooklib
  Building wheel for ebooklib (setup.py) ... [?25l[?25hdone
  Created wheel for ebooklib: filename=EbookLib-0.17.1-py3-none-any.whl size=38184 sha256=8a2770de8e075c5b2924af099a44bf2f4853830773bb78239c8dca480db0b795
  Stored in directory: /root/.cache/pip/wheels/43/39/fd/db4f652431a55d28472ba7f5f7c9a8efad03b97f443a48ea2f
Successfully built ebooklib
Installing collected packages: ebooklib
Successfully installed ebooklib-0.17.1


In [2]:
dirname = "/gdrive/My Drive/epubs"

books = []
authors = []
number = 0


df = pd.DataFrame()
d = {}

def chapter_to_str(chapter):
    soup = BeautifulSoup(chapter.get_body_content(), 'html.parser')
    text = [para.get_text() for para in soup.find_all('p')]
    return ''.join(text)

for folder in tqdm(sorted(os.listdir(dirname))[6:]):
    for book_name in os.listdir(os.path.join(dirname, folder)):
        book = epub.read_epub(os.path.join(dirname, folder, book_name))
        chapters = book.get_items_of_type(ebooklib.ITEM_DOCUMENT)
        texts = {}

        for chapter in chapters:
            chapter_text = chapter_to_str(chapter).strip()

            try:

              #Добавляем базовые статистики
              bs = BasicStats(chapter_text)
              bs_data = dict(bs.get_stats())
              del bs_data['c_letters']
              del bs_data['c_syllables']

  
              #Метрики читаемости
              rs = ReadabilityStats(chapter_text)
              rs_data = dict(rs.get_stats())


              #Морфологические метрики
              ms = MorphStats(chapter_text)
              ms_data = dict(ms.get_stats())


              #Метрики лексического разнообразия
              ds = DiversityStats(chapter_text)
              ds_data = dict(ds.get_stats())

              d[str(book_name[:-4] + ' ' + chapter.get_name())] = {**bs_data, **rs_data, **ms_data['gender'], **ms_data['number'], **ms_data['tense'], **ms_data['voice'], **ms_data['person'], **ds_data}
              df = df.append(d[str(book_name[:-4] + ' ' + chapter.get_name())], ignore_index=True)

              books.append(str(book_name[:-4] + ' ' + chapter.get_name()))
              authors.append(folder)
              df.index = books
              df['author'] = authors
              df.to_csv('dataset.csv')

              #WordCloud
              #text = chapter_text
              #wordcloud = WordCloud(stopwords=stopwords.words('russian')).generate(chapter_text)
              #plt.imshow(wordcloud, interpolation='bilinear')
              #plt.axis("off")
              #plt.title(str(book_name[:-4] + ' ' + chapter.get_name()))
              #plt.show()
            
            except:
              pass
  


100%|██████████| 3/3 [4:52:12<00:00, 5844.11s/it]
