# imports and loads

In [36]:
import numpy as np
import pandas as pd
from ruts import ReadabilityStats

In [26]:
with open('my_sentences.txt', 'r', encoding='utf-8') as f:
    lines = [line.strip().split(';') for line in f.readlines() if line.strip() and not line.startswith('#')] 

1. Тест Флеша-Кинкайда (Flesch-Kincaid)
Индекс удобочитаемости Флеша (Flesch Reading Ease, FRES) - измеряет легкость восприятия текста.

Формула (для английского), где
ASL - средняя длина предложения в словах,
ASW - среднее количество слогов в слове.

Шкала от 0 до 100, где выше - легче читать.

Для русского языка адаптированы похожие формулы с учётом особенностей языка.

2. Индекс Колман-Лиау (Coleman-Liau Index)
Основан на количестве букв в словах и количестве слов в предложении.

Формула, где кол-во букв, слов, предложений

Результат - предполагаемый уровень образования, необходимый для понимания текста.

3. Индекс SMOG (Simple Measure of Gobbledygook)
Оценивает сложность текста по количеству слов с тремя и более слогами в выборке из 30 предложений.

Формула, где число полисиллабических слов, число предложений
Показывает количество лет обучения, необходимое для понимания текста.

Часто используется для оценки медицинских текстов и текстов для широкой аудитории.

4. Автоматический индекс удобочитаемости (Automated Readability Index, ARI)
Основан на количестве букв и слов в тексте, а не на слогах.

Формула, где буквы, слова, предложения
Результат - уровень класса в американской системе образования, необходимый для понимания текста.

5. Индекс удобочитаемости LIX (Läsbarhetsindex)
Разработан Карлом-Хуго Бьёрнссоном, широко используется в скандинавских странах.

Формула, где число слов, число предложений, число слов длиной > 6 букв, 
Чем выше значение, тем сложнее текст:

<30 - очень простой текст,

30–40 - простой,

40–50 - средний уровень,

50–60 - сложный,

60 - очень сложный.

# analysis

In [37]:
texts, questions, answers, types, idiom_ids, groups = [], [], [], [], [], []
for line in lines:
      if int(line[3]) != 0:
        texts.append(' '.join(line[0].split(' / ')))

In [38]:
res = []
for i, text in enumerate(texts):
    rs = ReadabilityStats(text)
    res.append((i, rs.get_stats()))

In [40]:
df = pd.DataFrame([{**{'text_id': text_id}, **metrics} for text_id, metrics in res])
df.head()

Unnamed: 0,text_id,flesch_kincaid_grade,flesch_reading_easy,coleman_liau_index,smog_index,automated_readability_index,lix
0,0,11.19,10.935,15.711667,12.55328,16.667667,87.0
1,1,8.756667,30.968333,12.961667,8.891154,13.537667,87.0
2,2,9.973333,20.951667,14.336667,12.55328,15.102667,87.0
3,3,7.54,40.985,11.586667,8.891154,11.972667,87.0
4,4,12.406667,0.918333,19.378333,15.363328,20.841,87.0


In [45]:

# Calculate statistics
stats = df.drop(columns='text_id').agg(['mean', 'std', 'min', 'max'])

# For pandas versions that don't have 'range' directly, use:
stats.loc['range'] = df.drop(columns='text_id').agg(lambda x: x.max() - x.min())

In [46]:
stats

Unnamed: 0,flesch_kincaid_grade,flesch_reading_easy,coleman_liau_index,smog_index,automated_readability_index,lix
mean,9.225862,28.643445,12.689198,14.978185,13.251896,76.523669
std,2.605239,22.071924,4.366695,3.783336,4.961226,12.496907
min,4.498333,-15.083182,3.884286,8.891154,3.292714,51.461538
max,14.018182,68.435,22.488182,21.706315,24.401864,95.333333
range,9.519848,83.518182,18.603896,12.815162,21.109149,43.871795


In [29]:
text = "Ног нет, а хожу, рта нет, а скажу: когда спать, когда вставать, когда работу начинать"

# Вычисление метрик
rs = ReadabilityStats(text)
rs.get_stats()

{'flesch_kincaid_grade': 2.926666666666666,
 'flesch_reading_easy': 87.16833333333334,
 'coleman_liau_index': 1.1700000000000053,
 'smog_index': 0.05,
 'automated_readability_index': 0.2941666666666656,
 'lix': 35.0}