### Открываем текст и считаем простые элементы, которые лягут в основу более сложных метрик

In [27]:
text = open("random_text.txt", "r", encoding = "utf-8")

In [28]:
import re

In [29]:
ftext = list(map(lambda x:x.strip(), text))
string_text = ' '.join(ftext)

In [30]:
string_text

'Болевой порог — это не совсем конкретное понятие. То, что под этим термином понимают пациенты и врачи, несколько различается. Пытаясь суммировать и обобщить понятие болевого порога, мы получим условную степень воздействия на организм человека, при превышении которой мы ощущаем то, что называется болью. Боль — это неприятное сенсорное и эмоциональное переживание, связанное с текущим или возможным тканевым повреждением, либо описываемое в терминах такого повреждения (определение Международной ассоциации по изучению боли, IASP). Значение болевого порога для практической жизни несколько преувеличено. Так, в научно-исследовательской деятельности это важный показатель в ряде работ, вместе с которым исследуют порог возникновения болевого ощущения, порог переносимости боли, порог температурной боли, порог прессорной боли. Также оценивают порог возникновения защитных рефлексов, возникающих в ответ на управляемое по силе болевое раздражение (ноцицептивный флексорный рефлекс, мигательный рефлекс

### 1. Количество предложений в тексте + разбить текст на отдельные предложения

In [31]:
def sentence_splitter(text):
    sent_list = re.split(' *[\.\?!][\'"\)\]]* ', text)
    return sent_list


In [32]:
print(sentence_splitter(string_text))

['Болевой порог — это не совсем конкретное понятие', 'То, что под этим термином понимают пациенты и врачи, несколько различается', 'Пытаясь суммировать и обобщить понятие болевого порога, мы получим условную степень воздействия на организм человека, при превышении которой мы ощущаем то, что называется болью', 'Боль — это неприятное сенсорное и эмоциональное переживание, связанное с текущим или возможным тканевым повреждением, либо описываемое в терминах такого повреждения (определение Международной ассоциации по изучению боли, IASP)', 'Значение болевого порога для практической жизни несколько преувеличено', 'Так, в научно-исследовательской деятельности это важный показатель в ряде работ, вместе с которым исследуют порог возникновения болевого ощущения, порог переносимости боли, порог температурной боли, порог прессорной боли', 'Также оценивают порог возникновения защитных рефлексов, возникающих в ответ на управляемое по силе болевое раздражение (ноцицептивный флексорный рефлекс, мигате

In [33]:
print(len(sentence_splitter(string_text)))

18


### 2. Количество слов в тексте. Количество слов в предложении. Средняя длина предложения (в словах)

In [34]:
len(string_text.split())

418

In [35]:
def avg_sentence_length(text):
    tl = len(text.split())
    sn = len(sentence_splitter(text))
    ASL = float(tl/sn)
    return round(tl/sn, 1)

In [107]:
avg_sentence_length(string_text)

23.2

In [124]:
def avg_sent_per_word(text):
    ASPW = float(len(sentence_splitter(text)))/float(len(text.split()))
    return round(ASPW, 2)


In [125]:
avg_sent_per_word(string_text)

0.04

### 3. Количество символов в тексте. Средняя длина слова.

In [37]:
def char_count(text, ignore_spaces=True):
    if ignore_spaces:
        text = text.replace(" ", "")
    return len(text)

In [38]:
char_count(string_text)

2870

In [39]:
def avg_letter_per_word(text):
    ALPW = float(float(char_count(text))/float(len(text.split())))
    return round(ALPW, 2)


In [40]:
avg_letter_per_word(string_text)

6.87

In [41]:
def avg_letter_per_sent(text):
    ALPS = float(float(char_count(text))/float(len(sentence_splitter(text))))
    return round(ALPS, 2)

In [42]:
avg_letter_per_sent(string_text)

159.44

### 4. Подсчет слогов

In [43]:
from pyphen import Pyphen #модуль для разбиения слов на слоги от спеллчекера HunSpell + русский словарь
import string

In [44]:
exclude = list(string.punctuation)

In [45]:
def syllable_count(text): #cколько слогов в тексте
    text = text.lower()
    text = "".join(x for x in text if x not in exclude)
    dic = Pyphen(lang='ru_RU')
    count = 0
    for word in text.split(' '):
        word_hyphenated = dic.inserted(word)
        count += max(1, word_hyphenated.count("-") + 1)
    return count


In [46]:
syllable_count(string_text)

1119

In [47]:
def avg_syllab_per_word(text):
    ALPW = float(float(syllable_count(text))/float(len(text.split())))
    return round(ALPW, 2)

In [48]:
avg_syllab_per_word(string_text)

2.68

In [49]:
def avg_syllab_per_sent(text):
    ALPW = float(float(syllable_count(text))/float(len(sentence_splitter(text))))
    return round(ALPW, 2)

In [52]:
avg_syllab_per_sent(string_text)

62.17

In [83]:
#сложные слова? считаем для русского больше 3 или больше 4 слогов?
def diffsyll(text):
    count = 0
    for word in text.split():
        wrds = syllable_count(word)
        #if wrds >= 3:
        if wrds >= 4:
            count += 1
    return count

In [84]:
diffsyll(string_text)

122

In [132]:
def simple_metrics(text):
    print('Количество предложений в тексте:', len(sentence_splitter(text)))
    print('Количество слов в тексте:', len(text.split()))
    print('Средняя длина предложений:', avg_sentence_length(text))
    print('Количество символов в тексте:', char_count(text))
    print('Средняя длина слова:', avg_letter_per_word(text))
    print('Средняя длина предложений в символах:', avg_letter_per_sent(text))
    print('Количество слогов в тексте:', syllable_count(text))
    print('Среднее количество слогов в слове:', avg_syllab_per_word(text))
    print('Среднее количеcтво слогов в предложении:', avg_syllab_per_sent(text))
    print('Количество сложных слов в тексте:', diffsyll(text))
    

In [133]:
simple_metrics(string_text)

Количество предложений в тексте: 18
Количество слов в тексте: 418
Средняя длина предложений: 23.2
Количество символов в тексте: 2870
Средняя длина слова: 6.87
Средняя длина предложений в символах: 159.44
Количество слогов в тексте: 1119
Среднее количество слогов в слове: 2.68
Среднее количеcтво слогов в предложении: 62.17
Количество сложных слов в тексте: 122


### Считаем простые метрики: коэффициенты для русского и английского

Для примера: мера Флеша для рус. языка

In [54]:
def flesch_RE(text):
    ASL = avg_sentence_length(text)
    ASW = avg_syllab_per_word(text)
    FRE = 206.835 - float(1.3 * ASL) - float(60.6 * ASW)
    return round(FRE, 2)

In [55]:
flesch_RE(string_text)

14.27

Flesch-Kincaid grade level

In [111]:
def flesch_kincaid_grade(text):
    ASL = avg_sentence_length(text)
    ASW = avg_syllab_per_word(text)
    #английский язык!
    #FKRA = float(0.39 * ASL) + float(11.8 * ASW) - 15.59
    #русский
    FKRA = float(0.49 * ASL) + float(7.3 * ASW) - 16.59
    return round(FKRA, 1)

In [112]:
flesch_kincaid_grade(string_text)

14.3

SMOG

In [85]:
def smog_index(text): 
    if len(sentence_splitter(string_text)) >= 3:
        poly_syllab = diffsyll(text)
        SMOG = (1.043 * (30*(poly_syllab/len(sentence_splitter(text))))**.5) + 3.1291
        return round(SMOG, 1)
    else:
        return 0

In [86]:
smog_index(string_text)

18.0

In [99]:
def coleman_liau_index(text):
    L = round(avg_letter_per_word(text)*100, 2)
    S = round(avg_sent_per_word(text)*100, 2)
    CLI = float((0.058 * L) - (0.296 * S) - 15.8)
    return round(CLI, 2)

In [100]:
coleman_liau_index(string_text)

22.86

In [105]:
def dale_chall_score(text): #т.к. делаем сложные слова как 4 слога, все ок 
    word_count = len(string_text.split())
    count = word_count - diffsyll(text)
    per = float(count)/float(word_count)*100
    difficult_words = 100-per
    if difficult_words > 5:
        score = (0.1579 * difficult_words) + (0.0496 * avg_sentence_length(text)) + 3.6365
    else:
        score = (0.1579 * difficult_words) + (0.0496 * avg_sentence_length(text))
    return round(score, 2)

In [106]:
dale_chall_score(string_text)

9.4

In [118]:
def gunning_fog(text):
    per_diff_words = (diffsyll(text)/len(string_text.split())*100) + 5
    grade = 0.4*(avg_sentence_length(text) + per_diff_words)
    return round(grade,1)
       

In [119]:
gunning_fog(string_text)

23.0

In [122]:
def count_statistics(text):
    print('Russian Flesh reading Ease =', flesch_RE(text))
    print('Russian Flesh-Kincaid Grade =', flesch_kincaid_grade(text))
    print('Russian SMOG =', smog_index(text))
    print('Russian CLI =', coleman_liau_index(text))
    print('Russian DCH =', dale_chall_score(text))
    print('Russian Gunning Fog =', gunning_fog(text))
    

In [123]:
count_statistics(string_text)

Russian Flesh reading Ease = 14.27
Russian Flesh-Kincaid Grade = 14.3
Russian SMOG = 18.0
Russian CLI = 22.86
Russian DCH = 9.4
Russian Gunning Fog = 23.0
