# Исследование частотного словаря русского языка. Часть 1
Это исследование проведено в процессе освоения специальности Data Analyst на [Dataquest](https://www.dataquest.io/path/data-analyst). Его цель - попрактиковаться в использовании базовых приемов программирования на Python, а заодно узнать что-нибудь интересное про русский язык.
## Об источнике данных
В этой работе в качестве источника использован [Частотный словарь русского языка](http://dict.ruslang.ru/freq.php) (далее для краткости "частотный словарь"), созданный О.Н. Ляшевской и С.А. Шаровым на основе [Национального корпуса русского языка](http://www.ruscorpora.ru/en/index.html) (далее "корпус"). 

Для начала прочитаем данные из CSV-файла, доступного для загрузки на сайте частотного словаря, и преобразуем результат в двухуровневый список.

In [16]:
with open('freq.txt', 'r', encoding='utf-8') as f:   
    text = f.read()
    strings =  text.split('\n')
lst = []
for string in strings:
    lst.append(string.split('\t'))
headers = lst[:1]
lst = lst[1:len(lst)]
headers

[['Lemma', 'PoS', 'Freq(ipm)', 'R', 'D', 'Doc']]

## Вспомним части речи
Многие из нас, окончив среднюю общеобразовательную школу, через пару лет счастливо забывают большую часть того, чему их учили на уроках русского языка. А лет через пять - десять человек не то что не может дать определение деепричастию, но даже отличие глагола от существительного с трудом назовёт - если это не филолог или лингвист, конечно.

В первой части исследования мы вспомним азы русского языка (а именно части речи) и заодно посмотрим на распределение частей речи в частотном словаре.

In [51]:
posCount = {}
for one in lst:
    pos = one[1]
    if pos not in posCount:
        posCount[pos] = 0
    posCount[pos] +=1
posCount

{'a': 11573,
 'adv': 2831,
 'advpro': 129,
 'anum': 31,
 'apro': 66,
 'conj': 84,
 'intj': 188,
 'num': 62,
 'part': 182,
 'pr': 116,
 's': 22050,
 's.PROP': 2418,
 'spro': 64,
 'v': 12344}

В частотном словаре части речи обозначены латинскими буквами, так что нужно их привести к удобочитаемому виду. Но сначала вспомним, какие бывают части речи:
- существительное, отвечает на вопрос "кто?", "что?", обозначает предмет, явление, живое существо. Примеры: "человек", "книга".
- глагол, отвечает на вопрос "что делать?", обозначает действие. Примеры: "читать", "считать".
- прилагательное, отвечает на вопрос "какой?", обозначает свойство. Примеры: "большой", "красивый".
- наречие, отвечает на вопрос "как?", "когда?", "где?", "почему?". Примеры: "здесь", "интересно".
- местоимение, отвечает на вопрос "кто?", "что?", "какой?", но, в отличие от существительного или прилагательного, не называет конкретный предмет, явление, свойство, а только указывает на него. Примеры: "он", "этот", "который".
- числительное, отвечает на вопрос "сколько?", "который (по счету)?". Примеры: "сто", "двенадцатый".
- предлог, служебная часть речи, применяемая для соединения слов. Примеры: "из", "в".
- союз, служебная часть речи, служащая для соединения частей предложения. Примеры: "и", "но".
- частица, служебная часть речи, придает смысловой оттенок словам. Примеры: "-то", "-либо".
- междометие, служебная часть речи, выражает эмоции, состояния, отношение. Примеры: "ай-ай-ай", "ого!".

In [18]:
ruPosNames = {
's' : 'существительное',
'v' : 'глагол',
'a' : 'прилагательное',
'adv' : 'наречие',
'advpro' : 'местоименное наречие',
'spro' : 'местоимение-существительное',
'apro' : 'местоимение-прилагательное',
'num' : 'количественное числительное',
'anum' : 'порядковое числительное',
'pr' : 'предлог',
'conj' : 'союз',
'part' : 'частица',
'intj' : 'междометие',
's.PROP' : 'имя собственное'
}

Можно заметить, что в словаре ruPosNames больше частей речи, чем перечислено в списке с описаниями и примерами частей речи. Это из-за того, что некоторые части речи в частотном словаре представлены двумя элементами: "наречие" - как "наречие" и "местоименое наречие", "местоимение" - как "местоимение-существительное" и "местоимение-прилагательное", "числительное" - как "количественное числительное" и "порядковое числительное", а "существительное" - как "существительное" и "имя собственное".  Авторы частотного словаря таким образом разделили некоторые части речи, а я при дальнейших подсчетах их опять объединю.

In [19]:
wordsTotal = len(lst)
ruPos = {}
ruPos['наречие'] = (posCount['adv'] + posCount['advpro']) / wordsTotal
ruPos['местоимение'] = (posCount['spro']+ posCount['apro']) / wordsTotal
ruPos['числительное'] = (posCount['num']+ posCount['anum']) / wordsTotal
ruPos['существительное'] = (posCount['s']+ posCount['s.PROP']) / wordsTotal
posCombined = ['adv','advpro','spro','apro','num','anum','s','s.PROP']

for pos in posCount:
    if pos not in posCombined:
        posName = ruPosNames[pos]
        ruPos[posName] = posCount[pos] / wordsTotal
ruPos

{'глагол': 0.23675630058690397,
 'междометие': 0.0036058153362231,
 'местоимение': 0.0024933829452606546,
 'наречие': 0.05677241167670413,
 'предлог': 0.0022248647819248916,
 'прилагательное': 0.22196862173462734,
 'союз': 0.0016111089800145766,
 'существительное': 0.4692930300356746,
 'частица': 0.0034907361233649163,
 'числительное': 0.0017837277993018527}

Итак, мы видим, какую долю в словаре представляют части речи. Чтобы убедиться, что все посчитано правильно и ничего не упущено, я сложу полученные значения. В результате должна получиться единица.

In [20]:
sumPos = []
for key,val in ruPos.items():
    sumPos.append(val)
import math
math.fsum(sumPos)

1.0

Отлично, получилась единица.

Финальный шаг: я преобразую значения в проценты и сформирую удобочитаемый список.

In [52]:
for pos in ruPos:
    print (pos + ': ' + str(float('{0:.2f}'.format(ruPos[pos] *100))) + '%')

наречие: 5.68%
местоимение: 0.25%
числительное: 0.18%
существительное: 46.93%
союз: 0.16%
междометие: 0.36%
частица: 0.35%
прилагательное: 22.2%
глагол: 23.68%
предлог: 0.22%


### Выводы
Почти половину частотного словаря (46.93%) составляют существительные. Значительную часть словаря составляют также глаголы (23.68%) и прилагательные (22.2%). Наименьшую часть словаря составляют союзы (0.16%), числительные (0.18%) и предлоги (0.22%).

## Самые длинные и самые короткие слова русского языка
Сколько в русскомя языке длинных слов, а сколько - коротких? Посчитаем.

In [22]:
lenDict = {}
for word in lst:
    lemma = word[0]
    if len(lemma) not in lenDict:
        lenDict[len(lemma)] = 0
    lenDict[len(lemma)] += 1
lenDict

{1: 20,
 2: 223,
 3: 755,
 4: 1723,
 5: 3390,
 6: 4617,
 7: 6049,
 8: 7105,
 9: 6989,
 10: 6146,
 11: 4738,
 12: 3441,
 13: 2491,
 14: 1666,
 15: 1030,
 16: 674,
 17: 381,
 18: 275,
 19: 138,
 20: 78,
 21: 62,
 22: 37,
 23: 30,
 24: 23,
 25: 22,
 26: 10,
 27: 9,
 28: 4,
 29: 4,
 30: 4,
 31: 2,
 32: 1,
 34: 1}

Распределение слов по количеству букв похоже на нормальное со смещением вправо: в частотном словаре больше всего слов из восьми букв, наименьшее количество букв - одна (двадцать слов), наибольшее - 34 (одно слово).
Напишем функцию, которая выбирает из частотного словаря слова указанной длины:

In [23]:
def wLenCount(wLen,words = lst):
    sameLenList = []
    for word in words:
        lemma = word[0]
        if len(lemma) == wLen:
            sameLenList.append(word)
    return sameLenList

Теперь посчитаем однобуквенные слова и сразу посмотрим, какие это части речи:

In [24]:
oneletter = wLenCount(1)
for word in oneletter:
    print(word[0] + ', ' + ruPosNames[word[1]])

а, союз
а, междометие
а, частица
а, существительное
б, частица
в, предлог
ж, союз
ж, частица
и, союз
к, предлог
л, имя собственное
м, междометие
о, междометие
о, предлог
с, частица
с, предлог
у, междометие
у, предлог
э, междометие
я, местоимение-существительное


С однобуквенными словами все более-менее ясно, в основном это служебные части речи: предлоги, частицы, союзы и так далее. Теперь посчитаем двухбуквенные слова и, поскольку их много, все выводить не будем, а посмотрим распределение по частям речи.

In [25]:
twoletters = wLenCount(2)
posTwoLetters = {}
for word in twoletters:
    if word[1] not in posTwoLetters:
        posTwoLetters[word[1]] = 0
    posTwoLetters[word[1]] += 1
for key,pos in posTwoLetters.items():
    print(ruPosNames[key] + ': ' + str(pos))

междометие: 38
существительное: 46
частица: 28
местоимение-существительное: 10
союз: 9
имя собственное: 76
предлог: 10
местоимение-прилагательное: 2
наречие: 2
местоименное наречие: 2


Со служебными частями речи опять все понятно, они и должны быть короткими, и их много. А вот наречий - мало (всего 4, считая местоименные наречия), местоимений тоже не очень много (12). Глаголов и прилагательных вообще нет, и это логично: глаголы в инфинитиве в русском языке оканчиваются на "ть/ти" (иногда "чь"), и это уже две буквы, а для смысловой части (корня) букв уже не остаётся. Прилагательные мужского рода (именно это форма включена в частотный словарь) оканчиваются на "ой/ый/ий", и тут тоже две буквы заняты окончанием. Но вот интересно, что из 223 двухбуквенных слов целых 46 - существительные. Что это за слова? Я могу навскидку вспомнить "ад", "яд", "уж", "ёж", "ум" - ну и ещё парочку. Давайте посмотрим на все.

In [53]:
shortNouns = []
for word in twoletters:
    if word[1] == 's':
        shortNouns.append(word[0])
shortNouns

['ад',
 'аз',
 'аи',
 'ар',
 'ас',
 'бэ',
 'вэ',
 'го',
 'гэ',
 'до',
 'дэ',
 'еж',
 'ер',
 'ил',
 'ля',
 'но',
 'ню',
 'ом',
 'ор',
 'па',
 'пи',
 'пэ',
 'ре',
 'ро',
 'рэ',
 'си',
 'тэ',
 'уд',
 'уж',
 'ум',
 'ус',
 'фа',
 'щи',
 'эм',
 'эн',
 'эр',
 'эс',
 'юг',
 'юз',
 'юр',
 'юс',
 'ют',
 'яд',
 'як',
 'ям',
 'яр']

Признаться, без словаря смысл некоторых из этих слов останется для меня загадкой. 

Ещё одна загадка в том, что в списке есть все ноты, кроме "соль" и "ми". С "соль" все ясно, она не попала из-за длины. А вот куда делась "ми"? Я даже заглянула в файл с частотным словарем - нет там ноты "ми" и всё тут. Есть только слово "Ми", и это, очевидно, не нота, поскольку это имя собственное, и означает оно марку вертолётов. Нота "ми" потерялась, а составители частотного словаря и не подозревают. Вот и верь после этого авторитетным источникам.

Ну и хватит с короткими словами, перейдем к длинным. Самое длинное слово, и оно одно, состоит из 34 букв. Что это за слово?

In [55]:
words34 = wLenCount(34)
words34[0][0]

'информационно-телекоммуникационный'

Нуу... так нечестно. Это слово составное, с дефисом. А я хочу увидеть длинное-предлинное слово, которое не склеено из двух. Так что посмотрим следующее самое длинное слово, которое из 32 букв:

In [56]:
words32 = wLenCount(32)
words32[0][0]

'экспериментально-психологический'

Опять то же самое... Интересно, на какой длине начинаются "нормальные" слова, без дефисов?

In [29]:
import re
for wLength in reversed(range(32)):    
    finish = False
    words = wLenCount(wLength)
    for word in words:
        hyphenFound = re.search('\-', word[0])
        if hyphenFound is None:
            print(word[0] + ', ' + str(wLength) + ' буквы')
            finish = True
            break
    if finish == True:
        break

высокопревосходительство, 24 буквы


Итак, в частотном словаре самое длинное слово без дефиса - это устаревшее слово из 24 букв "высокопревосходительство".

## Можно ли выучить пятьдесят тысяч иностранных слов за минуту?
Весьма авторитетный и уважаемый (мною в том числе) лингвист и преподаватель Дмитрий Петров говорит, что [можно](https://youtu.be/85wd0n9g2HY?t=144).

По словам Петрова, во многих европейских языках существует около 50000 слов с одинаковым корнем и специфическим для языка окончанием, соответствующим русскому окончанию "-ция" или "-сия". В английском языке это окончания "-tion" и "-sion" соответственно. Получается, любой человек может "выучить" 50000 слов английского языка, зная правило перевода, то есть окончание, которое нужно подставить вместо "-ция/-сия".
Давайте же посмотрим, сколько слов оканчивается на "-ция" или "-сия" в частотном словаре.

In [30]:
cialst = []
for one in lst:
    cia = re.search('[сц]ия$', one[0])
    if cia is not None and one[1] == 's':
        cialst.append(one[0])
len(cialst)

635

635 слов из 52138. Не так уж много, до пятидесяти тысяч очень далеко. И тут есть две новости, хорошая и плохая:
- *Хорошая новость*. Русский язык значительно шире частотного ловаря, в нем насчитывается около 500 000 корней (см. [Википедию](https://ru.wikipedia.org/wiki/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D0%BD%D1%8B%D0%B9_%D0%B7%D0%B0%D0%BF%D0%B0%D1%81)). Среди примерно 498 тысяч слов, которые не вошли в частотный словарь, теоретически может оказаться примерно 49300 слов, оканчивающихся на "-ция" или "-сия". Сомнительно, конечно, что 10% всех слов русского языка оканчиваются на "-ция/-сия", но, раз уж мы не можем это достоверно опровергнуть (нет у меня под рукой всех 500 тысяч слов), то остается согласиться, что это не исключено.
- *Плохая новость*. Слова, попавшие в частотный словарь, более-менее часто используются в языке, а те, что "остались за бортом", используются редко либо практически никогда. Получается, что подавляющее большинство слов, оканчивающихся на "-ция/-сия", вы, вероятно, никогда в жизни не используете. 

Тут есть еще одна проблем. Если бы вы посмотрели на список слов с окончанием "-ция/-сия", то могли бы заметить, что некоторые из них переводятся иначе, чем указано в упомянутом "правиле перевода". Например, "эпилепсия" переводится на английский как "epilepsy" (не "epileption"), "грация" как "grace" (не "gration") и так далее. Давайте посчитаем, сколько таких исключений в нашем списке из 635 слов.


Для этого я запишу список слов с окончаниями "-ция/-сия" в файл "cias.txt" и затем переводу его содержание через Google Translate (вручную). Результат я запишу в файл "tions.txt" (тоже вручную).

In [31]:
ciastr = ''
for one in cialst:
    ciastr = ciastr + str(one) + '\n'
file = open('cias.txt','w')
file.write(ciastr)
file.close()

Теперь нужно создать список переводов и посчитать слова, которые заканчиваются иначе, чем на "-tion/-sion".
Следующая функция преобразует текст из указанного файла в список.

In [32]:
def readEndList(file):
    with open(file, 'r', encoding='utf-8') as f:
        text = f.read()
        strings =  text.split('\n')
        endList  = list(strings)
    return endList

Следующая функция:
- берет объект "список", созданный на предыдущем этапе
- находит слова, которые оканчиваются иначе, чем в указанном правиле
- возвращает найденные слова в виде словаря, где ключом является слово на русском, а значением - перевод этого слова.

In [33]:
def ruleMatching(endRule,endList,sourceList = cialst):
    notByRule = {}
    for ind,val in enumerate(endList):	
        if re.search(endRule, val) is None:
            notByRule[cialst[ind]] = val
    return notByRule

Теперь применим эти функции, чтобы посмотреть, сколько слов с окончанием "-ция/-сия" в переводе на английски имеют окончания, отличные от "-tion" или "-sion".

In [34]:
tions = readEndList('tions.txt')
notByRuleEng = ruleMatching('[ts]ion$', tions)
print(len(notByRuleEng))
notByRuleEng

118


{'акация': 'acacia',
 'акция': 'stock',
 'апелляция': 'appeal',
 'аппликация': 'applique',
 'ассигнация': 'banknote',
 'аудиенция': 'audience',
 'вакансия': 'job vacancy',
 'герметизация': 'sealing',
 'гидроизоляция': 'waterproofing',
 'гипоксия': 'hypoxia',
 'гравитация': 'gravity',
 'грация': 'grace',
 'дегазация': 'degassing',
 'дегустация': 'tasting',
 'деменция': 'dementia',
 'детализация': 'detailing',
 'дивергенция': 'divergence',
 'диверсия': 'sabotage',
 'дирекция': 'directorate',
 'дискредитация': 'discredit',
 'диспетчеризация': 'dispatching',
 'диссертация': 'thesis',
 'дистанция': 'distance',
 'дотация': 'subsidy',
 'еврооблигация': 'eurobonds',
 'звукоизоляция': 'soundproofing',
 'иллюминация': 'illuminations',
 'импотенция': 'impotence',
 'инвентаризация': 'inventory',
 'инвестиция': 'investment',
 'индексация': 'indexing',
 'индульгенция': 'indulgence',
 'инерция': 'inertia',
 'инкрустация': 'inlay',
 'инстанция': 'instance',
 'инструкция': 'manual',
 'интеллигенция': '

118 исключений из 635 слов! По-моему, многовато.

Теперь посмотрим, скажем, на португальский. Из все тех же уроков Дмитрия Петрова мы узнаем, что окончаниям "-ция/-сия" в португальском соответствет окончание "-ção". После перевода на португальский (его вы найдете в файле caos.txt) снова используем наши функции, чтобы проверить список на наличие исключений.

In [35]:
caos = readEndList('caos.txt')
notByRulePort = ruleMatching('ção$', caos)
print(len(notByRulePort))
notByRulePort

191


{'авиация': 'aeronave',
 'автоинспекция': 'inspeção automática',
 'автостанция': 'estação de ônibus',
 'агрессия': 'agressão',
 'акация': 'acácia',
 'акция': 'stock',
 'аннотация': 'resumo',
 'апелляция': 'apelo',
 'ассигнация': 'nota de banco',
 'аттестация': 'atestado',
 'аудиенция': 'audiência',
 'вакансия': 'vaga',
 'версия': 'versão',
 'видеопродукция': 'produção de video',
 'вич-инфекция': 'Infecção por HIV',
 'геоинформация': 'geoinformation',
 'гидроэлектростанция': 'estação de energia hidrelétrica',
 'гипоксия': 'hipoxia',
 'горадминистрация': 'administração da cidade',
 'госкомиссия': 'comissão estadual',
 'гравитация': 'gravidade',
 'грация': 'graça',
 'девиация': 'desvio',
 'декорация': 'cenário',
 'деменция': 'demência',
 'депопуляция': 'despovoamento',
 'депрессия': 'depressão',
 'детализация': 'detalhando',
 'дивергенция': 'divergência',
 'диверсия': 'sabotagem',
 'дирекция': 'diretor',
 'дискредитация': 'desacreditar',
 'дискуссия': 'debate',
 'дислокация': 'deslocament

И тут аж 191 исключение! Хотя стоп, если вы посмотрите на список португальских слов, то можете заметить еще два окончания, которые повторяются многократно: "-ssão" и "-cia". Похоже, нужно добавить их в правило.

In [36]:
notByRulePort2 = ruleMatching('([çs{2}]ão$)|(cia$)', caos)
print(len(notByRulePort2))
notByRulePort2

123


{'авиация': 'aeronave',
 'автоинспекция': 'inspeção automática',
 'автостанция': 'estação de ônibus',
 'акция': 'stock',
 'аннотация': 'resumo',
 'апелляция': 'apelo',
 'ассигнация': 'nota de banco',
 'аттестация': 'atestado',
 'вакансия': 'vaga',
 'видеопродукция': 'produção de video',
 'вич-инфекция': 'Infecção por HIV',
 'геоинформация': 'geoinformation',
 'гидроэлектростанция': 'estação de energia hidrelétrica',
 'гипоксия': 'hipoxia',
 'горадминистрация': 'administração da cidade',
 'госкомиссия': 'comissão estadual',
 'гравитация': 'gravidade',
 'грация': 'graça',
 'девиация': 'desvio',
 'декорация': 'cenário',
 'депопуляция': 'despovoamento',
 'детализация': 'detalhando',
 'диверсия': 'sabotagem',
 'дирекция': 'diretor',
 'дискредитация': 'desacreditar',
 'дискуссия': 'debate',
 'дислокация': 'deslocamento',
 'диспансеризация': 'exame médico profilático',
 'диспетчеризация': 'despachando',
 'диссертация': 'tese',
 'допэмиссия': 'emissão adicional',
 'дотация': 'subsídio',
 'евро

Получилось 123 исключения вместо 191. С одной стороны, чем меньше исключений, тем лучше. С другой, правило перевода усложнилось: теперь при переводе на португальский нужно выбрать между "-ção/-ssão" (которые звучат одинаково) и "-cia".

Теперь давайте объединим два списка исключений, английски и португальский, и найдем те слова, которые на оба языка переводятся не по правилу.

In [37]:
notByRuleEngPort = {}
for key,value in notByRulePort2.items():
    if key in notByRuleEng:
        notByRuleEngPort[key] = []
        notByRuleEngPort[key].append(notByRuleEng[key])
        notByRuleEngPort[key].append(value)		
print(len(notByRuleEngPort))
notByRuleEngPort

63


{'акция': ['stock', 'stock'],
 'апелляция': ['appeal', 'apelo'],
 'ассигнация': ['banknote', 'nota de banco'],
 'вакансия': ['job vacancy', 'vaga'],
 'гипоксия': ['hypoxia', 'hipoxia'],
 'гравитация': ['gravity', 'gravidade'],
 'грация': ['grace', 'graça'],
 'детализация': ['detailing', 'detalhando'],
 'диверсия': ['sabotage', 'sabotagem'],
 'дирекция': ['directorate', 'diretor'],
 'дискредитация': ['discredit', 'desacreditar'],
 'диспетчеризация': ['dispatching', 'despachando'],
 'диссертация': ['thesis', 'tese'],
 'дотация': ['subsidy', 'subsídio'],
 'еврооблигация': ['eurobonds', 'Eurobonds'],
 'инвентаризация': ['inventory', 'inventário'],
 'инвестиция': ['investment', 'investimento'],
 'инструкция': ['manual', 'manual'],
 'интеллигенция': ['intelligentsia', 'intelligentsia'],
 'канализация': ['sewerage', 'esgoto'],
 'квитанция': ['receipt', 'recibos'],
 'коммерция': ['commerce', 'comércio'],
 'комплектация': ['equipment', 'escolhendo'],
 'комплекция': ['complexion', 'complexion'],

63 слова. 10% от списка русских слов с окончанием "-ция/-сия" приведут к ошибке, если попытаться перевести их на английский или португальский по правилу. Конечно, если у вас развито чувство языка, вы можете интуитивно опеределить некоторые из этих слов, такие как "настурция" ("nasturtium") или "специя" ("spice"). Что касается меня, я не уверена, что определила бы даже половину.

### Вывод
Можно ли выучить пятьдесят тысяч иностранных слов за минуту? Может быть, и можно, но:
- подавляющее большинство из этих слов вы, вероятно, ни разу в жизни не используете;
- вероятность ошибиться, переводя слова с окончанием на "-ция/-сия" по правилу, довольно велика.

P.s. Вообще-то я думаю, что Дмитрий Петров просто оговорился, потому что в других передачах он уже не говорит о пятидесяти тысячах слов, а говорит просто про "тысячи".

## Легкопроизносимые и труднопроизносимые слова

Попробуйте произнести фразу "У вальдшнепа всклокоченная шёрстка". Если русский - ваш родной язык, то с этой задачей вы справитесь, глазом не моргнув (даже несмотря на то, что у вальдшнепа шёрстки, в общем-то, нет). А между тем в каждом из слов этой фразы (кроме предлога "у") есть сочетание нескольких согласных букв подряд. Для иностранцев, изучающих русский, такие слова могут оказаться настоящим препятствием.

В этой части исследования мы посмотрим, сколько же в нашем частотном словаре слов с труднопроизносимыми сочетаниями согласных (четыре или больше согласных подряд).

Здесь следует принять во внимание, что в русском языке есть не только гласные и согласные буквы, но буквы, которые не относятся ни к гласным, ни к согласным: "ъ", "ь" и "й". Поэтому некоторые сочетания букв следует считать сочетаниями согласных с учётом этого факта. Так, например, в конце слова "вскользь" после гласной буквы "о" идут четыре буквы, две из которых ("л" и "з") - согласные, а две другие (мягкие знаки) служат только для смягчения согласных. Поэтому, с точки зрения произношения, эти четыре буквы вернее было бы считать сочетанием двух согласных.

Чтобы упростить задачу и не писать сложных регулярных выражений, которые учитывали бы эту особенность русского языка, мы проведём предварительную обработку частотного словаря и создадим для каждого слова *звуковую модель*, в которой гласные будут обозначены латинской буквой *a*, согласные - буквой *b*, а буквы "ъ", "ь" и "й" будут вовсе удалены. Удалим мы также небуквенные символы: дефисы и апострофы. Результат запишем в словарь modelDict, где ключом будет русское слово, а значением - звуковая модель этого слова.

In [38]:
modelDict = {}
for one in lst:
    modelCons = re.sub('[БбВвГгДдЖжЗзКкЛлМмНнПпРрСсТтФфХхЦцЧчШшЩщ]','b',one[0])
    modelVow = re.sub('[АаЯяОоЁёЭэЕеУуЮюИиЫы]','a',modelCons)
    model = re.sub('[Ййьъ\-\']','',modelVow)
    modelDict[one[0]] = model
print(len(modelDict))
print(modelDict['ай-ай-ай'])
print(modelDict['съесть'])

51733
aaa
babb


Отлично, словарь готов. Проверим, все ли верно обработано, не осталось ли символов, которые не являются ни a, ни b. 

In [40]:
notAB = []
for key,model in modelDict.items():
    if re.search('[^ab]', model) is not None:
        notAB.append(model)
print(notAB)

[]


Напишем функцию, которая берет словарь и проверяет модель на соответствие регулярному выражению (pattern)

In [41]:
def countMatches(pattern):
    lst = []
    for key,model in modelDict.items():
        if re.search(pattern, model) is not None:
            lst.append(key)
    return lst

И теперь используем эту функцию, чтобы подсчитать количество труднопроизносимых слов, то есть слов, где есть четыре или больше согласных подряд.

In [43]:
hardWords = countMatches('bbbb')
print(len(hardWords))
hardWords[:10]

1125


['аббатство',
 'абонентский',
 'абстрагирование',
 'абстрагировать',
 'абстрагироваться',
 'абстрактно',
 'абстрактный',
 'абстракционизм',
 'абстракционист',
 'абстракция']

1125 труднопроизносимых слов в частотном словаре. Много это или мало? Не знаю. Давайте сравним с количеством легкопроизносимых слов, а такими будем считать слова, где гласная чередуется с согласной. Ну и слишком короткие слова считать не будем, возьмем слова минимум из трех слогов.

In [44]:
easyWords = countMatches('^b?(ab){2,}ab?$')
print(len(easyWords))
print(easyWords[:10])

5297
['абажур', 'абориген', 'аварийный', 'авеню', 'авитаминоз', 'авокадо', 'Агата', 'агитатор', 'агитировать', 'агонизировать']


Легкопроизносимых слов в словаре 5297. А что насчет слов, где несколько подряд гласных? Сколько в частотном словаре таких вот певучих слов?

In [45]:
melodWords = countMatches('aaa')
print(len(melodWords))
print(melodWords)

50
['ааа', 'а-а-а', 'а-а-а-а', 'авиаотряд', 'ай-ай-ай', 'ай-яй-яй', 'брандмауэр', 'геоинформатика', 'геоинформационный', 'геоинформация', 'геоэкологический', 'да-а-а', 'Иоанн', 'краеугольный', 'метеоусловия', 'не-е-ет', 'неуемный', 'неуют', 'неуютно', 'неуютный', 'неуязвимость', 'неуязвимый', 'ОАО', 'ОИЯИ', 'ой-ой-ой', 'ООО', 'о-о-о', 'протоиерей', 'радиоактивность', 'радиоактивный', 'радиоаппаратура', 'радиоастроном', 'радиоастрономия', 'радиоизлучение', 'радиоисточник', 'радиоузел', 'радиоуправляемый', 'радиоэлектроника', 'радиоэлектронный', 'радиоэфир', 'своеобразие', 'своеобразно', 'своеобразный', 'своеобычный', 'ууу', 'у-у-у', 'что-о-о', 'Эйзенхауэр', 'эээ', 'э-э-э']


Всего-то 50. Не очень певуч наш язык. Заметили, как замечательно получаются певучие слова, составленные из слова "радио" и другого слова с первой гласной?

## Считаем омонимы
Вы могли заметить, что количество элементов в словаре modelDict (словарь "звуковых моделей") меньше, чем количество элементов в частотном словаре. Взглянем на это еще раз:

In [47]:
print('Элементов в частотном словаре: ' + str(wordsTotal))
print('Элементов в словаре "звуковых моделей": ' + str(len(modelDict)))

Элементов в частотном словаре: 52138
Элементов в словаре "звуковых моделей": 51733


Разница связана с наличием в частотном словаре *омонимов*, то есть слов, которые пишутся одинаково, но имеют разное значение. Омонимы, которые относятся к одной части речи (например, существительное "лук" может обозначать растение или оружие) по частотному словарю вычислить не получится, так как такие омонимы в нем не разделены. А вот омонимы, которые относятся к разным частям речи (например, существительное "печь" - то есть печка, и глагол "печь" - то есть выпекать) посчитать можно. 

Для начала составим словарь omd, в котором ключом является слово, а значением - список соответствующих ему частей речи. В основном список частей речи будет содержать только один элемент, так как большинству слов соответствует только одна часть речи.

In [48]:
omd = {}
for word in lst:
    lemma = word[0]
    pos = word[1]
    if lemma not in omd:
        omd[lemma] = []
    omd[lemma].append(ruPosNames[pos])    
omd['слово']    

['существительное']

Теперь из полученного словаря omd извлечем омонимы, то есть слова, которым соответствует больше одной части речи. Извлеченные омонимы добавим в словарь omfin.

In [50]:
omfin = {}
for word in omd:
    if len(omd[word]) > 1:
        omfin[word] = omd[word]
print(len(omfin))
omfin

378


{'Постников': ['имя собственное', 'имя собственное'],
 'а': ['союз', 'междометие', 'частица', 'существительное'],
 'ага': ['междометие', 'частица', 'существительное'],
 'аз': ['существительное', 'местоимение-существительное'],
 'аккурат': ['наречие', 'существительное'],
 'але': ['междометие', 'частица'],
 'аль': ['союз', 'частица'],
 'альфа': ['прилагательное', 'существительное'],
 'аминь': ['наречие', 'частица'],
 'барокко': ['прилагательное', 'существительное'],
 'бац': ['наречие', 'междометие'],
 'беда': ['наречие', 'существительное'],
 'бездомный': ['прилагательное', 'существительное'],
 'безработный': ['прилагательное', 'существительное'],
 'белый': ['прилагательное', 'существительное'],
 'бис': ['междометие', 'существительное'],
 'благо': ['союз', 'существительное'],
 'благоверный': ['прилагательное', 'существительное'],
 'блатной': ['прилагательное', 'существительное'],
 'ближний': ['прилагательное', 'существительное'],
 'блин': ['междометие', 'существительное'],
 'бля': ['междо

Итак, мы нашли 378 омонимов в частотном словаре. В полученном словаре омонимов отражается интересный лингвистический факт: в русском языке (и не только в русском, кстати) довольно часто прилагательное "превращается" в существительное, когда существительное как бы подразумевается, потому что другого не может быть. Например, "верующий человек" и просто "верующий". В первом случае "верующий" - это прилагательное, а во втором - существительное (подразумевается, что верующий - это, конечно, человек, а не зверь или предмет).