## Grapheme2Phoneme

Исходный проект: https://github.com/kdorichev/russian_g2p/tree/master

Русский проект (один из создателей вёл лекцию, которую скидывал Миша)

Позволяет: 

- Автоматически расставлять ударения в известных модели словах
- Транскрибировать, т.е. переводить буквы слова (которые пишут) в фонемы (которые произносят)

In [11]:
from russian_g2p.Accentor import Accentor  # модуль, отвечающий за расстановку ударений
from russian_g2p.Grapheme2Phoneme import Grapheme2Phoneme # модуль, отвечающий за транскрибирование

In [40]:
data_set = [  # эталонный набор Миши
    'лис',
    'жук',
    'мир',
    'мощь',
    'бич',
    'зять',
    'шах',
    'царь',
    'фон',
    'суп',
    'любимый',
    'обязательно',
    'хорошо',
    'женщина',
    'помогать',
    'офицер',
    'химический',
    'наблюдать',
    'девушка',
    'составлять',
    'голосистыйскворец',
    'бабушкинаматрёшка',
    'месторождениезолота',
    'коричневаяциновка',
    'пуховыйплаток',
    'серебристаяящерица',
    'милыйбегемотик',
    'быстроходныйкатерперевозилпассажировчерезозеро',
    'лидаподсказаладашедомашнеезадание',
    'апельсиновыйлимонадналиливхрустальныйграфин',
    'вэтомпомещенииработаютучёные',
    'усофиинасарафаненовыепуговицы'
]

### Расстановка ударений

In [104]:
accentor = Accentor() # модель, расстанавливающая ударения для известных ей слов

##### ОСОБЕННОСТЬ ACCENTOR'a - принимает на вход только списки списков

- т.е. одно слово будет подаваться как [['слово']]

In [105]:
accentor.do_accents([['сарафан'],['офицер'],['цыновка'],['мощь']]) 

[['сарафа+н', 'офице+р', 'цыновка', 'мо+щь']]

##### Как видим, некоторые слова для неё неизвестны, но, тем не менее, она их выдаёт (пусть и без изменений)

### Транскрибирование

In [99]:
transcriptor = Grapheme2Phoneme() # модель, переводящая ВСЕ слова в фонетический вид

In [100]:
transcriptor.word_to_phonemes('бегемо+т')

['B0', 'I', 'G0', 'I', 'M', 'O0', 'T']

In [101]:
transcriptor.word_to_phonemes('бегемот') # если на букве О не стоит ударение, но расценивается как А



['B0', 'I', 'G0', 'I', 'M', 'A', 'T']

##### Как и в первом случае, для слов без ударение выход выдаётся имеется, ОДНАКО:

- Если в слове буква "О" является ударной
- Если это не было выявленно на предыдущем этапе

На месте "О" ставится её безударная форма произношения: "А"

Т.к. с помощью функции получилось определить ударение лишь первых 20 слов, ударение во фразах были расставлены вручную 

In [113]:
accented_original_list = ['ли+с',
  'жу+к',
  'ми+р',
  'мо+щь',
  'би+ч',
  'зя+ть',
  'ша+х',
  'ца+рь',
  'фо+н',
  'су+п',
  'люби+мый',
  'обяза+тельно',
  'хорошо+',
  'же+нщина',
  'помога+ть',
  'офице+р',
  'хими+ческий',
  'наблюда+ть',
  'де+вушка',
  'составля+ть',
  'голоси+стыйскворе+ц',
  'ба+бушкинаматрёшка',
  'месторожде+ниезо+лота',
  'коричневаяцино+вка',
  'пухо+выйплато+к',
  'серебри+стая+ящерица',
  'милыйбегемо+тик',
  'быстрохо+дныйка+терперевози+лпассажи+ровче+резо+зеро',
  'ли+даподсказа+лада+шедома+шнеезада+ние',
  'апельси+новыйлимона+днали+ливхруста+льныйграфи+н',
  'вэ+томпомеще+ниирабо+таютучёные',
  'усофи+инасарафа+нено+выепу+говицы']

### Набор эталонных транскрипций

In [139]:
transcribed_original_list = [transcriptor.word_to_phonemes(i) for i in accented_original_list]
transcribed_original_list[:10]

[['L0', 'I0', 'S'],
 ['ZH', 'U0', 'K'],
 ['M0', 'I0', 'R'],
 ['M', 'O0', 'SH0'],
 ['B0', 'I0', 'TSH0'],
 ['Z0', 'A0', 'T0'],
 ['SH', 'A0', 'KH'],
 ['TS', 'A0', 'R0'],
 ['F', 'O0', 'N'],
 ['S', 'U0', 'P']]

In [137]:
joined_trans_org_list = ['-'.join(i) for i in transcribed_original_list]
joined_trans_org_list[15:25]

['A-F0-I-TS-E0-R',
 'KH0-I-M0-I0-TSH0-I-S-K0-I-J0',
 'N-A-B-L0-U-D-A0-T0',
 'D0-E0-V-U-SH-K-A',
 'S-A-S-T-A-V-L0-A0-T0',
 'G-A-L-A-S0-I0-S-T-Y-J0-S-K-V-A-R0-E0-TS',
 'B-A0-B-U-SH-K0-I-N-A-M-A-T-R0-O-SH-K-A',
 'M0-I-S-T-A-R-A-ZH-D0-E0-N0-I-J0-I-Z-O0-L-A-T-A',
 'K-A-R0-I-TSH0-N0-I-V-A-J0-I-TS-Y-N-O0-F-K-A',
 'P-U-KH-O0-V-Y-J0-P-L-A-T-O0-K']

Т.к. Whisper не сглаживает ошибки мы можем переводить распознанный текст в фонетическую форму для дальнейшей оценки/сравнения

###  При выявлении ошибок, акцент делается на замены СОГЛАСНЫХ, поэтому:

- Цель номер 1 - сравнение слов без учёта возможных несоответствий ударений (чтобы научиться выявлять **конкретные замены** согласных (Ц-С)
- Цель номер 2 - определение ударений как в неизвестных модели словах, так и в словах с аудиозаписей (чтоб не ухудшать оценку произношения там, где ошибки нет (прим. человек произносит слово верно, но из-за нераспознанной ударной О программа засчитывает ошибку))