In [1]:
import re

def tokenize_word_and_transcription(word, transcription):
    """
    Разбивает слово и транскрипцию на соответствующие слоги.

    Args:
        word (str): Слово на русском языке.
        transcription (str): Транскрипция слова в IPA.

    Returns:
        list of tuples: Список пар (слог слова, слог транскрипции).
    """
    # Функция для разбиения слова на слоги
    def split_russian_syllables(text):
        # Деление по гласным (включая мягкие и твёрдые согласные вокруг)
        syllable_pattern = r'[бвгджзклмнпрстфхцчшщьъ]*[аеёиоуыэюя]+[бвгджзклмнпрстфхцчшщьъ]*'
        return re.findall(syllable_pattern, text)
    
    # Функция для разбиения транскрипции на слоги
    def split_ipa_syllables(text):
        # Учитываем ударение (ˈ) и возможные слоговые границы (.)
        syllable_pattern = r"[ˈ]?[a-zʃʒʲɪɛɔʌɨʷː]+[a-zʃʒʲɪɛɔʌɨʷː]*"
        return re.findall(syllable_pattern, text)

    # Разделение слова и транскрипции на слоги
    word_syllables = split_russian_syllables(word)
    transcription_syllables = split_ipa_syllables(transcription)

    # Проверка, что количество слогов совпадает
    if len(word_syllables) != len(transcription_syllables):
        raise ValueError(
            f"Несоответствие количества слогов: {len(word_syllables)} в слове, "
            f"{len(transcription_syllables)} в транскрипции"
        )

    # Возвращаем пары "слог слова - слог транскрипции"
    return list(zip(word_syllables, transcription_syllables))

# Пример использования
word = "привет"
transcription = "priˈvʲet"

result = tokenize_word_and_transcription(word, transcription)
for word_syllable, transcription_syllable in result:
    print(f"{word_syllable} - {transcription_syllable}")


прив - pri
ет - ˈvʲet


In [2]:
import re

def tokenize_word_and_transcription(word, transcription):
    """
    Разбивает слово и транскрипцию на соответствующие слоги.

    Args:
        word (str): Слово на русском языке.
        transcription (str): Транскрипция слова в IPA.

    Returns:
        list of tuples: Список пар (слог слова, слог транскрипции).
    """
    # Функция для разбиения слова на слоги
    def split_russian_syllables(text):
        # Деление по гласным (включая мягкие и твёрдые согласные вокруг)
        syllable_pattern = r'[бвгджзклмнпрстфхцчшщьъ]*[аеёиоуыэюя]+[бвгджзклмнпрстфхцчшщьъ]*'
        return re.findall(syllable_pattern, text)
    
    # Функция для разбиения транскрипции на слоги
    def split_ipa_syllables(text):
        # Учитываем ударение (ˈ) и возможные слоговые границы (.)
        syllable_pattern = r"[ˈ]?[a-zʃʒʲɪɛɔʌɨʷː]+[a-zʃʒʲɪɛɔʌɨʷː]*"
        return re.findall(syllable_pattern, text)
    

    # Разделение слова и транскрипции на слоги
    word_syllables = split_russian_syllables(word)
    transcription_syllables = split_ipa_syllables(transcription)

    # Проверка, что количество слогов совпадает
    if len(word_syllables) != len(transcription_syllables):
        raise ValueError(
            f"Несоответствие количества слогов: {len(word_syllables)} в слове, "
            f"{len(transcription_syllables)} в транскрипции"
        )

    # Возвращаем пары "слог слова - слог транскрипции"
    return list(zip(word_syllables, transcription_syllables))

# Пример использования
word = "привет"
transcription = "priˈvʲet"

result = tokenize_word_and_transcription(word, transcription)
for word_syllable, transcription_syllable in result:
    print(f"{word_syllable} - {transcription_syllable}")

прив - pri
ет - ˈvʲet


In [3]:
import re

# Определение гласных для русского и английского языков
VOWELS_RU = r'[аеёиоуыэюя]'
VOWELS_IPA = r'[aeiouɐɛɪɔʊəɨæɜɑɒ]'

# Разделение слова на слоги для русского языка
def split_russian_word(word):
    """
    Делит русское слово на слоги, основываясь на гласных.
    """
    syllable_pattern = rf'[бвгджзклмнпрстфхцчшщьъ]*{VOWELS_RU}(?=[бвгджзклмнпрстфхцчшщьъ]*{VOWELS_RU}|$)'
    return re.findall(syllable_pattern, word)

# Разделение IPA-транскрипции на слоги
def split_ipa_transcription(ipa):
    """
    Делит IPA-транскрипцию на слоги, учитывая гласные как ядра.
    """
    syllable_pattern = rf'''
        [ˈˌ]?                     # Ударения
        [pbtdkgfvszʃʒmnŋlrwjhɾʔ]* # Начальные согласные
        {VOWELS_IPA}              # Гласные (ядро слога)
        [pbtdkgfvszʃʒmnŋlrwjhɾʔ]* # Конечные согласные
        (?:\.|$)                  # Граница слога или конец
    '''
    return re.findall(syllable_pattern, ipa, re.VERBOSE)

# Основная функция для работы с русским словом и его IPA-транскрипцией
def process_word_with_transcription(word, ipa_transcription):
    """
    Делит русское слово и его IPA-транскрипцию на слоги и сопоставляет их.
    """
    # Разделение на слоги
    russian_syllables = split_russian_word(word)
    ipa_syllables = split_ipa_transcription(ipa_transcription)
    
    # Вычисляем минимальную длину для сопоставления
    min_len = min(len(russian_syllables), len(ipa_syllables))
    
    # Сопоставление
    matched = list(zip(russian_syllables[:min_len], ipa_syllables[:min_len]))
    
    # Остатки
    remaining_russian = russian_syllables[min_len:]
    remaining_ipa = ipa_syllables[min_len:]
    
    return {
        "russian_syllables": russian_syllables,
        "ipa_syllables": ipa_syllables,
        "matched": matched,
        "remaining_russian": remaining_russian,
        "remaining_ipa": remaining_ipa,
    }

# Пример использования
if __name__ == "__main__":
    # Пример для русского слова
    russian_word = "трансформация"
    ipa_transcription = "trɐns.fɐrˈmat͡sɨ.jə"
    
    result = process_word_with_transcription(russian_word, ipa_transcription)
    
    print("Русские слоги:", result["russian_syllables"])
    print("IPA слоги:", result["ipa_syllables"])
    print("Сопоставленные слоги:", result["matched"])
    print("Оставшиеся русские слоги:", result["remaining_russian"])
    print("Оставшиеся IPA слоги:", result["remaining_ipa"])


Русские слоги: ['тра', 'нсфо', 'рма', 'ци', 'я']
IPA слоги: ['trɐns.', 'sɨ.', 'jə']
Сопоставленные слоги: [('тра', 'trɐns.'), ('нсфо', 'sɨ.'), ('рма', 'jə')]
Оставшиеся русские слоги: ['ци', 'я']
Оставшиеся IPA слоги: []
