# Custom Andalusian speech transliteration notebook

# Preparation

In [None]:
# Imports
import re
import itertools    
import roman

In [None]:
# Set a sample text to transliterate
text = """
Málaga, ciudad bañada por el sol y cuna de artistas, te invita a descubrir su encanto. Desde sus playas paradisíacas en la Costa del Sol hasta su rica historia y cultura, con la Alcazaba, el Teatro Romano y el Museo Picasso como estandartes. Déjate envolver por la gastronomía malagueña, con sus espetos de sardinas, gazpacho, boquerones en vinagre y deliciosas tapas. Disfruta del ambiente acogedor de la ciudad, paseando por sus calles, terrazas y animada vida nocturna. Explora la naturaleza exuberante de sus Montes de Málaga y el Caminito del Rey. Déjate llevar por sus fiestas y tradiciones, como la Feria de Málaga o la Semana Santa. Admira el arte y la artesanía local, encuentra todo lo que buscas en sus tiendas y mercados. Málaga es un destino perfecto para familias, parejas, amigos, amantes de la cultura y la naturaleza. Ven a Málaga y descubre un sinfín de experiencias que te enamorarán.
"""

In [None]:
def show_text(text):
    """
    Formats the text for ease of use
    """
    lines = text.split(', ')
    for line in lines:
        print(line.strip())

show_text(text)

La serenata es una forma musical concebida para orquesta de cuerda
de viento
mixta
conjunto de cámara o percusión.

Fue un divertimento que alcanzó enorme popularidad durante el siglo xviii: La serenata se tocaba
al anochecer
muchas veces al aire libre
y hacía las delicias de las veladas en los jardines de los palacios de los aristócratas. Curiosamente el nombre no deriva de sera
que en italiano es «tarde»
sino de sereno
«calmado» o «reposado». El origen de la serenata está en las baladas que los enamorados cantaban frente a las ventanas de la amada al atardecer cuando algo no había salido bien en la relación.

En el siglo xviii
constaba de hasta diez movimientos. Wolfgang Amadeus Mozart compuso trece serenatas
normalmente para celebrar un acto social: bodas
fiestas cortesanas
etc. Las serenatas de Mozart comienzan con un movimiento de marcha que tiene forma de sonata; dos movimientos lentos alternan con dos minuetos; siguen un rondó y un final muy brillante
que a veces también es una 

## Utils

In [None]:
# Sets
non_accented_vowels = 'aeiouAEIOUÜ'
accented_vowels = 'áéíóúüÁÉÍÓÚ'
vowels = non_accented_vowels + accented_vowels

original_consonants = 'bcdfghjklmnñpqrstvwxyzBCDFGHJKLMNÑPQRSTVWXYZ'
new_consonants = 'ʌъƨьɿзбɅЪƧЬႨЗГБ'
consonants = original_consonants + new_consonants

letters = vowels + consonants

stopchars = '.,:;?!¡¿ $\(\)\[\]\{\}«»'

In [None]:
# Common replacements
to_accented_vowel = {
    'a': 'á',
    'e': 'é',
    'i': 'í',
    'o': 'ó',
    'u': 'ú',
    'A': 'Á',
    'E': 'É',
    'I': 'Í',
    'O': 'Ó',
    'U': 'Ú',
}

to_non_accented_vowel = {
    'á': 'a',
    'é': 'e',
    'í': 'i',
    'ó': 'o',
    'ú': 'u',
    'Á': 'A',
    'É': 'E',
    'Í': 'I',
    'Ó': 'O',
    'Ú': 'U', 
}

In [None]:
# Uppercasing and lowercasing
uppercase = {
    'a' : 'A',
    'б' : 'Б',
    'c' : 'C',
    'd' : 'D',
    'e' : 'E',
    'f' : 'F',
    'ƨ' : 'Ƨ',
    'ь' : 'Ь',
    'i' : 'I',
    'l' : 'L',
    'm' : 'M',
    'n' : 'N',
    'o' : 'O',
    'p' : 'P',
    'r' : 'Γ',
    'ъ' : 'Ъ',
    'ʌ' : 'Ʌ',
    'u' : 'U',
    'w' : 'W',
    'y' : 'Y',
    'ч' : 'Ч',
    'ɿ' : 'Ⴈ'
}

lowercase = {v: k for k, v in uppercase.items()}

In [None]:
# Measure abbreviations
measure_abbreviations = {
    # Time
    's' : 'ъ',
    'm' : 'm',
    'h' : 'o',
    # Distance
    'mm' : 'mm',
    'cm' : 'ɿm',
    'dm' : 'dm',
    # 'm' : 'm', # Duplicated with minutes
    'Dm' : 'Dm',
    'hm' : 'em',
    'km' : 'cm',
    # Litres
    'ml' : 'll',
    'cl' : 'ɿl',
    'dl' : 'dl',
    'l' : 'l',
    'Dl' : 'Dl',
    'hl' : 'el',
    'kl' : 'cl',
}

# 0) Cleaning

Simple cleaning operations for common errors or inconsistencies.

In [None]:
# Remove phantom separation occurring in Wikipedia articles when two references are next to each other
text = text.replace('​', '')

# Remove numbers after a word
pattern = r'([a-zA-Z]+)\d+'
output = r'\1'
text = re.sub(pattern, output, text)

show_text(text)

La serenata es una forma musical concebida para orquesta de cuerda
de viento
mixta
conjunto de cámara o percusión.

Fue un divertimento que alcanzó enorme popularidad durante el siglo xviii: La serenata se tocaba
al anochecer
muchas veces al aire libre
y hacía las delicias de las veladas en los jardines de los palacios de los aristócratas. Curiosamente el nombre no deriva de sera
que en italiano es «tarde»
sino de sereno
«calmado» o «reposado». El origen de la serenata está en las baladas que los enamorados cantaban frente a las ventanas de la amada al atardecer cuando algo no había salido bien en la relación.

En el siglo xviii
constaba de hasta diez movimientos. Wolfgang Amadeus Mozart compuso trece serenatas
normalmente para celebrar un acto social: bodas
fiestas cortesanas
etc. Las serenatas de Mozart comienzan con un movimiento de marcha que tiene forma de sonata; dos movimientos lentos alternan con dos minuetos; siguen un rondó y un final muy brillante
que a veces también es una 

# 1) Direct replacements

Some words can be replaced directly, usually being contractions of short words.

In [None]:
direct_replacements = {
    # Standard Spanish : Andalusian Spanish
    f'([{stopchars}])para([{stopchars}])' : r'\1pa\2',
    f'([{stopchars}])Para([{stopchars}])' : r'\1Pa\2',
    f'([{stopchars}])muy([{stopchars}])' : r'\1mu\2',
    f'([{stopchars}])Muy([{stopchars}])' : r'\1Mu\2',
    f'([{stopchars}])todo([{stopchars}])' : r'\1ʌo\2',
    f'([{stopchars}])Todo([{stopchars}])' : r'\1Ʌo\2',
    f'([{stopchars}])toda([{stopchars}])' : r'\1ʌoa\2',
    f'([{stopchars}])Toda([{stopchars}])' : r'\1Ʌoa\2',
    f'([{stopchars}])todos([{stopchars}])' : r'\1ʌoь\2',
    f'([{stopchars}])Todos([{stopchars}])' : r'\1Ʌoь\2',
    f'([{stopchars}])todas([{stopchars}])' : r'\1ʌoaь\2',
    f'([{stopchars}])Todas([{stopchars}])' : r'\1Ʌoaь\2',
    f'([{stopchars}])pues([{stopchars}])' : r'\1poь\2',
    f'([{stopchars}])Pues([{stopchars}])' : r'\1Poь\2',
    f'([{stopchars}])etc([{stopchars}])' : r'\1eьɿ\2',
}

# Loop through the dictionary
for key, value in direct_replacements.items():
    text = re.sub(key, value, text)

show_text(text)

La serenata es una forma musical concebida pa orquesta de cuerda
de viento
mixta
conjunto de cámara o percusión.

Fue un divertimento que alcanzó enorme popularidad durante el siglo xviii: La serenata se tocaba
al anochecer
muchas veces al aire libre
y hacía las delicias de las veladas en los jardines de los palacios de los aristócratas. Curiosamente el nombre no deriva de sera
que en italiano es «tarde»
sino de sereno
«calmado» o «reposado». El origen de la serenata está en las baladas que los enamorados cantaban frente a las ventanas de la amada al atardecer cuando algo no había salido bien en la relación.

En el siglo xviii
constaba de hasta diez movimientos. Wolfgang Amadeus Mozart compuso trece serenatas
normalmente pa celebrar un acto social: bodas
fiestas cortesanas
eьɿ. Las serenatas de Mozart comienzan con un movimiento de marcha que tiene forma de sonata; dos movimientos lentos alternan con dos minuetos; siguen un rondó y un final mu brillante
que a veces también es una march

## Replace Roman numerals

Roman numerals should be removed at this point.

In [None]:
# Find instances of "siglo " + roman numerals
# Replace by patterns
# Longer patterns first
roman_patterns = [
    (rf'siglos? [ivxlcdmIVXLCDM]+ y ([ivxlcdmIVXLCDM]+)[{stopchars}]', f'siglos? [ivxlcdmIVXLCDM]+ y [ivxlcdmIVXLCDM]+[{stopchars}]'),
    (rf'siglos? ([ivxlcdmIVXLCDM]+)[{stopchars}]', rf'siglos? [ivxlcdmIVXLCDM]+[{stopchars}]')
]

# If there are any, extract the roman numerals and convert them to arabic
siglo_relaces = {}
for pattern, clean_pattern in roman_patterns:    
    siglos = re.findall(clean_pattern, text)
    for siglo in siglos:
        # Extract the roman numerals
        has_pattern = re.match(pattern, siglo) is not None
        if has_pattern:
            roman_numeral = re.match(pattern, siglo).group(1)
            arabic_numeral = roman.fromRoman(roman_numeral.upper())
            # Replace the roman numerals with the arabic numerals
            siglo_relaces[siglo] = siglo.replace(roman_numeral, str(arabic_numeral))

# Loop through the dictionary
for key, value in siglo_relaces.items():
    text = text.replace(key, value)

show_text(text)

La serenata es una forma musical concebida pa orquesta de cuerda
de viento
mixta
conjunto de cámara o percusión.

Fue un divertimento que alcanzó enorme popularidad durante el siglo 18: La serenata se tocaba
al anochecer
muchas veces al aire libre
y hacía las delicias de las veladas en los jardines de los palacios de los aristócratas. Curiosamente el nombre no deriva de sera
que en italiano es «tarde»
sino de sereno
«calmado» o «reposado». El origen de la serenata está en las baladas que los enamorados cantaban frente a las ventanas de la amada al atardecer cuando algo no había salido bien en la relación.

En el siglo 18
constaba de hasta diez movimientos. Wolfgang Amadeus Mozart compuso trece serenatas
normalmente pa celebrar un acto social: bodas
fiestas cortesanas
eьɿ. Las serenatas de Mozart comienzan con un movimiento de marcha que tiene forma de sonata; dos movimientos lentos alternan con dos minuetos; siguen un rondó y un final mu brillante
que a veces también es una marcha. Lud

## Replace measurement abbreviations

In [None]:
# Replace meadurement abbreviations
for original_abb, converted_abb in measure_abbreviations.items():
    pattern = rf'([{stopchars}]){original_abb}([{stopchars}])'
    output = rf'\1{converted_abb}\2'
    text = re.sub(pattern, output, text)

show_text(text)

La serenata es una forma musical concebida pa orquesta de cuerda
de viento
mixta
conjunto de cámara o percusión.

Fue un divertimento que alcanzó enorme popularidad durante el siglo 18: La serenata se tocaba
al anochecer
muchas veces al aire libre
y hacía las delicias de las veladas en los jardines de los palacios de los aristócratas. Curiosamente el nombre no deriva de sera
que en italiano es «tarde»
sino de sereno
«calmado» o «reposado». El origen de la serenata está en las baladas que los enamorados cantaban frente a las ventanas de la amada al atardecer cuando algo no había salido bien en la relación.

En el siglo 18
constaba de hasta diez movimientos. Wolfgang Amadeus Mozart compuso trece serenatas
normalmente pa celebrar un acto social: bodas
fiestas cortesanas
eьɿ. Las serenatas de Mozart comienzan con un movimiento de marcha que tiene forma de sonata; dos movimientos lentos alternan con dos minuetos; siguen un rondó y un final mu brillante
que a veces también es una marcha. Lud

# 2) Contextual conversion

Some letters depend on the context to be transformed. This implies that order matters.

* x
    * If it is at the beginning of a word, it is transformed into "ъ".
    * If it is at the end of a word, it is transformed into "ь".
    * If it is enclosed between two vowels, it is transformed into "ьъ".
    * Otherwise, it is transformed into "ь".

* g
    * If followed by "e" or "i", it is transformed into "ь".
    * Otherwise, it is transformed into "ƨ".

* c
    * If followed by "e" or "i", it is transformed into "ɿ".
    * Otherwise, it is transformed into "c".


In [None]:
# Contextual conversion
contextual_conversions = {
    ### g
    # Lowercase
    'g([ei])' : r'ь\1',
    'gu([ei])' : r'ƨ\1',
    'gü' : 'w',
    'g([ao])' : r'ƨ\1',
    'gu([ao])' : r'w\1',
    # Uppercase
    'G([eiEI])' : r'Ь\1',
    'Gu([eiEI])' : r'Ƨ\1',
    'G[üÜ]' : 'W',
    'G([aoAO])' : r'Ƨ\1',
    'Gu([aoAO])' : r'W\1',

    ### c
    # Lowercase
    'c([eiéíEIÉÍ])' : r'ɿ\1',
    # Uppercase
    'C([eiéíEIÉÍ])' : r'Ⴈ\1',

    ### x
    # Lowercase
    f'([{vowels}])x([{vowels}])' : r'\1ьъ\2',
    f'x([{consonants}])' : r'ь\1',
    # f'x([{stopchars}])' : r'ь\1', # Special case to be handled in word-end transformations
    f'([{vowels}])X([{vowels}])' : r'\1ЬЪ\2',
    f'X([{consonants}])' : r'Ь\1',
    # f'X([{stopchars}])' : r'Ь\1', # Special case to be handled in word-end transformations

    ### y
    # Lowercase
    f'([{vowels}{stopchars}])y([{consonants}{stopchars}])' : r'\1i\2',
    # Uppercase
    f'([{vowels}{stopchars}])Y([{consonants}{stopchars}])' : r'\1I\2',
}

# Loop through the dictionary
for key, value in contextual_conversions.items():
    text = re.sub(key, value, text)

show_text(text)

La serenata es una forma musical conɿebida pa orquesta de cuerda
de viento
miьta
conjunto de cámara o percusión.

Fue un divertimento que alcanzó enorme popularidad durante el siglo 18: La serenata se tocaba
al anocheɿer
muchas veɿes al aire libre
i haɿía las deliɿias de las veladas en los jardines de los palaɿios de los aristócratas. Curiosamente el nombre no deriva de sera
que en italiano es «tarde»
sino de sereno
«calmado» o «reposado». El oriьen de la serenata está en las baladas que los enamorados cantaban frente a las ventanas de la amada al atardeɿer cuando alƨo no había salido bien en la relaɿión.

En el siglo 18
constaba de hasta diez movimientos. Wolfƨang Amadeus Mozart compuso treɿe serenatas
normalmente pa ɿelebrar un acto soɿial: bodas
fiestas cortesanas
eьɿ. Las serenatas de Mozart comienzan con un movimiento de marcha que tiene forma de sonata; dos movimientos lentos alternan con dos minuetos; siƨen un rondó i un final mu brillante
que a veɿes también es una marcha. Ludw

# 3) Direct conversion

The following letters can always be converted to the same letter in Andalusian, **regardless of the context**:

<center>

| Letter | Translit. |
|--------|-----------|
| b      | б         |
| v      | б         |
| k      | c         |
| qu     | c         |
| t      | ʌ         |
| ll     | y         |
| s      | ъ         |
| j      | ь         |
| z      | ɿ         |
| ch     | ч         |
| h       |          |
</center>

In [None]:
# Direct conversion
direct_conversions = {
'b' : 'б',
'B' : 'Б',
'v' : 'б',
'V' : 'Б',
'g' : 'ƨ',
'G' : 'Ƨ',
'k' : 'c',
'K' : 'C',
'qu' : 'c',
'Qu' : 'C',
't' : 'ʌ',
'T' : 'Ʌ',
'll' : 'y',
'Ll' : 'Y',
's' : 'ъ',
'S' : 'Ъ',
'j' : 'ь',
'J' : 'Ь',
'z' : 'ɿ',
'Z' : 'Ⴈ',
'ch' : 'ч',
'Ch' : 'Ч',
'h' : '',
'R' : 'Γ'
}
# Create a regular expression that matches any key in the dictionary
regex = re.compile("(%s)" % "|".join(map(re.escape, direct_conversions.keys())))

# Function to look up the replacement
def replace(match):
    return direct_conversions[match.group(0)]

# Use the function in the sub method
text = regex.sub(replace, text)
show_text(text)

La ъerenaʌa eъ una forma muъical conɿeбida pa orceъʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo ce alcanɿó enorme popularidad duranʌe el ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿer
muчaъ бeɿeъ al aire liбre
i aɿía laъ deliɿiaъ de laъ бeladaъ en loъ ьardineъ de loъ palaɿioъ de loъ ariъʌócraʌaъ. Curioъamenʌe el nomбre no deriбa de ъera
ce en iʌaliano eъ «ʌarde»
ъino de ъereno
«calmado» o «repoъado». El oriьen de la ъerenaʌa eъʌá en laъ бaladaъ ce loъ enamoradoъ canʌaбan frenʌe a laъ бenʌanaъ de la amada al aʌardeɿer cuando alƨo no aбía ъalido бien en la relaɿión.

En el ъiƨlo 18
conъʌaбa de aъʌa dieɿ moбimienʌoъ. Wolfƨanƨ Amadeuъ Moɿarʌ compuъo ʌreɿe ъerenaʌaъ
normalmenʌe pa ɿeleбrar un acʌo ъoɿial: бodaъ
fieъʌaъ corʌeъanaъ
eьɿ. Laъ ъerenaʌaъ de Moɿarʌ comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doъ moбimienʌoъ lenʌoъ alʌernan con doъ minueʌoъ; ъiƨen un rondó i un final mu бriyanʌe
ce a бeɿeъ ʌamбién eъ una marчa. Ludwiƨ бan Бeeʌoбe

When a word starts with an uppercase 'H', the next letter must be uppercased.

In [None]:
# Find all H instances
capital_h = re.findall('H.', text)

# Loop through the list creating replaces where the H is replaced by the second letter capitalized
replaces = {combination : combination.upper()[1] for combination in capital_h}
for key, value in replaces.items():
    text = text.replace(key, value)
    
show_text(text)

La ъerenaʌa eъ una forma muъical conɿeбida pa orceъʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo ce alcanɿó enorme popularidad duranʌe el ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿer
muчaъ бeɿeъ al aire liбre
i aɿía laъ deliɿiaъ de laъ бeladaъ en loъ ьardineъ de loъ palaɿioъ de loъ ariъʌócraʌaъ. Curioъamenʌe el nomбre no deriбa de ъera
ce en iʌaliano eъ «ʌarde»
ъino de ъereno
«calmado» o «repoъado». El oriьen de la ъerenaʌa eъʌá en laъ бaladaъ ce loъ enamoradoъ canʌaбan frenʌe a laъ бenʌanaъ de la amada al aʌardeɿer cuando alƨo no aбía ъalido бien en la relaɿión.

En el ъiƨlo 18
conъʌaбa de aъʌa dieɿ moбimienʌoъ. Wolfƨanƨ Amadeuъ Moɿarʌ compuъo ʌreɿe ъerenaʌaъ
normalmenʌe pa ɿeleбrar un acʌo ъoɿial: бodaъ
fieъʌaъ corʌeъanaъ
eьɿ. Laъ ъerenaʌaъ de Moɿarʌ comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doъ moбimienʌoъ lenʌoъ alʌernan con doъ minueʌoъ; ъiƨen un rondó i un final mu бriyanʌe
ce a бeɿeъ ʌamбién eъ una marчa. Ludwiƨ бan Бeeʌoбe

# 4) Word-end transformations

Most consonants undergo changes in Andalusian Spanish when they are located at the word end.

In [None]:
def detach_stopchars(word: str):
    """Separates the stopchars from the word and returns both separately"""

    # If there are no stopchars, return the word as is and None
    if not re.search(f'[{stopchars}]$', word):
        return word, None
    
    # Otherwise, detach stopchars from the word if they are present
    else:
        word_stopchars = re.findall(f'([{stopchars}]+)$', word)
        assert len(word_stopchars) == 1, f'Unexpected number of stopchars found: {word_stopchars} for word {word}'
        word_stopchars = word_stopchars[-1]
        word = re.sub(f'([{stopchars}]+)$', '', word)

        return word, word_stopchars

In [None]:
def remove_final_consontants(word: str) -> str:
    """Removes final consonants from a word if they are present."""

    # Detach stopchars from the word if they are present
    # word, word_stopchars = detach_stopchars(word)

    # Remove consonants at the end of the word if they are present
    end_consonants = re.findall(f'([{consonants}]+)$', word)
    if end_consonants:
        # Remove the consonants
        word = re.sub(f'([{consonants}]+)$', '', word)
    
    # Reattach the stopchars
    # if word_stopchars:
        # word += word_stopchars
    
    return word

In [None]:
def add_accent_mark(word: str) -> str:
    """
    Adds an accent mark to the last vowel of a word if necessary.
    """

    # Detach stopchars from the word if they are present
    # word, word_stopchars = detach_stopchars(word)

    # Remove consonants at the end of the word if they are present
    end_consonants = re.findall(f'([{consonants}]+)$', word)
    if end_consonants:
        # Remove the consonants
        word = re.sub(f'([{consonants}]+)$', '', word)    

        # Add an accent mark to the last vowel
        try:
            last_letter = word[-1]    
        # In some cases, i.e., abbreviatures (cm), the whole word can be deleted.
        # If it happens, return the raw word
        except IndexError: 
            return word

        assert last_letter in vowels, f'Unexpected last letter of word: {word[-1]} for word {word}'
        word_root = word[:-1]
        marked_letter = to_accented_vowel[last_letter]
        word = word_root + marked_letter

    # Reattach stopchars to the word if they were present
    # if word_stopchars:
        # word += word_stopchars

    return word

In [None]:
def remove_accent_mark(word: str) -> str:
    """
    Removes an accent mark from the last valid vowel of a word if necessary.

    drop_consonants: str
        A string containing the consonants that should be dropped from the word if they are the last letter.
    """

    # Find all accented vowels
    aux_accented = re.findall(f"[{accented_vowels}]", word)

    # If there are no accented vowels, return the word as is
    if not aux_accented:
        return word
    
    # If there are accented vowels, replace them with their non-accented counterparts
    for accented_vowel in set(aux_accented):
        word = word.replace(accented_vowel, to_non_accented_vowel[accented_vowel])

    return word  

In [None]:
# Handle -do endings
def handle_d_endings(word):
    """
    Handles the -d- ending in words.
    """

    # If the word is stressed in the third-to-last syllable,
    # no changes are necessary
    aux_mask = (
        re.search(rf'[{non_accented_vowels}]d[oa]ь?$', word) is not None and
        re.search(f'[{accented_vowels}]', word) is not None
    )
    if aux_mask: 
        return word
    
    # In other cases, drop intervocalic -d- in the last syllable and manage accents
    pattern = rf'([aeiuáéíúAEIUÁÉÍÚ])d([oóa])(ь)?$'
    output = rf'\1\2\3'
    word = re.sub(pattern, output, word)

    # Handle accents
    aux_accent_dict  = {
        'ao(ь)?$' : r'áo\1',
        'aa(ь)?$' : r'á\1',
        'i([ao])(ь)?$' : r'í\1\2',
        'u([ao])(ь)?$' : r'ú\1\2'
    }
    for pattern, output in aux_accent_dict.items():
        if re.search(pattern, word) is not None:
            word = re.sub(pattern, output, word)
            break

    return word 
    

In [None]:
# Determine sets
second_to_last_accented_consonants = 'ʌdpбcƨfrl'
last_accented_consonants = 'ɿm'
word_end_transformations = {
    'ъ' : {'pattern' : rf'ъ([{stopchars}]+)?$', 'output' : r'ь\1'},
    'ɿ' : {'pattern' : rf'ɿ([{stopchars}]+)?$', 'output' : r'ь\1'},
    'm' : {'pattern' : rf'm([{stopchars}]+)?$', 'output' : r'n\1'},
}

# Set words that remain unchanged
inmutable_exceptions = ['el', 'del', 'al', 'por', 'eьɿ']
inmutable_exceptions.extend([word.capitalize() for word in inmutable_exceptions])

def perform_word_end_transformations(word):
    """
    Wrapper function to perform changes at the end of words,
    managing also accent marks.
    """

    # Detect last letter to perform the appropriate transformation
    word, stopchars = detach_stopchars(word)
    last_letter = word[-1]

    ### Handle special cases ###
    
    # Skip inmutable words or words with just one character
    if word in inmutable_exceptions or len(word) == 1:
        if stopchars: # Attach stopchars if they are present
            word += stopchars            
        return word
    
    # Units of measure should remain unchanged
    if word in measure_abbreviations.values():
        if stopchars: # Attach stopchars if they are present
            word += stopchars
        return word

    # Check if the word has an accent mark
    has_accent = re.search(f'[{accented_vowels}]', word) is not None

    ### Handle last consonant cases ###

    # Handle special cases first
    # -x
    if last_letter in 'xX':
        if has_accent:
            word = remove_accent_mark(word)
        else:
            word = add_accent_mark(word)
            
        word = re.sub('x$', 'ь', word)
        word = re.sub('X$', 'Ь', word)

    # -pъ
    elif word[-2:].lower() == 'pъ':
        if has_accent:
            word = remove_accent_mark(word)
        else:
            word = add_accent_mark(word)
            
        word = re.sub('pъ$', 'ь', word)
        word = re.sub('PЪ$', 'Ь', word)

    # Words with second to last accented consonants
    elif last_letter in second_to_last_accented_consonants:
        if has_accent:
            word = remove_accent_mark(word)
        else:
            word = add_accent_mark(word)
            
        word = remove_final_consontants(word)
    
    # Words with last accented consonants
    elif last_letter in last_accented_consonants:
        if has_accent:
            word = remove_accent_mark(word)
            pattern = word_end_transformations[last_letter]['pattern']
            output = word_end_transformations[last_letter]['output']
            word.replace(pattern, output)
        else:
            word = add_accent_mark(word)
            transformed_ending = word_end_transformations[last_letter]['output'].replace(r'\1', '')
            word += transformed_ending

    # Special case for 'ъ': the accent rules do not change
    elif last_letter == 'ъ':
        pattern = word_end_transformations[last_letter]['pattern']
        output = word_end_transformations[last_letter]['output']
        word = re.sub(pattern, output, word)

    # Handle -d- endings
    if re.search(f'[{vowels}]d[{vowels}{accented_vowels}]ь?', word) is not None:
        word = handle_d_endings(word)

    # Attach stopchars from the word if they are present
    if stopchars:
        word += stopchars
    
    return word

In [None]:
# Split the text into words, apply the transformations and join them back.
lines = text.strip().split('\n')
processed_text = ''
for line in lines:
    # Split, transform and join the words
    words = line.split(' ')
    words = [perform_word_end_transformations(word) for word in words if word != '']    
    words = ' '.join(words)

    # Add it back to the text
    processed_text += words + '\n'

text = processed_text 
show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceъʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo ce alcanɿó enorme popularidá duranʌe el ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariъʌócraʌaь. Curioъamenʌe el nomбre no deriбa de ъera
ce en iʌaliano eь «ʌarde»
ъino de ъereno
«calmáo» o «repoъáo». El oriьen de la ъerenaʌa eъʌá en laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de la amá al aʌardeɿé cuando alƨo no aбía ъalío бien en la relaɿión.

En el ъiƨlo 18
conъʌaбa de aъʌa diéь moбimienʌoь. Wolfƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normalmenʌe pa ɿeleбrá un acʌo ъoɿiá: бodaь
fieъʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь alʌernan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
ce a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeeʌoбen compuъo ъerenaʌaь con ʌ

# 5) Word initial transformations

In some rare cases, initial transformations are needed.

In [None]:
word_initial_transformations = {
    f'([^{letters}])pъ([{letters}])' : r'\1ъ\2',
}

# Loop through the dictionary
for key, value in word_initial_transformations.items():
    text = re.sub(key, value, text)

show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceъʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo ce alcanɿó enorme popularidá duranʌe el ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariъʌócraʌaь. Curioъamenʌe el nomбre no deriбa de ъera
ce en iʌaliano eь «ʌarde»
ъino de ъereno
«calmáo» o «repoъáo». El oriьen de la ъerenaʌa eъʌá en laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de la amá al aʌardeɿé cuando alƨo no aбía ъalío бien en la relaɿión.

En el ъiƨlo 18
conъʌaбa de aъʌa diéь moбimienʌoь. Wolfƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normalmenʌe pa ɿeleбrá un acʌo ъoɿiá: бodaь
fieъʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь alʌernan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
ce a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeeʌoбen compuъo ъerenaʌaь con ʌ

# 6) Internal word transformations


The 'r' phoneme is unstable before 'l' and 'n' and is assimilated to them.

In [None]:
# 'r'-substitutions
r_substituion = {'pattern' : r'r([ln])', 'output' : r'\1\1'}
text = re.sub(r_substituion['pattern'], r_substituion['output'], text)
show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceъʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo ce alcanɿó enorme popularidá duranʌe el ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariъʌócraʌaь. Curioъamenʌe el nomбre no deriбa de ъera
ce en iʌaliano eь «ʌarde»
ъino de ъereno
«calmáo» o «repoъáo». El oriьen de la ъerenaʌa eъʌá en laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de la amá al aʌardeɿé cuando alƨo no aбía ъalío бien en la relaɿión.

En el ъiƨlo 18
conъʌaбa de aъʌa diéь moбimienʌoь. Wolfƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normalmenʌe pa ɿeleбrá un acʌo ъoɿiá: бodaь
fieъʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь alʌennan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
ce a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeeʌoбen compuъo ъerenaʌaь con ʌ

Three letter consonant clusters are simplified.

In [None]:
consonant_clusters_replaces = {
    f'([{vowels}])[бn]ъ([{consonants}])' : r'\1ь\2'
    }

# Loop through the dictionary
for key, value in consonant_clusters_replaces.items():
    text = re.sub(key, value, text)

show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceъʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo ce alcanɿó enorme popularidá duranʌe el ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariъʌócraʌaь. Curioъamenʌe el nomбre no deriбa de ъera
ce en iʌaliano eь «ʌarde»
ъino de ъereno
«calmáo» o «repoъáo». El oriьen de la ъerenaʌa eъʌá en laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de la amá al aʌardeɿé cuando alƨo no aбía ъalío бien en la relaɿión.

En el ъiƨlo 18
coьʌaбa de aъʌa diéь moбimienʌoь. Wolfƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normalmenʌe pa ɿeleбrá un acʌo ъoɿiá: бodaь
fieъʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь alʌennan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
ce a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeeʌoбen compuъo ъerenaʌaь con ʌr

Reductors are a set of consonants that, when grouped together, the first one is reduced to 'ь'. 

In [None]:
# Reductor colisions
reductors = 'cƨʌdьъɿpбf'
reductor_combinations = [''.join(pair) for pair in itertools.permutations(reductors, 2)]
reductor_replaces = {pair : 'ь' + pair[1] for pair in reductor_combinations}

# Loop through the dictionary
for key, value in reductor_replaces.items():
    text = re.sub(key, value, text)

# 'n' acts as a reductor when placed after another reductor, but it is immune to this process
text = re.sub(f'[{reductors}]n', r'ьn', text)

show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceьʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo ce alcanɿó enorme popularidá duranʌe el ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariьʌócraʌaь. Curioъamenʌe el nomбre no deriбa de ъera
ce en iʌaliano eь «ʌarde»
ъino de ъereno
«calmáo» o «repoъáo». El oriьen de la ъerenaʌa eьʌá en laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de la amá al aʌardeɿé cuando alƨo no aбía ъalío бien en la relaɿión.

En el ъiƨlo 18
coьʌaбa de aьʌa diéь moбimienʌoь. Wolьƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normalmenʌe pa ɿeleбrá un aьʌo ъoɿiá: бodaь
fieьʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь alʌennan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
ce a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeeʌoбen compuъo ъerenaʌaь con ʌr

In [None]:
special_reductors = 'cƨʌdьъɿpб'

Other specific changes

In [None]:
replaces = {
    'nб' : 'mб',
    'ee' : 'e',
    'nm' : 'mm',
}
for key, value in replaces.items():
    text = text.replace(key, value)

show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceьʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo ce alcanɿó enorme popularidá duranʌe el ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariьʌócraʌaь. Curioъamenʌe el nomбre no deriбa de ъera
ce en iʌaliano eь «ʌarde»
ъino de ъereno
«calmáo» o «repoъáo». El oriьen de la ъerenaʌa eьʌá en laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de la amá al aʌardeɿé cuando alƨo no aбía ъalío бien en la relaɿión.

En el ъiƨlo 18
coьʌaбa de aьʌa diéь moбimienʌoь. Wolьƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normalmenʌe pa ɿeleбrá un aьʌo ъoɿiá: бodaь
fieьʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь alʌennan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
ce a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeʌoбen compuъo ъerenaʌaь con ʌrí

# 7) Weak particles assimilation

Several common use particles loose their vowels and are attached to nearby words, forming contractions.

In [None]:
assimilations_dict = {
    f'([{stopchars}])([dʌъlm])e ([{vowels}])' : r"\1\2'\3",
    f'([{stopchars}])([DɅЪLM])e ([{vowels}])' : r"\1\2'\3",
    f'([{stopchars}])c[eé] ([{vowels}])' : r"\1c'\2",
    f'([{stopchars}])C[eé] ([{vowels}])' : r"\1C'\2",
    f'([{stopchars}])la a' : r"\1l'a",
    f'([{stopchars}])La a' : r"\1L'a",
    f'([{stopchars}])lo o' : r"\1l'o",
    f'([{stopchars}])Lo o' : r"\1L'o",
    f'([aeoáéó]) e([ln])([{stopchars}])' : r"\1'\2\3", # NOTE: review
    f'([{vowels}]) e([{consonants}]{2,})' : r"\1'\2", # NOTE: review
    f'o ([oóOÓ])' : r"'\1",
}

for key, value in assimilations_dict.items():
    text = re.sub(key, value, text)

show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceьʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo c'alcanɿó enorme popularidá duranʌe'l ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariьʌócraʌaь. Curioъamenʌe'l nomбre no deriбa de ъera
c'en iʌaliano eь «ʌarde»
ъino de ъereno
«calmáo» o «repoъáo». El oriьen de la ъerenaʌa eьʌá'n laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de l'amá al aʌardeɿé cuando alƨo no aбía ъalío бien en la relaɿión.

En el ъiƨlo 18
coьʌaбa d'aьʌa diéь moбimienʌoь. Wolьƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normalmenʌe pa ɿeleбrá un aьʌo ъoɿiá: бodaь
fieьʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь alʌennan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
c'a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeʌoбen compuъo ъerenaʌaь con ʌrío de cue

# 8) Rotacism

'l' before 'r' can convert to 'r' before consonants in some speakers.

In [None]:
# Decide wheter to use rotacism or not
rotacism = True

# Apply rotacism
if rotacism:
    # Lowercase
    pattern = f'l( ?)([{consonants}])'
    output = r'r\1\2'
    text = re.sub(pattern, output, text)

    # Uppercase
    pattern = f'L( ?)([{consonants}])'
    output = r'Γ\1'
    text = re.sub(pattern, output, text)

show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceьʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo c'arcanɿó enorme popularidá duranʌe'r ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariьʌócraʌaь. Curioъamenʌe'r nomбre no deriбa de ъera
c'en iʌaliano eь «ʌarde»
ъino de ъereno
«carmáo» o «repoъáo». El oriьen de la ъerenaʌa eьʌá'n laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de l'amá al aʌardeɿé cuando arƨo no aбía ъalío бien en la relaɿión.

En er ъiƨlo 18
coьʌaбa d'aьʌa diéь moбimienʌoь. Worьƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normarmenʌe pa ɿeleбrá un aьʌo ъoɿiá: бodaь
fieьʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь arʌennan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
c'a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeʌoбen compuъo ъerenaʌaь con ʌrío de cue

# 9) Space-separated 'r' assimilation

If a word preserves a final 'r' and the next word starts with 'l' or 'n', the 'r' is assimilated.

In [None]:
# Apply space-separated "r" assimilation
pattern = 'r ([lnLN])'
output = r'\1 \1'
text = re.sub(pattern, output, text)

show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceьʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo c'arcanɿó enorme popularidá duranʌe'r ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariьʌócraʌaь. Curioъamenʌe'n nomбre no deriбa de ъera
c'en iʌaliano eь «ʌarde»
ъino de ъereno
«carmáo» o «repoъáo». El oriьen de la ъerenaʌa eьʌá'n laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de l'amá al aʌardeɿé cuando arƨo no aбía ъalío бien en la relaɿión.

En er ъiƨlo 18
coьʌaбa d'aьʌa diéь moбimienʌoь. Worьƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normarmenʌe pa ɿeleбrá un aьʌo ъoɿiá: бodaь
fieьʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь arʌennan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
c'a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeʌoбen compuъo ъerenaʌaь con ʌrío de cue

# Show results

In [None]:
show_text(text)

La ъerenaʌa eь una forma muъicá conɿeбía pa orceьʌa de cuerda
de бienʌo
miьʌa
conьunʌo de cámara o percuъión.

Fue un diбerʌimenʌo c'arcanɿó enorme popularidá duranʌe'r ъiƨlo 18: La ъerenaʌa ъe ʌocaбa
al anoчeɿé
muчaь бeɿeь al aire liбre
i aɿía laь deliɿiaь de laь бeláь en loь ьardineь de loь palaɿioь de loь ariьʌócraʌaь. Curioъamenʌe'n nomбre no deriбa de ъera
c'en iʌaliano eь «ʌarde»
ъino de ъereno
«carmáo» o «repoъáo». El oriьen de la ъerenaʌa eьʌá'n laь бaláь ce loь enamoráoь canʌaбan frenʌe a laь бenʌanaь de l'amá al aʌardeɿé cuando arƨo no aбía ъalío бien en la relaɿión.

En er ъiƨlo 18
coьʌaбa d'aьʌa diéь moбimienʌoь. Worьƨá Amadeuь Moɿá compuъo ʌreɿe ъerenaʌaь
normarmenʌe pa ɿeleбrá un aьʌo ъoɿiá: бodaь
fieьʌaь corʌeъanaь
eьɿ. Laь ъerenaʌaь de Moɿá comienɿan con un moбimienʌo de marчa ce ʌiene forma de ъonaʌa; doь moбimienʌoь lenʌoь arʌennan con doь minueʌoь; ъiƨen un rondó i un finá mu бriyanʌe
c'a бeɿeь ʌamбién eь una marчa. Ludwí бan Бeʌoбen compuъo ъerenaʌaь con ʌrío de cue