## Шміфікація

Шм-редуплікацію використовують для висловлення іронії, сарказму, скептичності чи відсутності зацікавленості об'єктом. Існує багато досліджень на цю тему і навіть є сформульовані правила творення шм-редуплікації у словах:

- усі початкові приголосні заміняються на "шм" (_"table-shmable", "breakfast-shmeakfast"_)
- початкові голосні не змінюються (_"apple-shmapple"_)
- якщо фраза складається з двох слів, шм-редуплікація відбувається лише в другому (_"Jimmy Hendriks-Jimmy Shmendriks", "data science-data shmience"_)
- якщо слово починається на "шм", нічого не змінюється (_"shmaltz-shmaltz", "schmuck-schmuck"_)
- якщо у слові є звук "ш", потрібно використовувати "см" для редуплікації (_"Ashmont-Smashmont", not "Shmashmont"_)

**Завдання:** напишіть програму, яка правильно утворює шм-редуплікацію будь-якого слова чи фрази.

Ви можете вибрати будь-яку природну мову (англійську, українську, німецьку тощо). Ви можете використати будь-яку мову програмування.

Більше про шм-редуплікацію можна дізнатися зі статті [Metalinguistic, shmetalinguistic: the phonology of shm-reduplication](https://www.academia.edu/209796/Metalinguistic_shmetalinguistic_The_phonology_of_shm-reduplication).



In [45]:
import string

def tokenize(s) -> list:
    """Tokenizer-shmokenizer
    
    Split word group into separate words
    
    :rtype tokens: ['word1', 'word2']"""
    
    s = s.lower()
    incl = set(string.ascii_lowercase+string.digits+"'-")
    buf = ''
    tokens = []
    n = len(s)
    
    # Primary token collection
    for i in range(0, n+1):
        
        # Hacky way to do one last buffer flush
        # and end loop
        if i == n:
            tokens.append(buf)
            break
        
        buf += s[i]
        if s[i] not in incl:
            buf = buf.strip()
            if buf != '':
                tokens.append(buf)
                buf = ''
    
    return tokens



def schmo(word):
    """Actual shm-transformation for last word"""
    
    # 1. We deduce that reduplications will only happen
    # with the last token, so first we isolate it
    
    vowels = 'aeiou'
    n = len(word)
    
    """початкові голосні не змінюються (_"apple-shmapple"_)"""

    # find first vowel:
    i = 0
    while i < n and word[i] not in vowels:
        i+=1
    
    # after this is over, i will be left point ing to the first vowel
    
    first_consonants = word[0:i]
        
    """якщо слово починається на "шм", нічого не змінюється (_"shmaltz-shmaltz", 
    "schmuck-schmuck"_)"""
    
    if first_consonants == 'shm' or first_consonants == 'schm':
        return word

    """якщо у слові є звук "ш", потрібно використовувати "см" для редуплікації 
    (_"Ashmont-Smashmont", not "Shmashmont"_)"""
    
    """усі початкові приголосні заміняються на "шм" (_"table-shmable", 
    "breakfast-shmeakfast"_)"""
    
    if 'sh' in word or 'sch' in word:
        return 'sm' + word[i:]
    else:
        return 'shm' + word[i:]    
    

def schmain(text):
    """Shm-duplication for complex words"""

    """якщо фраза складається з двох слів, шм-редуплікація відбувається 
    лише в другому (_"Jimmy Hendriks-Jimmy Shmendriks", "data science-data 
    shmience"_)"""
    tokens = tokenize(text)
    
    o = ''
    
    # First repetition
    for token in tokens:
        o = o + token + ' '

    # Dash
    o = o.rstrip() + '–'

    # Second repetition
    for token in tokens[:-1]:
        o = o + token + ' '
    # With the transformed word in the end
    o += schmo(tokens[-1])
    
    return o
    
print(schmain('donald knuth'))
print(schmain('peter norvig'))
print(schmain('noam chomsky'))

donald knuth–donald shmuth
peter norvig–peter shmorvig
noam chomsky–noam shmomsky
ashton–smashton
