In [1]:
#!/usr/bin/python
# -- coding: utf-8 --


# Converts an accented vocabulary to dictionary, for example
#
# абстракцион+истов
# абстр+акцию
# абстр+акция
# 
# абстракционистов a0 b s t r a0 k c i0 o0 nj i1 s t o0 v
# абстракцию a0 b s t r a1 k c i0 j u0
# абстракция a0 b s t r a1 k c i0 j a0
#

import sys

softletters = set(u"яёюиье")
startsyl = set(u"#ъьаяоёуюэеиы-")
others = set(["#", "+", "-", u"ь", u"ъ"])

softhard_cons = {
    u"б": u"b",
    u"в": u"v",
    u"г": u"g",
    u"Г": u"g",
    u"д": u"d",
    u"з": u"z",
    u"к": u"k",
    u"л": u"l",
    u"м": u"m",
    u"н": u"n",
    u"п": u"p",
    u"р": u"r",
    u"с": u"s",
    u"т": u"t",
    u"ф": u"f",
    u"х": u"h"
}

other_cons = {
    u"ж": u"zh",
    u"ц": u"c",
    u"ч": u"ch",
    u"ш": u"sh",
    u"щ": u"sch",
    u"й": u"j"
}

vowels = {
    u"а": u"a",
    u"я": u"a",
    u"у": u"u",
    u"ю": u"u",
    u"о": u"o",
    u"ё": u"o",
    u"э": u"e",
    u"е": u"e",
    u"и": u"i",
    u"ы": u"y",
}


def pallatize(phones):
    for i, phone in enumerate(phones[:-1]):
        if phone[0] in softhard_cons:
            if phones[i + 1][0] in softletters:
                phones[i] = (softhard_cons[phone[0]] + "j", 0)
            else:
                phones[i] = (softhard_cons[phone[0]], 0)
        if phone[0] in other_cons:
            phones[i] = (other_cons[phone[0]], 0)


def convert_vowels(phones):
    new_phones = []
    prev = ""
    for phone in phones:
        if prev in startsyl:
            if phone[0] in set(u"яюеё"):
                new_phones.append("j")
        if phone[0] in vowels:
            new_phones.append(vowels[phone[0]] + str(phone[1]))
        else:
            new_phones.append(phone[0])
        prev = phone[0]

    return new_phones


def convert(stressword):
    phones = ("#" + stressword + "#")

    # Assign stress marks
    stress_phones = []
    stress = 0
    for phone in phones:
        if phone == "+":
            stress = 1
        else:
            stress_phones.append((phone, stress))
            stress = 0

    # Pallatize
    pallatize(stress_phones)

    # Assign stress
    phones = convert_vowels(stress_phones)

    # Filter
    phones = [x for x in phones if x not in others]

    return " ".join(phones)


for line in open("car.voc", "r", encoding="utf-8"):
    stressword = line.strip()
    print (stressword.replace("+", ""), convert(stressword))


едьте j e1 dj tj e0
автомобиль a0 v t o0 m o0 bj i1 lj
выжми v y1 zh mj i0
выключите v y1 k lj u0 ch i0 tj e0
включи v k lj u0 ch i1
включите v k lj u0 ch i1 tj e0
внимательно v nj i0 m a1 tj e0 lj n o0
газ g a1 z
до d o1
движение d vj i0 zh e1 nj i0 j e0
дорога d o0 r o1 g a0
дорогу d o0 r o1 g u0
дорожный d o0 r o1 zh n y0 j
задний z a1 d nj i0 j
запрещено z a0 p rj e0 sch e0 n o1
знак z n a1 k
можно m o1 zh n o0
на n a1
не nj e1
нужно n u1 zh n o0
нажми n a0 zh mj i1
налево n a0 lj e1 v o0
направо n a0 p r a1 v o0
начинайте n a0 ch i0 n a1 j tj e0
нейтралка nj e0 j t r a1 l k a0
нельзя nj e0 lj zj a1
необозначенный nj e0 o0 b o0 z n a1 ch e0 n n y0 j
нерегулируемый nj e0 rj e0 g u0 lj i1 r u0 j e0 m y0 j
обозначенный o0 b o0 z n a1 ch e0 n n y0 j
остановка o0 s t a0 n o1 v k a0
остановись o0 s t a0 n o0 vj i1 sj
отпусти o0 t p u0 s tj i1
после p o1 s lj e0
педали pj e0 d a1 lj i0
перекрёстка pj e0 rj e0 k rj o1 s t k a0
перекрёсток pj e0 rj e0 k rj o1 s t o0 k
переход pj e0 rj e0 h 