In [None]:
!pip install PyICU

In [3]:
import icu
def transliterator_from_rules(name, rules):
    fromrules = icu.Transliterator.createFromRules(name, rules)
    icu.Transliterator.registerInstance(fromrules)
    return icu.Transliterator.createInstance(name)

In [4]:
rules = r"""
# Based on Russian-Latin-BGN.xml
# Minimal filter (Russian alphabet)
::[АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя];
::NFC;

######################################################################
# Variables
######################################################################
$wordBoundary = [^[:L:][:M:][:N:]] ;
$upperVowels  = [АЕЁЭИОУЫЮЯ] ;
$lowerVowels  = [аеёэиоуыюя] ;
$vowels       = [$upperVowels $lowerVowels] ;
$upperCons    = [[:Uppercase:]-$vowels] ;
$lowerCons    = [[:Lowercase:]-$vowels] ;
$consonants   = [$upperCons $lowerCons] ;
$upper        = [:Uppercase:] ;
$lower        = [:Lowercase:] ;

# Convenience sets for contextual rules (in Cyrillic, before transliteration)
$ZSTC = [ЗзСсТтЦц] ;
$CHSH = [ЧчШшЩщЖж] ;

######################################################################
# Context-first rules (so they don't get masked by simple mappings)
######################################################################

# ---- е (Swedish: je word-initial / after vowel/й/ь/ъ; otherwise e) ----
$wordBoundary { Е } $upper → JE ;
$wordBoundary { Е } $lower → Je ;
$wordBoundary { е → je ;

[$upperVowels [ЙЪЬ]] { Е } $upper → JE ;
[$upperVowels [ЙЪЬ]] { Е } $lower → Je ;
[$upperVowels $lowerVowels [ЙйЪъЬь]] { е → je ;

# ---- ё (default jo; after з/с/т/ц -> io; after ч/ш/щ/ж -> o) ----
# Word-initial / after vowels/й/ь/ъ => "jo"
$wordBoundary { Ё } $upper → JO ;
$wordBoundary { Ё } $lower → Jo ;
$wordBoundary { ё → jo ;
[$upperVowels [ЙЪЬ]] { Ё } $upper → JO ;
[$upperVowels [ЙЪЬ]] { Ё } $lower → Jo ;
[$upperVowels $lowerVowels [ЙйЪъЬь]] { ё → jo ;

# After З/С/Т/Ц => "io"
$ZSTC { Ё } $upper → IO ;
$ZSTC { Ё } $lower → Io ;
$ZSTC { ё → io ;

# After Ч/Ш/Щ/Ж => "o"
$CHSH { Ё } $upper → O ;
$CHSH { Ё } $lower → O ;
$CHSH { ё → o ;

# Force a pass boundary before proceeding to basic letters
::Null;

# ---- ю (default ju; after з/с/т/ц -> iu; after ч/ш/щ/ж -> u) ----
$wordBoundary { Ю } $upper → JU ;
$wordBoundary { Ю } $lower → Ju ;
$wordBoundary { ю → ju ;
[$upperVowels [ЙЪЬ]] { Ю } $upper → JU ;
[$upperVowels [ЙЪЬ]] { Ю } $lower → Ju ;
[$upperVowels $lowerVowels [ЙйЪъЬь]] { ю → ju ;

$ZSTC { Ю } $upper → IU ;
$ZSTC { Ю } $lower → Iu ;
$ZSTC { ю → iu ;

$CHSH { Ю } $upper → U ;
$CHSH { Ю } $lower → U ;
$CHSH { ю → u ;

# ---- я (default ja; after з/с/т/ц -> ia; after ч/ш/щ/ж -> a) ----
$wordBoundary { Я } $upper → JA ;
$wordBoundary { Я } $lower → Ja ;
$wordBoundary { я → ja ;
[$upperVowels [ЙЪЬ]] { Я } $upper → JA ;
[$upperVowels [ЙЪЬ]] { Я } $lower → Ja ;
[$upperVowels $lowerVowels [ЙйЪъЬь]] { я → ja ;

$ZSTC { Я } $upper → IA ;
$ZSTC { Я } $lower → Ia ;
$ZSTC { я → ia ;

$CHSH { Я } $upper → A ;
$CHSH { Я } $lower → A ;
$CHSH { я → a ;

######################################################################
# Alphabetic mappings (Swedish outcomes + nice titlecasing)
######################################################################
А → A ;  а → a ;
Б → B ;  б → b ;
В → V ;  в → v ;
Г → G ;  г → g ;
Д → D ;  д → d ;

Е → E ;  е → e ;   # remaining 'e' cases fall back to 'e' (contexts handled above)
Ё → Jo ; ё → jo ;  # leftover (if any) — normally handled in contexts

Ж } $lower → Zj ;  Ж → ZJ ;  ж → zj ;
З → Z ;  з → z ;
И → I ;  и → i ;
Й → J ;  й → j ;
К → K ;  к → k ;
Л → L ;  л → l ;
М → M ;  м → m ;
Н → N ;  н → n ;
О → O ;  о → o ;
П → P ;  п → p ;
Р → R ;  р → r ;
С → S ;  с → s ;
Т → T ;  т → t ;
У → U ;  у → u ;
Ф → F ;  ф → f ;

Х } $lower → Ch ;
Х → CH ;  х → ch ;
Ц } $lower → Ts ;
Ц → TS ;
ц → ts ;
Ч } $lower → Tj ;
Ч → TJ ;
ч → tj ;
Ш } $lower → Sj ;
Ш → SJ ;
ш → sj ;
Щ } $lower → Sjtj ;
Щ → SJTJ ;
щ → sjtj ;

Ъ → ;
ъ → ;       # omitted
Ы → Y ;
ы → y ;
Ь → ;
ь → ;       # omitted

Э → E ;
э → e ;

# (Ю/Я basic forms handled via contexts above; fallbacks retained)
Ю } $lower → Ju ;
Ю → JU ;
ю → ju ;
Я } $lower → Ja ;
Я → JA ;
я → ja ;
"""

In [6]:
rusv = transliterator_from_rules("ru-sv", rules)

tests = [
    ("Москва", "Moskva"),
    ("Чайковский", "Tjajkovskij"),
    ("Щука", "Sjtjuka"),
    ("Жириновский", "Zjirinovskij"),
    ("Юрий", "Jurij"),
    ("Яковлев", "Jakovlev"),
    ("Хрущёв", "Chrusjtjov"),
    ("Циолковский", "Tsiolkovskij")
]

# --- Run test ---
for w in tests:
    assert w[1] == rusv.transliterate(w[0])
    print(f"{w[0]:15s} → {rusv.transliterate(w[0])}")


Москва          → Moskva
Чайковский      → Tjajkovskij
Щука            → Sjtjuka
Жириновский     → Zjirinovskij
Юрий            → Jurij
Яковлев         → Jakovlev
Хрущёв          → Chrusjtjov
Циолковский     → Tsiolkovskij


In [26]:
fr_rules = r"""
::[АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя];
::NFC;

# ---------- Sets ----------
$U = [:Uppercase:];
$L = [:Lowercase:];
$WB = [^[:L:][:M:][:N:]];
$VU = [АЕЁЭИОУЫЮЯ];
$Vl = [аеёэиоуыюя];
$V  = [$VU $Vl];
$IJ = [ИиЙй];
$Front = [ЕеИиЫыЭэ];   # for G→GU

# ---------- French contexts ----------

# E (Е): word-initial → Ie/ie ; after vowel (≠ И/Й) → ïe ; after И/Й/ь/ъ → ie
$WB { Е } → IE;
$WB { е } → ie;
[$V-$IJ] { Е } → ÏE;
[$V-$IJ] { е } → ïe;
[$IJ ЬьЪъ] { Е } → IE;
[$IJ ЬьЪъ] { е } → ie;

# И: ï after vowel (≠ И), else i
[$V-[Ии]] { И } → Ï;
[$V-[Ии]] { и } → ï;

# Й: finals -ий → i ; -ый → y ; elsewhere ï
ий $WB → i;  Ий $WB → i;
ый $WB → y;  Ый $WB → y;
Й → Ï;  й → ï;

# Ю: after И/Й → ou ; after other vowel → ïou ; else iou
$IJ { Ю } } $L → Ou;
$IJ { Ю } } [^$L] → OU;
$IJ { ю } → ou;

[$V-$IJ] { Ю } } $L → Ïou;
[$V-$IJ] { Ю } } [^$L] → ÏOU;
[$V-$IJ] { ю } → ïou;

Ю } $L → Iou;
Ю } [^$L] → IOU;
ю → iou;

# Я: after И/Й → a ; after other vowel → ïa ; else ia
$IJ { Я } } $L → A;
$IJ { Я } } [^$L] → A;   # no i/ï component, so same either way
$IJ { я } → a;

[$V-$IJ] { Я } } $L → Ïa;
[$V-$IJ] { Я } } [^$L] → ÏA;
[$V-$IJ] { я } → ïa;

Я } $L → Ia;
Я } [^$L] → IA;
я → ia;

# С: ss between vowels
$V { С } $V → ss;
$V { с } $V → ss;

# Г: gu before front vowels
Г } $Front → GU;
г } $Front → gu;

# Н: final after И/Ы → ne
[ИиЫы] { Н } $WB → ne;
[ИиЫы] { н } $WB → ne;

# Ё: (French usually Io/io; keep optional “after CH/SH/Щ/Ж → o” if you want)
# Titlecasing/casing without overlap:
Ё } $L → Io;
Ё } [^$L] → IO;
ё → io;

# ---------- Base letters (simple, one place only) ----------
А→A; а→a;
Б→B; б→b;
В→V; в→v;
Г→G; г→g;      # GU handled above
Д→D; д→d;
Е→E; е→e;      # contexts above modify to Ie/ïe/ie
Ж→J; ж→j;
З→Z; з→z;
И→I; и→i;      # context may produce Ï/ï
К→K; к→k;
Л→L; л→l;
М→M; м→m;
Н→N; н→n;
О→O; о→o;
П→P; п→p;
Р→R; р→r;
С→S; с→s;      # ss between vowels handled above
Т→T; т→t;

# Digraphs/trigraphs with casing (partitioned, no overlap)
У } $L → Ou;      У } [^$L] → OU;      у → ou;
Х } $L → Kh;      Х } [^$L] → KH;      х → kh;
Ц } $L → Ts;      Ц } [^$L] → TS;      ц → ts;
Ч } $L → Tch;     Ч } [^$L] → TCH;     ч → tch;
Ш } $L → Ch;      Ш } [^$L] → CH;      ш → ch;
Щ } $L → Chtch;   Щ } [^$L] → CHTCH;   щ → chtch;

Ъ → ;  ъ → ;
Ы → Y;  ы → y;
Ь → ;  ь → ;
Э → E;  э → e;

::NFC;
"""

In [12]:
fr_examples = """
Владимир → Vladimir
Борис → Boris
Смирнов → Smirnov
Сергей → Sergueï
Георгий → Gueorgui
Новгород → Novgorod
Менделеев → Mendeleïev
Чехов → Tchekhov
Дмитриев → Dmitriev
Ельцин → Eltsine
Дудаев → Doudaïev
Екатеринбург → Iekaterinbourg
Васильев → Vassiliev
Тургенев → Tourgueniev
Пётр → Piotr
Королёв → Koroliov
Горбачёв → Gorbatchev
Нижний → Nijni
Казимир → Kazimir
Михаил → Mikhaïl
Мир → Mir
Достоевский → Dostoïevski
Грозный → Grozny
Алексей → Alekseï
Андрей → Andreï
Александр → Aleksandr
Калининград → Kaliningrad
Малевич → Malevitch
Дума → Douma
Гагарин → Gagarine
Солженицын → Soljenitsyne
Магадан → Magadan
Байконур → Baïkonour
Волга → Volga
Спутник → Spoutnik
Самара → Samara
Новосибирск → Novossibirsk
Курск → Koursk
Владивосток → Vladivostok
Ульянов → Oulianov
Туполев → Tupolev
Прокофьев → Prokofiev
Михаил → Mikhaïl
Хабаровск → Khabarovsk
Цветаева → Tsvetaïeva
Черненко → Tchernenko
Пушкин → Pouchkine
Щедрин → Chtchedrine
Черномырдин → Tchernomyrdine
Область → Oblast'
Элиста → Elista
Биюлин → Biouline
Нефтеюганск → Nefteïougansk
Юрий → Iouri
Союз → Soyouz
Мария → Maria
Майя → Maïa
Маяковский → Maïakovski
Ярославль → Iaroslavl
Ялта → Yalta
"""

In [18]:
tests = []
for line in fr_examples.split("\n"):
    line = line.strip()
    if line == "":
        continue
    parts = line.split(" → ")
    tests.append(parts)

In [27]:
rufr = transliterator_from_rules("ru-fr", fr_rules)

for w in tests:
    assert w[1] == rufr.transliterate(w[0])
    print(f"{w[0]:15s} → {rufr.transliterate(w[0])}")

ICUError: ('More than one post context', 0, 765, 'ïou ; else iou\n\x00', '$IJ { Ю } } $L \x00'), error code: 65551