# Transliteration

This notebook is used to illustrate the different tranliteration tools that were explored for this project. Although we ended up choosing CamelTools, we reviewed two other libraries which also offer arabic transliteration capabilities, but ended up choosing Camel Tools for its reversibility

In [8]:
sentences = ['وحُلم المزارع هذا هوَ كلّ ما لدى بعض الناس',
 'ذلك الشيطان الماكر بلغارد شجع بورثوس وهذا ما حدث.',
 'هذهِ اخر محطة لي قبل ان اتقاعد',
 'اثداء كبيره لن تخسرها ابدا',
 'حسنا، الجميع يكون منتبه لهذه الخطوات.',
 'شخصـاً يضحك عندمـا يـرى الدم الذي يجعـل الأشخـاص الضعفـاء يتقيـأون',
 'أخبرته بشأن والدك صحيح؟',
 'آه, ماذا تريدين للعشاء؟',
 'أعلم, لكن ما الذي فعلتيه في الحقيقة؟',
 '. إن تسكعتِ معي فقط سوف يقبلونكِ في أسرع وقت',
 "ذهبت إلى المكتبة."
]

## Camel Tools

In [7]:
from camel_tools.utils.charmap import CharMapper


ar2bw = CharMapper.builtin_mapper('ar2hsb')
bw2ar = CharMapper.builtin_mapper('hsb2ar')

for i,sentence in enumerate(sentences):
    print(f"sentence {i}")
    print(sentence)
    sent_bw = ar2bw(sentence)
    print(sent_bw)
    sent_ar = bw2ar(sent_bw)
    print(sent_ar)


sentence 0
وحُلم المزارع هذا هوَ كلّ ما لدى بعض الناس
wHulm AlmzArς hðA hwa kl~ mA ldý bςD AlnAs
وحُلم المزارع هذا هوَ كلّ ما لدى بعض الناس
sentence 1
ذلك الشيطان الماكر بلغارد شجع بورثوس وهذا ما حدث.
ðlk AlšyTAn AlmAkr blγArd šjς bwrθws whðA mA Hdθ.
ذلك الشيطان الماكر بلغارد شجع بورثوس وهذا ما حدثْ
sentence 2
هذهِ اخر محطة لي قبل ان اتقاعد
hðhi Axr mHTħ ly qbl An AtqAςd
هذهِ اخر محطة لي قبل ان اتقاعد
sentence 3
اثداء كبيره لن تخسرها ابدا
AθdA' kbyrh ln txsrhA AbdA
اثداء كبيره لن تخسرها ابدا
sentence 4
حسنا، الجميع يكون منتبه لهذه الخطوات.
HsnA، Aljmyς ykwn mntbh lhðh AlxTwAt.
حسنا، الجميع يكون منتبه لهذه الخطواتْ
sentence 5
شخصـاً يضحك عندمـا يـرى الدم الذي يجعـل الأشخـاص الضعفـاء يتقيـأون
šxS_Aã yDHk ςndm_A y_rý Aldm Alðy yjς_l AlÂšx_AS AlDςf_A' ytqy_Âwn
شخصـاً يضحك عندمـا يـرى الدم الذي يجعـل الأشخـاص الضعفـاء يتقيـأون
sentence 6
أخبرته بشأن والدك صحيح؟
Âxbrth bšÂn wAldk SHyH؟
أخبرته بشأن والدك صحيح؟
sentence 7
آه, ماذا تريدين للعشاء؟
Āh, mAðA trydyn llςšA'؟
آه, ماذا تريدين للعشاء؟



The mapping, as show in this example, is fully reversible. Going from arabic to HSB and the to arabic fully preserves the sentence, which is one of the main requirements we have in our choice.

## Arabic Transliterator

In [4]:
import sys
import os

# Add directory to PATH
sys.path.append('../..')
from src.utils.transliterator import ArabicTransliterator

"""Test Latin to Arabic transliteration"""
print("\n=== Testing Latin to Arabic Transliteration ===")

test_words = [
    "mar7aba",      # Hello
    "salaam",       # Peace
    "shukran",      # Thank you
    "kaifa 7alak",  # How are you?
    "sabah al5air", # Good morning
    "madrasa",      # School
    "kitaab",       # Book
    "bab",          # Door
    "bayt",         # House
    "sadiiq"        # Friend
]

transliterator = ArabicTransliterator()

for word in test_words:
    results = transliterator.transliterate(word, limit=3)
    print(f"\nInput: {word}")
    for i, result in enumerate(results, 1):
        print(f"  {i}. {result}")


    phonetic = transliterator.pronunciate(result, limit=1)
    arabic_from_phonetic = transliterator.to_arb(phonetic[0], limit=1)
    print(f"latin->Phonetic → Arabic: {arabic_from_phonetic[0]}")

    print(f"Results match: {'Yes' if word == arabic_from_phonetic[0] else 'No'}")




=== Testing Latin to Arabic Transliteration ===

Input: mar7aba
  1. مَرحَبة
  2. مَرحَبا
  3. مارحَبى
latin->Phonetic → Arabic: مارحَبى
Results match: No

Input: salaam
  1. سَلام
  2. صَلام
latin->Phonetic → Arabic: صَلام
Results match: No

Input: shukran
  1. شوكراً
  2. سهوكراً
latin->Phonetic → Arabic: سهوكراً
Results match: No

Input: kaifa 7alak
  1. كَِفَ حَلَك
  2. قَِفَ حَلَك
latin->Phonetic → Arabic: قَِفَ حَلَك
Results match: No

Input: sabah al5air
  1. سَبَه َلخَِر
  2. صَبَه َلخَِر
latin->Phonetic → Arabic: صَبَه َلخَِر
Results match: No

Input: madrasa
  1. مَدرَسة
  2. مَدرَسا
  3. مادرَسى
latin->Phonetic → Arabic: مادرَسى
Results match: No

Input: kitaab
  1. كِتاب
  2. قِتاب
latin->Phonetic → Arabic: قِتاب
Results match: No

Input: bab
  1. بَب
  2. باب
latin->Phonetic → Arabic: باب
Results match: No

Input: bayt
  1. بَيت
  2. بايت
latin->Phonetic → Arabic: بايت
Results match: No

Input: sadiiq
  1. سَديق
  2. صَديق
latin->Phonetic → Arabic: صَديق
Results match: No

This library is a python adaptation of a javascript library which is used to transliterate levantine arabic. Although the library is two way, the reverse mapping, latin->arabic, is not exact, and so the library provides multiple alternatives for each word. Upon inspecting it, we noted that the reverse mapping is low quality, and in most cases results in grammatical errors and/or loss of meaning. 

This is reason we did not choose this transliteration system.

## Uroman

In [10]:
import uroman 

trans = uroman.Uroman()
for i,sentence in enumerate(sentences):
    print(f"sentence {i}")
    print(sentence)
    roman = trans.romanize_string(sentence)
    print(roman)



sentence 0
وحُلم المزارع هذا هوَ كلّ ما لدى بعض الناس
whulm almzar' htha hwa kl ma lda b'd alnas
sentence 1
ذلك الشيطان الماكر بلغارد شجع بورثوس وهذا ما حدث.
thlk alshytan almakr blghard shj' bwrthws whtha ma hdth.
sentence 2
هذهِ اخر محطة لي قبل ان اتقاعد
hthhi akhr mhta ly qbl an atqa'd
sentence 3
اثداء كبيره لن تخسرها ابدا
athda' kbyrh ln tkhsrha abda
sentence 4
حسنا، الجميع يكون منتبه لهذه الخطوات.
hsna, aljmy' ykwn mntbh lhthh alkhtwat.
sentence 5
شخصـاً يضحك عندمـا يـرى الدم الذي يجعـل الأشخـاص الضعفـاء يتقيـأون
shkhsan ydhk 'ndma yra aldm althy yj'l alashkhas ald'fa' ytqyawn
sentence 6
أخبرته بشأن والدك صحيح؟
akhbrth bshan waldk shyh?
sentence 7
آه, ماذا تريدين للعشاء؟
ah, matha trydyn ll'sha'?
sentence 8
أعلم, لكن ما الذي فعلتيه في الحقيقة؟
a'lm, lkn ma althy f'ltyh fy alhqyqa?
sentence 9
. إن تسكعتِ معي فقط سوف يقبلونكِ في أسرع وقت
. in tsk'ti m'y fqt swf yqblwnki fy asr' wqt
sentence 10
ذهبت إلى المكتبة.
thhbt ila almktba.


In [None]:
sentences = [
    "ذهبت إلى المكتبة.",
]

thhbt ila almktba.


The problem here is that, although the romanization is good and legible, they do not provide a way to reverse it. While they do claim in the research paper that the mapping is reversible, we noticed from inspecting the latinized version of the text that the translation is lossy, and any reverse mapping does not have enough information to disambiguate between between different potential arabic words.

Because we want to avoid lossy transliterations, we ended up choosing not use Uroman