Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Yiddish transcription #2651

Open
conlangbecca opened this issue Mar 16, 2021 · 1 comment
Open

Yiddish transcription #2651

conlangbecca opened this issue Mar 16, 2021 · 1 comment
Labels
enhancement Issue that describes a problem that requires a change in the current functionalities of Tatoeba.

Comments

@conlangbecca
Copy link

It should be possible to transcribe Yiddish automatically, as Yiddish essentially consists of:

(1) a phonetic alphabet, used for most words
(2) Hebrew and Aramaic words, non-phonetic, which must be manually edited.

This is similar to Japanese, though unlike Japanese, the non-phonetic terms use the same characters as the phonetic ones.

It should also be noted that the means of writing Yiddish phonetically aren't completely standardized. For example, the sound /a/ may be written אַ (with a vowel below) or א (with no vowel below). Similarly, the sound /ɔ/ may be written אָ (with a vowel below) or א (with none). However, the other vowels are rather uniformly written ע /e/, י /i/, and ו /u/.

So, any transcription should have to be checked over by a speaker, but it's possible to get very close to an accurate transcription, as can be seen on Wiktionary and on Google Translate.

You can read about the system here: https://en.wikipedia.org/wiki/Yiddish_orthography I would advise defaulting to the expected YIVO transcription, and any discrepancies could be resolved manually by a human, including any Hebrew or Aramaic terms. At some point, a furigana-type system would be a good feature to implement, with the phonetic transcription being written over the Hebrew or Aramaic word - but I think first things first; it would be easier to start with Latin transcriptions.

Here are some transcription pairs:

טאָם זיצט צווישן זײַנע חבֿרים.
tom zitst tsvishn zayne khaveyrim.

מײַן טאַטע איז נישט אַזוי רײַך ווי מײַן זיידע.
mayn tate iz nisht azoy raykh vi mayn zeyde.

קאַטשקעלעך זענען זיס.
katshkelekh zenen zis.

װאָס מיינסטו, קעצעלע? איך פֿאַרשטיי דיך נישט. איך רעד נישט קיין קעציש.
vos meynstu, ketsele? ikh farshtey dikh nisht. ikh red nisht keyn ketsish.

ים־חזירימלעך זענען זיס.
yam-khazeyrimlekh zenen zis.

גאָט איז אומעטום.
got iz umetum.

טאָם איז אַ דאָן־⁠זשואַן.
tom iz a don-zshuan.

גריזוואָלד איז געווען אַ קורעווניק, און זײַן פֿרוי האָט דאָס געוווּסט.
grizvold iz geven a kurevnik, un zayn froy hot dos gevust.

טאָם איז אַ פֿרויען־⁠יעגער.
tom iz a froyen-yeger.

טאָם איז אַ װײַבערניק.
tom iz a vaybernik.

דאָס לעבן אין דער תּפֿיסה איז אַ פּאַמעלעכער טויט.
dos lebn in der tfise iz a pamelekher toyt.

זי איז אַ פּרעכטיקע מדינה.
zi iz a prekhtike medine.

ס׳איז אַ פּרעכטיק לאַנד.
s'iz a prekhtik land.

צי האָב איך שוין דערמאָנט, אַז איך בין משוגע?
tsi hob ikh shoyn dermont, az ikh bin meshuge?

ישׂראל ווערט אַרויסגערעדט „ייִסראַע֜ל” אויף עבריתּ.
yisroel vert aroysgeredt "yisraél" oyf ivrit.

קין איז נישט געווען קיין גוט מיטקינד.
kayen iz nisht geven keyn gut mitkind.

סאַמי ווייס אַ סך וועגן איסלאַם.
sami veys a sakh vegn islam.

צי רעדסטו העברעיִש?
tsi redstu hebreish?

אסתּר איז אַ לערערקע פֿון העברעיִש.
ester iz a lererke fun hebreish.

אסתּר איז אַ לערערקע פֿון לשון־קודש‎.
ester iz a lererke fun loshn-kodesh.

יאַני האָט מסכּים געווען.
yani hot maskem geven.

סאַמי און לײַלע זענען אין דער קיך.
sami un layle zenen in der kikh.

אַ העלפֿאַנד עסט באַנאַנען.
a helfand est bananen.

די משוגענע האָבן איבערגענומען דאָס משוגעים־⁠הויז.
di meshugene hobn ibergenumen dos meshugoyem-hoyz.

באַקטעריעס זענען מיקראָאָרגאַניזמען.
bakteryes zenen mikroorganizmen.

איך ווייס, וואָס איז געשען.
ikh veys, vos iz geshen.

פֿאַראַן ערד־⁠ציטערנישן אויף מאַרס?
faran erd-tsiternishn oyf mars?

די אָרעמקייט זאָל נישט עקסיסטירן.
di oremkeyt zol nisht eksistirn.

כ׳בין אַ מאַמע.
kh'bin a mame.

אין דר׳ערד אַרײַן מיט גרענעצן.
in dr'erd arayn mit grenetsn.

לעבן זאָל דער תּוהו־ובֿוהו!
lebn zol der toye-voye!

ס׳איז אײַז קאַלט.
s'iz ayz kalt.

דער שלאָף איז אַ גנבֿ.
der shlof iz a ganef.

דער שלאָף איז לעבנס־וויכטיק.
der shlof iz lebns-vikhtik.

טו אויס דײַנע דזשינס.
tu oys dayne dzshins.

זי איז אַ נאַרקאָטיק־⁠הענדלערקע.
zi iz a narkotik-hendlerke.

יאַני איז געווען אַ נאַרקאָטיק־⁠הענדלער.
yani iz geven a narkotik-hendler.

טאָם איז נישט קיין נאַרקאָטיק־⁠הענדלער.
tom iz nisht keyn narkotik-hendler.

ס׳איז אַ סכּנותדיקע תּקופֿה.
s'iz a skonesdike tkufe.

כ׳וועל אײַך תּמיד זאָגן דעם אמת.
kh'vel aykh tomed zogn dem emes.

צי איז אַ וווּרשטל אַ סענדוויטש?
tsi iz a vurshtl a sendvitsh?

דו ביסט טאַקע אַ קאַנאַדערין?
du bist take a kanaderin?

כ׳בין נישט קיין קאָנסערוואַטיווער.
kh'bin nisht keyn konservativer.

דאָס איז נישט דײַנס.
dos iz nisht dayns.

אַלצדינג געהער אַלעמען.
altsding geher alemen.

זי האָט אים געשטעלט אין ביוש.
zi hot im geshtelt in biesh.

זי האָט אים אָפּגעהאַקט די פֿליגל.
zi hot im opgehakt di fligl.

דאָס איז אַ רויִק אָרט.
dos iz a ruik ort.

דאָס איז אַ רואיק אָרט.
dos iz a ruik ort.

מיר וועלן קיינמאָל נישט אונטערשטיצן דעם טעראָריזם.
mir veln keynmol nisht untershtitsn dem terorizm.

מוחות זענען מאָדנע.
moykhes zenen modne.

כ׳בין שוין אָנגערופֿן געוואָרן מיט ערגערע נעמען דורך בעסערע לײַט.
kh'bin shoyn ongerufn gevorn mit ergere nemen durkh besere layt.

טאָם זאָגט, אַז ער האָט אַ סך געלט.
tom zogt, az er hot a sakh gelt.

לאָזט נישט אַרויס די קאַץ.
lozt nisht aroys di kats.

דאָס האָט גאָר נישט צו טאָן מיט מיר.
dos hot gor nisht tsu ton mit mir.

צי קען מען עסן די שאָלעכץ פֿון אַ קיווי?
tsi ken men esn di sholekhts fun a kivi?

מענער ווילן נאָר איין זאַך.
mener viln nor eyn zakh.

ביידע זענען גיי, אָבער נישט קיין פּאָרל.
beyde zenen gey, ober nisht keyn porl.

ביידע זענען געי, אָבער נישט קיין פּאָרל.
beyde zenen gey, ober nisht keyn porl.

די פֿרײַהייט איז אַלעמאָל די פֿרײַהייט פֿון די אַנדערש־⁠טראַכטערס.
di frayheyt iz alemol di frayheyt fun di andersh-trakhters.

לעבן זאָל די רעפּובליק!
lebn zol di republik!

לעבן זאָל אינדיע!
lebn zol indye!

ביז הונדערט און צוואַנציק!
biz hundert un tsvantsik!

פֿאַרוואָס עסן הינט גראָז?
farvos esn hint groz?

מערי איז ניט קראַנק.
meri iz nit krank.

טאָם איז נאָך בײַם לעבן?
tom iz nokh baym lebn?

פֿאַרוואָס בין איך אַזוי מיד?
farvos bin ikh azoy mid?

פֿאַרוואָס זענען חזירים אַזוי קלוג?
farvos zenen khazeyrim azoy klug?

מײַן ברודער רייכערט.
mayn bruder reykhert.

פֿאַרוואָס זענען מאַלפּעס אַזוי קאָמיש?
farvos zenen malpes azoy komish?

טאָם און מערי זענען דם־שׂונאים.
tom un meri zenen dam-sonim.

ווײַן איז בעסער ווי ביר.
vayn iz beser vi bir.

איך בין געווען אַ וואַלד.
ikh bin geven a vald.

כ׳האָב נעכטן נישט געגעסן.
kh'hob nekhtn nisht gegesn.

די געזעלשאַפֿט דאַרף זיך בײַטן.
di gezelshaft darf zikh baytn.

מײַן מאַן איז אַ בעקער.
mayn man iz a beker.

אָט איז טאָקיאָ.
ot iz tokyo.

טאָם גלייבט אין וואַמפּירן.
tom gleybt in vampirn.

ער האָט אים גערודפֿט.
er hot im geroydeft.

@conlangbecca conlangbecca added the enhancement Issue that describes a problem that requires a change in the current functionalities of Tatoeba. label Mar 16, 2021
@jiru
Copy link
Member

jiru commented Mar 18, 2021

Alright. Thank you for the transcription pairs. 🙂

So this transcription will only be useful to learners of Yiddish, is that correct? To what extent Yiddish speakers can help fixing the transcription, i.e. how many of them are familiar with the YIVO transcription?

I am a bit concerned by the lack of standardization. If we allow to edit the transcription, won’t that lead to non-standard fixes? If this is a problem, it means we also need to implement validation of the transcription against the original Yiddish sentence.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement Issue that describes a problem that requires a change in the current functionalities of Tatoeba.
Projects
None yet
Development

No branches or pull requests

2 participants