In [1]:
import pandas as pd
import re
import string
import time

from collections import Counter, defaultdict

from needleman_wunsch import needleman_wunsch

from fuzzywuzzy import fuzz

from operator import itemgetter

pd.set_option('display.max_rows', 1000)

In [2]:
df = pd.read_csv('data/dataYiddish/names/names.csv')

In [3]:
df.sample()

Unnamed: 0,english,yiddish
749,Eliezer Adler,אליעזר אדלער


In [4]:
len(df)

1370

In [25]:
df['yiddish']  = df.yiddish.apply(lambda x: re.sub('&lrm;', '"', x))
df['english'] = df.english.apply(lambda x: re.sub('&lrm;', '"', x))

In [54]:
letterpairs = [(pair[0][0], pair[1][0].lower()) for pair in zip(df.yiddish.values, df.english.values)]

In [55]:
letterdict = defaultdict(str)

for tup in Counter(letterpairs).most_common()[::-1]:
    letterdict[tup[0][0]] = tup[0][1]

In [56]:
letterdict

defaultdict(str,
            {'ד': 'd',
             'י': 'y',
             'ר': 'r',
             'צ': 'z',
             'ו': 'w',
             'כ': 'k',
             'P': 'p',
             'ח': 'c',
             'V': 'v',
             'א': 'a',
             'ש': 's',
             'ק': 'c',
             'ס': 's',
             'ב': 'b',
             'פ': 'p',
             'ת': 't',
             'ע': 'e',
             'ז': 'j',
             'ל': 'l',
             'ה': 'h',
             'מ': 'm',
             'װ': 'w',
             'ט': 't',
             'ג': 'g',
             'נ': 'n'})

In [57]:
letterdict[' '] = ' '
letterdict['ן'] = 'n'
letterdict['ם'] = 'm'
letterdict['ץ'] = 'z'
letterdict['ף'] = 'f'
letterdict['ך'] = 'kh'
letterdict['ח'] = 'ch'
letterdict['ט'] = 't'
letterdict['ז'] = 'z'

In [103]:
pairs = []
unpairs = []

In [104]:
worddict = {'אין': 'in', 'און': 'un'}

def add_to_pairs(row):
    parallels = list(zip(row.yiddish.split(), row.english.split()))
    for heb, trans in parallels:
        if heb in worddict.keys():
            pseudotrans = worddict[heb]
        else:
            pseudotrans = ''.join([letterdict[letter] for letter in heb]) 
        if fuzz.ratio(pseudotrans.lower(), trans.lower()) >= 33:
            print(heb, trans)
            pairs.append((heb, trans))
        else:
            unpairs.append((heb, trans))

In [105]:
ps = ''.join([letterdict[letter] for letter in 'ישראל'])
fuzz.ratio(ps.lower(), 'mi-Roḥmisṭriṿḳa'.lower())

30

In [106]:
df.apply(lambda x: add_to_pairs(x), axis=1)

משה Moishe
שטערנבוך Sternbuch
דזשעראם Jerome
שאטנשטיין Schottenstein
יצחק Yitzchok
ווייס Weiss
לעבנשטיין Lobenstein
אברהם Avraham
דוב Dov
אויערבאך Auerbach
יעקב Ya'acov
ראנד Rand
שריה Śerayah
דעבליצקי Dablitsḳi
חיים Ḥayim
שאול Shaʼul
דאן Don
ריקלס Rickles
עליזאבעט Elizabeth
אוריאל Uriel
וויינרייך Weinreich
פישמאן Fishman
מארלין Marilyn
מאנרא Monroe
נסים Nissim
קארעליץ Karelitz
מעל Mel
ברוקס Brooks
שלמה Shlomo
פאפנהיים Pappenheim
אירווין Irwin
פינחס Pinchas
מנחם Menachem
אלטער Alter
פידעל Fidel
קאסטרא Castro
משה Moshe
דוד David
טענדלער Tendler
מאיר Meir
בניהו Benayahu
שמואל Samuel
שטראשון Strashun
חיים Chaim
יוסף Yosef
גאטליב Gottlieb
אליהו Elijah
טריוואש Triwosch
דוד David
אַפּאָטהעקער Apotheker
דוד David
וואלפסאן Wolffsohn
אמיליו Emilio
אינסולרה Insolera
יואל Yoel
לעבאוויטש Lebowits
מתתיהו Matisyahu
מארקוס Markus
פערסאן Persson
פינק Pink
בנימין Binyomin
ביינוש Beinush
פֿינקל Finkel
מעכל Michel
דארפמאן Dorfman
סרול Srul
בראנשטיין Bronshtein
מיכל Michel
יהודה Yehuda
שמואל Shmuel
ראזאווס

דזשיימס James
דאדולא Dadullah
גלעד Gilad
שרון Sharon
מייקל Michael
קאהען Cohen
דזשייסן Jason
גרינבלאט Greenblatt
דוד David
לאו Lau
משה Moshe
ראובן Reuven
אסמאן Azman
ריק Rick
אַסטלי Astley
אנדרעי André
באוקלעיר Boisclair
פאלינא Polina
בייוול Bayvel
זשימי Jimmy
וויילס Wales
זשענעט Janet
זשעקסאן Jackson
מייקל Michael
קאהען Cohen
דעוויד David
שווימער Schwimmer
דייוויד David
קאמעראן Cameron
אבו Abu
מוסאב Musab
אל-זארקאווי al-Zarqawi
שמואל Shmuley
בוטח Boteach
גדעון Gideon
סער Sa'ar
מאיר Meir
שמחה Simcha
נפתלי-הערץ Naftali
וויליאם William
מעקינלי McKinley
פעדרא Pedro
אמעריקא Américo
עדווארד Edvard
גריג Grieg
גלעב Gleb
אוספענסקי Uspensky
בערעלע Berele
חגי Chagy
ישראל Israel
וואקסער Wachser
דוד David
ר' R.
זאסלאבסקי Zaslowsky
אהרן Aharon
קאטלער Kotler
אליהו Eliyahu
דעסלער Eliezer
רודאלף Rudolph
חיים Hyman
פּריזאַנט Prizant
בערעלע Berele
חגי Chagy
זײדען Seiden
ברונא Bruno
שולץ Schulz
שמואל Samuil
ראָסין Rosin
יצחק Yitzchak
מאיר Meir
אלטער Alter
אלעקסאנדער Alexander
פושקין Pushkin
יוחנן Yochana

רעכטצייט Rexite
בינם Binem
העלער Heller
שיקע Shike
דריז Driz
מעל Mel
בלענק Blanc
מאיר Meir
יוסט Just
אסקאר Oskar
שינדלער Schindler
ענווער Enver
האדזשא Hoxha
לינדאן Lyndon
חנוך Chanoch
דוב Dov
פאדווא Padwa
עלי Eli
שעכטמאַן Shechtman
אביגדור Avigdor
מילער Miller
עדווארד Eduard
ראשמאן Roschmann
יוסף Josef
ערליך Erlich
שמעון Simon
וויזנטאל Wiesenthal
שמעון Shimon
שוואב Schwab
משה Ṭshorṭḳoṿ
פרידמאן Daṿid
שלמה Salomon
בובער Buber
משה Moses
לודוויג Ludwig
בערנע Börne
פראנסוא François
אראגא Arago
קארל Carl
מאריע Maria
פאן von
וועבער Weber
קארל Carl
מאריע Maria
פאן von
וועבער Weber
קארל Carl
מאריע Maria
פאן von
וועבער Weber
שלמה Solomon
יהודה Judah
מרדכי Mordecai
סוחאסטאווער Suchostaver
לעאפאלד Leopold
שלמה Solomon
יהודה Judah
טיילער Tyler
יהודה Yehuda
דאסקאל Daskal
טלי Tali
פארקאש Farkash
ראט Rath
דזשערעד Jared
קושנער Kushner
פיטבול Pitbull
פאריס Paris
הילטאן Hilton
בען Ben
שירי Shiri
מיימון Maimon
מיצאָטערו Mitsuteru
הראל Harel
סקאאט Skaat
פערנאנדא Fernando
אלאנסא Alonso
מאריאנא Marianna
פאלק

0       None
1       None
2       None
3       None
4       None
        ... 
1365    None
1366    None
1367    None
1368    None
1369    None
Length: 1370, dtype: object

In [107]:
len(pairs), len(unpairs)

(2611, 405)

In [109]:
pair_df = pd.DataFrame({'yiddish': [tup[0] for tup in pairs], 'translit': [tup[1] for tup in pairs]})

In [110]:
pair_df['source'] = 'wikidata'

In [111]:
len(pair_df), len(pair_df.drop_duplicates())

(2611, 1832)

In [112]:
pair_df.drop_duplicates().to_csv('data/processed-parallel/names.csv', index=False)