# Talmud Lab, Word Translation Project

A demonstration of the latest methods developed for the Talmud word-to-Jastrow project, which aims to map every word in the Talmud to a single entry (or ranked list of entries) in the Jastrow Talmudic dictionary.

In [1]:
from utils.texts import *
from utils.deconstruct2 import *
from utils.jastrow import *
from utils.respell import *

In [2]:
import re
from string import punctuation

import numpy as np
import pandas as pd
import random as rd

## Download a masekhet

`get_masekhet` downloads the full Hebrew text of a masekhet and tags the Steinsaltz "chunks" based on whether they are mishnayot or gemaras.

In [5]:
ber = Masekhet('Berakhot')

In [4]:
ber[:5]

[[['מֵאֵימָתַי',
   'קוֹרִין',
   'אֶת',
   'שְׁמַע',
   'בָּעֲרָבִין',
   '?',
   'מִשָּׁעָה',
   'שֶׁהַכֹּהֲנִים',
   'נִכְנָסִים',
   'לֶאֱכוֹל',
   'בִּתְרוּמָתָן',
   '.',
   'עַד',
   'סוֹף',
   'הָאַשְׁמוּרָה',
   'הָרִאשׁוֹנָה',
   '.',
   'דִּבְרֵי',
   'רַבִּי',
   'אֱלִיעֶזֶר',
   '.'],
  ['וַחֲכָמִים', 'אוֹמְרִים', ':', 'עַד', 'חֲצוֹת', '.'],
  ['רַבָּן',
   'גַּמְלִיאֵל',
   'אוֹמֵר',
   'עַד',
   'שֶׁיַּעֲלֶה',
   'עַמּוּד',
   'הַשַּׁחַר',
   '.'],
  ['מַעֲשֶׂה',
   'וּבָאוּ',
   'בָנָיו',
   'מִבֵּית',
   'הַמִּשְׁתֶּה',
   ',',
   'אָמְרוּ',
   'לוֹ',
   ':',
   'לֹא',
   'קָרִינוּ',
   'אֶת',
   'שְׁמַע',
   ',',
   'אָמַר',
   'לָהֶם',
   ':',
   'אִם',
   'לֹא',
   'עָלָה',
   'עַמּוּד',
   'הַשַּׁחַר',
   'חַיָּיבִין',
   'אַתֶּם',
   'לִקְרוֹת',
   '.',
   'וְלֹא',
   'זוֹ',
   'בִּלְבַד',
   'אָמְרוּ',
   ',',
   'אֶלָּא',
   'כָּל',
   'מַה',
   'שֶּׁאָמְרוּ',
   'חֲכָמִים',
   '״',
   'עַד',
   'חֲצוֹת',
   '״',
   ',',
   'מִצְוָתָן',
   'עַד',
   'שֶׁיַּעֲלֶה

In [5]:
len(ber)

125

## Removing prefixes

`detach_prefix` removes all possible prefixes from a word based on the rules of nikkud to get its root.

In [6]:
r_page = rd.randrange(len(ber))
r_chunk = rd.randrange(len(ber[r_page]))
selected = ber[r_page][r_chunk]
print(' '.join(selected))
words = [i for i in selected if not (i in punctuation + '…׳״—')]

words

אֲמַר לֵיהּ , הָכִי אָמַר רַב חִסְדָּא : מַאי דִּכְתִיב , ״ אֹהֵב ה ׳ שַׁעֲרֵי צִיּוֹן מִכֹּל מִשְׁכְּנוֹת יַעֲקֹב ״ : אוֹהֵב ה ׳ שְׁעָרִים הַמְצוּיָּינִים בַּהֲלָכָה , יוֹתֵר מִבָּתֵּי כְנֵסִיּוֹת וּמִבָּתֵּי מִדְרָשׁוֹת .


['אֲמַר',
 'לֵיהּ',
 'הָכִי',
 'אָמַר',
 'רַב',
 'חִסְדָּא',
 'מַאי',
 'דִּכְתִיב',
 'אֹהֵב',
 'ה',
 'שַׁעֲרֵי',
 'צִיּוֹן',
 'מִכֹּל',
 'מִשְׁכְּנוֹת',
 'יַעֲקֹב',
 'אוֹהֵב',
 'ה',
 'שְׁעָרִים',
 'הַמְצוּיָּינִים',
 'בַּהֲלָכָה',
 'יוֹתֵר',
 'מִבָּתֵּי',
 'כְנֵסִיּוֹת',
 'וּמִבָּתֵּי',
 'מִדְרָשׁוֹת']

In [7]:
for w in words:
    print(w, end='\t')
    print(detach_prefix(w))

אֲמַר	['אֲמַר']
לֵיהּ	['לֵיהּ']
הָכִי	['הָכִי', 'י']
אָמַר	['אָמַר']
רַב	['רַב']
חִסְדָּא	['חִסְדָּא']
מַאי	['מַאי']
דִּכְתִיב	['דִּכְתִיב', 'תִיב', 'כְתִיב']
אֹהֵב	['אֹהֵב']
ה	['ה']
שַׁעֲרֵי	['שַׁעֲרֵי']
צִיּוֹן	['צִיּוֹן']
מִכֹּל	['מִכֹּל', 'כֹּל']
מִשְׁכְּנוֹת	['מִשְׁכְּנוֹת']
יַעֲקֹב	['יַעֲקֹב']
אוֹהֵב	['אוֹהֵב']
ה	['ה']
שְׁעָרִים	['שְׁעָרִים']
הַמְצוּיָּינִים	['הַמְצוּיָּינִים']
בַּהֲלָכָה	['בַּהֲלָכָה']
יוֹתֵר	['יוֹתֵר']
מִבָּתֵּי	['מִבָּתֵּי', 'בָּתֵּי']
כְנֵסִיּוֹת	['כְנֵסִיּוֹת', 'נֵסִיּוֹת']
וּמִבָּתֵּי	['וּמִבָּתֵּי', 'בָּתֵּי', 'מִבָּתֵּי']
מִדְרָשׁוֹת	['מִדְרָשׁוֹת']


## Getting roots

In [8]:
for w in words:
    print(w, end='\t')
    
    possibilities = detach_prefix(w)
    print(possibilities)
    
    print('Hebrew:')
    for p in possibilities:
        print(p + '\t' + str(hebrew_root(p)))
    
    print('Aramaic verb:')
    for p in possibilities:
        print(p + '\t' + str(aramaic_verb_root(p)))
    
    print('Aramaic noun:')
    for p in possibilities:
        print(p + '\t' + str(aramaic_noun_root(p)))
    
    print('\n\n')

אֲמַר	['אֲמַר']
Hebrew:
אֲמַר	[('אָמַר', 'פועל', 'קל'), ('הֵמַר', 'פועל', 'הפעיל'), ('אֹמֶר', 'שֵם')]
Aramaic verb:
אֲמַר	[('אֲמַר', 'Paal')]
Aramaic noun:
אֲמַר	[]



לֵיהּ	['לֵיהּ']
Hebrew:
לֵיהּ	[]
Aramaic verb:
לֵיהּ	[]
Aramaic noun:
לֵיהּ	[]



הָכִי	['הָכִי', 'י']
Hebrew:
הָכִי	[('הֲכִי', 'תואר הפועל'), ('הִכָּה', 'פועל', 'הפעיל')]
י	[('י', '')]
Aramaic verb:
הָכִי	[('הִיךְ', 'Paal')]
י	[]
Aramaic noun:
הָכִי	[]
י	[]



אָמַר	['אָמַר']
Hebrew:
אָמַר	[('אָמַר', 'פועל', 'קל'), ('הֵמַר', 'פועל', 'הפעיל'), ('אֹמֶר', 'שֵם')]
Aramaic verb:
אָמַר	[('אֲמַר', 'Paal')]
Aramaic noun:
אָמַר	[]



רַב	['רַב']
Hebrew:
רַב	[('רַב', 'תואר'), ('רָב', 'פועל', 'קל'), ('רַב', 'שֵם'), ('רַב', 'פועל', 'קל'), ('רַב', 'תחילית'), ('רֹב', 'שֵם')]
Aramaic verb:
רַב	[('רְבָא', 'Pael')]
Aramaic noun:
רַב	['רַבָּא']



חִסְדָּא	['חִסְדָּא']
Hebrew:
חִסְדָּא	[]
Aramaic verb:
חִסְדָּא	[]
Aramaic noun:
חִסְדָּא	['חִיֽסְדָּא']



מַאי	['מַאי']
Hebrew:
מַאי	[('מַאי', ''), ('מֵאִי', 'תואר'), ('מַאי', ''), ('אִי', '

## Naive Jastrow Search

The following description has been pulled from the docs of the method used below:



`An extremely naive entry searcher, intended merely as a proof-of-concept, not for practical use.`

`The method uses naive lookup on different constructions of 'word' and returns the top N matching entries.`

`The "top N" are ranked by category:`

`1. In Jastrow directly.`

`2. Top entries from dicta nouns (since there are fewer nouns than verbs)`

`3. Top entries from dicta verbs`

`4. Top entries from Morfix.`

`The word is first put through respell.order_nikkud, and if more than one spelling is returned, the method returns`

`the top N for each spelling. Then its possible prefixes are removed, with the ranking choosing the shortest among`

`the possibilities as top rank.`

In [None]:
i = 1
for w in words:
    print(i, end='. ')
    print(w, end='\t')
    print(naive_top_n(w, 100))
    i += 1

## Smarter Naive

In [3]:
i = 1
for w in words:
    print(i, end='. ')
    print(w, end='\t')
    print(smart_naive_search(w))
    i += 1

1. אָמַר	['אָמַר I', 'אֲמַר', 'אָמַר II']
2. רַב	['רַב', 'רַב I', 'רַב II']
3. הוּנָא	['הוּנָא']
4. אָמַר	['אָמַר I', 'אֲמַר', 'אָמַר II']
5. רַבִּי	['רַבִּי']
6. יוֹחָנָן	['יוֹחָנָן']
7. הָיָה	['הוי']
8. מְהַלֵּךְ	['מַהֲלָךְ', 'הָלַךְ', 'הֵלֶךְ']
9. בִּמְבוֹאוֹת	['מָבוֹי', 'מָבוֹא']
10. הַמְטוּנָּפוֹת	[]
11. מַנִּיחַ	['נוּחַ']
12. יָדוֹ	['יוֹדְקֶרֶת', 'יָד', 'יָדָה']
13. עַל	['עַל ²', 'עַל', 'עָל', 'עָלַם III', 'עָלָתָא']
14. פִּיו	['פִּיו']
15. וְקוֹרֵא	['קוֹרֵא']
16. קְרִיאַת	['קְרִיאָה']
17. שְׁמַע	['שְׁמַע II', 'שְׁמַע I']
18. אֲמַר	['אֲמַר']
19. לֵיהּ	[]
20. רַב	['רַב', 'רַב I', 'רַב II']
21. חִסְדָּא	['חִסְדָּא ²', 'חֶסֶד ²', 'חִסְדָּא']
22. הָאֱלֹהִים	['אֱלֹהִים']
23. אִם	['אִם']
24. אַמְרָהּ	['אִמְרָה', 'אָמַר I', 'אֲמַר']
25. לִי	['לִגְיוֹן ²', 'לִבְנָא', 'לֵב ²', 'לִבְדָּא', 'לִבְלָר ²', 'לִגְיוֹן', 'לִישׁ', 'לִפְצָא', 'לִשְׁכְּתָא', 'לִשְׁלוּשְׁתָּא', 'לִשְׁלֶשֶׁת', 'י', 'י׳', 'יָחִיד ²', 'יָתֵיבְתָּא', 'פִּ']
26. רַבִּי	['רַבִּי']
27. יוֹחָנָן	['יוֹחָנָן']
28. בְּפוּמֵּיהּ

## Hebrew verb root getter

In [9]:
i = 1
for w in words:
    print(str(i) + '. ' + w, end='\t')
    
    possibilities = detach_prefix(w)
    print(possibilities)
    
    for p in possibilities:
        heb_roots = hebrew_root(p)
        for r in heb_roots:
            if r[1] == 'פועל':
                print('\t', end='')
                print(str(r), end='\t')
                print(hebrew_shoresh(r[0], r[2]))
        
    i += 1

1. רַבִּי	['רַבִּי']
	('רִבָּה', 'פועל', 'פיעל')	רָבַה
2. יוֹסֵי	['יוֹסֵי']
3. אוֹמֵר	['אוֹמֵר']
	('אָמַר', 'פועל', 'קל')	אָמַר
4. שׁוֹנֶה	['שׁוֹנֶה']
	('שֻׁנָּה', 'פועל', 'פועל')	שָנַה
	('שָׁנָה', 'פועל', 'קל')	שָנַה
5. הוּא	['הוּא']
6. בָּרְגִילִיּוֹת	['בָּרְגִילִיּוֹת']
7. וּבִלְבַד	['וּבִלְבַד', 'בַד', 'לְבַד', 'בִלְבַד']
8. שֶׁלֹּא	['שֶׁלֹּא', 'לֹּא']
9. יַצִּיעַ	['יַצִּיעַ']
	('הִצִּיעַ', 'פועל', 'הפעיל')	צָיַע
	('הִצִּיעַ', 'פועל', 'הפעיל')	צָיַע
10. אֶת	['אֶת']
11. הַמִּשְׁנָה	['הַמִּשְׁנָה', 'מִּשְׁנָה']
	('שִׁנָּה', 'פועל', 'פיעל')	שָנַה
	('שֻׁנָּה', 'פועל', 'פועל')	שָנַה
	('שִׁנָּה', 'פועל', 'פיעל')	שָנַה
	('שֻׁנָּה', 'פועל', 'פועל')	שָנַה
12. רַבִּי	['רַבִּי']
	('רִבָּה', 'פועל', 'פיעל')	רָבַה
13. יוֹנָתָן	['יוֹנָתָן']
14. בֶּן	['בֶּן']
	('בָּן', 'פועל', 'קל')	בַן
15. יוֹסֵף	['יוֹסֵף']
	('יֻסַּף', 'פועל', 'פועל')	יָסַף
	('הוּסַף', 'פועל', 'הופעל')	וָסַף
	('נוֹסַף', 'פועל', 'נפעל')	וָסַף
16. אוֹמֵר	['אוֹמֵר']
	('אָמַר', 'פועל', 'קל')	אָמַר
17. מַצִּיעַ	['מַצִּיעַ']
	('הִצִּי