# Talmud Lab, Word Translation Project

A demonstration of the latest methods developed for the Talmud word-to-Jastrow project, which aims to map every word in the Talmud to a single entry (or ranked list of entries) in the Jastrow Talmudic dictionary.

In [4]:
from utils.texts import *
from utils.deconstruct2 import *
from utils.jastrow import *
from utils.respell import *

In [5]:
import re
from string import punctuation

import numpy as np
import pandas as pd
import random as rd

## Download a masekhet

`get_masekhet` downloads the full Hebrew text of a masekhet and tags the Steinsaltz "chunks" based on whether they are mishnayot or gemaras.

In [6]:
ber = Masekhet('Berakhot')

In [4]:
ber[:5]

[[['מֵאֵימָתַי',
   'קוֹרִין',
   'אֶת',
   'שְׁמַע',
   'בָּעֲרָבִין',
   '?',
   'מִשָּׁעָה',
   'שֶׁהַכֹּהֲנִים',
   'נִכְנָסִים',
   'לֶאֱכוֹל',
   'בִּתְרוּמָתָן',
   '.',
   'עַד',
   'סוֹף',
   'הָאַשְׁמוּרָה',
   'הָרִאשׁוֹנָה',
   '.',
   'דִּבְרֵי',
   'רַבִּי',
   'אֱלִיעֶזֶר',
   '.'],
  ['וַחֲכָמִים', 'אוֹמְרִים', ':', 'עַד', 'חֲצוֹת', '.'],
  ['רַבָּן',
   'גַּמְלִיאֵל',
   'אוֹמֵר',
   'עַד',
   'שֶׁיַּעֲלֶה',
   'עַמּוּד',
   'הַשַּׁחַר',
   '.'],
  ['מַעֲשֶׂה',
   'וּבָאוּ',
   'בָנָיו',
   'מִבֵּית',
   'הַמִּשְׁתֶּה',
   ',',
   'אָמְרוּ',
   'לוֹ',
   ':',
   'לֹא',
   'קָרִינוּ',
   'אֶת',
   'שְׁמַע',
   ',',
   'אָמַר',
   'לָהֶם',
   ':',
   'אִם',
   'לֹא',
   'עָלָה',
   'עַמּוּד',
   'הַשַּׁחַר',
   'חַיָּיבִין',
   'אַתֶּם',
   'לִקְרוֹת',
   '.',
   'וְלֹא',
   'זוֹ',
   'בִּלְבַד',
   'אָמְרוּ',
   ',',
   'אֶלָּא',
   'כָּל',
   'מַה',
   'שֶּׁאָמְרוּ',
   'חֲכָמִים',
   '״',
   'עַד',
   'חֲצוֹת',
   '״',
   ',',
   'מִצְוָתָן',
   'עַד',
   'שֶׁיַּעֲלֶה

In [5]:
len(ber)

125

## Removing prefixes

`detach_prefix` removes all possible prefixes from a word based on the rules of nikkud to get its root.

In [36]:
r_page = rd.randrange(len(ber))
r_chunk = rd.randrange(len(ber[r_page]))
selected = ber[r_page][r_chunk]
print(' '.join(selected))
words = [i for i in selected if not (i in punctuation + '…׳״—')]

words

אִינִי ? ! וְהָאָמַר רַב יְהוּדָה אָמַר רַב : לְעוֹלָם יַנְהִיג אָדָם אֶת עַצְמוֹ שַׁחֲרִית וְעַרְבִית , כְּדֵי שֶׁלֹּא יְהֵא צָרִיךְ לְהִתְרַחֵק ! וְתוּ , רָבָא בִּימָמָא הֲוָה אָזֵיל עַד מִיל , וּבְלֵילְיָא אָמַר לֵיהּ לְשַׁמָּעֵיהּ : פַּנּוֹ לִי דּוּכְתָּא בִּרְחוֹבָא דְמָתָא . וְכֵן אָמַר לֵיהּ רַבִּי זֵירָא לְשַׁמָּעֵיהּ : חֲזִי מַאן דְּאִיכָּא אֲחוֹרֵי בֵּית חֶבְרַיָּא , דְּבָעֵינָא לְמִפְנֵי ! לָא תֵּימָא בַּמָּקוֹם , אֶלָּא אֵימָא : כְּדֶרֶךְ שֶׁנִּפְנָה בַּיּוֹם .


['אִינִי',
 'וְהָאָמַר',
 'רַב',
 'יְהוּדָה',
 'אָמַר',
 'רַב',
 'לְעוֹלָם',
 'יַנְהִיג',
 'אָדָם',
 'אֶת',
 'עַצְמוֹ',
 'שַׁחֲרִית',
 'וְעַרְבִית',
 'כְּדֵי',
 'שֶׁלֹּא',
 'יְהֵא',
 'צָרִיךְ',
 'לְהִתְרַחֵק',
 'וְתוּ',
 'רָבָא',
 'בִּימָמָא',
 'הֲוָה',
 'אָזֵיל',
 'עַד',
 'מִיל',
 'וּבְלֵילְיָא',
 'אָמַר',
 'לֵיהּ',
 'לְשַׁמָּעֵיהּ',
 'פַּנּוֹ',
 'לִי',
 'דּוּכְתָּא',
 'בִּרְחוֹבָא',
 'דְמָתָא',
 'וְכֵן',
 'אָמַר',
 'לֵיהּ',
 'רַבִּי',
 'זֵירָא',
 'לְשַׁמָּעֵיהּ',
 'חֲזִי',
 'מַאן',
 'דְּאִיכָּא',
 'אֲחוֹרֵי',
 'בֵּית',
 'חֶבְרַיָּא',
 'דְּבָעֵינָא',
 'לְמִפְנֵי',
 'לָא',
 'תֵּימָא',
 'בַּמָּקוֹם',
 'אֶלָּא',
 'אֵימָא',
 'כְּדֶרֶךְ',
 'שֶׁנִּפְנָה',
 'בַּיּוֹם']

In [37]:
for w in words:
    print(w, end='\t')
    print(detach_prefix(w))

אִינִי	['אִינִי']
וְהָאָמַר	['וְהָאָמַר', 'אָמַר', 'הָאָמַר']
רַב	['רַב']
יְהוּדָה	['יְהוּדָה']
אָמַר	['אָמַר']
רַב	['רַב']
לְעוֹלָם	['לְעוֹלָם', 'עוֹלָם']
יַנְהִיג	['יַנְהִיג']
אָדָם	['אָדָם']
אֶת	['אֶת']
עַצְמוֹ	['עַצְמוֹ']
שַׁחֲרִית	['שַׁחֲרִית']
וְעַרְבִית	['וְעַרְבִית', 'עַרְבִית']
כְּדֵי	['כְּדֵי', 'דֵי']
שֶׁלֹּא	['שֶׁלֹּא', 'לֹּא']
יְהֵא	['יְהֵא']
צָרִיךְ	['צָרִיךְ']
לְהִתְרַחֵק	['לְהִתְרַחֵק', 'הִתְרַחֵק']
וְתוּ	['וְתוּ', 'תוּ']
רָבָא	['רָבָא']
בִּימָמָא	['בִּימָמָא', 'ימָמָא']
הֲוָה	['הֲוָה', 'וָה']
אָזֵיל	['אָזֵיל']
עַד	['עַד']
מִיל	['מִיל']
וּבְלֵילְיָא	['וּבְלֵילְיָא', 'לֵילְיָא', 'בְלֵילְיָא']
אָמַר	['אָמַר']
לֵיהּ	['לֵיהּ']
לְשַׁמָּעֵיהּ	['לְשַׁמָּעֵיהּ', 'שַׁמָּעֵיהּ']
פַּנּוֹ	['פַּנּוֹ']
לִי	['לִי', 'י']
דּוּכְתָּא	['דּוּכְתָּא']
בִּרְחוֹבָא	['בִּרְחוֹבָא', 'רְחוֹבָא']
דְמָתָא	['דְמָתָא']
וְכֵן	['וְכֵן', 'כֵן']
אָמַר	['אָמַר']
לֵיהּ	['לֵיהּ']
רַבִּי	['רַבִּי']
זֵירָא	['זֵירָא']
לְשַׁמָּעֵיהּ	['לְשַׁמָּעֵיהּ', 'שַׁמָּעֵיהּ']
חֲזִי	['חֲזִי']
מַאן	['מַאן']
דְּאִיכָּא	['דְּ

## Getting roots

In [38]:
for w in words:
    print(w, end='\t')
    
    possibilities = detach_prefix(w)
    print(possibilities)
    
    print('Hebrew:')
    for p in possibilities:
        print(p + '\t' + str(hebrew_root(p)))
    
    print('Aramaic verb:')
    for p in possibilities:
        print(p + '\t' + str(aramaic_verb_root(p)))
    
    print('Aramaic noun:')
    for p in possibilities:
        print(p + '\t' + str(aramaic_noun_root(p)))
    
    print('\n\n')

אִינִי	['אִינִי']
Hebrew:
אִינִי	[('אִינִי', 'תואר'), ('אֵין', 'תואר הפועל'), ('אִיֵּן', 'פועל', 'פיעל')]
Aramaic verb:
אִינִי	[]
Aramaic noun:
אִינִי	[]



וְהָאָמַר	['וְהָאָמַר', 'אָמַר', 'הָאָמַר']
Hebrew:
וְהָאָמַר	[('אֹמֶר', 'שֵם')]
אָמַר	[('אָמַר', 'פועל', 'קל'), ('הֵמַר', 'פועל', 'הפעיל'), ('אֹמֶר', 'שֵם')]
הָאָמַר	[('אֹמֶר', 'שֵם')]
Aramaic verb:
וְהָאָמַר	[]
אָמַר	[('אֲמַר', 'Paal')]
הָאָמַר	[]
Aramaic noun:
וְהָאָמַר	[]
אָמַר	[]
הָאָמַר	[]



רַב	['רַב']
Hebrew:
רַב	[('רַב', 'תואר'), ('רָב', 'פועל', 'קל'), ('רַב', 'שֵם'), ('רַב', 'פועל', 'קל'), ('רַב', 'תחילית'), ('רֹב', 'שֵם')]
Aramaic verb:
רַב	[('רְבָא', 'Pael')]
Aramaic noun:
רַב	['רַבָּא']



יְהוּדָה	['יְהוּדָה']
Hebrew:
יְהוּדָה	[('יְהוּדָה', ''), ('יְהוּדָה', ''), ('יְהוּדָה', ''), ('יִהוּד', 'שֵם')]
Aramaic verb:
יְהוּדָה	[]
Aramaic noun:
יְהוּדָה	[]



אָמַר	['אָמַר']
Hebrew:
אָמַר	[('אָמַר', 'פועל', 'קל'), ('הֵמַר', 'פועל', 'הפעיל'), ('אֹמֶר', 'שֵם')]
Aramaic verb:
אָמַר	[('אֲמַר', 'Paal')]
Aramaic noun:
אָמַר	[]



לְמִפְנֵי	[]
מִפְנֵי	[]
Aramaic noun:
לְמִפְנֵי	[]
מִפְנֵי	[]



לָא	['לָא']
Hebrew:
לָא	[('לֹא', 'תואר הפועל'), ('לָא', 'תואר הפועל'), ('לֹא', 'תחילית')]
Aramaic verb:
לָא	[]
Aramaic noun:
לָא	[]



תֵּימָא	['תֵּימָא']
Hebrew:
תֵּימָא	[]
Aramaic verb:
תֵּימָא	[('אֲמַר', 'Paal')]
Aramaic noun:
תֵּימָא	[]



בַּמָּקוֹם	['בַּמָּקוֹם']
Hebrew:
בַּמָּקוֹם	[('בִּמְקוֹם', 'מילת יחס'), ('מָקוֹם', 'שֵם'), ('מִקּוּם', 'שֵם'), ('מִקְוֶה', 'שֵם')]
Aramaic verb:
בַּמָּקוֹם	[]
Aramaic noun:
בַּמָּקוֹם	[]



אֶלָּא	['אֶלָּא']
Hebrew:
אֶלָּא	[('אֶלָּא', 'מילת קישור')]
Aramaic verb:
אֶלָּא	[]
Aramaic noun:
אֶלָּא	[]



אֵימָא	['אֵימָא']
Hebrew:
אֵימָא	[('אִמָּא', 'שֵם')]
Aramaic verb:
אֵימָא	[('אֲמַר', 'Paal')]
Aramaic noun:
אֵימָא	[]



כְּדֶרֶךְ	['כְּדֶרֶךְ', 'דֶרֶךְ']
Hebrew:
כְּדֶרֶךְ	[('דֶּרֶךְ', 'שֵם')]
דֶרֶךְ	[('דֶּרֶךְ', 'שֵם'), ('דֶּרֶךְ', 'מילת יחס'), ('דָּרַךְ', 'פועל', 'קל'), ('דָּרַךְ', 'פועל', 'קל')]
Aramaic verb:
כְּדֶרֶךְ	[]
דֶרֶךְ	[]
Aramaic noun:
כְּדֶרֶךְ	[]
דֶרֶךְ	[]



שֶׁנִּפְנָה

## Naive Jastrow Search

The following description has been pulled from the docs of the method used below:



`An extremely naive entry searcher, intended merely as a proof-of-concept, not for practical use.`

`The method uses naive lookup on different constructions of 'word' and returns the top N matching entries.`

`The "top N" are ranked by category:`

`1. In Jastrow directly.`

`2. Top entries from dicta nouns (since there are fewer nouns than verbs)`

`3. Top entries from dicta verbs`

`4. Top entries from Morfix.`

`The word is first put through respell.order_nikkud, and if more than one spelling is returned, the method returns`

`the top N for each spelling. Then its possible prefixes are removed, with the ranking choosing the shortest among`

`the possibilities as top rank.`

In [39]:
i = 1
for w in words:
    print(i, end='. ')
    print(w, end='\t')
    print(naive_top_n(w, 10))
    i += 1

1. אִינִי	['אִינִי', 'אִין I', 'אֵין']
2. וְהָאָמַר	['אָמַר I', 'אֲמַר', 'אָמַר II', 'מָרַר']
3. רַב	['רַב', 'רַב I', 'רַב II', 'רְבָא', 'רְבֵי ²', '*רְבֵי', 'רְבֵי']
4. יְהוּדָה	['יוּדָה', 'יְהוּדָה', 'יוּדָן']
5. אָמַר	['אָמַר I', 'אֲמַר', 'אָמַר II', 'מָרַר']
6. רַב	['רַב', 'רַב I', 'רַב II', 'רְבָא', 'רְבֵי ²', '*רְבֵי', 'רְבֵי']
7. לְעוֹלָם	['עוֹלָם', 'עֹל']
8. יַנְהִיג	['נָהַג']
9. אָדָם	['אָדָם', 'אָדַם', 'דָּמַם']
10. אֶת	['אַתְרוֹגָא', 'אֵת', 'אַתְּ']
11. עַצְמוֹ	['עֶצֶם', 'עָצַם']
12. שַׁחֲרִית	['שַׁחֲרִית']
13. וְעַרְבִית	['עֲרָבִית', 'עַרְבִית', 'עֲרָבִי']
14. כְּדֵי	['כְּדִי I', 'כְּדֵי', 'כַּד I', 'כַּד II', 'דִּי II', 'דִּי', 'דִּי־', 'דִּכְוָון', 'דִּלְדּוּל', 'דְּכַר II']
15. שֶׁלֹּא	['לֹא', 'לָא II', 'לָא III', 'לָא I']
16. יְהֵא	['הוי']
17. צָרִיךְ	['צָרֵי', 'צְרֵי I', 'צַר II', 'צַר I']
18. לְהִתְרַחֵק	['רָחַק']
19. וְתוּ	['תָּו', 'תָּיו']
20. רָבָא	['רָבָא', 'רַב']
21. בִּימָמָא	[]
22. הֲוָה	['הֲוֵי', 'הֲוָא', 'הוי', 'הַוָּה']
23. אָזֵיל	['נָזַל']
24. עַד	['עַד', '

## Hebrew verb root getter

In [9]:
i = 1
for w in words:
    print(str(i) + '. ' + w, end='\t')
    
    possibilities = detach_prefix(w)
    print(possibilities)
    
    for p in possibilities:
        heb_roots = hebrew_root(p)
        for r in heb_roots:
            if r[1] == 'פועל':
                print('\t', end='')
                print(str(r), end='\t')
                print(hebrew_shoresh(r[0], r[2]))
        
    i += 1

1. רַבִּי	['רַבִּי']
	('רִבָּה', 'פועל', 'פיעל')	רָבַה
2. יוֹסֵי	['יוֹסֵי']
3. אוֹמֵר	['אוֹמֵר']
	('אָמַר', 'פועל', 'קל')	אָמַר
4. שׁוֹנֶה	['שׁוֹנֶה']
	('שֻׁנָּה', 'פועל', 'פועל')	שָנַה
	('שָׁנָה', 'פועל', 'קל')	שָנַה
5. הוּא	['הוּא']
6. בָּרְגִילִיּוֹת	['בָּרְגִילִיּוֹת']
7. וּבִלְבַד	['וּבִלְבַד', 'בַד', 'לְבַד', 'בִלְבַד']
8. שֶׁלֹּא	['שֶׁלֹּא', 'לֹּא']
9. יַצִּיעַ	['יַצִּיעַ']
	('הִצִּיעַ', 'פועל', 'הפעיל')	צָיַע
	('הִצִּיעַ', 'פועל', 'הפעיל')	צָיַע
10. אֶת	['אֶת']
11. הַמִּשְׁנָה	['הַמִּשְׁנָה', 'מִּשְׁנָה']
	('שִׁנָּה', 'פועל', 'פיעל')	שָנַה
	('שֻׁנָּה', 'פועל', 'פועל')	שָנַה
	('שִׁנָּה', 'פועל', 'פיעל')	שָנַה
	('שֻׁנָּה', 'פועל', 'פועל')	שָנַה
12. רַבִּי	['רַבִּי']
	('רִבָּה', 'פועל', 'פיעל')	רָבַה
13. יוֹנָתָן	['יוֹנָתָן']
14. בֶּן	['בֶּן']
	('בָּן', 'פועל', 'קל')	בַן
15. יוֹסֵף	['יוֹסֵף']
	('יֻסַּף', 'פועל', 'פועל')	יָסַף
	('הוּסַף', 'פועל', 'הופעל')	וָסַף
	('נוֹסַף', 'פועל', 'נפעל')	וָסַף
16. אוֹמֵר	['אוֹמֵר']
	('אָמַר', 'פועל', 'קל')	אָמַר
17. מַצִּיעַ	['מַצִּיעַ']
	('הִצִּי