# Tests

Real tests on the data in order to proceed with different methods.

## Imports

In [7]:
import pymongo
import dns

import string
import re
import nltk

import pandas as pd
import numpy as np

from collections import defaultdict

In [12]:
import sys
sys.setrecursionlimit(6000)

## Get and Format Text

In [8]:
from utils.format import prep_text, get_masekhet

In [9]:
shabbat = get_masekhet('shabbat')

In [10]:
len(shabbat)

312

In [11]:
shabbat_220 = shabbat[:220]
shabbat_221_312 = shabbat[220:]

In [12]:
prepped_220 = prep_text(shabbat_220)
prepped_221_312 = prep_text(shabbat_221_312)
prepped = prepped_220 + prepped_221_312

In [8]:
prepped

[' תנן התם שבועות שתים שהן ארבע ידיעות הטומאה שתים שהן ארבע',
 'מראות נגעים שנים שהן ארבעה',
 'יציאות השבת שתים שהן ארבע',
 'מאי שנא הכא דתני שתים שהן ארבע בפנים ושתים שהן ארבע בחוץ ומאי שנא התם דתני שתים שהן ארבע ותו לא',
 'הכא דעיקר שבת הוא תני אבות ותני תולדות התם דלאו עיקר שבת הוא אבות תני תולדות לא תני',
 'אבות מאי ניהו  יציאות ויציאות תרי הויין',
 'וכי תימא מהן לחיוב ומהן לפטור והא דומיא דמראות נגעים קתני מה התם כולהו לחיובא אף הכא נמי כולהו לחיובא',
 'אלא אמר רב פפא הכא דעיקר שבת הוא תני חיובי ופטורי התם דלאו עיקר שבת הוא חיובי תני ופטורי לא תני',
 'חיובי מאי ניהו  יציאות יציאות תרתי הויין  שתים דהוצאה ושתים דהכנסה',
 'והא יציאות קתני אמר רב אשי תנא הכנסה נמי הוצאה קרי לה',
 'ממאי מדתנן המוציא מרשות לרשות  חייב מי לא עסקינן דקא מעייל מרשות הרבים לרשות היחיד וקא קרי לה הוצאה',
 'וטעמא מאי  כל עקירת חפץ ממקומו תנא הוצאה קרי לה',
 'אמר רבינא מתניתין נמי דיקא דקתני יציאות וקא מפרש הכנסה לאלתר שמע מינה',
 'רבא אמר רשויות קתני רשויות שבת שתים',
 'אמר ליה רב מתנה לאביי הא תמני הויין תר

## Analyze common starting uni-, bi-, & trigrams

In [13]:
len(prepped)

3159

In [10]:
uni = defaultdict(lambda: 0)
bi = defaultdict(lambda: 0)
tri = defaultdict(lambda: 0)

for chunk in prepped:
    first3 = chunk.split(' ')[:3]
    first3 += ['']*(3 - len(first3))
    #print(first3)
    uni[first3[0]] += 1
    bi[(first3[0], first3[1])] += 1
    tri[(first3[0], first3[1], first3[2])] += 1

In [11]:
sort_fn = lambda p: p[1]

In [12]:
sorted(uni.items(), key=sort_fn, reverse=True)[:20]

[('אמר', 625),
 ('', 130),
 ('אלא', 107),
 ('תנו', 95),
 ('ואמר', 83),
 ('רב', 67),
 ('תא', 61),
 ('רבי', 61),
 ('מאי', 60),
 ('תניא', 46),
 ('ולא', 40),
 ('והא', 34),
 ('מיתיבי', 31),
 ('לא', 30),
 ('בעא', 27),
 ('איבעיא', 26),
 ('כי', 24),
 ('מתקיף', 24),
 ('רבא', 23),
 ('אי', 23)]

In [13]:
sorted(bi.items(), key=sort_fn, reverse=True)[:20]

[(('אמר', 'רב'), 192),
 (('אמר', 'ליה'), 114),
 (('אמר', 'רבי'), 112),
 (('תנו', 'רבנן'), 95),
 (('תא', 'שמע'), 61),
 (('אמר', 'אביי'), 41),
 (('אמר', 'רבא'), 40),
 (('אמר', 'מר'), 32),
 (('אלא', 'אמר'), 30),
 (('ואמר', 'רבי'), 30),
 (('', 'אמר'), 28),
 (('בעא', 'מיניה'), 26),
 (('איבעיא', 'להו'), 26),
 (('מתקיף', 'לה'), 24),
 (('אמר', 'רבה'), 21),
 (('רבא', 'אמר'), 18),
 (('תניא', 'רבי'), 17),
 (('', 'מאי'), 17),
 (('ואמר', 'רב'), 16),
 (('ואמר', 'רבא'), 16)]

In [14]:
sorted(tri.items(), key=sort_fn, reverse=True)[:20]

[(('אמר', 'רב', 'יהודה'), 55),
 (('אמר', 'ליה', 'אביי'), 28),
 (('אמר', 'ליה', 'רב'), 26),
 (('מתקיף', 'לה', 'רב'), 19),
 (('אלא', 'אמר', 'רב'), 17),
 (('אמר', 'רב', 'יוסף'), 16),
 (('brbr', '', ''), 16),
 (('אמר', 'רב', 'הונא'), 14),
 (('אמר', 'רבי', 'יוסי'), 13),
 (('', 'אמר', 'רב'), 13),
 (('אמר', 'רבי', 'אבא'), 12),
 (('אמר', 'רבה', 'בר'), 11),
 (('אמר', 'רב', 'נחמן'), 11),
 (('אמר', 'רב', 'חסדא'), 11),
 (('אמר', 'רבי', 'חייא'), 10),
 (('רב', 'אשי', 'אמר'), 10),
 (('תניא', 'רבי', 'שמעון'), 10),
 (('רב', 'נחמן', 'בר'), 10),
 (('אמר', 'רב', 'אשי'), 10),
 (('ואמר', 'רב', 'חסדא'), 10)]

## Hebrew chunk lookup

In [10]:
from utils.deconstruct import hebrew_root, advanced_hebrew_root

In [6]:
heb_chunk = prepped[0]
heb_chunk = heb_chunk.split(' ')[1:]
heb_chunk

['תנן',
 'התם',
 'שבועות',
 'שתים',
 'שהן',
 'ארבע',
 'ידיעות',
 'הטומאה',
 'שתים',
 'שהן',
 'ארבע']

In [12]:
for i in heb_chunk:
    print(hebrew_root(i))

['תִּנָּה']
['הָתָם', 'תָּם', 'תֹּם', 'תֹּם']
['שָׁבוּעַ', 'שָׁבוּעוֹת', 'שְׁבוּעָה', 'בּוּעָה']
['שְׁתַּיִם', 'שָׁת']
['הֵן', 'הֵן', 'הֵן']
['אַרְבַּע', 'רִבֵּעַ', 'הֻרְבַּע']
['יְדִיעָה']
['טֻמְאָה']
['שְׁתַּיִם', 'שָׁת']
['הֵן', 'הֵן', 'הֵן']
['אַרְבַּע', 'רִבֵּעַ', 'הֻרְבַּע']


In [13]:
for i in heb_chunk:
    print(advanced_hebrew_root(i))

{'פיעל': ['תִּנָּה']}
{'תואר הפועל': ['הָתָם'], 'תואר': ['תָּם'], 'שֵם': ['תֹּם', 'תֹּם']}
{'שֵם': ['שָׁבוּעַ', 'שְׁבוּעָה', 'בּוּעָה'], 'other': ['שָׁבוּעוֹת']}
{'מספר מונה': ['שְׁתַּיִם'], 'קל': ['שָׁת']}
{'כינוי נפרד': ['הֵן'], 'מילת קישור': ['הֵן'], 'תואר הפועל': ['הֵן']}
{'מספר מונה': ['אַרְבַּע'], 'פיעל': ['רִבֵּעַ'], 'הופעל': ['הֻרְבַּע']}
{'שֵם': ['יְדִיעָה']}
{'שֵם': ['טֻמְאָה']}
{'מספר מונה': ['שְׁתַּיִם'], 'קל': ['שָׁת']}
{'כינוי נפרד': ['הֵן'], 'מילת קישור': ['הֵן'], 'תואר הפועל': ['הֵן']}
{'מספר מונה': ['אַרְבַּע'], 'פיעל': ['רִבֵּעַ'], 'הופעל': ['הֻרְבַּע']}


## See all possible sentences on random lookup

Using dicta and morfix

In [18]:
from utils.deconstruct import aramaic_verb_root, aramaic_noun_root

In [21]:
lookup = prepped[301]
print(lookup)
lookup = lookup.split(' ')

והשתא דאמר מר גזירה שמא יחתה בגחלים האי קדרה חייתא שרי לאנוחה ערב שבת עם חשיכה בתנורא מאי טעמא  כיון דלא חזי לאורתא אסוחי מסח דעתיה מיניה ולא אתי לחתויי גחלים ובשיל  שפיר דמי בשיל ולא בשיל  אסיר ואי שדא ביה גרמא חייא  שפיר דמי


In [23]:
for w in lookup:
    heb = hebrew_root(w)
    av = aramaic_verb_root(w)
    an = aramaic_noun_root(w)
    print(w + '\t' + str(len(heb + av + an)))
    print(heb, end='\t')
    print(av, end='\t')
    print(an, end='\n\n')

והשתא	1
['הָשַׁתָּא']	[]	[]

דאמר	0
[]	[]	[]

מר	6
['מַר', 'מַר', 'מַר', 'מֹר', 'מֹר']	[]	['מָר']

גזירה	8
['גְּזִירָה', 'גְּזִירָה', 'גְּזִירָה', 'גְּזֵרָה', 'גָּזִיר', 'גְּזִיר']	[('גזר', ' Paal')]	['גִּיֽזְרָא']

שמא	4
['שֶׁמָּא']	[('שׁום', ' Paal')]	['שְׁמַיָּא', 'שְׁמָא']

יחתה	1
['חָתָה']	[]	[]

בגחלים	1
['גַּחֶלֶת']	[]	[]

האי	3
['אִי', 'אִי', 'אִי']	[]	[]

קדרה	3
['קְדֵרָה', 'קָדַר']	[('קדר', ' Paal')]	[]

חייתא	2
[]	[('חיי', ' Paal')]	['חַיְיֽתָא']

שרי	8
['שֶׁרִי', 'שַׂר', 'שָׁר', 'שָׁרָה', 'שָׂרָה']	[('שׁרי', ' Pael'), ('שׁרי', ' Paal')]	['שָׂרָא']

לאנוחה	0
[]	[]	[]

ערב	12
['עֶרֶב', 'עֵרֶב', 'עֵרֶב', 'עֲרָב', 'עָרַב', 'עָרֵב', 'עָרֵב', 'עָרֵב', 'עָרַב', 'עָרַב', 'עֵרֵב']	[('ערב', ' Paal')]	[]

שבת	10
['שַׁבָּת', 'שָׁבַת', 'שֶׁבֶת', 'שֶׁבֶת', 'בַּת', 'שָׁב', 'בַּת']	[('שׁבי', ' Paal'), ('שׁוב', ' Paal'), ('שׁבת', ' Paal')]	[]

עם	2
['עִם', 'עַם']	[]	[]

חשיכה	6
['חֲשֵׁכָה', 'חָשֵׁךְ']	[('חשׁך', ' Pael'), ('חשׁך', ' Paal')]	['חָשׁוֹכָא', 'חֲשׁוֹכָא']

בתנורא	0
[]	[]	[]

מאי	

## Prefix Removal

In [7]:
from utils.brute_force import remove_possible_prefixes

In [8]:
heb_chunk

['תנן',
 'התם',
 'שבועות',
 'שתים',
 'שהן',
 'ארבע',
 'ידיעות',
 'הטומאה',
 'שתים',
 'שהן',
 'ארבע']

In [9]:
for i in heb_chunk:
    print(remove_possible_prefixes(i))

['תנן']
['התם', 'תם']
['שבועות', 'בועות', 'ועות', 'עות']
['שתים', 'תים']
['שהן', 'הן']
['ארבע', 'רבע']
['ידיעות']
['הטומאה', 'טומאה']
['שתים', 'תים']
['שהן', 'הן']
['ארבע', 'רבע']


In [10]:
remove_possible_prefixes('מקום')

['מקום', 'קום']

## Steinsaltz methods

In [1]:
from utils.format import prep_text, get_masekhet
from utils.steinsaltz import *
from utils.steinsaltz import get_steinsaltz, _unite_steinsaltz, _remove_steinsaltz_mishna, _remove_commentary

In [2]:
m_berakhot = get_masekhet('Berakhot')
s_berakhot = get_steinsaltz('Berakhot')

In [3]:
m_berakhot_20 = m_berakhot[:20]
s_berakhot_20 = s_berakhot[:20]

In [4]:
m_united_20 = prep_text(m_berakhot_20)
s_united_20 = _unite_steinsaltz(s_berakhot_20)

In [5]:
s_united_20 = _remove_steinsaltz_mishna(s_united_20)

In [6]:
_remove_commentary(s_united_20)

, תנא היכא קאי דקתני , "מאימתי"? , . ?
   
   
    
     , ת
     , תנ
     , תנא
     , תנא 
     , תנא ה
     , תנא הי
     , תנא היכ
     , תנא היכא
     , תנא היכא 
     , תנא היכא ק
     , תנא היכא קא
     , תנא היכא קאי
     , תנא היכא קאי 
     , תנא היכא קאי ד
     , תנא היכא קאי דק
     , תנא היכא קאי דקת
     , תנא היכא קאי דקתנ
     , תנא היכא קאי דקתני
     , תנא היכא קאי דקתני 
     , תנא היכא קאי דקתני 
     , תנא היכא קאי דקתני  
     , תנא היכא קאי דקתני   ,  " 
     , תנא היכא קאי דקתני   ,  " מ
     , תנא היכא קאי דקתני   ,  " מא
     , תנא היכא קאי דקתני   ,  " מאי
     , תנא היכא קאי דקתני   ,  " מאימ
     , תנא היכא קאי דקתני   ,  " מאימת
     , תנא היכא קאי דקתני   ,  " מאימתי
     , תנא היכא קאי דקתני   ,  " מאימתי " 
     , תנא היכא קאי דקתני   ,  " מאימתי " 
     , תנא היכא קאי דקתני   ,  " מאימתי "  
     , תנא היכא קאי דקתני   ,  " מאימתי "  
     , תנא היכא קאי דקתני   ,  " מאימתי "   
     , תנא היכא קאי דקתני   ,  " מאימתי "   
     , תנא היכא קאי דקתני   

   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי קורין את שמע בערבין   — מ שהעני נכ
   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי קורין את שמע בערבין   — מ שהעני נכנ
   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי קורין את שמע בערבין   — מ שהעני נכנס
   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי קורין את שמע בערבין   — מ שהעני נכנס 
   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי קורין את שמע בערבין   — מ שהעני נכנס ל
   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי קורין את שמע בערבין   — מ שהעני נכנס לא
   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי קורין את שמע בערבין   — מ שהעני נכנס לאכ
   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי קורין את שמע בערבין   — מ שהעני נכנס לאכו
   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי קורין את שמע בערבין   — מ שהעני נכנס לאכול
   אמר מר משעה שהכהנים נכנסים לאכול בתרומתן  . ורמינהו   , מאמתי

   '  "    , מאי קסבר ר' אליעזר  ? א
   '  "    , מאי קסבר ר' אליעזר  ? אי
   '  "    , מאי קסבר ר' אליעזר  ? אי 
   '  "    , מאי קסבר ר' אליעזר  ? אי ק
   '  "    , מאי קסבר ר' אליעזר  ? אי קס
   '  "    , מאי קסבר ר' אליעזר  ? אי קסב
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר 
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר ש
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר של
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש 
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש מ
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש מש
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש משמ
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש משמר
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש משמרו
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש משמרות
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש משמרות 
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש משמרות ה
   '  "    , מאי קסבר ר' אליעזר  ? אי קסבר שלש משמרות הו
   '  "    , 

   ו אמר לי בני  , מה קול שמעת בחורבה זו  ? ואמרתי לו שמעתי בת קול  ,  "  שמנהמת כיונה ואומרת:  " אוי לבנים שבעונותיהם החרבתי את ביתי ושרפתי את היכלי והגליתים לבין האומות "   . ואמר לי חייך וחיי ראשך  , לא שעה זו בלבד אומרת כך   , אלא בכל יום ויום  , שלש פעמים אומרת כך  . ולא זו בלבד אלא '   , בשעה שישראל נכנסין לבתי כנסיות ולבתי מדרשות ועונין  " יהא שמיה הגדול מבורך  "   "    , הקדוש ברוך הוא מנענע ראשו  , ואומר: אשרי המלך שמקלסין אותו בביתו כך   , '    , מה לו לאב שהגלה את בניו    , ואוי
   ו אמר לי בני  , מה קול שמעת בחורבה זו  ? ואמרתי לו שמעתי בת קול  ,  "  שמנהמת כיונה ואומרת:  " אוי לבנים שבעונותיהם החרבתי את ביתי ושרפתי את היכלי והגליתים לבין האומות "   . ואמר לי חייך וחיי ראשך  , לא שעה זו בלבד אומרת כך   , אלא בכל יום ויום  , שלש פעמים אומרת כך  . ולא זו בלבד אלא '   , בשעה שישראל נכנסין לבתי כנסיות ולבתי מדרשות ועונין  " יהא שמיה הגדול מבורך  "   "    , הקדוש ברוך הוא מנענע ראשו  , ואומר: אשרי המלך שמקלסין אותו בביתו כך   , '    , מה לו לאב שהגלה את בניו    , ואוי 
   ו אמר 

       . ו דוד בפלגא דליליא הוה קאי    ? מאורתא הוה קאי   ! דכתיב  " קדמתי בנשף ואשועה  "     , ממאי   , דהאי  " נשף "  אורתא הוא   ? דכתיב  " בנשף בערב יום באישון לילה ואפלה "   
       . ו דוד בפלגא דליליא הוה קאי    ? מאורתא הוה קאי   ! דכתיב  " קדמתי בנשף ואשועה  "     , ממאי   , דהאי  " נשף "  אורתא הוא   ? דכתיב  " בנשף בערב יום באישון לילה ואפלה "   
       . ו דוד בפלגא דליליא הוה קאי    ? מאורתא הוה קאי   ! דכתיב  " קדמתי בנשף ואשועה  "     , ממאי   , דהאי  " נשף "  אורתא הוא   ? דכתיב  " בנשף בערב יום באישון לילה ואפלה "    
       . ו דוד בפלגא דליליא הוה קאי    ? מאורתא הוה קאי   ! דכתיב  " קדמתי בנשף ואשועה  "     , ממאי   , דהאי  " נשף "  אורתא הוא   ? דכתיב  " בנשף בערב יום באישון לילה ואפלה "    
       . ו דוד בפלגא דליליא הוה קאי    ? מאורתא הוה קאי   ! דכתיב  " קדמתי בנשף ואשועה  "     , ממאי   , דהאי  " נשף "  אורתא הוא   ? דכתיב  " בנשף בערב יום באישון לילה ואפלה "     
 . ו דוד בפלגא דליליא הוה קאי ? מאורתא הוה קאי ! דכתיב " קדמתי בנשף ואשועה " , ממאי , דהאי " נשף

   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי ק
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קא
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמ
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר 
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר מ
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר מש
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר משה
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר משה 
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר משה ל
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר משה לי
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר משה ליש
   רב אשי אמר:   , בפלגא אורתא דתליסר נגהי ארבסר הוה קאי    , והכי קאמר משה לישר
   רב אשי אמר:   , בפלגא 

    " עד יעבר עמך ה' "    — זו ביאה ראשונה   ,  " עד יעבר עם זו קנית "    — זו ביאה שניה    . מכאן אמרו חכמים: ראוים היו ישראל ליעשות להם נס בימי עזרא כדרך שנעשה להם
    " עד יעבר עמך ה' "    — זו ביאה ראשונה   ,  " עד יעבר עם זו קנית "    — זו ביאה שניה    . מכאן אמרו חכמים: ראוים היו ישראל ליעשות להם נס בימי עזרא כדרך שנעשה להם 
    " עד יעבר עמך ה' "    — זו ביאה ראשונה   ,  " עד יעבר עם זו קנית "    — זו ביאה שניה    . מכאן אמרו חכמים: ראוים היו ישראל ליעשות להם נס בימי עזרא כדרך שנעשה להם ב
    " עד יעבר עמך ה' "    — זו ביאה ראשונה   ,  " עד יעבר עם זו קנית "    — זו ביאה שניה    . מכאן אמרו חכמים: ראוים היו ישראל ליעשות להם נס בימי עזרא כדרך שנעשה להם בי
    " עד יעבר עמך ה' "    — זו ביאה ראשונה   ,  " עד יעבר עם זו קנית "    — זו ביאה שניה    . מכאן אמרו חכמים: ראוים היו ישראל ליעשות להם נס בימי עזרא כדרך שנעשה להם בימ
    " עד יעבר עמך ה' "    — זו ביאה ראשונה   ,  " עד יעבר עם זו קנית "    — זו ביאה שניה    . מכאן אמרו חכמים: ראוים היו ישראל ליעשות להם נס בימי עזרא כדרך שנעש

   אמרי כיון דתקינו רבנן  " השכיבנו "    — כגאולה אריכתא דמיא     . דאי לא תימא הכי   , שחרית היכי מצי סמיך   ? והא אמר ר' יוחנן בתחלה   , אומר  " ה' שפתי תפתח  "     , ולבסוף הוא אומר:  " יהיו לרצון אמרי
   אמרי כיון דתקינו רבנן  " השכיבנו "    — כגאולה אריכתא דמיא     . דאי לא תימא הכי   , שחרית היכי מצי סמיך   ? והא אמר ר' יוחנן בתחלה   , אומר  " ה' שפתי תפתח  "     , ולבסוף הוא אומר:  " יהיו לרצון אמרי 
   אמרי כיון דתקינו רבנן  " השכיבנו "    — כגאולה אריכתא דמיא     . דאי לא תימא הכי   , שחרית היכי מצי סמיך   ? והא אמר ר' יוחנן בתחלה   , אומר  " ה' שפתי תפתח  "     , ולבסוף הוא אומר:  " יהיו לרצון אמרי פ
   אמרי כיון דתקינו רבנן  " השכיבנו "    — כגאולה אריכתא דמיא     . דאי לא תימא הכי   , שחרית היכי מצי סמיך   ? והא אמר ר' יוחנן בתחלה   , אומר  " ה' שפתי תפתח  "     , ולבסוף הוא אומר:  " יהיו לרצון אמרי פי
   אמרי כיון דתקינו רבנן  " השכיבנו "    — כגאולה אריכתא דמיא     . דאי לא תימא הכי   , שחרית היכי מצי סמיך   ? והא אמר ר' יוחנן בתחלה   , אומר  " ה' שפתי תפתח  "     , ולבסו

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)




   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קש
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה 
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה ת
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תר
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרב
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבו
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות 
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות ר
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות רע
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות רעה
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות רעה 
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות רעה ב
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות רעה בת
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות רעה בתו
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות רעה בתוך
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות רעה בתוך 
   ו אמר ר' יוחנן משום ר' שמעון בן יוחי: קשה תרבות רעה

   ואמר ר' יוחנן משום ר' שמעון בר יוחי: כל הקובע מקום לתפלתו   — אויביו נופלים תחתיו   . שנאמר:  " ושמתי מקום לעמ
   ואמר ר' יוחנן משום ר' שמעון בר יוחי: כל הקובע מקום לתפלתו   — אויביו נופלים תחתיו   . שנאמר:  " ושמתי מקום לעמי
   ואמר ר' יוחנן משום ר' שמעון בר יוחי: כל הקובע מקום לתפלתו   — אויביו נופלים תחתיו   . שנאמר:  " ושמתי מקום לעמי 
   ואמר ר' יוחנן משום ר' שמעון בר יוחי: כל הקובע מקום לתפלתו   — אויביו נופלים תחתיו   . שנאמר:  " ושמתי מקום לעמי ל
   ואמר ר' יוחנן משום ר' שמעון בר יוחי: כל הקובע מקום לתפלתו   — אויביו נופלים תחתיו   . שנאמר:  " ושמתי מקום לעמי לי
   ואמר ר' יוחנן משום ר' שמעון בר יוחי: כל הקובע מקום לתפלתו   — אויביו נופלים תחתיו   . שנאמר:  " ושמתי מקום לעמי ליש
   ואמר ר' יוחנן משום ר' שמעון בר יוחי: כל הקובע מקום לתפלתו   — אויביו נופלים תחתיו   . שנאמר:  " ושמתי מקום לעמי לישר
   ואמר ר' יוחנן משום ר' שמעון בר יוחי: כל הקובע מקום לתפלתו   — אויביו נופלים תחתיו   . שנאמר:  " ושמתי מקום לעמי לישרא
   ואמר ר' יוחנן משום ר' שמעון בר יוחי: כל הקובע מקום לתפלתו

   אמר ר' יהושע
   אמר ר' יהושע 
   אמר ר' יהושע ב
   אמר ר' יהושע בן
   אמר ר' יהושע בן 
   אמר ר' יהושע בן ל
   אמר ר' יהושע בן לו
   אמר ר' יהושע בן לוי
   אמר ר' יהושע בן לוי 
   אמר ר' יהושע בן לוי ל
   אמר ר' יהושע בן לוי לב
   אמר ר' יהושע בן לוי לבנ
   אמר ר' יהושע בן לוי לבני
   אמר ר' יהושע בן לוי לבניה
   אמר ר' יהושע בן לוי לבניה 
   אמר ר' יהושע בן לוי לבניה ק
   אמר ר' יהושע בן לוי לבניה קד
   אמר ר' יהושע בן לוי לבניה קדי
   אמר ר' יהושע בן לוי לבניה קדימ
   אמר ר' יהושע בן לוי לבניה קדימו
   אמר ר' יהושע בן לוי לבניה קדימו 
   אמר ר' יהושע בן לוי לבניה קדימו ו
   אמר ר' יהושע בן לוי לבניה קדימו וח
   אמר ר' יהושע בן לוי לבניה קדימו וחש
   אמר ר' יהושע בן לוי לבניה קדימו וחשי
   אמר ר' יהושע בן לוי לבניה קדימו וחשיכ
   אמר ר' יהושע בן לוי לבניה קדימו וחשיכו
   אמר ר' יהושע בן לוי לבניה קדימו וחשיכו 
   אמר ר' יהושע בן לוי לבניה קדימו וחשיכו ו
   אמר ר' יהושע בן לוי לבניה קדימו וחשיכו וע
   אמר ר' יהושע בן לוי לבניה קדימו וחשיכו ועי
   אמר ר' יהושע בן לוי לבניה קדימו וחשי

   ו אמר ר' חי
   ו אמר ר' חיי
   ו אמר ר' חייא
   ו אמר ר' חייא 
   ו אמר ר' חייא ב
   ו אמר ר' חייא בר
   ו אמר ר' חייא בר 
   ו אמר ר' חייא בר א
   ו אמר ר' חייא בר אמ
   ו אמר ר' חייא בר אמי
   ו אמר ר' חייא בר אמי 
   ו אמר ר' חייא בר אמי מ
   ו אמר ר' חייא בר אמי מש
   ו אמר ר' חייא בר אמי משמ
   ו אמר ר' חייא בר אמי משמי
   ו אמר ר' חייא בר אמי משמיה
   ו אמר ר' חייא בר אמי משמיה 
   ו אמר ר' חייא בר אמי משמיה ע
   ו אמר ר' חייא בר אמי משמיה עו
   ו אמר ר' חייא בר אמי משמיה עול
   ו אמר ר' חייא בר אמי משמיה עולא
   ו אמר ר' חייא בר אמי משמיה עולא:
   ו אמר ר' חייא בר אמי משמיה עולא: 
   ו אמר ר' חייא בר אמי משמיה עולא: ג
   ו אמר ר' חייא בר אמי משמיה עולא: גד
   ו אמר ר' חייא בר אמי משמיה עולא: גדו
   ו אמר ר' חייא בר אמי משמיה עולא: גדול
   ו אמר ר' חייא בר אמי משמיה עולא: גדול 
   ו אמר ר' חייא בר אמי משמיה עולא: גדול ה
   ו אמר ר' חייא בר אמי משמיה עולא: גדול הנ
   ו אמר ר' חייא בר אמי משמיה עולא: גדול הנה
   ו אמר ר' חייא בר אמי משמיה עולא: גדול הנהנ
   ו אמר ר' חייא בר אמי 

   ו אל תשבו
   ו אל תשבו 
   ו אל תשבו ע
   ו אל תשבו על
   ו אל תשבו על 
   ו אל תשבו על מ
   ו אל תשבו על מט
   ו אל תשבו על מטת
   ו אל תשבו על מטת 
   ו אל תשבו על מטת א
   ו אל תשבו על מטת אר
   ו אל תשבו על מטת ארמ
   ו אל תשבו על מטת ארמי
   ו אל תשבו על מטת ארמית
   ו אל תשבו על מטת ארמית
   ו אל תשבו על מטת ארמית 
   ו אל תשבו על מטת ארמית  , ו
   ו אל תשבו על מטת ארמית  , וא
   ו אל תשבו על מטת ארמית  , ואל
   ו אל תשבו על מטת ארמית  , ואל 
   ו אל תשבו על מטת ארמית  , ואל ת
   ו אל תשבו על מטת ארמית  , ואל תע
   ו אל תשבו על מטת ארמית  , ואל תעב
   ו אל תשבו על מטת ארמית  , ואל תעבר
   ו אל תשבו על מטת ארמית  , ואל תעברו
   ו אל תשבו על מטת ארמית  , ואל תעברו 
   ו אל תשבו על מטת ארמית  , ואל תעברו א
   ו אל תשבו על מטת ארמית  , ואל תעברו אח
   ו אל תשבו על מטת ארמית  , ואל תעברו אחו
   ו אל תשבו על מטת ארמית  , ואל תעברו אחור
   ו אל תשבו על מטת ארמית  , ואל תעברו אחורי
   ו אל תשבו על מטת ארמית  , ואל תעברו אחורי 
   ו אל תשבו על מטת ארמית  , ואל תעברו אחורי ב
   ו אל תשב

   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן 
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן ל
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לו
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי:
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: 
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: ה
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הל
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכ
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכה
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכה 
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכה כ
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכה כר
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכה כר'
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכה כר' 
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכה כר' ש
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכה כר' שמ
   אמר ר' אחא בר' חנינא  , אמר ר' יהושע בן לוי: הלכה כר' שמע
   אמר ר' אח

   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר 
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר ש
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שנ
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני 
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני 
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני  
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני  
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני   
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני   
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני    
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני     .  " 
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  " בקר "    — בקר שני     .  "  
   ור' עקיבא   — אי מהתם    , הוה אמינא מאי  

    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר א
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אל
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אלי
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליה
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו 
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו  " 
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו  " ע
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו  " ענ
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו  " עננ
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו  " ענני
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו  " ענני " 
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו  " ענני "  
    "   "   " ענני ה' ענני '  "     . אמר ר' אבהו: למה אמר אליהו  " ענני "  ש
    "   "   " ענני ה' ענני '  "  

   אמ
   אמר
   אמר 
   אמר ר
   אמר ר'
   אמר ר' 
   אמר ר' א
   אמר ר' אל
   אמר ר' אלע
   אמר ר' אלעז
   אמר ר' אלעזר
   אמר ר' אלעזר:
   אמר ר' אלעזר: 
   אמר ר' אלעזר: ת
   אמר ר' אלעזר: תה
   אמר ר' אלעזר: תהא
   אמר ר' אלעזר: תהא 
   אמר ר' אלעזר: תהא  " 
   אמר ר' אלעזר: תהא  "  
   אמר ר' אלעזר: תהא  "  '
   אמר ר' אלעזר: תהא  "  ' 
   אמר ר' אלעזר: תהא  "  '  " 
   אמר ר' אלעזר: תהא  "  '  "  
   אמר ר' אלעזר: תהא  "  '  "  ב
   אמר ר' אלעזר: תהא  "  '  "  בת
   אמר ר' אלעזר: תהא  "  '  "  בתפ
   אמר ר' אלעזר: תהא  "  '  "  בתפל
   אמר ר' אלעזר: תהא  "  '  "  בתפלה
   אמר ר' אלעזר: תהא  "  '  "  בתפלה 
   אמר ר' אלעזר: תהא  "  '  "  בתפלה ש
   אמר ר' אלעזר: תהא  "  '  "  בתפלה של
   אמר ר' אלעזר: תהא  "  '  "  בתפלה של 
   אמר ר' אלעזר: תהא  "  '  "  בתפלה של ע
   אמר ר' אלעזר: תהא  "  '  "  בתפלה של ער
   אמר ר' אלעזר: תהא  "  '  "  בתפלה של ערב
   אמר ר' אלעזר: תהא  "  '  "  בתפלה של ערבי
   אמר ר' אלעזר: תהא  "  '  "  בתפלה של ערבית
   אמר ר' אלעזר: תהא  "  '  "  בתפלה של 

   ועוד
   ועוד
   ועוד 
   ועוד  , ש
   ועוד  , שפ
   ועוד  , שפי
   ועוד  , שפיל
   ועוד  , שפיל 
   ועוד  , שפיל ל
   ועוד  , שפיל לס
   ועוד  , שפיל לסי
   ועוד  , שפיל לסיפ
   ועוד  , שפיל לסיפי
   ועוד  , שפיל לסיפיה
   ועוד  , שפיל לסיפיה 
   ועוד  , שפיל לסיפיה ד
   ועוד  , שפיל לסיפיה דק
   ועוד  , שפיל לסיפיה דקר
   ועוד  , שפיל לסיפיה דקרא
   ועוד  , שפיל לסיפיה דקרא 
   ועוד  , שפיל לסיפיה דקרא 
   ועוד  , שפיל לסיפיה דקרא  
   ועוד  , שפיל לסיפיה דקרא   ,  " 
   ועוד  , שפיל לסיפיה דקרא   ,  " ו
   ועוד  , שפיל לסיפיה דקרא   ,  " ור
   ועוד  , שפיל לסיפיה דקרא   ,  " ורש
   ועוד  , שפיל לסיפיה דקרא   ,  " ורשע
   ועוד  , שפיל לסיפיה דקרא   ,  " ורשעי
   ועוד  , שפיל לסיפיה דקרא   ,  " ורשעים
   ועוד  , שפיל לסיפיה דקרא   ,  " ורשעים 
   ועוד  , שפיל לסיפיה דקרא   ,  " ורשעים ע
   ועוד  , שפיל לסיפיה דקרא   ,  " ורשעים עו
   ועוד  , שפיל לסיפיה דקרא   ,  " ורשעים עוד
   ועוד  , שפיל לסיפיה דקרא   ,  " ורשעים עוד 
   ועוד  , שפיל לסיפיה דקרא   ,  " ורשעים עוד א
   ועוד  , שפ

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי 
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי ת
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תו
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תור
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורת
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורתך
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורתך 
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורתך ב
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורתך בפ
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורתך בפי
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורתך בפינ
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורתך בפינו
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורתך בפינו 
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי תורתך בפינו ו
   ו ר' יוחנן מסיים בה הכי  " הערב נא ה' אלהינו את דברי

[' , תנא היכא קאי דקתני , " מאימתי " ?',
 ' ותו מאי שנא דתני , ב ערבית ברישא ? לתני שחרית ברישא ! " .',
 ' תנא אקרא קאי , דכתיב , " בשכבך ובקומך " . ו , הכי קתני , זמן קריאת שמע שכיבה אימת ? משעה שהכהנים נכנסין לאכול בתרומתן . " " .',
 ' ו , אי בעית אימא יליף מברייתו של עולם , דכתיב " ויהי ערב ויהי בקר יום אחד " .',
 ' אי הכי , סיפא דקתני " בשחר מברך שתים , לפניה , ואחת לאחריה , ובערב מברך שתים לפניה ושתים לאחריה " , ו לתני ערבית ברישא !',
 ' , תנא פתח ב ערבית , והדר תני ב שחרית , עד דקאי , בשחרית , פריש מילי שחרית , והדר פריש מילי ערבית .',
 ' . אמר מר משעה שהכהנים נכנסים לאכול בתרומתן . מכדי כהנים אימת קא אכלי תרומה ? משעת צאת הכוכבים , לתני " משעת צאת הכוכבים " !',
 ' , מלתא אגב אורחיה קמשמע לן — כהנים אימת קא אכלי בתרומה — משעת צאת הכוכבים . והא קמשמע לן כפרה לא מעכבא . כדתניא " . " , " ובא השמש וטהר " ביאת שמשו מעכבתו מלאכול בתרומה , ואין כפרתו מעכבתו מלאכול בתרומה .',
 ' ממאי , האי " ובא השמש " ביאת השמש , " וטהר " טהר יומא , " , " " . דילמא " " — ביאת אורו הוא , ומאי " וטהר " — 

## Stats on Chunk Length

In [14]:
prepped

[' תנן התם שבועות שתים שהן ארבע ידיעות הטומאה שתים שהן ארבע',
 'מראות נגעים שנים שהן ארבעה',
 'יציאות השבת שתים שהן ארבע',
 'מאי שנא הכא דתני שתים שהן ארבע בפנים ושתים שהן ארבע בחוץ ומאי שנא התם דתני שתים שהן ארבע ותו לא',
 'הכא דעיקר שבת הוא תני אבות ותני תולדות התם דלאו עיקר שבת הוא אבות תני תולדות לא תני',
 'אבות מאי ניהו  יציאות ויציאות תרי הויין',
 'וכי תימא מהן לחיוב ומהן לפטור והא דומיא דמראות נגעים קתני מה התם כולהו לחיובא אף הכא נמי כולהו לחיובא',
 'אלא אמר רב פפא הכא דעיקר שבת הוא תני חיובי ופטורי התם דלאו עיקר שבת הוא חיובי תני ופטורי לא תני',
 'חיובי מאי ניהו  יציאות יציאות תרתי הויין  שתים דהוצאה ושתים דהכנסה',
 'והא יציאות קתני אמר רב אשי תנא הכנסה נמי הוצאה קרי לה',
 'ממאי מדתנן המוציא מרשות לרשות  חייב מי לא עסקינן דקא מעייל מרשות הרבים לרשות היחיד וקא קרי לה הוצאה',
 'וטעמא מאי  כל עקירת חפץ ממקומו תנא הוצאה קרי לה',
 'אמר רבינא מתניתין נמי דיקא דקתני יציאות וקא מפרש הכנסה לאלתר שמע מינה',
 'רבא אמר רשויות קתני רשויות שבת שתים',
 'אמר ליה רב מתנה לאביי הא תמני הויין תר

In [17]:
lens = [len(c.split(' ')) for c in prepped]
lens = np.array(lens)

In [18]:
np.mean(lens)

34.81766381766382

In [20]:
np.max(lens)

169

In [21]:
np.min(lens)

1

In [23]:
[len(c.split(' ')) for c in prepped].index(169)

1621

In [24]:
prepped[1621]

'אמר לו הקדוש ברוך הוא למשה החזיר להן תשובה אמר לפניו רבונו של עולם מתיירא אני שמא ישרפוני בהבל שבפיהם אמר לו אחוז בכסא כבודי וחזור להן תשובה שנאמר מאחז פני כסא פרשז עליו עננו ואמר רבי נחום מלמד שפירש שדי מזיו שכינתו ועננו עליו אמר לפניו רבונו של עולם תורה שאתה נותן לי מה כתיב בה אנכי ה׳ אלהיך אשר הוצאתיך מארץ מצרים אמר להן למצרים ירדתם לפרעה השתעבדתם תורה למה תהא לכם שוב מה כתיב בה לא יהיה לך אלהים אחרים בין הגוים אתם שרויין שעובדין עבודה זרה שוב מה כתיב בה זכור את יום השבת לקדשו  כלום אתם עושים מלאכה שאתם צריכין שבות שוב מה כתיב בה לא תשא  משא ומתן יש ביניכם שוב מה כתיב בה כבד את אביך ואת אמך  אב ואם יש לכם שוב מה כתיב בה לא תרצח לא תנאף לא תגנב קנאה יש ביניכם יצר הרע יש ביניכם מיד הודו לו להקדוש ברוך הוא שנאמר ה׳ אדנינו מה אדיר שמך וגו׳ ואילו תנה הודך על השמים לא כתיב'

## Common Words

In [1]:
from utils.format import prep_text, get_masekhet
from collections import defaultdict

In [2]:
def prep_whole(title, pages=100):
    masekhet = get_masekhet(title)
    
    whole = []
    for i in range(pages, len(masekhet), pages):
        prepped = prep_text(masekhet[i-pages : i])
        whole += prepped
    
    prepped = prep_text( masekhet[-(len(masekhet) % pages) : ] )
    whole += prepped
    
    return whole

In [3]:
def most_common(text):
    words = defaultdict(lambda: 0)
    for c in text:
        for w in c.split(' '):
            if w == '' or w == ' ':
                continue
            words[w] += 1
    pairs = [(i[1], i[0]) for i in words.items()]
    return sorted(pairs, reverse=True)

In [30]:
masekhtot = ['Berakhot', 'Shabbat', 'Gittin', 'Bava_Metzia', 'Menahot', 'Niddah']
all_masekhtot = defaultdict(lambda: 0)

for m in masekhtot:
    print(m)
    whole = prep_whole(m)
    
    common_20 = most_common(whole)[:100]
    total_words = len([w for c in whole for w in c])
    sum_20 = sum([i[0] for i in common_20])
    print( str(sum_20) + ' / ' + str(total_words) + ' = ' + str(sum_20 / total_words))
    
    for i in common_20:
        all_masekhtot[i[1]] += 1
        print(i)
    print('\n')

pairs = [(i[0], i[1]) for i in all_masekhtot.items()]
in_common = [w[0] for w in pairs if w[1] == 6]
print('Top 20 in common (' + str(len(in_common)) + '): ' + str(in_common))

Berakhot
21823 / 327528 = 0.06662941794289343
(2003, 'אמר')
(1195, 'רבי')
(814, 'רב')
(805, 'לא')
(745, 'ליה')
(521, 'על')
(513, 'אלא')
(454, 'בר')
(432, 'כל')
(398, 'את')
(389, 'הוא')
(376, 'לו')
(363, 'ולא')
(361, 'שנאמר')
(357, 'אומר')
(332, 'מאי')
(324, 'בן')
(289, 'של')
(289, 'ה׳')
(284, 'יהודה')
(272, 'כי')
(247, 'אין')
(236, 'יוחנן')
(233, 'ברוך')
(232, 'דאמר')
(221, 'עד')
(219, 'הא')
(218, 'שמע')
(184, 'דכתיב')
(178, 'אדם')
(173, 'נמי')
(173, 'ואמר')
(172, 'הכי')
(172, 'אל')
(167, 'רבנן')
(166, 'ישראל')
(164, 'לה')
(163, 'אבל')
(160, 'משום')
(160, 'להו')
(159, 'לך')
(150, 'לי')
(144, 'מה')
(142, 'קא')
(141, 'אף')
(138, 'הוה')
(136, 'מן')
(136, 'אם')
(135, 'יהושע')
(132, 'רבא')
(132, 'עליו')
(128, 'זה')
(128, 'בית')
(126, 'דרבי')
(126, 'דרב')
(124, 'מברך')
(123, 'בה')
(120, 'תורה')
(119, 'אי')
(117, 'מר')
(116, 'דלא')
(116, 'אפילו')
(115, 'יצחק')
(115, 'והא')
(115, 'ברכה')
(114, 'שלא')
(114, 'אחד')
(113, 'יוסי')
(112, 'וגו׳')
(111, 'מפני')
(111, 'ורבי')
(109, 'הקדוש')
(109, 'אלע

## New formatting functions

In [30]:
from utils.format2 import get_masekhet
import numpy as np
import re

In [41]:
shab = get_masekhet('Shabbat')

In [49]:
lens = []
i = 0
for p in shab:
    for c in p:
        sentences = re.split(r'(!|\.|\?|:|;)', c[0])
        sentences = [s for s in sentences if len(s) > 1]
        for s in sentences:
            print(str(i) + '\t' + s)
            i += 1
            lens += [len(s.split(' '))]

0	מַתְנִי׳ יְצִיאוֹת הַשַּׁבָּת, שְׁתַּיִם שֶׁהֵן אַרְבַּע בִּפְנִים, וּשְׁתַּיִם שֶׁהֵן אַרְבַּע בַּחוּץ
1	כֵּיצַד
2	הֶעָנִי עוֹמֵד בַּחוּץ, וּבַעַל הַבַּיִת בִּפְנִים
3	 פָּשַׁט הֶעָנִי אֶת יָדוֹ לִפְנִים וְנָתַן לְתוֹךְ יָדוֹ שֶׁל בַּעַל הַבַּיִת, אוֹ שֶׁנָּטַל מִתּוֹכָהּ וְהוֹצִיא — הֶעָנִי חַיָּיב וּבַעַל הַבַּיִת פָּטוּר
4	פָּשַׁט בַּעַל הַבַּיִת אֶת יָדוֹ לַחוּץ וְנָתַן לְתוֹךְ יָדוֹ שֶׁל עָנִי, אוֹ שֶׁנָּטַל מִתּוֹכָהּ וְהִכְנִיס — בַּעַל הַבַּיִת חַיָּיב וְהֶעָנִי פָּטוּר
5	פָּשַׁט הֶעָנִי אֶת יָדוֹ לִפְנִים וְנָטַל בַּעַל הַבַּיִת מִתּוֹכָהּ, אוֹ שֶׁנָּתַן לְתוֹכָהּ וְהוֹצִיא — שְׁנֵיהֶם פְּטוּרִין
6	פָּשַׁט בַּעַל הַבַּיִת אֶת יָדוֹ לַחוּץ וְנָטַל הֶעָנִי מִתּוֹכָהּ, אוֹ שֶׁנָּתַן לְתוֹכָהּ וְהִכְנִיס — שְׁנֵיהֶם פְּטוּרִין
7	גְּמָ׳ תְּנַן הָתָם
8	 שְׁבוּעוֹת, שְׁתַּיִם שֶׁהֵן אַרְבַּע
9	יְדִיעוֹת הַטּוּמְאָה, שְׁתַּיִם שֶׁהֵן אַרְבַּע
10	מַרְאוֹת נְגָעִים, שְׁנַיִם שֶׁהֵן אַרְבָּעָה
11	יְצִיאוֹת הַשַּׁבָּת, שְׁתַּיִם שֶׁהֵן אַרְבַּע
12	מַאי שְׁנָא הָכָא דְּתָנֵי ״שְׁתַּיִם 

1198	 הָאוֹכֵל אוֹכֶל רִאשׁוֹן וְאוֹכֶל שֵׁנִי — שֵׁנִי
1199	 שְׁלִישִׁי — שֵׁנִי לַקּוֹדֶשׁ, וְאֵין שֵׁנִי לַתְּרוּמָה בְּחוּלִּין שֶׁנַּעֲשׂוּ עַל טׇהֳרַת תְּרוּמָה
1200	אוֹכֵל אוֹכֶל רִאשׁוֹן וְאוֹכֵל אוֹכֶל שֵׁנִי — מַאי טַעְמָא גְּזַרוּ בֵּיהּ רַבָּנַן טוּמְאָה
1201	 דְּזִימְנִין דְּאָכֵיל אוֹכָלִין טְמֵאִין, וְשָׁקֵיל מַשְׁקִין דִּתְרוּמָה, וְשָׁדֵי לְפוּמֵּיהּ וּפָסֵיל לְהוּ
1202	שׁוֹתֶה מַשְׁקִין טְמֵאִין — מַאי טַעְמָא גְּזַרוּ בֵּיהּ רַבָּנַן טוּמְאָה
1203	 דְּזִימְנִין דְּשָׁתֵי מַשְׁקִין טְמֵאִין, וְשָׁקֵיל אוֹכָלִין דִּתְרוּמָה וְשָׁדֵי לְפוּמֵּיהּ וּפָסֵיל לְהוּ
1204	 הַיְינוּ הָךְ
1205	 מַהוּ דְתֵימָא
1206	 הָא שְׁכִיחִי, וְהָא לָא שְׁכִיחִי — קָא מַשְׁמַע לַן
1207	וְהַבָּא רֹאשׁוֹ וְרוּבּוֹ בְּמַיִם שְׁאוּבִין — מַאי טַעְמָא גְּזַרוּ בֵּיהּ רַבָּנַן טוּמְאָה
1208	 אָמַר רַב בִּיבִי אָמַר רַב אַסִּי
1209	 שֶׁבַּתְּחִלָּה הָיוּ טוֹבְלִין בְּמֵי מְעָרוֹת מְכוּנָּסִין וּסְרוּחִין, וְהָיוּ נוֹתְנִין עֲלֵיהֶן מַיִם שְׁאוּבִין
1210	 הִתְחִילוּ וַעֲשָׂאוּם קֶבַע — גָּזְרוּ עֲלֵ

1927	 וּבֵית הִלֵּל אוֹמְרִים
1928	 יוֹם רִאשׁוֹן מַדְלִיק אַחַת, מִכָּאן וְאֵילָךְ מוֹסִיף וְהוֹלֵךְ
1929	אָמַר עוּלָּא
1930	 פְּלִיגִי בַּהּ תְּרֵי אָמוֹרָאֵי בְּמַעְרְבָא, רַבִּי יוֹסֵי בַּר אָבִין וְרַבִּי יוֹסֵי בַּר זְבִידָא
1931	 חַד אָמַר טַעְמָא דְּבֵית שַׁמַּאי כְּנֶגֶד יָמִים הַנִּכְנָסִין, וְטַעְמָא דְּבֵית הִלֵּל כְּנֶגֶד יָמִים הַיּוֹצְאִין
1932	 וְחַד אָמַר טַעְמָא דְּבֵית שַׁמַּאי כְּנֶגֶד פָּרֵי הַחַג, וְטַעְמָא דְּבֵית הִלֵּל דְּמַעֲלִין בַּקֹּדֶשׁ וְאֵין מוֹרִידִין
1933	אָמַר רַבָּה בַּר בַּר חָנָה אָמַר רַבִּי יוֹחָנָן
1934	 שְׁנֵי זְקֵנִים הָיוּ בְּצַיְדָּן
1935	 אֶחָד עָשָׂה כְּבֵית שַׁמַּאי וְאֶחָד עָשָׂה כְּדִבְרֵי בֵּית הִלֵּל
1936	 זֶה נוֹתֵן טַעַם לִדְבָרָיו כְּנֶגֶד פָּרֵי הַחַג, וְזֶה נוֹתֵן טַעַם לִדְבָרָיו דְּמַעֲלִין בַּקֹּדֶשׁ וְאֵין מוֹרִידִין
1937	תָּנוּ רַבָּנַן
1938	 נֵר חֲנוּכָּה מִצְוָה לְהַנִּיחָהּ עַל פֶּתַח בֵּיתוֹ מִבַּחוּץ
1939	 אִם הָיָה דָּר בַּעֲלִיָּיה — מַנִּיחָהּ בַּחַלּוֹן הַסְּמוּכָה לִרְשׁוּת הָרַבִּים
1940	 וּבִשְׁעַת הַסַּכָּנָה — 

3667	אָמַר רַב אָשֵׁי, אַף אָנוּ נֹאמַר
3668	 ״בָּבֶל״ — ״בּוֹרְסִיף״, ״בּוֹרְסִיף״ — ״בָּבֶל״
3669	לְמַאי נָפְקָא מִינָּה — לְגִיטֵּי נָשִׁים
3670	הדרן עלך במה מדליקין
3671	מַתְנִי׳ כִּירָה שֶׁהִסִּיקוּהָ בְּקַשׁ וּבִגְבָבָא — נוֹתְנִים עָלֶיהָ תַּבְשִׁיל
3672	 בְּגֶפֶת וּבְעֵצִים — לֹא יִתֵּן עַד שֶׁיִּגְרוֹף, אוֹ עַד שֶׁיִּתֵּן אֶת הָאֵפֶר
3673	 בֵּית שַׁמַּאי אוֹמְרִים
3674	 חַמִּין, אֲבָל לֹא תַּבְשִׁיל
3675	 וּבֵית הִלֵּל אוֹמְרִים
3676	 חַמִּין וְתַבְשִׁיל
3677	 בֵּית שַׁמַּאי אוֹמְרִים
3678	 נוֹטְלִין, אֲבָל לֹא מַחֲזִירִין
3679	 וּבֵית הִלֵּל אוֹמְרִים
3680	 אַף מַחֲזִירִין
3681	גְּמָ׳ אִיבַּעְיָא לְהוּ
3682	 הַאי ״לֹא יִתֵּן״ — לֹא יַחֲזִיר הוּא, אֲבָל לְשַׁהוֹת — מְשַׁהִין, אַף עַל פִּי שֶׁאֵינוֹ גָּרוּף וְאֵינוֹ קָטוּם
3683	 וּמַנִּי — חֲנַנְיָה הִיא
3684	 דְּתַנְיָא, חֲנַנְיָה אוֹמֵר
3685	 כֹּל שֶׁהוּא כְּמַאֲכָל בֶּן דְּרוּסַאי — מוּתָּר לְשַׁהוֹתוֹ עַל גַּבֵּי כִּירָה, אַף עַל פִּי שֶׁאֵינוֹ גָּרוּף וְאֵינוֹ קָטוּם
3686	 אוֹ דִילְמָא — לְשַׁהוֹת תְּנַן, וְאִי גָרוּף וְקָ

5426	זְכָרִים יוֹצְאִין לְבוּבִין
5427	 מַאי ״לְבוּבִין״
5428	 אָמַר רַב הוּנָא
5429	 תּוּתָרֵי
5430	 מַאי מַשְׁמַע דְּהַאי ״לְבוּבִין״ לִישָּׁנָא דְּקָרוֹבֵי הוּא — דִּכְתִיב
5431	 ״לִבַּבְתִּנִי אֲחוֹתִי כַלָּה״
5432	עוּלָּא אָמַר
5433	 עוֹר שֶׁקּוֹשְׁרִין לָהֶם כְּנֶגֶד לִבָּם — כְּדֵי שֶׁלֹּא יִפְּלוּ עֲלֵיהֶן זְאֵבִים
5434	 זְאֵבִים — אַזְּכָרִים נָפְלִי, אַנְּקֵיבוֹת לָא נָפְלִי
5435	 מִשּׁוּם דִּמְסַגּוּ בְּרֵישׁ עֶדְרָא
5436	 וּזְאֵבִין — בְּרֵישׁ עֶדְרָא נָפְלִי, בְּסוֹף עֶדְרָא לָא נָפְלִי
5437	 אֶלָּא
5438	 מִשּׁוּם דְּשַׁמִּינֵי
5439	 וּבִנְקֵבוֹת לֵיכָּא דְּשַׁמִּינָן
5440	 וְתוּ, מִי יָדְעִי בֵּין הָנֵי לְהָנֵי
5441	 אֶלָּא מִשּׁוּם דְּזָקְפִי חוּטְמַיְיהוּ וּמְסַגּוּ כִּי דָּווּ
5442	רַב נַחְמָן בַּר יִצְחָק אָמַר
5443	 עוֹר שֶׁקּוֹשְׁרִין לָהֶן תַּחַת זַכְרוּתָן כְּדֵי שֶׁלֹּא יַעֲלוּ עַל הַנְּקֵבוֹת
5444	 מִמַּאי
5445	 — מִדְּקָתָנֵי סֵיפָא
5446	 וְהָרְחֵלִים יוֹצְאוֹת שְׁחוּזוֹת
5447	 מַאי ״שְׁחוּזוֹת״ — שֶׁאוֹחֲזִין הָאַלְיָה שֶׁלָּהֶן לְמַעְלָה כְּדֵי שֶׁיַּעֲלוּ עֲ

6926	 הַבָּנוֹת יוֹצְאוֹת בְּחוּטִין
6927	 בְּנָתֵיהּ דַּאֲבוּהּ דִּשְׁמוּאֵל דְּצִבְעוֹנִין הֲווֹ
6928	לָא שָׁבֵיק לְהוּ גָּנְיָאן גַּבֵּי הֲדָדֵי, לֵימָא מְסַיַּיע לֵיהּ לְרַב הוּנָא
6929	 דְּאָמַר רַב הוּנָא
6930	 נָשִׁים הַמְסוֹלְלוֹת זוֹ בָּזוֹ
6931	פְּסוּלוֹת לַכְּהוּנָּה
6932	לָא — סָבַר כִּי הֵיכִי דְּלָא לֵילְפָן גּוּפָא נוּכְרָאָה
6933	וְעָבֵיד לְהוּ מִקְוֶה בְּיוֹמֵי נִיסָן, מְסַיַּיע לֵיהּ לְרַב, דְּאָמַר רַב
6934	 מִטְרָא בְּמַעְרְבָא סָהֲדָא רַבָּה פְּרָת
6935	 סָבַר, שֶׁלֹּא יִרְבּוּ הַנּוֹטְפִין עַל הַזּוֹחֲלִין
6936	וּפְלִיגָא דִּשְׁמוּאֵל
6937	 דְּאָמַר שְׁמוּאֵל
6938	 נַהֲרָא מִכֵּיפֵיהּ מִיבָּרַךְ
6939	 וּפְלִיגָא דִּידֵיהּ אַדִּידֵיהּ, דְּאָמַר שְׁמוּאֵל
6940	 אֵין הַמַּיִם מְטַהֲרִין בְּזוֹחֲלִין אֶלָּא פְּרָת בְּיוֹמֵי תִשְׁרֵי בִּלְבַד
6941	פּוֹרֶפֶת עַל הָאֶבֶן כּוּ׳
6942	 וְהָאָמְרַתְּ רֵישָׁא ״פּוֹרֶפֶת״
6943	 אָמַר אַבָּיֵי
6944	 סֵיפָא אֲתָאן לְמַטְבֵּעַ
6945	בָּעֵי אַבָּיֵי
6946	 אִשָּׁה מַהוּ שֶׁתַּעֲרִים וְתִפְרוֹף עַל הָאֱגוֹז לְהוֹצִיא לִבְנָהּ קָטָן ב

8425	 בְּנוֹת יִשְׂרָאֵל שֶׁהִגִּיעוּ לְפִירְקָן וְלֹא הִגִּיעוּ [לְשָׁנִים], בְּנוֹת עֲנִיִּים — טוֹפְלוֹת אוֹתָן בְּסִיד
8426	 בְּנוֹת עֲשִׁירִים — טוֹפְלוֹת אוֹתָן בְּסוֹלֶת, בְּנוֹת מְלָכִים — טוֹפְלוֹת אוֹתָן בְּשֶׁמֶן הַמּוֹר, שֶׁנֶּאֱמַר
8427	 ״שִׁשָּׁה חֳדָשִׁים בְּשֶׁמֶן הַמּוֹר״
8428	 מַאי שֶׁמֶן הַמּוֹר
8429	 רַב הוּנָא בַּר חִיָּיא אָמַר
8430	 סְטָכַת
8431	 רַב יִרְמְיָה בַּר אַבָּא אָמַר
8432	 שֶׁמֶן זַיִת שֶׁלֹּא הֵבִיא שְׁלִישׁ
8433	 תַּנְיָא, רַבִּי יְהוּדָה אוֹמֵר
8434	 אַנְפִּיקְנוּן — שֶׁמֶן זַיִת שֶׁלֹּא הֵבִיא שְׁלִישׁ
8435	 וְלָמָּה סָכִין אוֹתוֹ — שֶׁמַּשִּׁיר אֶת הַשֵּׂיעָר וּמְעַדֵּן הַבָּשָׂר
8436	רַב בִּיבִי הַוְיָא לֵיהּ בְּרַתָּא, טַפְלַהּ אֵבֶר אֵבֶר, שְׁקַל בָּהּ אַרְבַּע מֵאָה זוּזֵי
8437	 הֲוָה הָהוּא גּוֹי בְּשִׁבָבוּתֵיהּ
8438	 הַוְיָא לֵיהּ בְּרַתָּא, טַפְלַהּ בְּחַד זִימְנָא וּמֵתָה
8439	 אֲמַר
8440	 קְטַל רַב בִּיבִי לִבְרַתִּי
8441	 אָמַר רַב נַחְמָן
8442	 רַב בִּיבִי דְּשָׁתֵי שִׁיכְרָא — בָּעֲיָין בְּנָתֵיהּ טִפְלָא, אֲנַן דְּלָא שָׁתֵינַן שִׁיכ

9925	 לָאו מִשּׁוּם דְּאָמְרִינַן שִׁיעוּר אֶחָד לְכוּלָּן
9926	אָמַר רַב נַחְמָן בַּר יִצְחָק
9927	 אַף אֲנַן נָמֵי תְּנֵינָא
9928	 צְבִי שֶׁנִּכְנַס לַבַּיִת, וְנָעַל אֶחָד בְּפָנָיו — חַיָּיב
9929	 נָעֲלוּ שְׁנַיִם — פְּטוּרִין
9930	 לֹא יָכוֹל אֶחָד לִנְעוֹל, וְנָעֲלוּ שְׁנַיִם — חַיָּיבִים
9931	 וְאַמַּאי
9932	 לִיבְעֵי שִׁיעוּר צֵידָה לָזֶה וְשִׁיעוּר צֵידָה לָזֶה
9933	 לָאו מִשּׁוּם דְּאָמְרִינַן שִׁיעוּר אֶחָד לְכוּלָּם
9934	 אָמַר רָבִינָא
9935	 אַף אֲנַן נָמֵי תְּנֵינָא
9936	 הַשּׁוּתָּפִין שֶׁגָּנְבוּ וְטָבְחוּ — חַיָּיבִין
9937	 וְאַמַּאי
9938	 לִיבְעֵי שִׁיעוּר טְבִיחָה לָזֶה וְשִׁיעוּר טְבִיחָה לָזֶה
9939	 לָאו מִשּׁוּם דְּאָמְרִינַן שִׁיעוּר אֶחָד לְכוּלָּם
9940	וְאָמַר רַב אָשֵׁי
9941	 אַף אֲנַן נָמֵי תְּנֵינָא
9942	 שְׁנַיִם שֶׁהוֹצִיאוּ קָנֶה שֶׁל גַּרְדִּי — חַיָּיבִין
9943	 וְאַמַּאי
9944	 לִיבְעֵי שִׁיעוּר הוֹצָאָה לָזֶה וְשִׁיעוּר הוֹצָאָה לָזֶה
9945	 לָאו מִשּׁוּם דְּאָמְרִינַן שִׁיעוּר אֶחָד לְכוּלָּם
9946	 אֲמַר לֵיהּ רַב אַחָא בְּרֵיהּ דְּרָבָא לְרַב אָשֵׁי
99

11742	 הָא — בְּיָפִין שֶׁבּוֹ, הָא — בְּרָעִים שֶׁבּוֹ
11743	 מֵי מִשְׁרָה אַמֵּי מִשְׁרָה נָמֵי לָא קַשְׁיָא
11744	 הָא — דְּאִישְׁתַּהִי, הָא — דְּלָא אִישְׁתַּהִי
11745	מַתְנִי׳ אֵין אוֹכְלִין אֵיזֹבְיוֹן בְּשַׁבָּת לְפִי שֶׁאֵינוֹ מַאֲכַל בְּרִיאִים, אֲבָל אוֹכֵל הוּא אֶת יוֹעֶזֶר, וְשׁוֹתֶה אַבּוּבְרוֹאֶה
11746	 כׇּל הָאוֹכָלִין — אוֹכֵל אָדָם לִרְפוּאָה, וְכׇל הַמַּשְׁקִין — שׁוֹתֶה, חוּץ מִמֵּי דְקָלִים וְכוֹס עִיקָּרִין, מִפְּנֵי שֶׁהֵן לִירוֹקָה
11747	 אֲבָל שׁוֹתֶה הוּא מֵי דְקָלִים לִצְמָאוֹ, וְסָךְ שֶׁמֶן עִיקָּרִין שֶׁלֹּא לִרְפוּאָה
11748	גְּמָ׳ אָמַר רַב יוֹסֵף
11749	 אֵזוֹב — ״אַבְרָתָה בַּר הֲמַג״, אֵיזֹבְיוֹן — ״אַבְרָתָה בַּר הִינְג״
11750	 עוּלָּא אָמַר
11751	 מָרְוָא חִיוָּרָא
11752	 עוּלָּא אִיקְּלַע לְבֵי רַב שְׁמוּאֵל בַּר יְהוּדָה, אַיְיתוֹ לְקַמֵּיהּ מָרְוָא חִיוָּרָא
11753	 אֲמַר
11754	 הַיְינוּ אֵזוֹב דִּכְתִיב בְּאוֹרָיְיתָא
11755	 רַב פַּפֵּי אָמַר
11756	 שׁוּמְשׁוּק
11757	 אָמַר רַב יִרְמְיָה מִדִּיפְתִּי
11758	 כְּווֹתֵיהּ דְּרַב פַּפֵּי מִסְתַּבְּרָא, 

13331	 בְּחָצֵר
13332	 חָצֵר נָמֵי, גְּרָף שֶׁל רְעִי הוּא
13333	 בְּאַשְׁפָּה שֶׁבְּחָצֵר
13334	וְעַל עַקְרָב שֶׁלֹּא תִּישָּׁךְ
13335	 אָמַר רַבִּי יְהוֹשֻׁעַ בֶּן לֵוִי
13336	 כׇּל הַמַּזִּיקִין נֶהֱרָגִין בְּשַׁבָּת
13337	 מֵתִיב רַב יוֹסֵף
13338	 חֲמִשָּׁה נֶהֱרָגִין בְּשַׁבָּת, וְאֵלּוּ הֵן
13339	 זְבוּב שֶׁבְּאֶרֶץ מִצְרַיִם, וְצִירְעָה שֶׁבְּנִינְוֵה, וְעַקְרָב שֶׁבְּחַדְיָיב, וְנָחָשׁ שֶׁבְּאֶרֶץ יִשְׂרָאֵל, וְכֶלֶב שׁוֹטֶה בְּכׇל מָקוֹם
13340	 מַנִּי
13341	 אִילֵימָא רַבִּי יְהוּדָה — הָא אָמַר
13342	 מְלָאכָה שֶׁאֵינָהּ צְרִיכָה לְגוּפָהּ חַיָּיב עָלֶיהָ
13343	 אֶלָּא לָאו רַבִּי שִׁמְעוֹן, וְהָנֵי הוּא דְּשָׁרֵי, אַחֲרִינֵי — לָא
13344	אָמַר רַבִּי יִרְמְיָה
13345	 וּמַאן נֵימָא לַן דְּהָא מְתָרַצְתָּא הִיא
13346	 דִּילְמָא מְשַׁבַּשְׁתָּא הִיא
13347	 אָמַר רַב יוֹסֵף
13348	 אֲנָא מַתְנֵינָא לַהּ, וְאוֹתֵיבְנָא לַהּ, וַאֲנָא מְתָרֵיצְנָא לַהּ
13349	 בְּרָצִין אַחֲרָיו, וְדִבְרֵי הַכֹּל
13350	תָּנֵי תַּנָּא קַמֵּיהּ דְּרָבָא בַּר רַב הוּנָא
13351	 הַהוֹרֵג נְחָשִׁים וְעַקְרַ

14923	 הַאי אוּמָּנָא דְּלָא מָיֵיץ — סַכָּנָה הוּא וּמְעַבְּרִינַן לֵיהּ
14924	פְּשִׁיטָא, מִדְּקָא מְחַלְּלִי עֲלֵיהּ שַׁבְּתָא סַכָּנָה הוּא
14925	 מַהוּ דְתֵימָא הַאי דָּם מִיפְקָד פְּקִיד, קָא מַשְׁמַע לַן חַבּוֹרֵי מִיחַבַּר
14926	וְדוּמְיָא דְּאִיסְפְּלָנִית וְכַמּוֹן
14927	 מָה אִיסְפְּלָנִית וְכַמּוֹן כִּי לָא עָבֵיד סַכָּנָה הוּא, אַף הָכָא נָמֵי, כִּי לָא עָבֵיד סַכָּנָה הוּא
14928	וְנוֹתְנִין עָלֶיהָ אִיסְפְּלָנִית
14929	 אָמַר אַבָּיֵי, אֲמַרָה לִי אֵם
14930	 אִיסְפְּלָנִיתָא דְּכוּלְּהוֹן כִּיבֵי — שַׁב מָאנֵי תַּרְבָּא, וַחֲדָא קִירָא
14931	 רָבָא אָמַר
14932	 קִירָא וְקַלְבָּא
14933	דַּרְשַׁהּ רָבָא בְּמָחוֹזָא, קַרְעִינְהוּ בְּנֵי מִנְיוֹמֵי אָסְיָא לְמָנַיְיהוּ
14934	 אֲמַר לְהוּ
14935	 שְׁבַקִי לְכוּ חֲדָא
14936	 דַּאֲמַר שְׁמוּאֵל
14937	 הַאי מַאן דְּמָשֵׁי אַפֵּיהּ וְלָא מִנַּגֵּיב טוּבָא — נִקְטְרוּ לֵיהּ
14938	חַסְפָּנִיתָא
14939	 מַאי תַּקַּנְתֵּיהּ — לִימְשֵׁי טוּבָא בְּמַיָּא דְסִילְקָא
14940	לֹא שָׁחַק מֵעֶרֶב שַׁבָּת
14941	 תָּנוּ רַבָּנַן
14942	 דְּבָרִים ש

16565	 הַב לִי כּוּמְתַּאי
16566	 [חֲזָא דְּאִיכָּא] טַלָּא עֲלֵיהּ, הֲוָה קָמְחַסֵּם לְמִיתְּבֵהּ לֵיהּ
16567	 אֲמַר לֵיהּ
16568	 נְפוֹץ שְׁדִי, אֲנַן לָא קָפְדִינַן מִידֵּי
16569	אָמַר רַב יִצְחָק בַּר יוֹסֵף אָמַר רַבִּי יוֹחָנָן
16570	 הַיּוֹצֵא בְּטַלִּית מְקוּפֶּלֶת מוּנַּחַת לוֹ עַל כְּתֵיפוֹ בְּשַׁבָּת — חַיָּיב חַטָּאת
16571	 תַּנְיָא נָמֵי הָכִי
16572	 סוֹחֲרֵי כְּסוּת הַיּוֹצְאִים בְּטַלִּיתוֹת מְקוּפָּלוֹת וּמוּנָּחוֹת עַל כְּתֵיפָן בַּשַּׁבָּת — חַיָּיבִין חַטָּאת
16573	 וְלֹא סוֹחֲרֵי כְּסוּת בִּלְבַד אָמְרוּ, אֶלָּא כָּל אָדָם
16574	 אֶלָּא שֶׁדַּרְכָּן שֶׁל מוֹכְרִין לָצֵאת כָּךְ
16575	וְחֶנְוָנִי הַיּוֹצֵא בְּמָעוֹת הַצְּרוּרִין לוֹ בִּסְדִינוֹ — חַיָּיב חַטָּאת
16576	 וְלֹא חֶנְוָנִי בִּלְבַד אָמְרוּ, אֶלָּא כָּל אָדָם
16577	 אֶלָּא שֶׁדַּרְכּוֹ שֶׁל חֶנְוָנִי לָצֵאת כָּךְ
16578	 וְהָרָטָנִין יוֹצְאִין בְּסוּדָרִין שֶׁעַל כְּתֵיפָן
16579	 וְלֹא רָטָנִין בִּלְבַד אָמְרוּ, אֶלָּא כָּל אָדָם
16580	 אֶלָּא שֶׁדַּרְכָּן שֶׁל רָטָנִין לָצֵאת בְּכָךְ
16581	אָמַר רַבִּי יְהוּ

17296	״וְסֻגְּרוּ דְלָתַיִם בַּשּׁוּק וְגוֹ׳״ — אֵלּוּ נְקָבָיו שֶׁל אָדָם
17297	 ״בִּשְׁפַל קוֹל הַטַּחֲנָה״ — בִּשְׁבִיל קוּרְקְבָן שֶׁאֵינוֹ טוֹחֵן
17298	 ״וְיָקוּם לְקוֹל הַצִּפּוֹר״ — שֶׁאֲפִילּוּ צִפּוֹר מְנַעַרְתּוֹ מִשְּׁנָתוֹ
17299	 ״וְיִשַּׁחוּ כׇּל בְּנוֹת הַשִּׁיר״ — שֶׁאֲפִילּוּ קוֹל שָׁרִים וְשָׁרוֹת דּוֹמוֹת עָלָיו כְּשִׂיחָה
17300	וְאַף בַּרְזִילַּי הַגִּלְעָדִי אָמַר לְדָוִד
17301	 ״בֶּן שְׁמֹנִים שָׁנָה אָנֹכִי הַיּוֹם הַאֵדַע בֵּין טוֹב לְרָע״ — מִכָּאן שֶׁדַּעְתָּן שֶׁל זְקֵנִים מִשְׁתַּנּוֹת
17302	 ״אִם יִטְעַם עַבְדְּךָ אֶת אֲשֶׁר אוֹכַל וְאֶת אֲשֶׁר אֶשְׁתֶּה״ — מִכָּאן שֶׁשִּׂפְתוֹתֵיהֶן שֶׁל זְקֵנִים מִתְרַפְּטוֹת
17303	 ״אִם אֶשְׁמַע עוֹד בְּקוֹל שָׁרִים וְשָׁרוֹת״ — מִכָּאן שֶׁאׇזְנֵיהֶם שֶׁל זְקֵנִים מִתְכַּבְּדוֹת
17304	אָמַר רַב
17305	 בַּרְזִילַּי הַגִּלְעָדִי שַׁקָּרָא הֲוָה
17306	 דְּהַהִיא אַמְּתָא דַּהֲוַאי בֵּי רַבִּי בַּת תִּשְׁעִין וְתַרְתֵּין שְׁנִין, וַהֲוָת טָעֲמָא קִידְרָא
17307	 רָבָא אָמַר
17308	 בַּרְזִילַּי הַגִּלְעָדִי שָׁטוּף בְּזִמָּה הֲ

In [50]:
np.mean(lens)

7.492180567879326

In [51]:
np.median(lens)

6.0

In [52]:
np.max(lens)

55

In [53]:
lens.index(55)

1516

In [54]:
np.min(lens)

1

In [55]:
lens.index(1)

1

In [56]:
lens_array = np.array(lens)

In [64]:
len(lens_array[lens_array <= 15])

16676

## Tests on Talmud Sample Set

In [74]:
from utils.format2 import get_masekhet
import numpy as np
import re
from collections import defaultdict
import string

In [67]:
samples = ['Berakhot', 'Shabbat', 'Gittin', 'Bava_Metzia', 'Menahot', 'Niddah']

In [69]:
sample_sentences = []
for name in samples:
    masekhet = get_masekhet(name)
    for p in masekhet:
        for c in p:
            sentences = re.split(r'(!|\.|\?|:|;)', c[0])
            sentences = [s for s in sentences if len(s) > 1]
            sample_sentences += sentences

In [80]:
headwords = defaultdict(lambda: 0)
for s in sample_sentences:
    words = re.sub('[' + string.punctuation + ']+?', '', s).split(' ')
    if '' in words: words.remove('')
    headwords[words[0]] += 1

In [82]:
as_tups = [(i[1], i[0]) for i in headwords.items()]

In [85]:
ordered = sorted(as_tups, reverse=True)
ordered

[(2129, 'אָמַר'),
 (1454, 'אמר'),
 (895, 'אֲמַר'),
 (626, 'אֶלָּא'),
 (606, 'רַבִּי'),
 (603, 'מַאי'),
 (489, 'אלא'),
 (340, '—'),
 (339, 'מתני׳'),
 (337, 'גמ׳'),
 (308, 'רַב'),
 (298, 'לָא'),
 (286, 'כׇּל'),
 (286, 'הָא'),
 (285, 'וְאָמַר'),
 (283, 'מאי'),
 (264, 'לֹא'),
 (256, 'אֵין'),
 (255, 'אל'),
 (235, 'אי'),
 (234, 'תָּנוּ'),
 (232, 'אִי'),
 (225, 'כִּי'),
 (222, 'וְהָא'),
 (186, 'רבי'),
 (173, 'לא'),
 (172, 'גְּמָ׳'),
 (170, 'רב'),
 (170, 'מַתְנִי׳'),
 (167, 'תַּנְיָא'),
 (162, 'והא'),
 (162, 'אִם'),
 (155, 'אַף'),
 (141, 'תניא'),
 (141, 'דְּאָמַר'),
 (140, 'וְרַבִּי'),
 (138, 'אֲבָל'),
 (137, 'תר'),
 (132, 'וְלֹא'),
 (130, 'הַאי'),
 (129, 'וְאִם'),
 (127, 'אר'),
 (122, 'וְאִי'),
 (121, 'הָתָם'),
 (119, 'אֲפִילּוּ'),
 (118, 'ואי'),
 (113, 'תש'),
 (110, 'וְכִי'),
 (109, 'מִי'),
 (107, 'תָּא'),
 (107, 'מָה'),
 (105, 'ואמר'),
 (105, 'הא'),
 (105, 'הָכָא'),
 (103, 'הֲלָכָה'),
 (100, 'וְהָתַנְיָא'),
 (100, 'דְּתַנְיָא'),
 (97, 'תנו'),
 (95, 'לְעוֹלָם'),
 (94, 'ר'),
 (92, 'וכי'),
 (9

In [91]:
sum([i[0] for i in ordered[:20]]) / sum([i[0] for i in as_tups])

0.2500768630418844

## Brute force on new methods

In [1]:
from utils.brute_force import remove_possible_prefixes
from utils.format2 import get_masekhet
from utils.deconstruct2 import *

In [2]:
ber = get_masekhet('Berakhot')

In [3]:
ber[1]

[('דִּילְמָא בִּיאַת אוֹרוֹ הוּא, וּמַאי ״וְטָהֵר״ — טְהַר גַּבְרָא?!', 'g'),
 ('אָמַר רַבָּהּ בַּר רַב שֵׁילָא: אִם כֵּן, לֵימָא קְרָא: ״וְיִטְהָר״, מַאי ״וְטָהֵר״ — טְהַר יוֹמָא, כִּדְאָמְרִי אִינָשֵׁי: ״אִיעֲרַב שִׁמְשָׁא וְאִדַּכִּי יוֹמָא״.',
  'g'),
 ('בְּמַעֲרָבָא, הָא דְּרַבָּהּ בַּר רַב שֵׁילָא לָא שְׁמִיעַ לְהוּ, וּבְעוֹ לַהּ מִיבַּעְיָא: הַאי ״וּבָא הַשֶּׁמֶשׁ״ בִּיאַת שִׁמְשׁוֹ הוּא, וּמַאי ״וְטָהֵר״ — טְהַר יוֹמָא, אוֹ דִילְמָא בִּיאַת אוֹרוֹ הוּא, וּמַאי ״וְטָהֵר״ — טְהַר גַּבְרָא.',
  'g'),
 ('וַהֲדַר פָּשְׁטוּ לַהּ מִבָּרַיְיתָא. מִדְּקָתָנֵי בְּבָרַיְיתָא, סִימָן לַדָּבָר — צֵאת הַכּוֹכָבִים. שְׁמַע מִינַּהּ — בִּיאַת שִׁמְשׁוֹ הוּא, וּמַאי ״וְטָהֵר״ — טְהַר יוֹמָא.',
  'g'),
 ('אָמַר מָר מִשָּׁעָה שֶׁהַכֹּהֲנִים נִכְנָסִין לֶאֱכוֹל בִּתְרוּמָתָן. וּרְמִינְהוּ: מֵאֵימָתַי קוֹרִין אֶת שְׁמַע בָּעֲרָבִין — מִשֶּׁהֶעָנִי נִכְנָס לֶאֱכוֹל פִּתּוֹ בְּמֶלַח, עַד שָׁעָה שֶׁעוֹמֵד לִיפָּטֵר מִתּוֹךְ סְעוּדָּתוֹ.',
  'g'),
 ('סֵיפָא, וַדַּאי פְּלִיגָא אַמַּתְנִיתִין. רֵישָׁא, מ

In [4]:
sen = 'אֲנָא אַבֵּין הַשְּׁמָשׁוֹת דְּרַבִּי יוֹסֵי קָא אָמֵינָא דְּאָמַר רַבִּי יוֹסֵי בֵּין הַשְּׁמָשׁוֹת כְּהֶרֶף עַיִן זֶה נִכְנָס וְזֶה יוֹצֵא וְאִי אֶפְשָׁר לַעֲמוֹד עָלָיו'

In [5]:
for i in sen.split(' '):
    print(remove_possible_prefixes(i))

['אֲנָא', 'נָא']
['אַבֵּין', 'בֵּין', 'ין']
['הַשְּׁמָשׁוֹת', 'שְּׁמָשׁוֹת', 'מָשׁוֹת', 'שׁוֹת', 'ת']
['דְּרַבִּי', 'רַבִּי']
['יוֹסֵי']
['קָא', 'א']
['אָמֵינָא']
['דְּאָמַר', 'אָמַר', 'מַר', 'ר']
['רַבִּי']
['יוֹסֵי']
['בֵּין', 'ין']
['הַשְּׁמָשׁוֹת', 'שְּׁמָשׁוֹת', 'מָשׁוֹת', 'שׁוֹת', 'ת']
['כְּהֶרֶף', 'הֶרֶף', 'רֶף']
['עַיִן']
['זֶה']
['נִכְנָס']
['וְזֶה', 'זֶה']
['יוֹצֵא']
['וְאִי', 'אִי', 'י']
['אֶפְשָׁר', 'פְשָׁר']
['לַעֲמוֹד', 'עֲמוֹד']
['עָלָיו']


In [7]:
remove_possible_prefixes('מָקוֹם')

['מָקוֹם', 'קוֹם']