
<style>
/* Better spacing between cells */
div.text_cell_render { line-height: 1.55; font-size: 16px; }
div.input_area        { border: 1px solid #ddd; border-radius: 6px; }
div.output_area       { background: #f9f9f9; border-radius: 6px; }
h1, h2, h3            { font-family: "Segoe UI", sans-serif; margin-top: 1.2em; }
.callout              { padding:1em 1.2em; border-left:5px solid #2e86de;
                        background:#e9f3ff; border-radius:4px; }
</style>


# 📚 Rabbi‑Corpus Preparation (schema‑aware)

*Prepare <code>all_rabbi_clean.jsonl</code> from <code>merged.json</code> files.*

**Pipeline**

1. Load imports & environment paths  
2. Read the schema (`schema_summary.csv`) → build book metadata  
3. Define helpers (HTML stripping, Hebrew gematria, JSON leaf walk)  
4. Iterate each JSON → emit one clean JSON‑Lines record per leaf



# 1. imports

In [1]:
import json, re, html, glob, pathlib, os
from typing import List, Dict, Any, Tuple
from bs4 import BeautifulSoup
import pandas as pd
from tqdm import tqdm

# 2. Paths & files

In [2]:
ROOT_CLTK   = r"C:/Users/yotam/OneDrive/שולחן העבודה/PROJECTS/ChavrutAI/Sefaria-Export-master/cltk-full"
SCHEMA_CSV  = "schema_summary.csv"

SELECTED_RABBI = "Rashi"
JSONL_OUT   = f"{SELECTED_RABBI}.jsonl"

<div class="callout">
<b>Why keep them here?</b>  
Easy to tweak when you move the notebook to another machine.
</div>

# 3.  Locate source JSONs

In [3]:
pat = os.path.join(ROOT_CLTK, "**", SELECTED_RABBI , "**", "Hebrew", "**", "merged.json")
json_paths = glob.glob(pat, recursive=True)

print("✓", len(json_paths), "merged.json files loaded")

✓ 77 merged.json files loaded


In [4]:
# ------------------------------------------------------------------
# 2.  נתיבים כלליים נוספים
# ------------------------------------------------------------------
EXTRA_DIRS = [
    ("Tanakh",  ["Torah", "Prophets", "Writings"]),
    ("Talmud",  [os.path.join("Bavli", f"Seder {s}")
                 for s in ["Kodashim", "Moed", "Nashim",
                           "Nezikin", "Tahorot", "Zeraim"]]),
    ("Mishnah", [f"Seder {s}"
                 for s in ["Kodashim", "Moed", "Nashim",
                           "Nezikin", "Tahorot", "Zeraim"]]),
    ("Midrash", ["Aggadah", "Halakhah"]),
]

extra_paths = []
for root, branches in EXTRA_DIRS:
    for br in branches:
        base = os.path.join(ROOT_CLTK, root, br)
        pattern = os.path.join(base, "**", "merged.json")
        for fp in glob.glob(pattern, recursive=True):
            # סינון: אין Commentary ואין " on "
            if "Commentary" in fp or " on " in fp:
                continue
            extra_paths.append(fp)

print("✓", len(extra_paths), "merged.json files from core corpora loaded")

✓ 358 merged.json files from core corpora loaded


In [5]:
# ------------------------------------------------------------------
# 3.  מיזוג + הסרת כפילויות
#     (dict.fromkeys שומר על סדר ומסלק כפולים)
# ------------------------------------------------------------------
json_paths = list(dict.fromkeys(json_paths + extra_paths))

print("✓", len(json_paths), "merged.json files total after merge")

✓ 435 merged.json files total after merge


# 4. Read schema ➜ build book metadata

In [6]:
schema = pd.read_csv(SCHEMA_CSV)

meta: Dict[str, Dict[str, Any]] = {}
for book, grp in schema.groupby("book_en"):
    grp = grp.sort_values("level")

    labels_he = grp["section_he"].tolist()       # כמו קודם
    labels_en = grp["section_en"].fillna("").tolist()

    # 🔑 מילון – lower‑case כדי לא להיות תלוי רישיות/רווחים
    en2he = {str(en).strip().lower(): he
             for en, he in zip(labels_en, labels_he)
             if en}                              # מתעלמים מערכי EN ריקים

    meta[book] = {
        "book_he"   : grp.iloc[0]["book_he"],
        "labels_he" : labels_he,
        "en2he"     : en2he,                     # ← חדש
    }

In [7]:
schema[schema.book_en == "Iggerot HaRambam"].head()

Unnamed: 0,book_en,book_he,domain,subpath,level,section_en,section_he,addressType,nodeType,file
16424,Iggerot HaRambam,"איגרות הרמב""ם","שו""ת","חידושי הרמב""ם",1,Khiddushei HaRambam,"חידושי הרמב""ם",Integer,JaggedArrayNode,Iggerot_HaRambam.json
16425,Iggerot HaRambam,"איגרות הרמב""ם","שו""ת","חידושי הרמב""ם",2,Paragraph,פסקה,Integer,JaggedArrayNode,Iggerot_HaRambam.json
16426,Iggerot HaRambam,"איגרות הרמב""ם","שו""ת",איגרת תימן,1,Iggeret Teiman,איגרת תימן,Integer,JaggedArrayNode,Iggerot_HaRambam.json
16427,Iggerot HaRambam,"איגרות הרמב""ם","שו""ת",איגרת תימן,2,Paragraph,פסקה,Integer,JaggedArrayNode,Iggerot_HaRambam.json
16428,Iggerot HaRambam,"איגרות הרמב""ם","שו""ת",מאמר תחיית המתים,1,Maamar Tekhiyat HaMetim,מאמר תחיית המתים,Integer,JaggedArrayNode,Iggerot_HaRambam.json


In [8]:
schema[schema.subpath=="איגרת תימן"]

Unnamed: 0,book_en,book_he,domain,subpath,level,section_en,section_he,addressType,nodeType,file
16426,Iggerot HaRambam,"איגרות הרמב""ם","שו""ת",איגרת תימן,1,Iggeret Teiman,איגרת תימן,Integer,JaggedArrayNode,Iggerot_HaRambam.json
16427,Iggerot HaRambam,"איגרות הרמב""ם","שו""ת",איגרת תימן,2,Paragraph,פסקה,Integer,JaggedArrayNode,Iggerot_HaRambam.json


# 5.  Helper functions 🔧

In [9]:
def strip_html(t: str) -> str:
    return re.sub(r"\s+", " ", html.unescape(
        BeautifulSoup(t, "html.parser").get_text(" "))).strip()


UNITS  = ["","א","ב","ג","ד","ה","ו","ז","ח","ט"]
TENS   = ["","י","כ","ל","מ","נ","ס","ע","פ","צ"]
HUNDS  = ["","ק","ר","ש","ת","תק","תר","תש","תת","תתק"]
SPECIAL = {15:"ט״ו", 16:"ט״ז"}

def heb_num(n:int)->str:
    """
    Convert 1‑399 to Hebrew gematria letters.
    Handles ט״ו/ט״ז special case, hundreds, tens, units.
    """
    if n in SPECIAL:
        return SPECIAL[n]
    h, rem = divmod(n, 100)
    t, u   = divmod(rem, 10)
    txt = ""
    if h: txt += HUNDS[h]
    if t: txt += TENS[t]
    if u: txt += UNITS[u]
    # גרש/גרשיים
    return txt[:-1] + "״" + txt[-1] if len(txt) > 1 else txt + "׳"


def json_leaves(node, path, out):
    """
    DFS שמגיע לכל Leaf:
      • dict  – עוברים על כל המפתחות (לא רק ספרות)
      • list  – לפי אינדקס
      • אחר   – מצרפים (path, text)
    path יכול להכיל ints (0,1,…) או str ('0_Iggeret…', 'Intro').
    """
    if isinstance(node, dict):
        for k, v in node.items():
            # ▸ נבנה path חדש
            if re.match(r"^\d+$", k):           # "7"
                new_path = path + [int(k)]      # נשמר כ‑int
            else:
                new_path = path + [k]           # כל השאר כ‑str
            json_leaves(v, new_path, out)

    elif isinstance(node, list):
        for i, item in enumerate(node):         # 0‑based
            json_leaves(item, path + [i], out)

    else:
        out.append((path, str(node)))

**Helpers included**

* `strip_html` – remove tags & entities  
* `heb_num` – robust 1‑399 → גימטריה  
* `json_leaves` – depth‑first walk returning all leaf texts

# 6. Main loop

In [10]:
with open(JSONL_OUT, "w", encoding="utf‑8") as fout:
    for jp in tqdm(json_paths, desc="processing"):
        book_en = pathlib.Path(jp).parent.parent.name  # e.g. 'Rashi on Genesis'
        m = meta.get(book_en)
        if m is None:
            print("⚠️  no schema row for", book_en)
            continue

        data = json.load(open(jp, encoding="utf‑8"))["text"]
        leaves: List[Tuple[List[int], str]] = []
        json_leaves(data, [], leaves)

        labels_he = m["labels_he"]
        en2he = m["en2he"]
        
        
        print(f"Processing {m['book_he']}")

        for path, raw in leaves:
            clean = strip_html(raw)
            if not clean:
                continue

            parts = [m["book_he"]]

            for lvl_idx, idx_val in enumerate(path, 1):
                if lvl_idx > len(labels_he):
                    break

                try:
                    # ▸ index מספרי רגיל
                    n = int(idx_val)
                    parts.append(f"{labels_he[lvl_idx-1]} {heb_num(n+1)}")

                except (ValueError, TypeError):
                    
                    key_en = (
                        idx_val.split("_", 1)[1] if isinstance(idx_val, str) and "_" in idx_val
                        else str(idx_val)
                    ).strip().lower()

                    parts.append(en2he.get(key_en, key_en))

            source = ", ".join(parts)
            merged = f"\"{clean}\" ({source})"
            fout.write(json.dumps({"text": merged}, ensure_ascii=False) + "\n")

print("✅ finished – file saved:", JSONL_OUT)

processing:   0%|                                                                              | 0/435 [00:00<?, ?it/s]

Processing רש"י על בראשית רבה


processing:   0%|▎                                                                     | 2/435 [00:01<03:41,  1.95it/s]

Processing רש"י על משנה אבות
Processing רש"י על ערכין


processing:   1%|▍                                                                     | 3/435 [00:01<03:07,  2.31it/s]

Processing רש"י על בכורות


processing:   1%|▋                                                                     | 4/435 [00:02<03:46,  1.90it/s]

Processing רש"י על חולין


processing:   1%|▊                                                                     | 5/435 [00:03<07:00,  1.02it/s]

Processing רש"י על כריתות


processing:   2%|█▏                                                                    | 7/435 [00:04<04:02,  1.77it/s]

Processing רש"י על מעילה
Processing רש"י על מנחות


processing:   2%|█▎                                                                    | 8/435 [00:05<05:18,  1.34it/s]

Processing רש"י על תמורה


processing:   2%|█▍                                                                    | 9/435 [00:05<04:23,  1.62it/s]

Processing רש"י על זבחים


processing:   2%|█▌                                                                   | 10/435 [00:07<05:38,  1.26it/s]

Processing רש"י על ביצה


processing:   3%|█▋                                                                   | 11/435 [00:07<04:54,  1.44it/s]

Processing רש"י על חגיגה


processing:   3%|█▉                                                                   | 12/435 [00:07<03:55,  1.80it/s]

Processing רש"י על עירובין


processing:   3%|██                                                                   | 13/435 [00:09<05:21,  1.31it/s]

Processing רש"י על מגילה


processing:   3%|██▏                                                                  | 14/435 [00:09<04:25,  1.59it/s]

Processing רש"י על מועד קטן


processing:   3%|██▍                                                                  | 15/435 [00:09<03:42,  1.89it/s]

Processing רש"י על פסחים


processing:   4%|██▌                                                                  | 16/435 [00:10<04:52,  1.43it/s]

Processing רש"י על ראש השנה


processing:   4%|██▋                                                                  | 17/435 [00:11<04:01,  1.73it/s]

Processing רש"י על שבת


processing:   4%|██▊                                                                  | 18/435 [00:13<06:57,  1.00s/it]

Processing רש"י על סוכה


processing:   4%|███                                                                  | 19/435 [00:13<06:07,  1.13it/s]

Processing רש"י על תענית


processing:   5%|███▏                                                                 | 20/435 [00:14<05:03,  1.37it/s]

Processing רש"י על יומא


processing:   5%|███▎                                                                 | 21/435 [00:14<04:51,  1.42it/s]

Processing רש"י על גיטין


processing:   5%|███▍                                                                 | 22/435 [00:15<05:30,  1.25it/s]

Processing רש"י על כתובות


processing:   5%|███▋                                                                 | 23/435 [00:16<06:09,  1.12it/s]

Processing רש"י על קידושין


processing:   6%|███▊                                                                 | 24/435 [00:17<06:18,  1.09it/s]

Processing רש"י על נזיר


processing:   6%|███▉                                                                 | 25/435 [00:18<05:20,  1.28it/s]

Processing רש"י על נדרים


processing:   6%|████                                                                 | 26/435 [00:18<04:53,  1.40it/s]

Processing רש"י על סוטה


processing:   6%|████▎                                                                | 27/435 [00:19<04:32,  1.50it/s]

Processing רש"י על יבמות


processing:   6%|████▍                                                                | 28/435 [00:20<05:32,  1.23it/s]

Processing רש"י על עבודה זרה


processing:   7%|████▌                                                                | 29/435 [00:21<05:25,  1.25it/s]

Processing רש"י על בבא בתרא


processing:   7%|████▊                                                                | 30/435 [00:21<04:22,  1.54it/s]

Processing רש"י על בבא קמא


processing:   7%|████▉                                                                | 31/435 [00:22<05:17,  1.27it/s]

Processing רש"י על בבא מציעא


processing:   8%|█████▏                                                               | 33/435 [00:24<04:45,  1.41it/s]

Processing רש"י על הוריות
Processing רש"י על מכות


processing:   8%|█████▍                                                               | 34/435 [00:24<03:43,  1.79it/s]

Processing רש"י על סנהדרין


processing:   8%|█████▌                                                               | 35/435 [00:25<05:30,  1.21it/s]

Processing רש"י על שבועות


processing:   8%|█████▋                                                               | 36/435 [00:26<04:43,  1.41it/s]

Processing רש"י על נדה


processing:   9%|█████▊                                                               | 37/435 [00:27<04:50,  1.37it/s]

Processing רש"י על ברכות


processing:   9%|██████                                                               | 38/435 [00:27<04:45,  1.39it/s]

Processing רש"י על עמוס
Processing רש"י על יחזקאל


processing:  10%|██████▊                                                              | 43/435 [00:28<02:00,  3.24it/s]

Processing רש"י על חבקוק
Processing רש"י על חגי
Processing רש"י על הושע
Processing רש"י על מלכים א


processing:  10%|██████▉                                                              | 44/435 [00:28<01:54,  3.41it/s]

Processing רש"י על שמואל א


processing:  11%|███████▎                                                             | 46/435 [00:29<01:39,  3.89it/s]

Processing רש"י על מלכים ב
Processing רש"י על שמואל ב


processing:  11%|███████▍                                                             | 47/435 [00:29<01:31,  4.23it/s]

Processing רש"י על ישעיהו


processing:  11%|███████▌                                                             | 48/435 [00:30<02:48,  2.30it/s]

Processing רש"י על ירמיהו


processing:  12%|████████▏                                                            | 52/435 [00:31<01:30,  4.21it/s]

Processing רש"י על יואל
Processing רש"י על יונה
Processing רש"י על יהושע


processing:  12%|████████▍                                                            | 53/435 [00:31<01:24,  4.51it/s]

Processing רש"י על שופטים
Processing רש"י על מלאכי
Processing רש"י על מיכה


processing:  13%|█████████▏                                                           | 58/435 [00:31<00:43,  8.60it/s]

Processing רש"י על נחום
Processing רש"י על עובדיה
Processing רש"י על זכריה
Processing רש"י על צפניה
Processing רש"י על דברים


processing:  14%|█████████▌                                                           | 60/435 [00:32<00:59,  6.27it/s]

Processing רש"י על שמות


processing:  14%|█████████▋                                                           | 61/435 [00:32<01:31,  4.09it/s]

Processing רש"י על בראשית


processing:  14%|█████████▊                                                           | 62/435 [00:33<02:04,  2.99it/s]

Processing רש"י על ויקרא


processing:  14%|█████████▉                                                           | 63/435 [00:33<02:15,  2.74it/s]

Processing רש"י על במדבר


processing:  15%|██████████▏                                                          | 64/435 [00:34<02:24,  2.57it/s]

Processing רש"י על דניאל


processing:  15%|██████████▎                                                          | 65/435 [00:34<02:11,  2.82it/s]

Processing רש"י על קהלת


processing:  16%|██████████▊                                                          | 68/435 [00:35<01:21,  4.51it/s]

Processing רש"י על אסתר
Processing רש"י על עזרא


processing:  16%|██████████▉                                                          | 69/435 [00:35<01:20,  4.52it/s]

Processing רש"י על דברי הימים א
Processing רש"י על דברי הימים ב


processing:  16%|███████████                                                          | 70/435 [00:35<01:23,  4.39it/s]

Processing רש"י על איוב


processing:  17%|███████████▌                                                         | 73/435 [00:36<01:17,  4.70it/s]

Processing רש"י על איכה
Processing רש"י על נחמיה
Processing רש"י על משלי


processing:  17%|███████████▋                                                         | 74/435 [00:36<01:32,  3.90it/s]

Processing רש"י על תהילים


processing:  18%|████████████▏                                                        | 77/435 [00:37<01:37,  3.68it/s]

Processing רש"י על רות
Processing רש"י על שיר השירים
Processing דברים


processing:  18%|████████████▎                                                        | 78/435 [00:38<01:51,  3.20it/s]

Processing דברים


processing:  18%|████████████▌                                                        | 79/435 [00:38<01:58,  3.00it/s]

Processing שמות


processing:  18%|████████████▋                                                        | 80/435 [00:38<02:16,  2.59it/s]

Processing שמות


processing:  19%|████████████▊                                                        | 81/435 [00:39<02:25,  2.43it/s]

Processing בראשית


processing:  19%|█████████████                                                        | 82/435 [00:40<02:49,  2.09it/s]

Processing בראשית


processing:  19%|█████████████▏                                                       | 83/435 [00:40<02:40,  2.19it/s]

Processing ויקרא


processing:  19%|█████████████▎                                                       | 84/435 [00:40<02:31,  2.32it/s]

Processing ויקרא


processing:  20%|█████████████▍                                                       | 85/435 [00:41<02:19,  2.51it/s]

Processing במדבר


processing:  20%|█████████████▋                                                       | 86/435 [00:41<02:36,  2.24it/s]

Processing במדבר


processing:  20%|█████████████▉                                                       | 88/435 [00:42<02:10,  2.65it/s]

Processing עמוס
Processing עמוס
Processing יחזקאל


processing:  21%|██████████████▎                                                      | 90/435 [00:43<02:22,  2.43it/s]

Processing יחזקאל


processing:  21%|██████████████▊                                                      | 93/435 [00:43<01:34,  3.60it/s]

Processing חבקוק
Processing חבקוק
Processing חגי
Processing חגי
Processing הושע


processing:  22%|███████████████▏                                                     | 96/435 [00:44<01:09,  4.90it/s]

Processing הושע
Processing מלכים א


processing:  23%|███████████████▌                                                     | 98/435 [00:44<01:12,  4.65it/s]

Processing מלכים א


processing:  23%|███████████████▋                                                     | 99/435 [00:45<01:19,  4.21it/s]

Processing שמואל א


processing:  23%|███████████████▋                                                    | 100/435 [00:45<01:34,  3.56it/s]

Processing שמואל א


processing:  23%|███████████████▊                                                    | 101/435 [00:45<01:39,  3.35it/s]

Processing מלכים ב


processing:  24%|████████████████                                                    | 103/435 [00:46<01:45,  3.14it/s]

Processing מלכים ב
Processing שמואל ב


processing:  24%|████████████████▎                                                   | 104/435 [00:46<01:50,  2.98it/s]

Processing שמואל ב


processing:  24%|████████████████▍                                                   | 105/435 [00:47<01:48,  3.04it/s]

Processing ישעיהו


processing:  24%|████████████████▌                                                   | 106/435 [00:48<03:55,  1.40it/s]

Processing ישעיהו


processing:  25%|████████████████▋                                                   | 107/435 [00:49<03:34,  1.53it/s]

Processing ירמיהו


processing:  25%|████████████████▉                                                   | 108/435 [00:50<04:32,  1.20it/s]

Processing ירמיהו


processing:  25%|█████████████████▏                                                  | 110/435 [00:51<03:07,  1.74it/s]

Processing יואל
Processing יואל
Processing יונה
Processing יונה
Processing יהושע


processing:  26%|█████████████████▊                                                  | 114/435 [00:51<01:29,  3.57it/s]

Processing יהושע


processing:  26%|█████████████████▉                                                  | 115/435 [00:52<01:31,  3.51it/s]

Processing שופטים


processing:  27%|██████████████████▏                                                 | 116/435 [00:52<01:35,  3.35it/s]

Processing שופטים


processing:  27%|██████████████████▎                                                 | 117/435 [00:52<01:37,  3.26it/s]

Processing מלאכי
Processing מלאכי
Processing מיכה


processing:  28%|███████████████████                                                 | 122/435 [00:53<00:50,  6.18it/s]

Processing מיכה
Processing נחום
Processing נחום
Processing עובדיה


processing:  29%|███████████████████▋                                                | 126/435 [00:53<00:36,  8.36it/s]

Processing עובדיה
Processing זכריה


processing:  29%|████████████████████                                                | 128/435 [00:53<00:35,  8.70it/s]

Processing זכריה
Processing צפניה
Processing צפניה


processing:  30%|████████████████████▎                                               | 130/435 [00:54<00:33,  9.08it/s]

Processing דניאל
Processing דניאל


processing:  31%|████████████████████▊                                               | 133/435 [00:54<00:39,  7.68it/s]

Processing קהלת
Processing קהלת


processing:  31%|█████████████████████                                               | 135/435 [00:54<00:32,  9.10it/s]

Processing אסתר
Processing אסתר
Processing עזרא


processing:  31%|█████████████████████▍                                              | 137/435 [00:54<00:36,  8.10it/s]

Processing עזרא
Processing דברי הימים א


processing:  32%|█████████████████████▌                                              | 138/435 [00:55<00:56,  5.29it/s]

Processing דברי הימים א


processing:  32%|█████████████████████▋                                              | 139/435 [00:55<01:14,  3.99it/s]

Processing דברי הימים ב


processing:  32%|█████████████████████▉                                              | 140/435 [00:56<01:25,  3.45it/s]

Processing דברי הימים ב


processing:  32%|██████████████████████                                              | 141/435 [00:56<01:32,  3.17it/s]

Processing איוב


processing:  33%|██████████████████████▏                                             | 142/435 [00:56<01:43,  2.82it/s]

Processing איוב


processing:  33%|██████████████████████▌                                             | 144/435 [00:57<01:21,  3.55it/s]

Processing איכה
Processing איכה


processing:  34%|██████████████████████▊                                             | 146/435 [00:57<01:00,  4.74it/s]

Processing נחמיה
Processing נחמיה


processing:  34%|██████████████████████▉                                             | 147/435 [00:57<00:59,  4.84it/s]

Processing משלי


processing:  34%|███████████████████████▏                                            | 148/435 [00:58<01:13,  3.89it/s]

Processing משלי


processing:  34%|███████████████████████▎                                            | 149/435 [00:58<01:17,  3.67it/s]

Processing תהילים


processing:  34%|███████████████████████▍                                            | 150/435 [00:59<02:33,  1.86it/s]

Processing תהילים


processing:  35%|███████████████████████▌                                            | 151/435 [01:00<02:55,  1.61it/s]

Processing רות
Processing רות
Processing שיר השירים


processing:  35%|████████████████████████                                            | 154/435 [01:00<01:31,  3.07it/s]

Processing שיר השירים
Processing ערכין


processing:  36%|████████████████████████▍                                           | 156/435 [01:03<02:49,  1.65it/s]

Processing ערכין


processing:  36%|████████████████████████▌                                           | 157/435 [01:03<02:39,  1.74it/s]

Processing בכורות


processing:  36%|████████████████████████▋                                           | 158/435 [01:07<05:57,  1.29s/it]

Processing בכורות


processing:  37%|████████████████████████▊                                           | 159/435 [01:08<05:17,  1.15s/it]

Processing חולין


processing:  37%|█████████████████████████                                           | 160/435 [01:16<13:25,  2.93s/it]

Processing חולין


processing:  37%|█████████████████████████▏                                          | 161/435 [01:17<11:28,  2.51s/it]

Processing כריתות


processing:  37%|█████████████████████████▎                                          | 162/435 [01:20<11:20,  2.49s/it]

Processing כריתות


processing:  37%|█████████████████████████▍                                          | 163/435 [01:20<08:42,  1.92s/it]

Processing מעילה


processing:  38%|█████████████████████████▊                                          | 165/435 [01:21<05:30,  1.23s/it]

Processing מעילה
Processing מנחות


processing:  38%|█████████████████████████▉                                          | 166/435 [01:29<13:43,  3.06s/it]

Processing מנחות


processing:  38%|██████████████████████████                                          | 167/435 [01:30<11:07,  2.49s/it]

Processing תמיד


processing:  39%|██████████████████████████▎                                         | 168/435 [01:30<08:17,  1.86s/it]

Processing תמיד
Processing תמורה


processing:  39%|██████████████████████████▌                                         | 170/435 [01:33<06:43,  1.52s/it]

Processing תמורה


processing:  39%|██████████████████████████▋                                         | 171/435 [01:33<05:32,  1.26s/it]

Processing זבחים


processing:  40%|██████████████████████████▉                                         | 172/435 [01:40<11:58,  2.73s/it]

Processing זבחים


processing:  40%|███████████████████████████                                         | 173/435 [01:41<09:58,  2.29s/it]

Processing ביצה


processing:  40%|███████████████████████████▏                                        | 174/435 [01:43<09:44,  2.24s/it]

Processing ביצה


processing:  40%|███████████████████████████▎                                        | 175/435 [01:44<07:28,  1.73s/it]

Processing חגיגה


processing:  41%|███████████████████████████▋                                        | 177/435 [01:45<05:21,  1.25s/it]

Processing חגיגה
Processing עירובין


processing:  41%|███████████████████████████▊                                        | 178/435 [01:51<11:13,  2.62s/it]

Processing עירובין


processing:  41%|███████████████████████████▉                                        | 179/435 [01:52<09:21,  2.19s/it]

Processing מגילה


processing:  41%|████████████████████████████▏                                       | 180/435 [01:54<09:16,  2.18s/it]

Processing מגילה


processing:  42%|████████████████████████████▎                                       | 181/435 [01:55<07:04,  1.67s/it]

Processing מועד קטן


processing:  42%|████████████████████████████▍                                       | 182/435 [01:57<07:06,  1.69s/it]

Processing מועד קטן


processing:  42%|████████████████████████████▌                                       | 183/435 [01:57<05:27,  1.30s/it]

Processing פסחים


processing:  42%|████████████████████████████▊                                       | 184/435 [02:04<12:08,  2.90s/it]

Processing פסחים


processing:  43%|████████████████████████████▉                                       | 185/435 [02:05<10:05,  2.42s/it]

Processing ראש השנה


processing:  43%|█████████████████████████████                                       | 186/435 [02:07<09:24,  2.27s/it]

Processing ראש השנה


processing:  43%|█████████████████████████████▏                                      | 187/435 [02:07<07:04,  1.71s/it]

Processing שבת


processing:  43%|█████████████████████████████▍                                      | 188/435 [02:16<15:14,  3.70s/it]

Processing שבת


processing:  43%|█████████████████████████████▌                                      | 189/435 [02:17<12:32,  3.06s/it]

Processing סוכה


processing:  44%|█████████████████████████████▋                                      | 190/435 [02:20<12:11,  2.99s/it]

Processing סוכה


processing:  44%|█████████████████████████████▊                                      | 191/435 [02:21<09:07,  2.25s/it]

Processing תענית


processing:  44%|██████████████████████████████                                      | 192/435 [02:22<08:18,  2.05s/it]

Processing תענית


processing:  44%|██████████████████████████████▏                                     | 193/435 [02:23<06:12,  1.54s/it]

Processing יומא


processing:  45%|██████████████████████████████▎                                     | 194/435 [02:27<09:26,  2.35s/it]

Processing יומא


processing:  45%|██████████████████████████████▍                                     | 195/435 [02:28<07:35,  1.90s/it]

Processing גיטין


processing:  45%|██████████████████████████████▋                                     | 196/435 [02:33<11:27,  2.88s/it]

Processing גיטין


processing:  45%|██████████████████████████████▊                                     | 197/435 [02:34<09:15,  2.33s/it]

Processing כתובות


processing:  46%|██████████████████████████████▉                                     | 198/435 [02:40<13:18,  3.37s/it]

Processing כתובות


processing:  46%|███████████████████████████████                                     | 199/435 [02:41<10:38,  2.71s/it]

Processing קידושין


processing:  46%|███████████████████████████████▎                                    | 200/435 [02:46<13:06,  3.35s/it]

Processing קידושין


processing:  46%|███████████████████████████████▍                                    | 201/435 [02:47<10:10,  2.61s/it]

Processing נזיר


processing:  46%|███████████████████████████████▌                                    | 202/435 [02:49<09:55,  2.56s/it]

Processing נזיר


processing:  47%|███████████████████████████████▋                                    | 203/435 [02:49<07:28,  1.93s/it]

Processing נדרים


processing:  47%|███████████████████████████████▉                                    | 204/435 [02:52<08:24,  2.18s/it]

Processing נדרים


processing:  47%|████████████████████████████████                                    | 205/435 [02:53<06:36,  1.72s/it]

Processing סוטה


processing:  47%|████████████████████████████████▏                                   | 206/435 [02:56<08:08,  2.14s/it]

Processing סוטה


processing:  48%|████████████████████████████████▎                                   | 207/435 [02:57<06:24,  1.69s/it]

Processing יבמות


processing:  48%|████████████████████████████████▌                                   | 208/435 [03:04<12:56,  3.42s/it]

Processing יבמות


processing:  48%|████████████████████████████████▋                                   | 209/435 [03:05<10:31,  2.79s/it]

Processing עבודה זרה


processing:  48%|████████████████████████████████▊                                   | 210/435 [03:09<11:25,  3.05s/it]

Processing עבודה זרה


processing:  49%|████████████████████████████████▉                                   | 211/435 [03:10<08:52,  2.38s/it]

Processing בבא בתרא


processing:  49%|█████████████████████████████████▏                                  | 212/435 [03:16<13:26,  3.62s/it]

Processing בבא בתרא


processing:  49%|█████████████████████████████████▎                                  | 213/435 [03:18<10:54,  2.95s/it]

Processing בבא קמא


processing:  49%|█████████████████████████████████▍                                  | 214/435 [03:26<16:12,  4.40s/it]

Processing בבא קמא


processing:  49%|█████████████████████████████████▌                                  | 215/435 [03:26<11:51,  3.23s/it]

Processing בבא מציעא


processing:  50%|█████████████████████████████████▊                                  | 216/435 [03:34<16:29,  4.52s/it]

Processing בבא מציעא


processing:  50%|█████████████████████████████████▉                                  | 217/435 [03:34<12:00,  3.31s/it]

Processing הוריות


processing:  50%|██████████████████████████████████                                  | 218/435 [03:34<08:42,  2.41s/it]

Processing הוריות
Processing מכות


processing:  51%|██████████████████████████████████▍                                 | 220/435 [03:35<05:03,  1.41s/it]

Processing מכות
Processing סנהדרין


processing:  51%|██████████████████████████████████▋                                 | 222/435 [03:41<07:06,  2.00s/it]

Processing סנהדרין


processing:  51%|██████████████████████████████████▊                                 | 223/435 [03:42<06:44,  1.91s/it]

Processing שבועות


processing:  51%|███████████████████████████████████                                 | 224/435 [03:45<07:31,  2.14s/it]

Processing שבועות


processing:  52%|███████████████████████████████████▏                                | 225/435 [03:46<06:03,  1.73s/it]

Processing נדה


processing:  52%|███████████████████████████████████▎                                | 226/435 [03:51<09:02,  2.60s/it]

Processing נדה


processing:  52%|███████████████████████████████████▍                                | 227/435 [03:51<07:16,  2.10s/it]

Processing ברכות


processing:  52%|███████████████████████████████████▋                                | 228/435 [03:56<09:23,  2.72s/it]

Processing ברכות


processing:  53%|███████████████████████████████████▉                                | 230/435 [03:57<05:40,  1.66s/it]

Processing משנה ערכין
Processing משנה ערכין


processing:  53%|████████████████████████████████████▎                               | 232/435 [03:57<03:19,  1.02it/s]

Processing משנה בכורות
Processing משנה בכורות
Processing משנה חולין


processing:  54%|████████████████████████████████████▌                               | 234/435 [03:58<02:14,  1.50it/s]

Processing משנה חולין
Processing משנה כריתות


processing:  54%|████████████████████████████████████▉                               | 236/435 [03:58<01:34,  2.10it/s]

Processing משנה כריתות
Processing משנה קינים
Processing משנה קינים
Processing משנה מעילה


processing:  55%|█████████████████████████████████████▌                              | 240/435 [03:58<00:52,  3.69it/s]

Processing משנה מעילה
Processing משנה מנחות


processing:  56%|██████████████████████████████████████▏                             | 244/435 [03:59<00:39,  4.84it/s]

Processing משנה מנחות
Processing משנה מדות
Processing משנה מדות
Processing משנה תמיד


processing:  57%|██████████████████████████████████████▊                             | 248/435 [03:59<00:29,  6.36it/s]

Processing משנה תמיד
Processing משנה תמורה
Processing משנה תמורה
Processing משנה זבחים


processing:  58%|███████████████████████████████████████▍                            | 252/435 [04:00<00:28,  6.51it/s]

Processing משנה זבחים
Processing משנה ביצה
Processing משנה ביצה
Processing משנה חגיגה


processing:  58%|███████████████████████████████████████▋                            | 254/435 [04:00<00:22,  7.95it/s]

Processing משנה חגיגה
Processing משנה עירובין


processing:  59%|████████████████████████████████████████▎                           | 258/435 [04:01<00:22,  8.04it/s]

Processing משנה עירובין
Processing משנה מגילה
Processing משנה מגילה
Processing משנה מועד קטן


processing:  60%|████████████████████████████████████████▋                           | 260/435 [04:01<00:17,  9.73it/s]

Processing משנה מועד קטן
Processing משנה פסחים


processing:  61%|█████████████████████████████████████████▎                          | 264/435 [04:01<00:19,  8.86it/s]

Processing משנה פסחים
Processing משנה ראש השנה
Processing משנה ראש השנה
Processing משנה שבת


processing:  61%|█████████████████████████████████████████▌                          | 266/435 [04:02<00:23,  7.08it/s]

Processing משנה שבת
Processing משנה שקלים


processing:  62%|██████████████████████████████████████████▏                         | 270/435 [04:02<00:21,  7.59it/s]

Processing משנה שקלים
Processing משנה סוכה


processing:  63%|██████████████████████████████████████████▌                         | 272/435 [04:02<00:18,  8.79it/s]

Processing משנה סוכה
Processing משנה תענית
Processing משנה תענית


processing:  63%|██████████████████████████████████████████▊                         | 274/435 [04:02<00:18,  8.88it/s]

Processing משנה יומא
Processing משנה יומא


processing:  63%|███████████████████████████████████████████▏                        | 276/435 [04:03<00:20,  7.83it/s]

Processing משנה גיטין
Processing משנה גיטין
Processing משנה כתובות


processing:  64%|███████████████████████████████████████████▊                        | 280/435 [04:03<00:21,  7.26it/s]

Processing משנה כתובות
Processing משנה קידושין
Processing משנה קידושין
Processing משנה נזיר


processing:  65%|████████████████████████████████████████████                        | 282/435 [04:04<00:20,  7.35it/s]

Processing משנה נזיר
Processing משנה נדרים


processing:  65%|████████████████████████████████████████████▍                       | 284/435 [04:04<00:23,  6.40it/s]

Processing משנה נדרים
Processing משנה סוטה


processing:  66%|████████████████████████████████████████████▋                       | 286/435 [04:04<00:23,  6.45it/s]

Processing משנה סוטה
Processing משנה יבמות


processing:  66%|█████████████████████████████████████████████                       | 288/435 [04:05<00:28,  5.10it/s]

Processing משנה יבמות
Processing משנה עבודה זרה


processing:  67%|█████████████████████████████████████████████▎                      | 290/435 [04:05<00:25,  5.75it/s]

Processing משנה עבודה זרה
Processing משנה בבא בתרא


processing:  67%|█████████████████████████████████████████████▋                      | 292/435 [04:06<00:25,  5.59it/s]

Processing משנה בבא בתרא
Processing משנה בבא קמא


processing:  68%|█████████████████████████████████████████████▉                      | 294/435 [04:06<00:26,  5.38it/s]

Processing משנה בבא קמא
Processing משנה בבא מציעא


processing:  69%|██████████████████████████████████████████████▌                     | 298/435 [04:07<00:21,  6.27it/s]

Processing משנה בבא מציעא
Processing משנה עדיות
Processing משנה עדיות


processing:  69%|██████████████████████████████████████████████▉                     | 300/435 [04:07<00:17,  7.61it/s]

Processing משנה הוריות
Processing משנה הוריות
Processing משנה מכות


processing:  69%|███████████████████████████████████████████████▏                    | 302/435 [04:07<00:15,  8.48it/s]

Processing משנה מכות
Processing משנה סנהדרין


processing:  70%|███████████████████████████████████████████████▌                    | 304/435 [04:07<00:18,  7.17it/s]

Processing משנה סנהדרין
Processing משנה שבועות


processing:  71%|████████████████████████████████████████████████▏                   | 308/435 [04:08<00:15,  8.38it/s]

Processing משנה שבועות
Processing משנה אבות
Processing משנה אבות


processing:  71%|████████████████████████████████████████████████▌                   | 311/435 [04:08<00:15,  8.21it/s]

Processing משנה כלים
Processing משנה כלים


processing:  72%|█████████████████████████████████████████████████                   | 314/435 [04:08<00:11, 10.80it/s]

Processing משנה מכשירין
Processing משנה מכשירין
Processing משנה מקואות
Processing משנה מקואות
Processing משנה נגעים


processing:  73%|█████████████████████████████████████████████████▍                  | 316/435 [04:08<00:09, 12.16it/s]

Processing משנה נגעים
Processing משנה נדה


processing:  74%|██████████████████████████████████████████████████                  | 320/435 [04:09<00:11,  9.92it/s]

Processing משנה נדה
Processing משנה אהלות
Processing משנה אהלות


processing:  75%|██████████████████████████████████████████████████▊                 | 325/435 [04:09<00:08, 13.67it/s]

Processing משנה עוקצים
Processing משנה עוקצים
Processing משנה פרה
Processing משנה פרה
Processing משנה טהרות


processing:  76%|███████████████████████████████████████████████████▋                | 331/435 [04:09<00:05, 19.12it/s]

Processing משנה טהרות
Processing משנה טבול יום
Processing משנה טבול יום
Processing משנה ידים
Processing משנה ידים
Processing משנה זבים
Processing משנה זבים


processing:  77%|████████████████████████████████████████████████████▏               | 334/435 [04:10<00:06, 16.83it/s]

Processing משנה ברכות
Processing משנה ברכות
Processing משנה ביכורים
Processing משנה ביכורים


processing:  79%|█████████████████████████████████████████████████████▍              | 342/435 [04:10<00:04, 21.58it/s]

Processing משנה חלה
Processing משנה חלה
Processing משנה דמאי
Processing משנה דמאי
Processing משנה כלאים
Processing משנה כלאים


processing:  80%|██████████████████████████████████████████████████████▍             | 348/435 [04:10<00:03, 23.82it/s]

Processing משנה מעשר שני
Processing משנה מעשר שני
Processing משנה מעשרות
Processing משנה מעשרות
Processing משנה ערלה
Processing משנה ערלה


processing:  81%|██████████████████████████████████████████████████████▊             | 351/435 [04:10<00:03, 23.81it/s]

Processing משנה פאה
Processing משנה פאה
Processing משנה שביעית
Processing משנה שביעית


processing:  81%|███████████████████████████████████████████████████████▎            | 354/435 [04:10<00:04, 20.11it/s]

Processing משנה תרומות
Processing משנה תרומות
⚠️  no schema row for Terumot
Processing אגדת בראשית


processing:  83%|████████████████████████████████████████████████████████            | 359/435 [04:11<00:05, 14.39it/s]

Processing אגדת בראשית
Processing בראשית רבתי
Processing בראשית רבתי


processing:  83%|████████████████████████████████████████████████████████▍           | 361/435 [04:12<00:08,  8.43it/s]

Processing עין יעקב
Processing עין יעקב
Processing עין יעקב (מאת שמואל צבי גליק)


processing:  83%|████████████████████████████████████████████████████████▋           | 363/435 [04:14<00:30,  2.38it/s]

Processing עין יעקב (מאת שמואל צבי גליק)


processing:  84%|████████████████████████████████████████████████████████▉           | 364/435 [04:16<00:41,  1.72it/s]

Processing אגדות היהודים




Processing מדרש אגדה
Processing מדרש אגדה


processing:  84%|█████████████████████████████████████████████████████████▎          | 367/435 [04:19<00:55,  1.21it/s]

Processing מדרש לקח טוב
Processing מדרש לקח טוב


processing:  85%|█████████████████████████████████████████████████████████▉          | 371/435 [04:24<00:59,  1.08it/s]

Processing מדרש משלי
Processing מדרש משלי
Processing במדבר רבה


processing:  86%|██████████████████████████████████████████████████████████▏         | 372/435 [04:27<01:18,  1.24s/it]

Processing במדבר רבה


processing:  86%|██████████████████████████████████████████████████████████▎         | 373/435 [04:28<01:21,  1.32s/it]

Processing בראשית רבה


processing:  86%|██████████████████████████████████████████████████████████▍         | 374/435 [04:32<02:00,  1.98s/it]

Processing בראשית רבה


processing:  86%|██████████████████████████████████████████████████████████▌         | 375/435 [04:34<01:55,  1.93s/it]

Processing דברים רבה


processing:  87%|██████████████████████████████████████████████████████████▉         | 377/435 [04:35<01:12,  1.25s/it]

Processing דברים רבה
Processing איכה רבה


processing:  87%|███████████████████████████████████████████████████████████         | 378/435 [04:36<01:05,  1.16s/it]

Processing איכה רבה


processing:  87%|███████████████████████████████████████████████████████████▏        | 379/435 [04:36<00:52,  1.06it/s]

Processing אסתר רבה


processing:  88%|███████████████████████████████████████████████████████████▌        | 381/435 [04:37<00:34,  1.57it/s]

Processing אסתר רבה
Processing קוהלת רבה


processing:  88%|███████████████████████████████████████████████████████████▋        | 382/435 [04:38<00:41,  1.28it/s]

Processing קוהלת רבה


processing:  88%|████████████████████████████████████████████████████████████        | 384/435 [04:39<00:30,  1.65it/s]

Processing רות רבה


processing:  89%|████████████████████████████████████████████████████████████▏       | 385/435 [04:39<00:23,  2.12it/s]

Processing רות רבה
Processing רות רבה (לרנר)
Processing רות רבה (לרנר)


processing:  89%|████████████████████████████████████████████████████████████▍       | 387/435 [04:39<00:13,  3.48it/s]

Processing שמות רבה


processing:  89%|████████████████████████████████████████████████████████████▋       | 388/435 [04:41<00:31,  1.51it/s]

Processing שמות רבה


processing:  89%|████████████████████████████████████████████████████████████▊       | 389/435 [04:42<00:35,  1.31it/s]

Processing שיר השירים רבה


processing:  90%|████████████████████████████████████████████████████████████▉       | 390/435 [04:44<00:41,  1.09it/s]

Processing שיר השירים רבה


processing:  90%|█████████████████████████████████████████████████████████████       | 391/435 [04:44<00:36,  1.20it/s]

Processing ויקרא רבה


processing:  90%|█████████████████████████████████████████████████████████████▎      | 392/435 [04:46<00:43,  1.02s/it]

Processing ויקרא רבה


processing:  90%|█████████████████████████████████████████████████████████████▍      | 393/435 [04:46<00:40,  1.05it/s]

Processing מדרש שכל טוב
Processing מדרש שכל טוב


processing:  91%|█████████████████████████████████████████████████████████████▉      | 396/435 [04:49<00:33,  1.16it/s]

Processing מדרש שמואל
Processing מדרש תנחומא


processing:  91%|██████████████████████████████████████████████████████████████      | 397/435 [04:52<00:53,  1.41s/it]

Processing מדרש תנחומא


processing:  91%|██████████████████████████████████████████████████████████████▏     | 398/435 [04:55<01:08,  1.84s/it]

Processing תנחומא בובר


processing:  92%|██████████████████████████████████████████████████████████████▎     | 399/435 [05:01<01:44,  2.89s/it]

Processing תנחומא בובר


processing:  92%|██████████████████████████████████████████████████████████████▌     | 400/435 [05:02<01:28,  2.53s/it]

Processing מדרש תהילים


processing:  92%|██████████████████████████████████████████████████████████████▋     | 401/435 [05:03<01:05,  1.93s/it]

Processing מדרש תהילים


processing:  93%|██████████████████████████████████████████████████████████████▉     | 403/435 [05:04<00:36,  1.14s/it]

Processing מדרש ילמדנו מתוך ילקוט תלמוד תורה
Processing משנת רבי אליעזר
Processing משנת רבי אליעזר


processing:  93%|███████████████████████████████████████████████████████████████▎    | 405/435 [05:04<00:21,  1.38it/s]

Processing אוצר מדרשים


processing:  93%|███████████████████████████████████████████████████████████████▍    | 406/435 [05:04<00:17,  1.65it/s]

Processing אוצר מדרשים


processing:  94%|███████████████████████████████████████████████████████████████▌    | 407/435 [05:07<00:35,  1.27s/it]

Processing פסיקתא דרב כהנא
Processing פסיקתא דרב כהנא


processing:  94%|███████████████████████████████████████████████████████████████▉    | 409/435 [05:08<00:20,  1.29it/s]

Processing פסיקתא רבתי


processing:  94%|████████████████████████████████████████████████████████████████▏   | 411/435 [05:08<00:13,  1.74it/s]

Processing פסיקתא רבתי
Processing פרקי דרבי אליעזר


processing:  95%|████████████████████████████████████████████████████████████████▌   | 413/435 [05:09<00:11,  1.98it/s]

Processing פרקי דרבי אליעזר


processing:  95%|████████████████████████████████████████████████████████████████▊   | 415/435 [05:09<00:06,  3.02it/s]

Processing סדר עולם רבה
Processing סדר עולם רבה
Processing סדר עולם זוטא
Processing סדר עולם זוטא
Processing ספר הישר (מדרש)


processing:  96%|█████████████████████████████████████████████████████████████████▍  | 419/435 [05:10<00:05,  3.06it/s]

Processing ספר הישר (מדרש)
⚠️  no schema row for Tanna Debei Eliyahu Rabbah
⚠️  no schema row for Tanna Debei Eliyahu Rabbah
⚠️  no schema row for Tanna debei Eliyahu Zuta
⚠️  no schema row for Tanna debei Eliyahu Zuta
Processing מכילתא דרבי שמעון בן יוחאי
Processing מכילתא דרבי שמעון בן יוחאי


processing:  98%|██████████████████████████████████████████████████████████████████▍ | 425/435 [05:11<00:01,  6.27it/s]

Processing מכילתא דרבי ישמעאל


processing:  98%|██████████████████████████████████████████████████████████████████▌ | 426/435 [05:11<00:01,  4.56it/s]

Processing מכילתא דרבי ישמעאל


processing:  98%|██████████████████████████████████████████████████████████████████▋ | 427/435 [05:12<00:02,  2.88it/s]

Processing ספרא


processing:  98%|██████████████████████████████████████████████████████████████████▉ | 428/435 [05:14<00:03,  1.96it/s]

Processing ספרא


processing:  99%|███████████████████████████████████████████████████████████████████▏| 430/435 [05:15<00:02,  1.83it/s]

Processing ספרי במדבר


processing:  99%|███████████████████████████████████████████████████████████████████▎| 431/435 [05:15<00:01,  2.18it/s]

Processing ספרי במדבר
Processing ספרי דברים


processing:  99%|███████████████████████████████████████████████████████████████████▌| 432/435 [05:16<00:01,  1.61it/s]

Processing ספרי דברים


processing: 100%|███████████████████████████████████████████████████████████████████▋| 433/435 [05:17<00:01,  1.50it/s]

Processing ספרי זוטא
Processing ספרי זוטא


processing: 100%|████████████████████████████████████████████████████████████████████| 435/435 [05:17<00:00,  1.37it/s]

✅ finished – file saved: Rashi.jsonl





In [13]:
import itertools, json, pprint
with open(JSONL_OUT, encoding="utf‑8") as f:
    sample = [json.loads(l) for l in itertools.islice(f, 1)]
pprint.pp(sample, width=120)

[{'text': '"אמון פדגוג. כמא דתימא כאשר ישא האומן את היונק ומתרגמינן בירושלמי כמה דסבל פדגוגא ית ינוקא:" (רש"י על '
          'בראשית רבה, פרק א׳, פסקה א׳, פירוש א׳)'}]


In [14]:
with open(JSONL_OUT, encoding="utf‑8-sig") as f:
    data = [json.loads(l) for l in f]

In [16]:
len(data)

439486

In [17]:
data[0:2]

[{'text': '"אמון פדגוג. כמא דתימא כאשר ישא האומן את היונק ומתרגמינן בירושלמי כמה דסבל פדגוגא ית ינוקא:" (רש"י על בראשית רבה, פרק א׳, פסקה א׳, פירוש א׳)'},
 {'text': '"אמון מוצנע. כמה דתימא ויהי אומן את הדסה (אסתר ב ז\') וכן הפתרון בהשמע דבר המלך ודתו להקבץ את כל נערה בתולה והיה מרדכי מצניע את אסתר שלא תהא מחוללת לאותו רשע ומלאך בא ומגלה אותה הוא שיסד הקליר (ביוצר לפורים) את אסתר גל ממסתור לגאול ממה שהיה מרדכי מסתירה:" (רש"י על בראשית רבה, פרק א׳, פסקה א׳, פירוש ב׳)'}]