# Welcome to the NLP Mini Project of Lior, Nave, Or, Tal and Tom.
We've built a dataset which contains paragraphs written by Rabbi Kook and their summaries, as written by his students and researchers. 
We've used MT5-Small to fine-tune a model for summarization, so that we could compare summarization of the Rabbi's paragraphs between a non finetuned model and a finetuned model.

### Usage:
Insert your paragraph into the '*summarize*' field in cell [2] and run all code (Ctrl+F9).

In [None]:
!pip install transformers
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.26.1-py3-none-any.whl (6.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m37.9 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m46.4 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.11.0
  Downloading huggingface_hub-0.12.1-py3-none-any.whl (190 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m190.3/190.3 KB[0m [31m20.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.12.1 tokenizers-0.13.2 transformers-4.26.1


In [None]:
summarize = """"
שם שמכירים תנאים אקלימיים, מסוגלים לבעלי חיים ולצמחים שונים, ויותר מזה תנאים מובדלים לסוגים: הים והיבשה, העפיפה באויר וההליכה, ומי שמסוגל לאחד מהם אם יחליף את תפקידו במה שמוזר לו את נפשו הוא חובל ככה הם גם החילופים הרוחניים, מצד פנימיות ערכי החיים שלהם. בכל ספירה רוחנית יש צביוני חיים מיוחדים. כל זמן שהדברים באים רק למגע של הכרה אין הדבר חודר כ"כ עד עומק החיים, אמנם כיון שבאו לידי הרגשה, כבר החיים מתרשמים בו ביותר ע"פ תנאיהם המיוחדים. והשבא עד לידי אמונה ודבקות אז החיים מוטבעים במטבעתם המיוחדה, ואם הם נאותים לאותו המקצוע אז הם מתברכים ומתאדרים, ואם אינם נאותים לו, אז כפי מדת רחוקם ונגודם, ולפי מדת שקועם בתוכו והשרשתם, ככה תהי מדת חרבנם ואבודם. ואת היא התכונה העמוקה של ההשתמרות מאשה זרה במובן הרוחני, אשר"דרכי שאול ביתה" "ורגליה יורדות מות" וכמה גדולה היא מדת ההמשכה לרכי לב וקטני דעת, "הולך אחריה פתאום כשור אל טבח יבוא וכעכס אל מוסר אויל". בית ישראל יודע בחוש קודש העמוק שלו איך להשמר מפח יוקשים, ויודע הוא בבהירות להגן על עמדת קיומו הרוחני האיתן, גם נגד אותו כח המושך של הזרות, השר נגוזה מבטן אמו אחרי שנתנכרה וקנתה לה תכונה זרה. ואת פרטי הזריות, איכות ההשתמרות ועמקי האבדון שבהם, וכל הליכות היחש עמהם הוא סוקר, והם בספרתו בדיני תורה והכרות- אמונה בדעה מבוססת ורוח אמיץ, כראוי לעם עז, אשר עז לו באלהים סלה
"""

In [None]:
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

model_name = "ThatGuyVanquish/mt5-small-rabbi-kook"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

input_ids = tokenizer(
    [WHITESPACE_HANDLER(summarize)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    max_length=1044,
    min_length=100,
    no_repeat_ngram_size=2,
    num_beams=4
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)

In [None]:
# Define a regular expression to match substrings in the format "<some chars>"
pattern = r"<.*?>"

# Use the re.sub() function to replace all occurrences of the pattern with an empty string
filtered_string = re.sub(pattern, "", summary)
print(filtered_string)
#print(summary)

כשם שמכירים תנאים אקלימיים, הם בעלי חיים שאינם מתאימים לבעלי החיים, והם מתברכים עם הרצון המיוחדים, ובכך היא תכונה זרה מיוחדת, ולכן הוא יכול להשמר מפח יוקשים, וככל שהדברים מתגלמים בהם, כדי להמשיך את עבודתם הרוחנית, ואילו אין אפשר לאחד מהם. 


In [None]:
import requests

API_URL = "https://api-inference.huggingface.co/models/ThatGuyVanquish/kook-model-output-dir"
headers = {"Authorization": "Bearer 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"}

def query(payload):
	response = requests.post(API_URL, headers=headers, json=payload)
	return response.json()
	
output = query({
	"inputs": summarize,
  "parameters": {"min_length": 100,
                 "max_length": 1044,
                 "repetition_penalty": 100.0
                 },
  "options": {"wait_for_model": "true"}
})


# filtered_string = ''.join([char for char in output[0]['generated_text'] if char in "אבגדהוזחטיכלמנסעפצקרשתץםןף.,\"!:; ()'"])
# print(filtered_string)

#print(output)





In [None]:
!pip install rouge
!pip install rouge-metric

from rouge_metric import PyRouge
from rouge import Rouge


# Evaluate document-wise ROUGE scores
rouge = PyRouge(rouge_n=(1, 2, 4), rouge_l=True, rouge_w=True,
                rouge_w_weight=1.2, rouge_s=True, rouge_su=True, skip_gap=4)

# print(Rouge.AVAILABLE_METRICS)

# rouge = Rouge(metrics=['rouge-2', 'rouge-l', 'rouge-w'])



Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting rouge
  Downloading rouge-1.0.1-py3-none-any.whl (13 kB)
Installing collected packages: rouge
Successfully installed rouge-1.0.1
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting rouge-metric
  Downloading rouge_metric-1.0.1-py3-none-any.whl (151 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m151.7/151.7 KB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: rouge-metric
Successfully installed rouge-metric-1.0.1


In [None]:
model_summaries = ["""
"ארץ ישראל אינה קניין חיצוני לאומה אלא חבוקה בסגולתה, ולכן תוכנה אינו מתגלה בהשכלה רציונאלית, וקיום היהדות בגולה תלוי בציפייה אליה. "
""",
"""
"ארץ ישראל אינה קניין חיצוני לאומה אלא חבוקה בסגולתה, ולכן תוכנה אינו מתגלה בהשכלה רציונאלית, וקיום היהדות בגולה תלוי בציפייה אליה. "
"""]
human_summaries = ["""
"ארץ ישראל אינה קניין חיצוני לאומה אלא חבוקה בסגולתה, ולכן תוכנה אינו מתגלה בהשכלה רציונאלית, וקיום היהדות בגולה תלוי בציפייה אליה. "
""",
"""
"ארץ ישראל אינה קניין חיצוני לאומה אלא חבוקה בסגולתה, ולכן תוכנה אינו מתגלה בהשכלה רציונאלית, וקיום היהדות בגולה תלוי בציפייה אליה. "
"""]

# Compute the ROUGE scores for the summaries
# scores = rouge.get_scores(model_summaries, human_summaries, avg=True)
scores = rouge.evaluate(model_summaries, human_summaries)
print(scores)

# # Print the keys and their values in the scores dictionary
# for key, value in scores.items():
#     print(key, value)

# Print the results
# print("ROUGE-S: {:.2f}".format(scores["rouge-s"]["f"]*100))
# print("ROUGE-2: {:.2f}".format(scores["rouge-2"]["f"]*100))
# print("ROUGE-L: {:.2f}".format(scores["rouge-l"]["f"]*100))
# print("ROUGE-W: {:.2f}".format(scores["rouge-w-1.2"]["f"]*100))


{'rouge-1': {'r': 0.017857142857142856, 'p': 0.0006734006734006734, 'f': 0.0012978585334198574}, 'rouge-2': {'r': 0.0, 'p': 0.0, 'f': 0.0}, 'rouge-4': {'r': 0.0, 'p': 0.0, 'f': 0.0}, 'rouge-l': {'r': 0.017857142857142856, 'p': 0.0006734006734006734, 'f': 0.0012978585334198574}, 'rouge-w-1.2': {'r': 0.034928235307070184, 'p': 0.0013588061645554907, 'f': 0.0026158484972881118}, 'rouge-s4': {'r': 0.0, 'p': 0.0, 'f': 0.0}, 'rouge-su4': {'r': 0.0, 'p': 0.0, 'f': 0.0}}


The following code is the 🤗 Hugging Face API query code for an mt5-small summarization, which prints out the hebrew summarization generated by stock MT5-Small

In [None]:
import requests

API_URL = "https://api-inference.huggingface.co/models/google/mt5-small"
headers = {"Authorization": "Bearer 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"}

def query(payload):
	response = requests.post(API_URL, headers=headers, json=payload)
	return response.json()
	
output = query({
	"inputs": summarize,
  "parameters": {"min_length": 100,
                 "max_length": 1044,
                 "repetition_penalty": 100.0
                 },
  "options": {"wait_for_model": "true"}
})

filtered_string = ''.join([char for char in output[0]['generated_text'] if char in "אבגדהוזחטיכלמנסעפצקרשתץםןף.,\"!:; ()'"])
print(filtered_string)

#print(output)

 הוא. "הכל אומר שירה, חדוות" וכן הרבה מאוד! כמה באה התשובה כרטיה של רופא האמן: דאמריא לעולם לא קראתי". ואפילו את זה נראה כי כל מה שהיתה תשועה נכונה או אז......"." ...ואין לנו חטא גדולות!" (()).   ... .........פרטים  ינו....() ()  ()
