# Install and import dependancies

In [1]:
!pip install bitsandbytes peft accelerate datasets --quiet

In [2]:
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, GenerationConfig, BitsAndBytesConfig
from datasets import Dataset
import pandas as pd
import torch
import re
from peft import LoraConfig, get_peft_model

2024-06-11 13:42:58.546382: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-06-11 13:42:58.546506: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-06-11 13:42:58.681029: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


# Import the data and preprocess it

In [11]:
!kaggle datasets download -d fatemehmahdibabaee/persian-news
!unzip persian-news.zip -d data

Dataset URL: https://www.kaggle.com/datasets/fatemehmahdibabaee/persian-news
License(s): unknown
Downloading persian-news.zip to /home/ali/desktop-wsl/projects/t5-base-finetuning/finetune-bloom-1b7
100%|███████████████████████████████████████| 90.6M/90.6M [02:25<00:00, 713kB/s]
100%|███████████████████████████████████████| 90.6M/90.6M [02:25<00:00, 654kB/s]
Archive:  persian-news.zip
  inflating: data/pn_summary/dev.csv  
  inflating: data/pn_summary/test.csv  
  inflating: data/pn_summary/train.csv  


In [3]:
data = pd.read_csv("./data/pn_summary/train.csv", delimiter="\t", on_bad_lines="warn")
data.head()

Unnamed: 0,id,title,article,summary,category,categories,network,link
0,738e296491f8b24c5aa63e9829fd249fb4428a66,مدیریت فروش نفت در دوران تحریم هوشمندانه عمل کرد,به گزارش شانا، علی کاردر امروز (۲۷ دی ماه) در ...,مدیرعامل شرکت ملی نفت، عملکرد مدیریت امور بین‎...,Oil-Energy,نفت,Shana,https://www.shana.ir/news/275284/%D9%85%D8%AF%...
1,00fa692a178a2454419284199df6b6690a75ade0,سبد محصولات پتروشیمی متنوع می‌شود,به گزارش شانا به نقل از شرکت ملی صنایع پتروشیم...,سرپرست مدیریت برنامه‌ریزی و توسعه شرکت ملی صنا...,Oil-Energy,پتروشیمی,Shana,https://www.shana.ir/news/293940/%D8%B3%D8%A8%...
2,1bdb42b53c080b36318b82051edacb5c8f61f6a2,معرفی گوگرد بنتونیتی پالایشگاه خانگیران در نما...,به گزارش شانا به نقل از شرکت پالایش گاز شهید ه...,پالایشگاه گاز خانگیران با هدف معرفی گوگرد بنتو...,Oil-Energy,گاز,Shana,https://www.shana.ir/news/292952/%D9%85%D8%B9%...
3,73ef47636beaf86610695f62716da113624ed315,روند عمرانی شیراز با فروکش کردن کرونا عادی می‌شود,به گزارش خبرنگار ایمنا، سعید نظری در صفحه اینس...,سخنگوی شورای شهر شیراز گفت: روند عمرانی و شهرس...,Local,پارلمان شهری,Imna,https://www.imna.ir/news/416660/%D8%B1%D9%88%D...
4,0c45a2e8b760cb6779a8be426f0075893e4e8b44,قدردانی از اقدام ایثارگرانه نیروی حراست در اطف...,به گزارش شانا، سیدباقر مرتضوی، مشاور وزیر نفت ...,مشاور وزیر نفت و مدیرکل اچ اس یی و پدافند غیرع...,Oil-Energy,گاز,Shana,https://www.shana.ir/news/277191/%D9%82%D8%AF%...


In [4]:
data = data.drop(["id", "title", "category", "categories", "network", "link"], axis=1)
data.head()

Unnamed: 0,article,summary
0,به گزارش شانا، علی کاردر امروز (۲۷ دی ماه) در ...,مدیرعامل شرکت ملی نفت، عملکرد مدیریت امور بین‎...
1,به گزارش شانا به نقل از شرکت ملی صنایع پتروشیم...,سرپرست مدیریت برنامه‌ریزی و توسعه شرکت ملی صنا...
2,به گزارش شانا به نقل از شرکت پالایش گاز شهید ه...,پالایشگاه گاز خانگیران با هدف معرفی گوگرد بنتو...
3,به گزارش خبرنگار ایمنا، سعید نظری در صفحه اینس...,سخنگوی شورای شهر شیراز گفت: روند عمرانی و شهرس...
4,به گزارش شانا، سیدباقر مرتضوی، مشاور وزیر نفت ...,مشاور وزیر نفت و مدیرکل اچ اس یی و پدافند غیرع...


In [5]:
def normalize(text):
    text = re.sub("[^آ-ی0-9]+", " ", text)
    return text

In [6]:
data = data.map(normalize)
data.tail()

Unnamed: 0,article,summary
82017,به گزارش ایمنا تیم های ملی هاکی زنان و مردان ا...,تیم های ملی هاکی زنان و مردان ایران در سومین د...
82018,به گزارش بازار مصطفی قلی خسروی افزود در کشورها...,قلی خسروی رئیس اتحادیه مشاوران املاک تهران گفت...
82019,به گزارش ایمنا به نقل از پایگاه اطلاع رسانی کم...,رئیس کمیته امداد از آغاز مرحله دوم پویش ایران ...
82020,به گزارش خبرگزاری خبرآنلاین و به نقل از ایران ...,گروه صنعتی ایران خودرو به منظور تامین نیاز مشت...
82021,به گزارش شانا به نقل از دبیرخانه سازمان کشورها...,مجموع کاهش جهانی تولید نفت خام می تواند به بیش...


Change our data to a format like a prompt will help model to can understand and comlete the task that user ask for it. It would be better to use different prompts for sure, but in this case I'll use one prompt only.

In [7]:
data["final"] = ""

for idx, row in data.iterrows():
    data["final"] = "summarize this article: " + row["article"] + "Summarize: " + row["summary"]

data["final"].sample().iloc[0]

'summarize this article: به گزارش شانا به نقل از دبیرخانه سازمان کشورهای صادرکننده نفت اوپک مجموع کاهش تولید موثر کشورهای عضو و غیرعضو اوپک می تواند به میلیون و هزار بشکه در روز برسد عربستان سعودی کویت و امارات توافق کرده اند روزانهک میلیون و هزار بشکه فراتر از تعهد خود در توافق کاهش عرضه اوپک پلاس برای کاستن روزانه میلیون و هزار بشکه در ماه های مه و ژوئن از تولید خود بکاهند در نتیجه پس از ماه آوریل رقم کاهش تولید به روزانه میلیون و هزار بشکه در روز رسیده است افت تولید اعضای معاف از توافق کاهش عرضه کشورهای عضو و غیرعضو اوپک بر مبنای خط پایه تولید اکتبر سال میلادی روزانه میلیون و هزار بشکه در روز است کاهش عرضه داوطلبانه و غیرداوطلبانه به دلیل توقف تولید چاه های نفتی در آمریکا کانادا و دیگر کشورهای تولیدکننده می تواند به میلیون و هزار بشکه در روز برسد به گزارش شانا وزیران نفت و انرژی کشورهای عضو و غیرعضو سازمان کشورهای صادرکننده نفت اوپک در دهمین نشست فوق العاده خود از طریق وبینار سرانجام پس از پذیرفتن گزینه کاهش تولید روزانه هزار بشکه ای مکزیک و موافقت این کشور آمریکای شمالی برای حضور د

In [8]:
data.drop(["article", "summary"], axis=1, inplace=True)
data.head()

Unnamed: 0,final
0,summarize this article: به گزارش شانا به نقل ا...
1,summarize this article: به گزارش شانا به نقل ا...
2,summarize this article: به گزارش شانا به نقل ا...
3,summarize this article: به گزارش شانا به نقل ا...
4,summarize this article: به گزارش شانا به نقل ا...


# Creating `train`, `eval` & `test` datasets and then converting them from `pandas` obj to `Dataset` obj to feed them directly to model

In [9]:
train_data = data.sample(4000) # train data
test_data = data.drop(train_data.index).sample(200)

eval_data = test_data.sample(frac=0.5) # eval data
test_data = test_data.drop(eval_data.index) # test data

train_data.shape, eval_data.shape, test_data.shape

((4000, 1), (100, 1), (100, 1))

## Tokenizing data

In [10]:
tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom-1b7")
tokenizer.pad_token

tokenizer_config.json:   0%|          | 0.00/222 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/85.0 [00:00<?, ?B/s]

'<pad>'

In [11]:
# This function will tokenize data

def tokenize_data(data):
    data["input_ids"] = tokenizer(data["final"], padding="max_length", max_length=512, truncation=True, return_tensors="pt").input_ids
    data["labels"] = tokenizer(data["final"], padding="max_length", max_length=512, truncation=True, return_tensors="pt").input_ids
    return data

### Converting data to `Dataset` object and apply tokenizer on them

In [12]:
train_dataset = Dataset.from_pandas(train_data)
eval_dataset = Dataset.from_pandas(eval_data)
test_dataset = Dataset.from_pandas(test_data)

In [13]:
train_dataset = train_dataset.map(tokenize_data, batched=True, remove_columns=train_dataset.column_names)
eval_dataset = eval_dataset.map(tokenize_data, batched=True, remove_columns=eval_dataset.column_names)
test_dataset = test_dataset.map(tokenize_data, batched=True, remove_columns=test_dataset.column_names)

Map:   0%|          | 0/4000 [00:00<?, ? examples/s]

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

# Import Quantized Model and setting it up with LoRA

In [14]:
# Specify quantization config

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4"
)

In [15]:
model = AutoModelForCausalLM.from_pretrained("bigscience/bloom-1b7", quantization_config=quant_config)

config.json:   0%|          | 0.00/715 [00:00<?, ?B/s]

`low_cpu_mem_usage` was None, now set to True since model is quantized.


model.safetensors:   0%|          | 0.00/3.44G [00:00<?, ?B/s]

In [16]:
peft_params = LoraConfig(
    lora_alpha=16,
    lora_dropout=0.1,
    r=8,
    bias="none",
    task_type="CAUSAL_LM"
)

peft_model = get_peft_model(model=model, peft_config=peft_params)

In [17]:
print(peft_model.print_trainable_parameters())

trainable params: 1,572,864 || all params: 1,723,981,824 || trainable%: 0.0912
None


# Start Training

In [18]:
LR = 1e-3
EPOCHS = 3
MODEL_NAME = "bigscience-bloom-1b7-finetune-Summarization-Persian-News"
FINAL_PATH = f"{MODEL_NAME}/final_model"

training_args = TrainingArguments(
    num_train_epochs=EPOCHS,
    auto_find_batch_size=True,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    save_total_limit=2,
    output_dir=MODEL_NAME,
    learning_rate=LR,
    evaluation_strategy='epoch',
    report_to="none"
)

trainer = Trainer(
    args=training_args,
    model=peft_model,
    tokenizer=tokenizer,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset
)

trainer.train()

trainer.model.save_pretrained(FINAL_PATH)
trainer.tokenizer.save_pretrained(FINAL_PATH)



Epoch,Training Loss,Validation Loss
1,0.0024,0.001328
2,0.0004,0.000299
3,0.0004,0.000287




('bigscience-bloom-1b7-finetune-Summarization-Persian-News/final_model/tokenizer_config.json',
 'bigscience-bloom-1b7-finetune-Summarization-Persian-News/final_model/special_tokens_map.json',
 'bigscience-bloom-1b7-finetune-Summarization-Persian-News/final_model/tokenizer.json')

# Testing the finetuned model

In [19]:
# Removing old models to free up space in VRAM
del peft_model, model
torch.cuda.empty_cache()

In [20]:
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(FINAL_PATH)
trained_model = AutoModelForCausalLM.from_pretrained(FINAL_PATH).to(device)

In [21]:
article = """
به گزارش خبرنگار مهر، محمدعلی نیکبخت در جلسه علنی امروز (سه‌شنبه) مجلس شورای اسلامی و در جریان ارائه گزارش از نحوه اجرای قانون خرید تضمینی محصولات کشاورزی، اظهار کرد: در تأمین محصولات غذایی و امنیت غذایی کشور نیازمند حمایت مجلس شورای اسلامی هستیم.
وی متذکر شد: بنده کمتر از یک سال است که در وزارت جهاد کشاورزی مشغول به کار شدم و به محض شروع به کار، با توجه به ظرفیت‌هایی که بخش کشاورزی داشت، راهبردها و جهت‌گیری‌هایی را در وزارتخانه پیش گرفتیم تا بتوان از تمام ظرفیت‌ها و پتانسیل‌ها به نحو احسن استفاده کرد.
وزیر جهاد کشاورزی اظهار کرد: راهبرد اول ما حداکثرسازی تولید با حفظ منابع بود. اگر بخواهیم نیاز غذایی کشور برای جمعیت بزرگ ایران را تأمین کنیم باید از همه ظرفیت‌های تولید در حوزه کشاورزی استفاده کنیم.
"""

prompt = "summarize this article: " + article + "Summarize: "
prompt = normalize(prompt)
input_ids = tokenizer(prompt, padding="max_length", max_length=512, truncation=True, return_tensors="pt").input_ids.to(device)

In [22]:
output = trained_model.generate(input_ids, max_new_tokens=50)
result = tokenizer.decode(output[0], skip_special_tokens=True)
result

' به گزارش خبرنگار مهر محمدعلی نیکبخت در جلسه علنی امروز سه شنبه مجلس شورای اسلامی و در جریان ارائه گزارش از نحوه اجرای قانون خرید تضمینی محصولات کشاورزی اظهار کرد در تأمین محصولات غذایی و امنیت غذایی کشور نیازمند حمایت مجلس شورای اسلامی هستیم وی متذکر شد بنده کمتر از یک سال است که در وزارت جهاد کشاورزی مشغول به کار شدم و به محض شروع به کار با توجه به ظرفیت هایی که بخش کشاورزی داشت راهبردها و جهت گیری هایی را در وزارتخانه پیش گرفتیم تا بتوان از تمام ظرفیت ها و پتانسیل ها به نحو احسن استفاده کرد وزیر جهاد کشاورزی اظهار کرد راهبرد اول ما حداکثرسازی تولید با حفظ منابع بود اگر بخواهیم نیاز غذایی کشور برای جمعیت بزرگ ایران را تأمین کنیم باید از همه ظرفیت های تولید در حوزه کشاورزی استفاده کنیم  به میلیون و هزارزار بشد در حالی که هزار بشد در حالی که هزار بشد در حالی که هزار بشد در حالی که هزار بشد در حالی ک'

In [23]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [26]:
# Push to 🤗 hub
trainer.push_to_hub(f"ali619/finetune {MODEL_NAME} complete")



tokenizer.json:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/6.30M [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/6.30M [00:00<?, ?B/s]

Upload 5 LFS files:   0%|          | 0/5 [00:00<?, ?it/s]

training_args.bin:   0%|          | 0.00/5.18k [00:00<?, ?B/s]

HTTP Error 503 thrown while requesting PUT https://hf-hub-lfs-us-east-1.s3-accelerate.amazonaws.com/repos/c4/ef/c4ef7c1e3e3616d6e1ca1d4559942b96808cd62e0543b4fef9a0e0158672b020/01cc7c06a566f7bd9621aa56f3eb5b87740f42ff2f8d172f3a4a00e2011edb61?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIA2JU7TKAQFN2FTF47%2F20240611%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20240611T155157Z&X-Amz-Expires=900&X-Amz-Signature=9361a8d7e3bde842f7ef8c7e2dffac2f5175c95e399b333a0706537ec29dd427&X-Amz-SignedHeaders=host&x-amz-storage-class=INTELLIGENT_TIERING&x-id=PutObject
Retrying in 1s [Retry 1/5].


CommitInfo(commit_url='https://huggingface.co/ali619/bigscience-bloom-1b7-finetune-Summarization-Persian-News/commit/a03bcac4e5e5958f38562a704b4d33bfecf35812', commit_message='ali619/finetune bigscience-bloom-1b7-finetune-Summarization-Persian-News complete', commit_description='', oid='a03bcac4e5e5958f38562a704b4d33bfecf35812', pr_url=None, pr_revision=None, pr_num=None)