# Meta-Llama3 8B instruct model fine-tuned on Bhojpuri news headline generation.

In [None]:
%%capture
!pip install "unsloth[cu121] @ git+https://github.com/unslothai/unsloth.git"
!conda install pytorch-cuda=<12.1/11.8> pytorch cudatoolkit xformers -c pytorch -c nvidia -c xformers
!pip install --no-deps trl peft accelerate bitsandbytes accelerate

In [None]:
from unsloth import FastLanguageModel
import torch
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/llama-3-8b-bnb-4bit", # Choose ANY! eg teknium/OpenHermes-2.5-Mistral-7B
    load_in_4bit = load_in_4bit,
    max_seq_length=8000,
    dtype=None,
    token = "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", # use one if using gated models like meta-llama/Llama-2-7b-hf
)

In [None]:
# %%capture
# !pip install numba
# from numba import cuda
# device = cuda.get_current_device()
# device.reset()

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 8, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    use_gradient_checkpointing = True,
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

In [None]:
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN
def formatting_prompts_func(examples):
    instructions = 'The following passage is content from a news report. Please summarize this passage in one sentence or less.'
    inputs       = examples["content"]
    outputs      = examples["headline"]
    texts = []
    for j,k  in zip(inputs,outputs):
        text = alpaca_prompt.format(instructions,j,k) + EOS_TOKEN
        texts.append(text)
    return {'text':texts}

In [None]:
from datasets import load_dataset
dataset = load_dataset("shivam9980/bhojpuri-news", split = "train",token='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')

In [None]:
dataset

In [None]:
dataset = dataset.map(formatting_prompts_func, batched = True,)

In [None]:
dataset['text'][0]

In [None]:
!wandb login '8a8c6f69425f9bc32d2ab64a9c2976149ee1c460'

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments
from accelerate import Accelerator
accelerator = Accelerator(device_ids=[0, 1]) 

trainer = SFTTrainer(
    model = accelerator.prepare_model(model),
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = 4096,
    dataset_num_proc = 2,
    packing = False, # Can make training 5x faster for short sequences.
    args = TrainingArguments(
        per_device_train_batch_size = 2,
        per_device_eval_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 25,
        num_train_epochs=2,
        learning_rate = 2e-4,
        fp16 = not torch.cuda.is_bf16_supported(),
        bf16 = torch.cuda.is_bf16_supported(),
        logging_steps = 10,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
        report_to = "wandb",
    ),
)

In [None]:
#@title Show current memory stats
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

In [None]:
trainer_stats = trainer.train()

In [None]:
#@title Show final memory and time stats
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory         /max_memory*100, 3)
lora_percentage = round(used_memory_for_lora/max_memory*100, 3)
print(f"{trainer_stats.metrics['train_runtime']} seconds used for training.")
print(f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training.")
print(f"Peak reserved memory = {used_memory} GB.")
print(f"Peak reserved memory for training = {used_memory_for_lora} GB.")
print(f"Peak reserved memory % of max memory = {used_percentage} %.")
print(f"Peak reserved memory for training % of max memory = {lora_percentage} %.")

In [None]:
model.push_to_hub_merged("shivam9980/llama-8b-news-bhojpuri", tokenizer, save_method = "lora", token = "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")

In [None]:
# content = """यूपी के बदायूं जिले में मंगलवार की शाम को दो बच्चों की हत्या की सनसनीखेज वारदात के दूसरे आरोपी को पुलिस ने बरेली से गिरफ्तार किया है। बदायूं पुलिस ने बरेली की बरादरी थाना पुलिस से सहयोग से सेटेलाइट चौराहे से पकड़ा है। पुलिस उसे बदायूं ले गई है। जावेद पर 25 हजार रुपये का इनाम था। बदायूं के एसएसपी आलोक प्रियदर्शी ने बताया आरोपी जावेद को बरेली से गिरफ्तार कर लिया गया है। जावेद  वहां की बारादरी पुलिस चौकी में खुद को सरेंडर करने पहुंचा था इसके बाद वीडियो भी जारी किया।वीडियो में एक युवक ऑटो में बैठा दिखाई दे रहा है। वह अपना नाम जावेद बता रहा है। वह कहता है कि उसने कुछ नहीं किया है। जो कुछ भी किया है, उसके बड़े भाई ने किया है। पुलिस जावेद से पूछताछ कर रही है।फरार आरोपी जावेद पर 25000 का इनाम घोषित आरोपी जावेद की लगातार पुलिस तलाश कर रही थी। उसकी तलाश में पुलिस की कई टीमें लगीं थीं। जावेद पर 25000 रुपये का इनाम घोषित कर दिया गया था। आरोपी  से पूछताछ के बाद ही हत्याकांड की वजह का खुलासा हो सकेगा।  आपको बता दें कि उत्तर प्रदेश के बदायूं जिले में मंगलवार की शाम को मंडी समिति पुलिस चौकी से 500 मीटर दूर स्थित बाबा कॉलोनी में एक ठेकेदार विनोद ठाकुर के दो बेटों आयुष (13) और अहान (6) की चाकू से गला रेतकर हत्या कर दी गई थी। ठेकेदार के मकान के सामने हेयर सैलून चलाने वाले साजिद ने इस सनसनीखेज वारदात को अंजाम दिया था। वारदात के तीन घंटे के बाद पुलिस ने मौके से करीब दो किमी दूर घेराबंदी कर आरोपी साजिद को मुठभेड़ में ढेर कर दिया था। मुठभेड़ में इंस्पेक्टर गौरव विश्नोई भी घायल हुए थे। उन्हें अस्पताल में भर्ती कराया गया। वहीं, आरोपियों के दूसरे समुदाय के होने से गुस्सा भड़क उठा। जाम लगाकर हंगामा करते हुए दूसरे समुदाय के तीन खोखों में आग लगा दी। इसके बाद पुलिस ने आरोपी साजिद को मौके से करीब दो किमी. दूर पुरानी चांदमारी के पास घेराबंदी कर मुठभेड़ में ढेर कर दिया। उसके दो साथियों की तलाश की जा रही है।पुलिस हत्या की वजह पता कर रही है। जानकारी के अनुसार, बाबा कॉलोनी में मजिया रोड के रहने वाले ठेकेदार ‘हर घर जल योजना’ के तहत ओवरहेड टैंक का निर्माण कराते हैं। उनके मकान के सामने ही कस्बा सखानू के रहने वाले साजिद की बाल काटने की दुकान है। विनोद की पत्नी संगीता अपने मकान के निचले हिस्से में ब्यूटी पार्लर चलाती हैं। इसके चलते परिवारों के काफी अच्छे संबंध थे। साजिद का उनके घर आना जाना भी था। मंगलवार रात संगीता तीन बच्चों आयुष, अहान और पीयूष (8) के साथ घर पर थीं, जबकि विनोद लखीमपुर खीरी गए हुए थे। साजिद शाम चार बजे दुकान बंद करके चला गया था।मुलाकात के लिए आया और ऊपर ले जाकर मार डालासाजिद रात आठ बजे अपने दो साथियों के साथ आया तो संगीता उनके लिए चाय बनाने अंदर को चली गईं। तभी साजिद उनके दो बेटों आयुष और अहान को अपने साथ ऊपर ले गया। साथ ही, पीयूष से पानी लाने के लिए कहा। जब तक वह पानी लेकर ऊपर पहुंचा तब तक साजिद ने धारदार हथियार से आयुष और अहान की हत्या कर दी। सामने आए पीयूष पर भी चाकू से वार किया तो वह चीखता हुआ नीचे भागा। पीयूष के पीछे साजिद भी दौड़ा तो यह देख मां ने शोर मचाया। शोर सुनकर आसपास के लोग दौड़े और मां-बेटे को बाहर खींचकर दरवाजा बंद कर दिया। आरोपी की दुकान के साथ, चार दुकानें फूंकीसूचना पर पहुंची पुलिस साजिद की तलाश में जुट गई। इस बीच आसपास के लोग बड़ी संख्या में इकट्ठा हो गए। नृशंस हत्या देख उनका गुस्सा बढ़ने लगा। इधर आक्रोशित भीड़ ने साजिद की दुकान तोड़कर सामान निकाला और सड़क पर रखकर फूंक दिया। आसपास के चार दुकानों को आग के हवाले कर दिया। बुधवार को मृतक बच्चों के पिता की शिकायत पर पुलिस ने आरोपी साजिद और उसके भाई जावेद के खिलाफ एफआईआर दर्ज की है। एफआईआर में लिखा है कि "आरोपी साजिद ने मेरी पत्नी से कहा कि उसे पैसे चाहिए क्योंकि उसकी पत्नी बच्चे को जन्म देने वाली है। जब वह पैसे लेने के लिए अंदर गई, तो उसने कहा कि वह अस्वस्थ महसूस कर रहा है और छत पर टहलने जाना चाहता है और मेरे बेटों (मृतक) को अपने साथ ले गया। उसने अपने भाई जावेद को भी छत पर बुला लिया। जब मेरी पत्नी लौटी तो उसने साजिद और जावेद को हाथों में चाकू लिए देखा। साजिद ने मेरे जीवित बेटे पर भी हमला करने की कोशिश की और उसे चोटें आईं। दोनों भाग रहे थे और साजिद ने मेरी पत्नी से कहा कि आज उसने अपना काम पूरा कर लिया है।"""
# # alpaca_prompt = Copied from above
# FastLanguageModel.for_inference(model) # Enable native 2x faster inference
# inputs = tokenizer(
# [
#     alpaca_prompt.format(
#         "The following passage is content from a news report. Please summarize this passage in one sentence or less.", # instruction
#         content, # input
#         "", # output - leave this blank for generation!
#     )
# ], return_tensors = "pt").to("cuda")

# outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
# tokenizer.batch_decode(outputs)