In [4]:
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
import torch

# Initialize device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Load model and tokenizer
model_name = "facebook/mbart-large-50"
tokenizer = MBart50TokenizerFast.from_pretrained(model_name)
model = MBartForConditionalGeneration.from_pretrained("./mbart-nepali-summarization").to(device)

def summarize_nepali(text, max_length=150, min_length=50):
    # Preprocess text
    text = " ".join(text.strip().split())
    
    # Explicitly set Nepali language codes
    tokenizer.src_lang = "ne_NP"  # Set source language to Nepali
    
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=1024).to(device)
    
    # Generate with forced Nepali output
    generated_tokens = model.generate(
        **inputs,
        max_length=max_length,
        min_length=min_length,
        num_beams=4,
        early_stopping=True,
        forced_bos_token_id=tokenizer.lang_code_to_id["ne_NP"]  # Critical for Nepali output
    )
    
    return tokenizer.decode(generated_tokens[0], skip_special_tokens=True)

# Example usage
nepali_text = """
सर्लाहीस्थित सागरनाथ वनको जग्गा अतिक्रमण गरी निजी ताल निर्माण गरेको अभियोगमा जिल्ला वन कार्यालय सर्लाहीले बागमती नगरपालिकाका निलम्बित मेयर भरत थापा, उपमेयर लीलाकुमारी मोक्तानसहितलाई प्रतिवादी बनाएर जिल्ला अदालत मलंगवामा मुद्दा दायर गरेको छ ।

वन कार्यालयले थापा र मोक्तानसहित तत्कालीन जिल्ला समन्वय समिति प्रमुख मिथुर चौधरी, नगरपालिकाका तत्कालीन प्रमुख प्रशासकिय अधिकृत विमलकुमार पोख्रेल, लेखा अधिकृत विश्वराज पोख्रेल र नगरपालिकाका तत्कालिन इन्जिनियर सागर पौडेलविरुद्ध १ अर्ब ४९ करोड ३९ लाख ४३ हजार ३ सय ३७ रुपैयाँ बिगो कायम गरी मुद्दा दायर गरेको हो । थापा गत स्थानीय तह निर्वाचनमा माओवादीबाट मेयरमा निर्वाचित भएका थिए ।

बागमती नगरपालिकको वडा नम्बर ४ र १२ मा पर्ने सागरनाथ वन विकास परियोजनाको स्वामित्वमा रहेको मुर्तिया सेक्टरअन्तर्गत कर्मैया क्षेत्रको जग्गा नगरपालिकाका कर्मचारी र पदाधिकारीको मिलेमतोमा निजी ताल निर्माण गर्न स्वीकृति दिएको अभियोगपत्रमा उल्लेख छ । बागमती माछापोखरी प्रथम (भरतताल ) अन्तर्गत ३५‍.२० हेक्टर, निर्माणाधीन दोस्रो पोखरी बनाउँदा ३२‍‍.६० हेक्टर, बागबानी आँप बगैंचा बनाउँदा ६६.७० हेक्टर, ताल वरिपरिको बाटो र अरू भौतिक संरचना बनाउँदा ३८.५० हेक्टर गरी ताल क्षेत्रको कुल १७३ हेक्टर तथा कृषि र बस्ती क्षेत्र लगायतमा करिब ८१५.२० हेक्टर गरी ९८८.२० हेक्टर वनको जग्गा अतिक्रमणमा परेको अभियोगपत्रमा उल्लेख छ ।

गैरकानुनी रूपमा ताल निर्माण गरेको अभियोगमै २०८१ जेठ २९ मा निलम्बित मेयर थापा र उपमेयर मोक्तान सहितलाई प्रतिवादी बनाएर अख्तियार दुरुपयोग अनुसन्धान आयोगले विशेष अदालतमा दायर गरेको भ्रष्टाचार मुद्दा विचाराधीन छ । त्यसको किनारा नलाग्दै जिल्ला वन कार्यालय सर्लाहीले पनि उनीहरुविरुद्ध वन अतिक्रमणको गरी सरकारी जग्गा हिनामिना गरेको अभियोगमा मुद्दा दायर गरेको हो ।
"""
summary = summarize_nepali(nepali_text)
print("Generated Summary in Nepali:")
print(summary)

Generated Summary in Nepali:
"बागमती नगरपालिकाका तत्कालीन प्रमुख प्रशासकिय अधिकृतसहितका कर्मचारी र पदाधिकारीविरुद्ध अख्तियार दुरुपयोग अनुसन्धान आयोगले भ्रष्टाचार मुद्दा दायर गरेको छ।" अधिकारीहरूले भने। अधिकारीहरूले भने। अधिकारीहरूले भने। अधिकारीहरूले भने। अधिकारीहरूले भने।"


In [10]:
from transformers import MT5ForConditionalGeneration, MT5Tokenizer
import torch

# Initialize device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Load model and tokenizer
model_path = "./mt5-nepali-summarization"  # Path to your trained MT5 checkpoint
tokenizer = MT5Tokenizer.from_pretrained("google/mt5-small")
model = MT5ForConditionalGeneration.from_pretrained(model_path).to(device)

def summarize_nepali(text, max_length=150, min_length=50):
    """
    Summarize Nepali text using fine-tuned MT5 model
    """
    # Preprocess text
    text = " ".join(text.strip().split())
    
    # Tokenize input (MT5 doesn't need language codes)
    inputs = tokenizer(
        text,
        return_tensors="pt",
        truncation=True,
        max_length=512
    ).to(device)
    
    # Generate summary
    generated_tokens = model.generate(
        **inputs,
        max_length=max_length,
        min_length=min_length,
        num_beams=4,
        early_stopping=True,
        no_repeat_ngram_size=2  # Helps reduce repetition
    )
    
    return tokenizer.decode(generated_tokens[0], skip_special_tokens=True)

# Example usage
nepali_text = """भारत-प्रशासित जम्मू-कश्मीर राज्यलाई दिइएको विशेष संवैधानिक मान्यता भारत सरकारले अन्त्य गरिदिएपछि पाकिस्तानले अन्तर्राष्ट्रिय अदालत गुहार्न लागेको हो। भारतको हस्तक्षेप विरुद्ध पाकिस्तानले भारतसँग व्यापारिक तथा यातायात सम्बन्ध भङ्ग गर्दै भारतीय दूतलाई फिर्ता पठाइदिइएको थियो। सन् १९४७ मा भारत र पाकिस्तान विभाजित भएपछि कश्मीरको स्वामित्वको विषयमा ती दुई देशबीच तनाव रहँदै आएको छ। "हामीले कश्मीरको मुद्दा अन्तर्राष्ट्रिय अदालतमा लैजाने निर्णय गरेका छौँ," एआरवाई न्यूज टीभीसँग कुराकानी गर्दै पाकिस्तानका विदेशमन्त्री शाह मेहमूद कुरेशीले भने। उनका अनुसार सबै कानुनी पक्षबारे विचार गरेपछि सो निर्णय लिइएको हो। मुस्लिमबहुल कश्मीरमा भारत सरकारले मानवाधिकार उल्लङ्घन गरेको भन्दै सो मुद्दा त्यसकै सेरोफेरोमा हुने कुरेशीले बताए। भारतले भने कश्मीरमा मानवाधिकार उल्लङ्घन गर्दै आएको अस्वीकार गरेको छ। यसैबीच ब्रिटिश प्रधानमन्त्री बोरिस जन्सनले भारतका प्रधानमन्त्री नरेन्द्र मोदीलाई फोन गर्दै कश्मीर विवाद भारत र पाकिस्तानले संवादबाट समाधान गर्नुपर्ने बताएका छन्। अब के हुन्छ? पाकिस्तानले मुद्दा हाल्यो भने अन्तर्राष्ट्रिय अदालतको भूमिका यस विषयमा परामर्शदाताको जस्तो हुन्छ। तर दुवै देशले अदालतको निर्णय आफूलाई मान्य हुने कुरामा पहिला नै सहमति जनाए भने उसको भूमिका त्यतिमा सीमित हुँदैन। हालसालै हेगस्थित उक्त अदालतमा भारतले उसको एक नागरिक कुलभूषण जाधवलाई पाकिस्तानमा मृत्युदण्डको सजाय सुनाइएको विरुद्ध मुद्दा हालेको थियो। अन्तर्राष्ट्रिय अदालतले जासुस भएको आरोप लगाइएका भूतपूर्व भारतीय नौसैनिक अधिकारी कुलभूषण जाधवलाई सुनाइएको मृत्युदण्ड पुनरावलोकन गर्न पाकिस्तानलाई आदेश दिएको थियो। पाकिस्तानको अशान्त बलोचिस्तान प्रान्तमा सन् २०१६ मा समातिएका कुलभूषण जाधवलाई जासुस भएको भन्दै पाकिस्तानको सैनिक अदालतले अर्को वर्ष मृत्युदण्डको सजाय सुनाएको थियो। पछिल्लो विवादको पृष्ठभूमि यसै महिनाको सुरुमा भारत सरकारले विवादित कश्मीरको विशेष मान्यता खारेज गरेयता सो क्षेत्रमा चर्को तनाव छ। अगस्ट ५ तारिखमा भारत सरकारले कश्मीरसम्बन्धी निर्णय गरेपछि भारत-प्रशासित कश्मीरमा सुरक्षा कडिकडाउ तथा यातायात र सञ्चारमा सरकारी नियन्त्रण कायम गर्‍यो। भारत-पाकिस्तान विभाजनपछि भएका महत्त्वपूर्ण घटनाहरू यस्ता छन् सन् १९४७ मा ब्रिटिश शासनबाट मुक्त भएसँगै भारत र पाकिस्तान छुट्टिएर नयाँ स्वतन्त्र राष्ट्र बने। स्थापना कालदेखि नै यी दुई छिमेकी देशबीच कहिल्यैपनि सम्बन्ध सुमधुर हुन सकेन। सम्बन्धमा तिक्तताको केन्द्रमा सधैँ कश्मीर रह्यो। यस अवधिमा दुई देशबीच कैयौँ यस्ता घटना भए जसले कहिले युद्ध नै निम्त्यायो त कहिले चर्को तनाव। हाल भारत र पाकिस्तानमाझ पुन: चर्किएको तनावका माझ यी दुई दक्षिण एशियाली मुलुकहरूबीच यस अवधिमा भएका महत्त्वपूर्ण घटनाको सङ्क्षिप्त विवरण - अक्टोबर १९४७: भारत र पाकिस्तानबीच पहिलो युद्ध। स्वतन्त्र भएको केवल दुई महिनापश्चात् दुई छिमेकी कश्मीरलाई लिएर युद्धमा होमिए। भारतका जवाहरलाल नेहरु(बायाँ), ब्रिटिश इन्डियाका भाइसरोय लर्ड लुई माउन्टब्याटेन (बीचमा) र अल इन्डिया मुस्लिम लीगका अध्यक्ष महुम्मद अलि जिन्नाह(दायाँ) सन् १९४७ मा विभाजनबारे कुरा गर्दै अगस्ट १९६५: कश्मीरलाई नै लिएर दुई छिमेकीबीच अर्को छोटो युद्ध। डिसेम्बर १९७१: भारतद्वारा पूर्वी पाकिस्तान (वर्तमान बाङ्ग्लादेश) मा अतिक्रमण। इस्लामाबादको शासनविरुद्ध स्वतन्त्रताको लडाइँमा भारतको समर्थन। भारतीय वायुसेनाद्वारा पाकिस्तानी भूभागमा बम आक्रमण। बाङ्ग्लादेशको स्थापनासँगै युद्धको अन्त्य। सन् १९८९: कश्मीर उपत्यकामा भारतीय शासनविरुद्ध सशस्त्र विद्रोहको थालनी। फेब्रुअरी १९९९: भारतीय प्रधानमन्त्री अटल बिहारी वाजपेयीद्वारा पाकिस्तानी प्रधानमन्त्री नवाज शरिफसँग भेट्न र शान्ति सम्झौता गर्न बस चढेर पाकिस्तानको लाहोर प्रस्थान। मे १९९९: पाकिस्तानी सेना तथा विद्रोहीद्वारा कार्गिल पर्वतमा रहेका भारतीय सैनिक शिविर कब्जा। सीमित द्वन्द्व सुरु। भारतद्वारा हवाई तथा स्थल आक्रमणपश्चात् अतिक्रमणकारीहरू फिर्ता। मे २००१: भारतको आगरामा भारतीय प्रधानमन्त्री वाजपेयी र पाकिस्तानी राष्ट्रपति परवेज मुशर्रफको भेटवार्ता। कुनै सम्झौता हुन सकेन। अक्टोबर २००१: श्रीनगरस्थित कश्मीरको विधानसभामा आक्रमण। ३८ जनाको मृत्यु। १३ डिसेम्बर २००१: दिल्लीस्थित भारतीय संसद्‌मा भएको सशस्त्र आक्रमणमा १४ जनाको मृत्यु। मुलुक विभाजन गर्ने रेखा फेब्रुअरी २००७: भारत र पाकिस्तानबीच चल्ने सम्झौता एक्सप्रेस रेलमा बम विस्फोट। ६८ जनाको मृत्यु। २६ नोभेम्बर २००८: विद्रोहीहरूद्वारा मुम्बईस्थित मुख्य रेलवे स्टेशन, विलासी होटलहरू तथा एक यहुदी सांस्कृतिक केन्द्रमा आक्रमण। ६० घण्टे घटनामा १६६ जनाको मृत्यु। भारतद्वारा पाकिस्तानमा रहेको लश्कर-ए-तइबा समूहमाथि दोष। ज्यानुअरी २०१६: पठानकोटस्थित भारतीय वायुसेनाको अखाडामा भएको चार दिन लामो आक्रमणमा सात भारतीय सैनक र छ विद्रोहीको मृत्यु। १८ सेप्टेम्बर २०१६: भारत प्रशासित कश्मीरस्थित उरीमा रहेको सैन्य अखाडामा विद्रोहीद्वारा हमला। १९ सैनिकको मृत्यु। ३० सेप्टेम्बर २०१६: भारतद्वारा पाकिस्तानी कश्मीरमा सैन्य कारबाही 'सर्जिकल स्ट्राइक' गरेको भनाइ। पाकिस्तानद्वारा त्यस्तो कारबाही भएको अस्वीकार। १४ फेब्रुअरी २०१९: कश्मीरको पुलवामामा विद्रोहीद्वारा आत्मघाती विस्फोट। अर्धसैनिक बल सीआरपीएफका ४० भन्दा धेरैको मृत्यु। पाकिस्तानमा रहेको जैश-ए-मोहम्मद समूहद्वारा जिम्मेवारी स्वीकार। कश्मीरमा हजारौँ सुरक्षाकर्मी परिचालित छन् २६ फेब्रुअरी २०१९: भारत-पाकिस्तान सीमा उल्लङ्गघन गरेर भारतीय वायुसेनाद्वारा पाकिस्तानी भूभागमा आक्रमण। लडाकु समूह जैश-‍ए-मोहम्मदको शिविर नष्ट गरिएको भारतको भनाइ। ५ अगस्ट २०१९: भारतद्वारा भारत-प्रशासित जम्मू-कश्मीर राज्यलाई दिइएको संवैधानिक मान्यता खारेज।"
"""

summary = summarize_nepali(nepali_text)
print("Generated Summary in Nepali:")
print(summary)

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'T5Tokenizer'. 
The class this function is called from is 'MT5Tokenizer'.


Generated Summary in Nepali:
"पाकिस्तानले कश्मीरमा मानवाधिकार उल्लङ्घन गरेको भन्दै भारतले अन्तर्राष्ट्रिय अदालत गुहार्न गरेपछि भारत र पाकिस्तानबीच हस्तक्षेप विरुद्ध मुद्दा लैजाने निर्णय लिइएको छ।"
