# Import Lib

In [1]:
# import spacy
# nlp = spacy.load("mr")

In [1]:
import nltk
from nltk.tokenize.punkt import PunktSentenceTokenizer
from nltk.tokenize import word_tokenize
import PySimpleGUI as sg
from langdetect import detect
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
# !pip install nltk
# !python -m spacy download en

In [3]:
# !python -m spacy download xx_ent_wiki_sm

### Stemming

In [4]:
import os
import re
import spacy
import codecs
import mahaNLP
# Load the spaCy Multilingual model
from mahaNLP.preprocess import Preprocess
nlp = spacy.load('xx_ent_wiki_sm')

def load_text(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
        return text
    except FileNotFoundError:
        print(f"File not found: {file_path}")
        return None

def summarize_marathi_text(text, num_sentences):  # Language detection and validation
    detected_language = detect(text)
    if detected_language != 'mr':  # Marathi language code is 'mr'
        print("Please enter text in Marathi language.")
        return None  # Indicate failure or handle error message display

def preprocess_text(text):
    # Remove punctuation and digits
    text = re.sub(r'[^a-zA-Z\u0900-\u097F\s]', '', text)
    # Convert to lowercase
    text = text.lower()
    return text

def perform_marathi_stemming(text):
    doc = text.split(".")
    suffixes = {
        1: [u"ो", u"े", u"ू", u"ु", u"ी", u"ि", u"ा", u"च"],
        2: [u"चा", u"चे", u"ने", u"नी", u"ना", u"ते", u"ीं", u"तील", u"ात", u"ाँ", u"ां", u"ों", u"ें", u"तच", u"ता", u"ही",
            u"ले"],
        3: [u"ाचा", u"ाचे", u"तील", u"ानी", u"ाने", u"ाना", u"ाते", u"ाती", u"ाता", u"तीं", u"तून", u"तील", u"तही", u"तपण",
            u"कडे", u"ातच", u"हून", u"पणे", u"ाही", u"ाले"],
        4: [u"मधले", u"ातील", u"च्या", u"न्या", u"ऱ्या", u"ख्या", u"वर", u"साठी", u"ातून", u"कडून", u"मुळे", u"वरून",
            u"ातील", u"नीही", u"ातही", u"ातपण", u"ाकडे", u"पाशी", u"ाहून", u"ापणे", u"मधला"],
        5: [u"ामधले", u"ाच्या", u"ान्या", u"ाऱ्या", u"ाख्या", u"ावर", u"ासाठी", u"पासून", u"ाकडून", u"ामुळे", u"ावरून",
            u"कडेही", u"ानीही", u"ापाशी", u"ामधला", u"मध्ये"],
        6: [u"पर्यंत", u"ापासून", u"ाकडेही", u"पूर्वक", u"लेल्या", u"ामध्ये"],
        7: [u"ापर्यंत", u"प्रमाणे", u"तसुद्धा", u"ापूर्वक", u"ालेल्या"],
        8: [u"ाप्रमाणे", u"ातसुद्धा"],
    }
    preprocessed_text = []
    # print(doc)
    for each in doc:
        tokens = each.split(' ')
        cleaned_tokens = []
        for tok in tokens:
            if '-' in tok:
                subtokens = tok.split('-')
                cleaned_tokens.extend(subtokens)
            else:
                cleaned_tokens.append(tok.strip())

        stems = []
        for word in cleaned_tokens:
            for i in range(8, 0, -1):
                if len(word) > i + 1:
                    for suf in suffixes[i]:
                        if word.endswith(suf):
                            word = word[:-i]
            if word:
                stems.append(word)
        # if stems:
        preprocessed_text.append(' '.join(stems))
        # preprocessed_text += "."
    return preprocessed_text

# def perform_marathi_lemmatization(text):
#     doc = nlp(text)
#     lemmatized_words = [token.lemma_ for token in doc]
#     return lemmatized_words

In [5]:
marathi_text = '''एका गावात एक छोटा सुंदर मुलगा होता. त्याच्या नावाचं 'राहुल' होतं. राहुलने प्रत्येक दिवस शाळेत आणि घरीचं खेळायला मनापासून वाढवलं. त्याच्या आईबाबांनी त्याला प्रत्येक वेळी सांगितलं, "पुढचं शिका, पुढचं उभा आणि प्रत्येक क्षण आनंदाने जगा." 
एका दिवशी, राहुलने अपन्या मित्रांसोबत एका आग्रहाच्या खेळाचं स्वागत केलं. त्याच्या मनात वाटत होतं, "माझं स्वप्न याचं सफर कसं सुरू होतं आणि कसं आनंदाने संपतं, ते सर्वांसाठी आणि माझ्या आईबाबांसाठी कसं उपयोगी होतं."
त्याच्या आग्रहाच्या खेळाचं सुरू होतं आणि राहुल आणि त्याच्या मित्रांनी खूप आनंदाने खेळलं. त्यांना वेळ अद्याप अधिक मजा केला. राहुल आणि त्याच्या मित्रांनी साथीत खेळून खूप आनंदाने वेळ व्यतीत केलं.
खेळाच्या शेवटी, राहुलने समजलं की, सफर महत्त्वाचं असतं. त्याचं उद्दिष्टं नक्कीपणा प्राप्त करणं आणि त्याचं स्वप्न पूर्ण करणं हे महत्त्वाचं आहे. त्याने निरंतर यशस्वीपणे काम केलं आणि आपल्या स्वप्नांचं सफर पूर्ण केलं.
अखेर, त्याचं उद्दिष्ट साधलं आणि त्याचं स्वप्न साकार झालं. त्याचं परिश्रम आणि आत्मविश्वास ने त्याला प्रत्येकाला आणि समुदायाला प्रेरित केलं. राहुल आणि त्याचे मित्र एकत्र येऊन एकाच नात्याने सामाजिक सेवेत सहभागी झाले आणि स्वप्न साकार झाले.
सद्यस्थितीत, राहुलने आपलं स्वप्न पूर्ण केलं, आणि त्याने प्रत्येक क्षण आनंदाने जगा.'''

In [6]:
# marathi_text = """विस्तीर्ण पसरलेलं जंगल, जंगलातच उगम पावलेली आणि गावाला वेढा देणारी, आजूबाजूच्या डोंगरांना हिरवाई देणारी वाघई नदी, एका बाजूला जंगल तर बाकी तीन बाजूंना नदी आणि डोंगरदऱ्यांनी वेढलेलं टुमदार गाव- वाघदरा. पूर्वी मुबलक असणाऱ्या वाघांच्या संख्येमुळे हे नाव या नदीला आणि गावाला लाभलं होतं. गावात एक प्राथमिक शाळा, एक पोस्टाची पेटी. बाकी सारे व्यवहार करायला गावकऱ्यांना २० किमी लांब जावं लागत असे. दादाराव पाटील आल्यापासून तशी गरज जास्त उरली नव्हती हेही खरं. फोन वरून बरच कामे होत, शिवाय वाड्यावर कॉम्प्युटरवर होण्यासारखी सारी सरकारी कामे होऊन जात होती. वाड्यावर म्हणजे दादाराव पाटलांच्या वाड्यावर..
# जंगलाला लागून असलेला हा वाडा म्हणजे एक कोडं होतं. वाड्याचा पसारा मोठा म्हणजे जवळपास एकर भर.. नदी आणि जंगलाच्या आडोशाला जागा पाहून चाऱ्ही बाजूला पुरुषभर उंचीच्या दगडी भिंती जंगलाच्या बाजूला बांधलेला दोन मजली चौसोपी टुमदार वाडा. त्याच्यापुढं दगडी कुंपणाच्या बरोबरीनेच बांधलेला मोठाच्या मोठा गोठा, तबेला, कुत्र्यांसाठीची जाळीदार खोली. आणि अजून ८ खोल्या.. वाड्याच्या मुख्य दारापाशी दोन्ही बाजूला बैठकीच्या खोल्या. बाहेरून येणार जाणार सारे लोक आधी इथे थांबत आणि प्राथमिक चर्चा इथे होई, आणि मगच पुढं एन्ट्री. अर्थात गावाच्या कोणत्याही रहिवाश्याला वाड्यात बिनधोक प्रवेश होता. वाड्याच्या ह्या बैठकीत बसणारा बबन माने म्हणजे गावाचंच नाहीतर पंचक्रोशीचं चालतं बोलतं दप्तर.. खेडं असलं तरी गावात तरुण भरपूर होते आणि सारे शेती आणि त्याला पूरक व्यवसाय सांभाळून होते. बबन माने त्यातलाच एक हुन्नरी कलाकार.. पण याचं डोकं शेती ऐवजी इतर गोष्टीत जास्त, म्हणजे शेतकऱ्यांसाठी असणाऱ्या अनेक योजना शोधण्यापासून गावातल्या पोरापोरीची सोयरीक जुळवण्यापर्यंत, गावात येणाऱ्या प्रत्येक माणसाची जुजबी माहिती त्याच्यापर्यंत पोचायची, आणि वाड्यात येणार्यांची कुंडली.. आणि हे सगळं व्हायचं ते येणाऱ्या माणसाच्या नकळत. दादाराव पाटलांच्या वाड्यात वर्दळ कायम असायची. खरंतर दादाराव पाटलांचं आणि पाटलीणबाईंचं गावावर निःसीम प्रेम होतं. गाव तस बऱ्यापैकी लहानच होतं. जंगल आणि नदीमुळे गावात यायला जायला एकच रस्ता.. मुख्य हायवे पासून २५ किलोमीटर आत असलेलं हे एकुलतं एक गाव त्या रस्त्यावर होतं. फाट्यावर कायम एक रिक्षा किंवा जीप उभी असायची. त्यासोबत असलेली बबन्याच्या वडलांची चहा पानसुपारीची बारकी झोपडी, सोबतीला गावातलाच एखादा पोरगा दिवसभर आळीपाळीने असायचा.. तो आणि बबन्याचा बा सोडता माणसाचा मागमूस नाही. बबन्याचा बाप तसा सतत व्यस्त असायचा.. काथ्याचा दोर वळण्यात त्याचा हात कुणीच धरायचं नाही. बसल्या बसल्या दोर बनवायचा तर फाट्यावर झोपडीत बसून दोर वळ म्हणाला बबन्या. शिवाय एक अस्सल कारवानी उमदं कुत्रं आणून ठेवलं होतं ते एक. जनावर असं कि २००-३०० मीटर पासून जरी अनोळखी वास आला तर न भुकता बबन्याच्या बापाला जाऊन बरोबर सांगायचं. मग येणाऱ्या माणसाला थांबवून, पैसे देत असला तर विकत नाहीतर फुकट चहा पाजून बबन्याचा बाप, आलेला माणूस कोण, कुठला, गावात काय काम, किती दिस राहणार वगैरे बित्तम् बातमी काढायचा.. आपणच रघुला म्हणजे गावच्या रिक्षावाल्याला आवाज द्यायचा आणि गावात धाडायचा.. टोलनाकाच म्हणा ना.. एकुणात गाव आणि गावची माणसं बाकी जगापासून अलिप्तच राहायची..
# एका सधन गावातले सधन आदर्श शेतकरी हीच ओळख दादांची जपली गेली त्यात बबनचा हात मोठा होता. दादांच्याकडे येणारी इतर कामे बबनकडून येत. कामाच्या काठिण्य पातळीनुसार माणूस ठरवला जाई. टेक्नॉलॉजिचा भरपूर वापर होत असला तरी तो कुठे करायचा आणि कुठे नाही याची जाणीव दादांना होती. काही कामे पैश्यांसाठी तर काही कामे निव्वळ माणुसकीपोटी केली जात होती.
# पुण्यासारख्या मोठ्या शहरात एका गरीब पण होतकरू मुलाच्या घरात दिलेली वाघदर्याची मुलगी सुप्रिया, सुप्रियेच्या कॉलनीतली ती मुलगी जेव्हा रडत रडत घरी आली तेव्हा सुप्रिया वाण्याच्या दुकानात काहीतरी घ्यायला गेलेली. संध्याकाळी वेळ. आणि मुलीची एकंदर अवस्था पाहून सुप्रियेला गलबलून आलं. जेमतेम १७ वर्षाची ती नाजूक पोर, विस्कटलेले केस, ड्रेस पाठीवर फाटलेला, रक्ताळलेला ओठ. वाघदऱ्याच्या सुरक्षित वातावरणात वाढलेली सुप्रियेच्या काळजात चर्रर्र झालं. दोन वर्षांपूर्वी या वस्तीत आली असली तरी ती सगळ्यांना ओळखत होती. सुप्रिया त्या मुलीच्या- आरतीच्या पाठोपाठ घरी गेली. झाला प्रकार सांगायला आरती तयार नव्हती, पण सुप्रियेच्या मायेच्या स्पर्शाने तिला वाचा फुटली. जसजशी आरती सांगत होती, तसतशी सुप्रिया एकाच वेळी दुखावत आणि संतापत होती. सगळं ऐकून घेतल्यावर सुप्रियेने घरचा रस्ता धरला.. मनात साठवून ठेवलेलं सारं काही घरी पोचल्याबरोबर तिने तिच्या आईला भडाभडा सांगून टाकलं.. आणि तिच्या आईने वाड्याचा रस्ता धरला..
# सुप्रियाच्या आईने जशी सगळी हकीकत बबन्याला वाड्याच्या बैठकीत ऐकवली तशी ती निर्धास्त झाली. नाही म्हणायला तिलाही वाटलं होतंच कि असल्या गुंड असलेल्या वस्तीत आपली मुलगी कशी राहील.. पण वाड्यावर एकदा विषय पोहचला कि गावातलं कुणीही असो, ते निर्धास्त व्हायचे. बबन्याने लगोलग दादाराव पाटलांना वर्दी दिली. दादांनी सगळ्यात आधी आपला हुकमी एक्का जॉनीला परस्पर पुण्याला पाठवलं. जॉनी म्हणजे कोण तर गर्दीतला अनोळखी, लक्षात न राहणारा चेहरा. याचं खरं नाव कुणालाही माहित नव्हतं. जॉनीला ज्यांनी एकदा पाहिलं असेल ते दुसऱ्यांदा त्याला पाहिल्यावर ओळ्खतीलच अशी खात्री नव्हती इतका तो गर्दीत मिसळून जायचा. जॉनी पुण्याला पोहचला आणि कपडे- वेष बदलत एक दिवस मोन्याच्या मागोमाग फिरत त्याची माहिती काढत राहिला.. इकडे वाड्यावर दादांनी गावातला वैदू, सरकारी दवाखान्यातला डॉक्टर आणि बबन्याला घेऊन मिटिंग घेतली. वैदू वाड्याच्या मागच्या बाजूने जंगलात गेला, डॉक्टर आपल्या दवाखान्यात आणि बबन्याने गावातल्या भूषणला बोलावून घेतलं.. जॉनीने एव्हाना ठरल्या प्रोटोकॉलनुसार पुणे स्टेशनवर जाऊन मुंबई जाणारी गाडी पकडली. साधा कीपॅड मोबाईल असलेलं एक सावज हेरून त्याचा मोबाईल चोरला, आणि बबन्याला फोन करून म्हणाला कि "हैवानानं पोसलेला लांडगा, पिसाळून गेलाय" उत्तरादाखल बबनने फक्त म्हटलं, "पत्र पाठवतो". स्टेशनला उतरताना तो कीपॅड मोबाईल त्याच्या मूळ मालकाच्या पिशवीत पुन्हा पोहचला होता.
# दुसऱ्या दिवशी भूषण पुणे स्टेशनजवळ पोस्ट ऑफिसला पोहचला त्याने जॉनीला दुरूनच हेरलं आणि बॅगमधून एक पाकीट काढून ते सहज जॉनीपर्यंत पोचते करून तो आल्यापावली निघून गेला.
# पाकिटात एक लहानशी सिरिंज होती, ज्यात वैदूने दिलेला धोत्रा बियांचा विशुद्ध अर्क, आणि डॉक्टरने दिलेले स्ट्रॉंग aphrodisiac होते. लहानात लहान मात्रासुद्धा रक्तदाब वाढवून जीव घेईल असं ते जहाल इंजेक्शन होतं. रात्री चायनीजच्या गाड्याच्या जवळपासच ७ वाजल्यापासूनच जॉनी आपल्या शिकारीची वाट पाहत बसला होता. एक लहानसा धक्का, बारीकशी अगदी मच्छर चावला कि मुंगी अशी वाटावी अशी कळ, आणि थेट मुख्य धमनीत पोहोचलेलं ते जहाल विष.. मोन्याचा विषय आटोपला असला तरी त्याचा मालक अजून बाकी होता.."""

In [7]:
# marathi_text = input("Enter your Marathi text:\n")
# num_sentences = int(input("Enter the desired number of sentences for the summary: "))
num_sentences = 5

In [8]:
preproceed_text = preprocess_text(marathi_text)

In [9]:
# perform_marathi_lemmatization(preproceed_text)

In [10]:
Stemmed_text = perform_marathi_stemming(marathi_text)

In [11]:
Stemmed_text

['एक गाव एक छोट सुंदर मुलग हो',
 "त्य नावाचं 'राहुल' होतं",
 'राहुल प्रत्येक दिवस शाळेत आण घरीचं खेळायल मन वाढवलं',
 'त्य आईबाब त्याल प्रत्येक वेळ सांगितलं, "पुढचं शिका, पुढचं उभ आण प्रत्येक क्षण आनंद जग',
 '" एक दिवशी, राहुल अप मित्रांसोबत एक आग्रह खेळाचं स्वागत केलं',
 'त्य मन वाटत होतं, "माझं स्वप्न याचं सफर कसं सुर होतं आण कसं आनंद संपतं, ते सर्व आण माझ्य आईबाब कसं उपयोग होतं',
 '"\nत्य आग्रह खेळाचं सुर होतं आण राहुल आण त्य मित्र खूप आनंद खेळलं',
 'त्य वेळ अद्याप अधिक मज केल',
 'राहुल आण त्य मित्र साथीत खेळून खूप आनंद वेळ व्यतीत केलं',
 'खेळ शेवटी, राहुल समजलं की, सफर महत्त्वाचं असतं',
 'त्याचं उद्दिष्टं नक्कीपण प्राप्त करणं आण त्याचं स्वप्न पूर्ण करणं हे महत्त्वाचं आह',
 'त्य निरंतर यशस्व काम केलं आण आपल्य स्वप्नांचं सफर पूर्ण केलं',
 'अखेर, त्याचं उद्दिष्ट साधलं आण त्याचं स्वप्न साकार झालं',
 'त्याचं परिश्रम आण आत्मविश्वास ने त्याल प्रत्येकाल आण समुदायाल प्रेरित केलं',
 'राहुल आण त्य मित्र एकत्र येऊन एका नात्य सामाजिक सेवेत सहभाग झा आण स्वप्न साकार झा',
 'सद्यस्थितीत, राहुल आपलं 

### Functions

In [12]:
# !pip install fuzzywuzzy
# !pip install --upgrade fuzzywuzzy


In [13]:
def calculate_bigram_length(sentence):
    # Tokenize the sentence into words
    words = sentence.split()
    
    # Generate bigrams
    bigrams = [(words[i], words[i + 1]) for i in range(len(words) - 1)]
    
    # Return the number of bigrams
    return len(bigrams)

In [14]:
def calculate_trigram_length(sentence):
    # Tokenize the sentence into words
    words = sentence.split()
    
    # Generate trigrams
    trigrams = [(words[i], words[i + 1], words[i + 2]) for i in range(len(words) - 2)]
    
    # Return the number of trigrams
    return len(trigrams)

In [15]:
def calculate_tf_isf(sentence):
    # Tokenize the sentence into words
    words = sentence.split()
    
    # Calculate term frequency
    term_freq = {}
    for word in words:
        term_freq[word] = term_freq.get(word, 0) + 1
    
    # Calculate inverse sentence frequency
    inverse_sentence_freq = 1 / len(words)
    
    # Calculate TF-ISF for each term
    tf_isf = {}
    for word, freq in term_freq.items():
        tf_isf[word] = freq * inverse_sentence_freq

    summ = 0
    for val in  tf_isf.values():
        summ += val
    tf_isf = summ/len(words)
    
    return tf_isf

In [16]:
def calculate_sentence_length_factor(sentence, max_sentence_length):
    # Tokenize the sentence into words
    words = sentence.split()
    
    # Calculate the length of the sentence
    sentence_length = len(words)
    
    # Calculate the sentence length factor
    sentence_length_factor = sentence_length / max_sentence_length
    
    return sentence_length_factor

In [17]:
def calculate_numeric_tokens_ratio(sentence):
    # Tokenize the sentence into words
    words = sentence.split()
    
    # Count the number of numeric tokens
    numeric_count = sum(1 for word in words if word.isdigit())
    
    # Calculate the ratio of numeric tokens to total tokens
    if len(words) > 0:
        numeric_tokens_ratio = numeric_count / len(words)
    else:
        numeric_tokens_ratio = 0.0
    
    return numeric_tokens_ratio

In [18]:
def calculate_pos_factor(total_sentences, current_pos):
    """
    Calculate the Position Factor (POS factor) for a given sentence.

    Parameters:
    total_sentences (int): Total number of sentences in the document.
    current_pos (int): Position of the current sentence within the document.

    Returns:
    float: The calculated Position Factor.
    """
    return (total_sentences - current_pos) / total_sentences


In [19]:
def calculate_thematic_number(sentence, keywords):
    """
    Calculate the Thematic Number for a given sentence.

    Parameters:
    sentence (str): The input sentence.
    keywords (list): List of keywords representing main themes or topics of the document.

    Returns:
    float: The calculated Thematic Number.
    """
    # Tokenize the sentence into words
    words = sentence.split()
    
    # Count the number of keywords present in the sentence
    keyword_count = sum(1 for word in words if word in keywords)
    
    # Calculate the ratio of keywords in the sentence to the total number of keywords
    if len(keywords) > 0:
        thematic_number = keyword_count / len(keywords)
    else:
        thematic_number = 0.0
    
    return thematic_number


In [20]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

def calculate_centroid(preproceed_text):
    """
    Calculate the centroid of the document.

    Parameters:
    preproceed_text (list): List of preprocessed sentences from the document.

    Returns:
    dict: A dictionary representing the centroid of the document.
    """
#     # Initialize a TF-IDF vectorizer
#     vectorizer = TfidfVectorizer()
    
#     # Fit and transform the preprocessed text to compute TF-IDF vectors
#     tfidf_matrix = vectorizer.fit_transform(preproceed_text)
#     print("shape:", tfidf_matrix.shape)

#    # Compute the centroid vector
#     centroid_vector = np.mean(tfidf_matrix, axis=0)
#     centroid_dict = {feature: value for feature, value in zip(vectorizer.get_feature_names_out(), centroid_vector.toarray()[0])}
#     print(centroid_dict)

#     return centroid_dict
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(preproceed_text)

    # Calculate the centroid (average vector) of the Marathi sentences
    centroid = np.mean(X.toarray(), axis=0)
    # print(centroid)
    return vectorizer, centroid

    # Function to calculate cosine similarity between a Marathi sentence and the centroid
def cosine_similarity_with_centroid_marathi(sentence, centroid, vectorizer):
    sentence_vector = vectorizer.transform(sentence).toarray()
    similarity = cosine_similarity(sentence_vector, [centroid])
    print("similarity: ", similarity[0][0])
    return similarity[0][0]
    

In [21]:
import numpy as np
from scipy.sparse import csr_matrix

def convert_sparse_to_dense_general(sparse_matrix, num_rows, num_cols):
    """
    Convert a sparse matrix to a dense matrix with the specified dimensions.

    Args:
        sparse_matrix (scipy.sparse.csr_matrix): The input sparse matrix.
        num_rows (int): The desired number of rows in the dense matrix.
        num_cols (int): The desired number of columns in the dense matrix.

    Returns:
        numpy.ndarray: A dense matrix with the specified dimensions.
    """
    dense_matrix = np.zeros((num_rows, num_cols), dtype=sparse_matrix.dtype)
    rows, cols = sparse_matrix.nonzero()
    data = sparse_matrix.data

    for row, col, value in zip(rows, cols, data):
        if row < num_rows and col < num_cols:
            dense_matrix[row, col] = value

    return dense_matrix


In [22]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer



def calculate_cosine_similarity(sentence, document_centroid):
    """
    Calculate the cosine similarity between a sentence vector and the document centroid.

    Parameters:
    sentence (str): Sentence text.
    document_centroid (dict): Document centroid represented as a dictionary of TF-IDF values.

    Returns:
    float: Cosine similarity score.
    """
    # Convert document centroid dictionary to a sparse matrix
    document_vector = np.array([document_centroid])
    
    # Vectorize the sentence using the same TF-IDF vectorizer used for the document centroid
    vectorizer = TfidfVectorizer()
    sentence_vector = vectorizer.fit_transform([sentence])
    sentence_vector = convert_sparse_to_dense_general(sentence_vector, 1, 59)

    print(document_centroid)
    cosine_sim = cosine_similarity(sentence_vector, document_centroid)[0][0]
    print(cosine_sim)
    return cosine_sim



In [23]:
def calculate_sentence_scores(stemmed_text, total_sentences,  max_sentence_length):
    """
    Calculate scores for each sentence based on different metrics.

    Parameters:
    stemmed_text (list): List of preprocessed and stemmed sentences.
    total_sentences (int): Total number of sentences in the document.
    document_centroid (dict): Centroid of the document.
    max_sentence_length (int): Length of the longest sentence in the document.

    Returns:
    dict: Dictionary containing sentence indices as keys and corresponding scores as values.
    """
    sentence_scores = {}
    print(stemmed_text)
    for idx, sentence in enumerate(stemmed_text):
        try:
        # Calculate POS factor
            pos_factor = calculate_pos_factor(total_sentences, idx + 1)
            print("pos fact:",pos_factor)

            # Calculate Bigram token length
            bigram_length = calculate_bigram_length(sentence)
            print("bigram length:",bigram_length)

            # Calculate Trigram token length
            trigram_length = calculate_trigram_length(sentence)
            print("trigram length:",trigram_length)

            # Calculate TF-ISF vector
            tf_isf = calculate_tf_isf(sentence)
            print("tf isf:",tf_isf)

            # Calculate cosine similarity
            # cosine_similarity_score = cosine_similarity_with_centroid_marathi(sentence, document_centroid, vectorizer)
            # print("cosine similarity:",cosine_similarity_score)

            # Calculate thematic number
            thematic_number = calculate_thematic_number(sentence,[])
            print("thematic:",thematic_number)

            # Calculate sentence length factor
            sentence_length_factor = calculate_sentence_length_factor(sentence, max_sentence_length)
            print("sent len fac:",sentence_length_factor)

            # Calculate numeric tokens ratio
            numeric_tokens_ratio = calculate_numeric_tokens_ratio(sentence)
            print("num tockens ratio:",numeric_tokens_ratio)

            # Calculate sentence score using a combination of metrics
            sentence_score = (
                pos_factor
                + bigram_length
                + trigram_length
                + tf_isf
                # + cosine_similarity_score
                + thematic_number
                + sentence_length_factor
                + numeric_tokens_ratio
            )
        except: 
            sentence_score = 0
        # Store the sentence score
        sentence_scores[idx] = sentence_score

    return sentence_scores

In [24]:
def generate_summary(original_text, stemmed_text, sentence_scores, num_sentences=5):
    """
    Generate a summary based on the calculated sentence scores.

    Parameters:
    stemmed_text (list): List of preprocessed and stemmed sentences.
    sentence_scores (dict): Dictionary containing sentence indices as keys and corresponding scores as values.
    num_sentences (int): Number of sentences to include in the summary. Default is 5.

    Returns:
    str: The generated summary.
    """
    # Sort the sentences based on scores (in descending order)
    sorted_sentences = sorted(sentence_scores.items(), key=lambda x: x[1], reverse=True)
    # Select the top num_sentences sentences for the summary
    selected_sentences = sorted_sentences[:num_sentences]
    
    # Sort selected sentences based on their original order
    selected_sentences.sort(key=lambda x: x[0])
    doc = original_text.split(".")
    # Generate the summary by joining selected sentences
    print(doc)
    for idx, _ in selected_sentences:
        print(idx)
    summary = ' '.join(doc[idx] for idx, _ in selected_sentences)
    
    return summary


In [None]:
print(sentence_scores)

In [25]:
# Calculate total sentences
total_sentences = len(Stemmed_text)

# Calculate document centroid
# vectorizer, document_centroid = calculate_centroid(Stemmed_text)

# Calculate maximum sentence length
max_sentence_length = max(len(sentence.split()) for sentence in Stemmed_text)

# Calculate sentence scores
sentence_scores = calculate_sentence_scores(Stemmed_text, total_sentences, max_sentence_length)
Original_text = marathi_text
# Generate summary
summary = generate_summary(Original_text, Stemmed_text, sentence_scores, num_sentences)
print("summary:", summary)

['एक गाव एक छोट सुंदर मुलग हो', "त्य नावाचं 'राहुल' होतं", 'राहुल प्रत्येक दिवस शाळेत आण घरीचं खेळायल मन वाढवलं', 'त्य आईबाब त्याल प्रत्येक वेळ सांगितलं, "पुढचं शिका, पुढचं उभ आण प्रत्येक क्षण आनंद जग', '" एक दिवशी, राहुल अप मित्रांसोबत एक आग्रह खेळाचं स्वागत केलं', 'त्य मन वाटत होतं, "माझं स्वप्न याचं सफर कसं सुर होतं आण कसं आनंद संपतं, ते सर्व आण माझ्य आईबाब कसं उपयोग होतं', '"\nत्य आग्रह खेळाचं सुर होतं आण राहुल आण त्य मित्र खूप आनंद खेळलं', 'त्य वेळ अद्याप अधिक मज केल', 'राहुल आण त्य मित्र साथीत खेळून खूप आनंद वेळ व्यतीत केलं', 'खेळ शेवटी, राहुल समजलं की, सफर महत्त्वाचं असतं', 'त्याचं उद्दिष्टं नक्कीपण प्राप्त करणं आण त्याचं स्वप्न पूर्ण करणं हे महत्त्वाचं आह', 'त्य निरंतर यशस्व काम केलं आण आपल्य स्वप्नांचं सफर पूर्ण केलं', 'अखेर, त्याचं उद्दिष्ट साधलं आण त्याचं स्वप्न साकार झालं', 'त्याचं परिश्रम आण आत्मविश्वास ने त्याल प्रत्येकाल आण समुदायाल प्रेरित केलं', 'राहुल आण त्य मित्र एकत्र येऊन एका नात्य सामाजिक सेवेत सहभाग झा आण स्वप्न साकार झा', 'सद्यस्थितीत, राहुल आपलं स्वप्न पूर्ण के

In [26]:
# # # Summarize the text
# summary = generate_summary(Original_text, Stemmed_text, sentence_scores, num_sentences)
# print("Summary: ",summary)

## GUI PART

In [21]:
import PySimpleGUI as sg
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Define the layout of the GUI
layout = [
    [sg.Text('Enter your Marathi text:')],
    [sg.Multiline(key='-TEXT-', size=(800, 12))],
    [sg.Text('Enter the desired number of sentences for the summary:')],
    [sg.InputText(key='-NUM_SENTENCES-'), sg.Button('Generate Summary'), sg.Button('Reset'), sg.Button('Exit')],
    [sg.Text(size=(60, 12), key='-OUTPUT-')],
]

# Create the window
window = sg.Window('Marathi Text Summarizer', layout, size=(1000, 600))

# Define the functions needed for summarization
def preprocess_text(text):
    # Preprocessing steps
    return text

# def calculate_centroid(preproceed_text):
#     vectorizer = TfidfVectorizer()
#     tfidf_matrix = vectorizer.fit_transform(preproceed_text)
#     centroid_vector = np.mean(tfidf_matrix, axis=0)
#     return centroid_vector

def convert_sparse_to_dense_general(sparse_matrix, num_rows, num_cols):
    dense_matrix = np.zeros((num_rows, num_cols), dtype=sparse_matrix.dtype)
    rows, cols = sparse_matrix.nonzero()
    data = sparse_matrix.data
    for row, col, value in zip(rows, cols, data):
        if row < num_rows and col < num_cols:
            dense_matrix[row, col] = value
    return dense_matrix

# def calculate_cosine_similarity(sentence, document_centroid):
#     document_vector = np.array([document_centroid])    
#     vectorizer = TfidfVectorizer()
#     sentence_vector = vectorizer.fit_transform([sentence])
#     sentence_vector = convert_sparse_to_dense_general(sentence_vector, 1, 59)
#     cosine_sim = cosine_similarity(sentence_vector, document_vector.reshape(1, -1))[0][0]
#     return cosine_sim

def calculate_sentence_scores(stemmed_text, total_sentences,  max_sentence_length):
    sentence_scores = {}

    for idx, sentence in enumerate(stemmed_text):
        try:
            pos_factor = calculate_pos_factor(total_sentences, idx + 1)
            bigram_length = calculate_bigram_length(sentence)
            trigram_length = calculate_trigram_length(sentence)
            tf_isf = calculate_tf_isf(sentence)
            # cosine_similarity_score = calculate_cosine_similarity(sentence, document_centroid)
            thematic_number = calculate_thematic_number(sentence,[])
            sentence_length_factor = calculate_sentence_length_factor(sentence, max_sentence_length)
            numeric_tokens_ratio = calculate_numeric_tokens_ratio(sentence)
            sentence_score = (
                pos_factor
                + bigram_length
                + trigram_length
                + tf_isf
                # + cosine_similarity_score
                + thematic_number
                + sentence_length_factor
                + numeric_tokens_ratio
            )
        except: 
            sentence_score = 0
        sentence_scores[idx] = sentence_score
    return sentence_scores

def generate_summary(original_text, stemmed_text, sentence_scores, num_sentences=5):
    sorted_sentences = sorted(sentence_scores.items(), key=lambda x: x[1], reverse=True)    
    selected_sentences = sorted_sentences[:num_sentences]    
    selected_sentences.sort(key=lambda x: x[0])
    doc = original_text.split(".")
    summary = ' '.join(doc[idx] for idx, _ in selected_sentences)
    return summary

def calculate_bigram_length(sentence):
    return 0

def calculate_trigram_length(sentence):
    return 0

def calculate_tf_isf(sentence):
    return 0

def calculate_sentence_length_factor(sentence, max_sentence_length):
    return 0

def calculate_numeric_tokens_ratio(sentence):
    return 0

def calculate_pos_factor(total_sentences, current_pos):
    return 0

def calculate_thematic_number(sentence, keywords):
    return 0

# Event loop
while True:
    event, values = window.read()
    if event == sg.WINDOW_CLOSED or event == 'Exit':
        break
    elif event == 'Generate Summary' or (event == '\r' and values['-TEXT-'] != ''):
        # Get input values
        marathi_text = values['-TEXT-']
        num_sentences = int(values['-NUM_SENTENCES-'])
        
        # Preprocess text
        preprocessed_text = preprocess_text(marathi_text)
        stemmed_text = perform_marathi_stemming(marathi_text)
        
        # Calculate total sentences
        total_sentences = len(stemmed_text)
        
        # Calculate document centroid
        # document_centroid = calculate_centroid(stemmed_text)
        
        # Calculate maximum sentence length
        max_sentence_length = max(len(sentence.split()) for sentence in stemmed_text)
        
        # Calculate sentence scores
        sentence_scores = calculate_sentence_scores(stemmed_text, total_sentences,  max_sentence_length)
        
        # Generate summary
        summary = generate_summary(marathi_text, stemmed_text, sentence_scores, num_sentences)
        
        # Update output in GUI
        window['-OUTPUT-'].update(summary)
    elif event == 'Reset':
        # Clear input and output fields
        window['-TEXT-'].update('')
        window['-NUM_SENTENCES-'].update('')
        window['-OUTPUT-'].update('')

# Close the window
window.close()


ValueError: invalid literal for int() with base 10: ''

: 

In [73]:
# import numpy as np

# def calculate_pos_factor(total_sentences, current_pos):
#     return (total_sentences - current_pos) / total_sentences

# def calculate_bigram_token_length(sentence):
#     # Tokenize the sentence
#     tokens = sentence.split()
#     # Calculate bigram token length
#     return len(tokens) - 1

# def calculate_trigram_token_length(sentence):
#     # Tokenize the sentence
#     tokens = sentence.split()
#     # Calculate trigram token length
#     return len(tokens) - 2

# def calculate_tf_isf(sentence):
#     term_freq = len(sentence.split())  # Term frequency is the number of words in the sentence
#     sent_freq = 1  # For now, assuming each sentence appears once
#     vocab_pos = 1  # Not sure how this should be calculated, so using a placeholder value
#     return term_freq / (sent_freq * vocab_pos)

# def calculate_cosine_similarity(sentence_vectors, centroid_vector):
#     return np.dot(sentence_vectors, centroid_vector) / (np.linalg.norm(sentence_vectors) * np.linalg.norm(centroid_vector))

# def calculate_thematic_number(sentence, total_keywords):
#     keywords_in_sentence = len([word for word in sentence.split() if is_keyword(word)])  # Assuming is_keyword is a function that checks if a word is a keyword
#     return keywords_in_sentence / total_keywords

# def calculate_sentence_length_factor(sentence_length, max_sentence_length):
#     return sentence_length / max_sentence_length

# def calculate_numeric_tokens(sentence):
#     # Tokenize the sentence
#     tokens = sentence.split()
#     # Check if there are tokens in the sentence
#     if len(tokens) == 0:
#         return 0
#     # Calculate numeric tokens
#     numeric_count = sum(token.isdigit() for token in tokens)
#     return numeric_count / len(tokens)

# def fuzzy_logic_score(preprocessed_text):
#     total_sentences = len(preprocessed_text)
#     scores = []

#     for idx, sentence in enumerate(preprocessed_text, start=1):
#         current_pos = idx
#         pos_factor = calculate_pos_factor(total_sentences, current_pos)
#         bigram_token_length = calculate_bigram_token_length(sentence)
#         trigram_token_length = calculate_trigram_token_length(sentence)
#         tf_isf = calculate_tf_isf(sentence)
#         cosine_similarity = calculate_cosine_similarity(sentence_data['sentence_vector'], sentence_data['centroid_vector'])
#         thematic_number = calculate_thematic_number(sentence, total_keywords)  # Assuming total_keywords is available
#         sentence_length_factor = calculate_sentence_length_factor(len(sentence), max_sentence_length)  # Assuming max_sentence_length is available
#         numeric_tokens = calculate_numeric_tokens(sentence)
        
#         # Apply fuzzy logic rules and return the score
#         if pos_factor >= 0.5 and sentence_length_factor >= 0.5 and thematic_number >= 0.5 and numeric_tokens >= 0.5:
#             scores.append('good')
#         elif pos_factor <= 0.2 and sentence_length_factor <= 0.2 and numeric_tokens <= 0.2:
#             scores.append('bad')
#         elif thematic_number <= 0.2:
#             scores.append('bad')
#         elif cosine_similarity >= 0.5:
#             scores.append('good')
#         elif bigram_token_length >= 0.5 and trigram_token_length >= 0.5 and numeric_tokens <= 0.5:
#             scores.append('average')
#         else:
#             scores.append('average')

#     return scores

# # Example usage:
# preprocessed_text = perform_marathi_stemming("मी एका विद्यार्थी आहे. माझं आवडतं खेळ फुटबॉल आहे.")

# scores = fuzzy_logic_score(preprocessed_text)
# print(scores)


In [74]:
# def perform_marathi_stemming(text):
#     doc = text.split(".")
#     suffixes = {
#         1: [u"ो", u"े", u"ू", u"ु", u"ी", u"ि", u"ा", u"च"],
#         2: [u"चा", u"चे", u"ने", u"नी", u"ना", u"ते", u"ीं", u"तील", u"ात", u"ाँ", u"ां", u"ों", u"ें", u"तच", u"ता", u"ही",
#             u"ले"],
#         3: [u"ाचा", u"ाचे", u"तील", u"ानी", u"ाने", u"ाना", u"ाते", u"ाती", u"ाता", u"तीं", u"तून", u"तील", u"तही", u"तपण",
#             u"कडे", u"ातच", u"हून", u"पणे", u"ाही", u"ाले"],
#         4: [u"मधले", u"ातील", u"च्या", u"न्या", u"ऱ्या", u"ख्या", u"वर", u"साठी", u"ातून", u"कडून", u"मुळे", u"वरून",
#             u"ातील", u"नीही", u"ातही", u"ातपण", u"ाकडे", u"पाशी", u"ाहून", u"ापणे", u"मधला"],
#         5: [u"ामधले", u"ाच्या", u"ान्या", u"ाऱ्या", u"ाख्या", u"ावर", u"ासाठी", u"पासून", u"ाकडून", u"ामुळे", u"ावरून",
#             u"कडेही", u"ानीही", u"ापाशी", u"ामधला", u"मध्ये"],
#         6: [u"पर्यंत", u"ापासून", u"ाकडेही", u"पूर्वक", u"लेल्या", u"ामध्ये"],
#         7: [u"ापर्यंत", u"प्रमाणे", u"तसुद्धा", u"ापूर्वक", u"ालेल्या"],
#         8: [u"ाप्रमाणे", u"ातसुद्धा"],
#     }
#     preprocessed_text = ""
#     print(doc)
#     for each in doc:
#         tokens = each.split(' ')
#         cleaned_tokens = []
#         for tok in tokens:
#             if '-' in tok:
#                 subtokens = tok.split('-')
#                 cleaned_tokens.extend(subtokens)
#             else:
#                 cleaned_tokens.append(tok.strip())

#         stems = []
#         for word in cleaned_tokens:
#             for i in range(8, 0, -1):
#                 if len(word) > i + 1:
#                     for suf in suffixes[i]:
#                         if word.endswith(suf):
#                             word = word[:-i]
#             if word:
#                 stems.append(word)
#         preprocessed_text += ' '.join(stems)
#         preprocessed_text += "."
#     return preprocessed_text


# # Example usage:
# input_text = """एका गावात एक छोटा सुंदर मुलगा होता. त्याच्या नावाचं 'राहुल' होतं. राहुलने प्रत्येक दिवस शाळेत आणि घरीचं खेळायला मनापासून वाढवलं. त्याच्या आईबाबांनी त्याला प्रत्येक वेळी सांगितलं, "पुढचं शिका, पुढचं उभा आणि प्रत्येक क्षण आनंदाने जगा." 

# एका दिवशी, राहुलने अपन्या मित्रांसोबत एका आग्रहाच्या खेळाचं स्वागत केलं. त्याच्या मनात वाटत होतं, "माझं स्वप्न याचं सफर कसं सुरू होतं आणि कसं आनंदाने संपतं, ते सर्वांसाठी आणि माझ्या आईबाबांसाठी कसं उपयोगी होतं."

# त्याच्या आग्रहाच्या खेळाचं सुरू होतं आणि राहुल आणि त्याच्या मित्रांनी खूप आनंदाने खेळलं. त्यांना वेळ अद्याप अधिक मजा केला. राहुल आणि त्याच्या मित्रांनी साथीत खेळून खूप आनंदाने वेळ व्यतीत केलं.

# खेळाच्या शेवटी, राहुलने समजलं की, सफर महत्त्वाचं असतं. त्याचं उद्दिष्टं नक्कीपणा प्राप्त करणं आणि त्याचं स्वप्न पूर्ण करणं हे महत्त्वाचं आहे. त्याने निरंतर यशस्वीपणे काम केलं आणि आपल्या स्वप्नांचं सफर पूर्ण केलं.

# अखेर, त्याचं उद्दिष्ट साधलं आणि त्याचं स्वप्न साकार झालं. त्याचं परिश्रम आणि आत्मविश्वास ने त्याला प्रत्येकाला आणि समुदायाला प्रेरित केलं. राहुल आणि त्याचे मित्र एकत्र येऊन एकाच नात्याने सामाजिक सेवेत सहभागी झाले आणि स्वप्न साकार झाले.

# सद्यस्थितीत, राहुलने आपलं स्वप्न पूर्ण केलं, आणि त्याने प्रत्येक क्षण आनंदाने जगा."""
# output_text = perform_marathi_stemming(input_text)
# print(output_text)


# test

In [75]:
# def summarize_marathi_text(text, num_sentences, sentence_priorities=None):
#   """
#   This function summarizes a Marathi text document with priority consideration (optional).

#   Args:
#       text: The Marathi text as a string.
#       num_sentences: The desired number of sentences in the summary.
#       sentence_priorities: A list containing priority values for each sentence (same order as sentences). Defaults to None (no priority consideration).

#   Returns:
#       A string containing the summarized text, or an informative message if there are fewer sentences than requested.
#   """
#   # Language detection and validation (same as before)

#   # Sentence segmentation
#   tokenizer = PunktSentenceTokenizer()
#   sentences = tokenizer.tokenize(text)

#   # Combine sentences and priorities (if provided)
#   if sentence_priorities is not None:
#       if len(sentences) != len(sentence_priorities):
#           raise ValueError("Number of sentences and priorities must match.")
#       sentence_data = list(zip(sentences, sentence_priorities))
#   else:
#       sentence_data = list(enumerate(sentences))  # Enumerate for indexing

#   # Handle cases with fewer sentences than requested
#   if len(sentence_data) < num_sentences:
#       available_sentences = len(sentence_data)
#       print(f"The text has only {available_sentences} sentences. Returning the available sentences as summary.")
#       summary_data = sentence_data[:available_sentences]
#   else:
#       # No priority consideration (use original order)
#       summary_data = sentence_data[:num_sentences]

#   # Extract sentences while maintaining order
#   summary = [sentence for index, sentence in summary_data]

#   return " ".join(summary)


# def main():
#     nltk.download('punkt')

#     layout = [
#         [sg.Text("Enter your Marathi text:", font=("Arial", 12, "bold"))],
#         [sg.Multiline(key="marathi_text", size=(800, 12), font=("Arial", 12))],  # Input Box
#         [sg.Text("Number of sentences for summary:", font=("Arial", 12, "bold"))],
#         [sg.Spin([i for i in range(1, 11)], initial_value=2, key="num_sentences")],
#         [sg.Text("Sentence Priorities (separated by spaces):", font=("Arial", 12, "bold"))],
#         [sg.InputText("", key="priority_input", font=("Arial", 12))],  # Priority input field
#         [sg.Button("Summarize"), sg.Exit(), sg.Button("Reset")],
#         [sg.Output(size=(800, 12), key="summary_output", font=("Arial", 12))]  # Use Output for multi-line display
#     ]

#     window = sg.Window("Marathi Text Summarizer", layout, size=(1000, 600))

#     while True:
#         event, values = window.read()
#         if event in (sg.WIN_CLOSED, 'Exit'):
#             break
#         elif event == 'Summarize':
#             marathi_text = values["marathi_text"]
#             try:
#                 num_sentences = int(values["num_sentences"])
#                 # Get sentence priorities from user input
#                 sentence_priorities = [int(p) for p in values["priority_input"].split()]  # Split user input
#                 if len(sentence_priorities) != len(marathi_text.split(". ")):  # Validate priority count
#                     raise ValueError("Number of priorities must match the number of sentences.")

#                 summary = summarize_marathi_text(marathi_text, num_sentences, sentence_priorities)
#                 window["summary_output"].update(summary)
#             except ValueError:
#                 # Handle invalid number of sentences or priorities
#                 window["summary_output"].update("Invalid input. Please enter integers for number of sentences and priorities (separated by spaces).")
#             except Exception as e:
#                 # Broader exception handling (optional)
#                 window["summary_output"].update(f"An error occurred: {str(e)}")
#         elif event == 'Reset':
#             # Clear input and output, ready for new text
#             window["summary_output"].update("")
#             window["marathi_text"]

#     if event == 'Summarize':
#         marathi_text = values["marathi_text"]
#         try:
#             num_sentences = int(values["num_sentences"])
#             # Get sentence priorities from user input (modify as needed)
#             sentence_priorities = [int(p) for p in values["priority_input"].split()]  # Example: split user input

#             summary = summarize_marathi_text(marathi_text, num_sentences, sentence_priorities)
#             window["summary_output"].update(summary)
#         except ValueError:
#             # Handle invalid number of sentences or priorities
#             window["summary_output"].update("Invalid input. Please enter integers for number of sentences and priorities (separated by spaces).")
#         except Exception as e:
#             # Broader exception handling (optional)
#             window["summary_output"].update(f"An error occurred: {str(e)}")

# if __name__ == "__main__":
#     main()


# Function 1 paragraph

In [76]:
# def summarize_marathi_text(text, num_sentences):
#   # Language detection and validation
#   detected_language = detect(text)
#   if detected_language != 'mr':  # Marathi language code is 'mr'
#     print("Please enter text in Marathi language.")
#     return None  # Indicate failure or handle error message display

#   # Sentence segmentation
#   tokenizer = PunktSentenceTokenizer()
#   sentences = tokenizer.tokenize(text)

#   # Sentence scoring (basic approach)
#   sentence_scores = []
#   for sentence in sentences:
#       score = 0  # Initialize score for each sentence

#       # Sentence length score (favor moderate length)
#       avg_length = sum(len(s) for s in sentences) / len(sentences)
#       length_diff = abs(len(sentence) - avg_length)
#       score += 0.1 - (length_diff * 0.005)  # Penalty for extreme lengths

#       sentence_scores.append(score)
      
#   # Sort sentences with scores
#   sorted_sentences = sorted(zip(sentences, sentence_scores), key=lambda x: x[1], reverse=True)

#   # Handle cases with fewer sentences than requested
#   if len(sorted_sentences) < num_sentences:
#       available_sentences = len(sorted_sentences)
#       print(f"The text has only {available_sentences} sentences. Returning the available sentences as summary.")
#       summary = [sentence for sentence, _ in sorted_sentences[:available_sentences]]  # Get only available sentences
#   else:
#       # Select top sentences as before
#       summary = [sentence for sentence, _ in sorted_sentences[:num_sentences]]

#   return " ".join(summary)


# Function 2 Sentences

In [77]:
# from nltk.tokenize import PunktSentenceTokenizer, word_tokenize


# def summarize_marathi_text(text, num_sentences):
# #   # Language detection and validation
#   detected_language = detect(text)
#   if detected_language != 'mr':  # Marathi language code is 'mr'
#     print("Please enter text in Marathi language.")
#     return None  # Indicate failure or handle error message display
  
#   # Sentence segmentation
#   tokenizer = PunktSentenceTokenizer()
#   sentences = tokenizer.tokenize(text)

#   # Basic sentence scoring approach (modify as needed)
#   sentence_scores = []
#   for sentence in sentences:
#       score = 0  # Initialize score for each sentence

#       # Sentence length score (favor moderate length)
#       avg_length = sum(len(s) for s in sentences) / len(sentences)
#       length_diff = abs(len(sentence) - avg_length)
#       score += 0.1 - (length_diff * 0.005)  # Penalty for extreme lengths

#       # Add more scoring criteria here (e.g., keyword frequency, position)

#       sentence_scores.append(score)

#   # Sort sentences with scores (descending order)
#   sorted_sentences = sorted(zip(sentences, sentence_scores), key=lambda x: x[1], reverse=True)

#   # Extract top-ranked sentences
#   top_sentences = [sentence for sentence, _ in sorted_sentences[:num_sentences]]

#   # Tokenize words in each top-ranked sentence
#   tokenized_sentences = []
#   for sentence in top_sentences:
#       tokenized_words = word_tokenize(sentence)
#       tokenized_sentences.append(tokenized_words)

#   # Return list of tokenized words from top ranked sentences
#   return tokenized_sentences


# def main():
#   nltk.download('punkt')

#   layout = [
#       [sg.Text("Enter your Marathi text:", font=("Arial", 12, "bold"))],
#       [sg.Multiline(key="marathi_text", size=(800, 12), font=("Arial", 12))],  # Input Box
#       [sg.Text("Number of sentences for summary:", font=("Arial", 12, "bold"))],
#       [sg.Spin([i for i in range(1, 11)], initial_value=2, key="num_sentences")],
#       [sg.Button("Summarize"), sg.Exit(), sg.Button("Reset")],
#       [sg.Output(size=(800, 12), key="summary_output", font=("Arial", 12))]  # Use Output for multi-line display
#   ]

#   window = sg.Window("Marathi Text Summarizer", layout, size=(1000, 600))

#   while True:
#         event, values = window.read()
#         if event in (sg.WIN_CLOSED, 'Exit'):
#           break    

#         elif event == 'Summarize':
#             marathi_text = values["marathi_text"]
#             try:
#                 num_sentences = int(values["num_sentences"])

#                 tokenized_summary = summarize_marathi_text(marathi_text, num_sentences)

#                 # Example: Print or display the tokenized summary (modify as needed)
#                 for sentence in tokenized_summary:
#                     print(" ".join(sentence))

#             except ValueError:
#                 # Handle invalid number of sentences
#                 window["summary_output"].update("Invalid input. Please enter an integer for the number of sentences.")
#             except Exception as e:
#                 # Broader exception handling (optional)
#                 window["summary_output"].update(f"An error occurred: {str(e)}")

# if __name__ == "__main__":
#     main()


# Function 3 

In [78]:
# def summarize_marathi_text(text, num_sentences, keywords=None):

# # Language detection and validation
#   detected_language = detect(text)
#   if detected_language != 'mr':  # Marathi language code is 'mr'
#     print("Please enter text in Marathi language.")
#     return None  # Indicate failure or handle error message display
  
#   # Sentence segmentation
#   tokenizer = PunktSentenceTokenizer()
#   sentences = tokenizer.tokenize(text)

#   # Keyword frequency calculation (if keywords provided)
#   if keywords:
#       word_counts = Counter(word_tokenize(text.lower()))  # Lowercase for case-insensitive matching
#       keyword_scores = {word: word_counts[word] for word in keywords}  # Count occurrences of each keyword
#   else:
#       keyword_scores = {}  # Empty dictionary if no keywords provided

#   # Sentence scoring approach (consider length and keyword frequency)
#   sentence_scores = []
#   for i, sentence in sentences:
#       score = 0  # Initialize score for each sentence

#       # Sentence length score (favor moderate length)
#       avg_length = sum(len(s) for s in sentences) / len(sentences)
#       length_diff = abs(len(sentence) - avg_length)
#       score += 0.1 - (length_diff * 0.005)  # Penalty for extreme lengths

#       # Keyword frequency score (if keywords provided)
#       for word, count in keyword_scores.items():
#           if word in sentence.lower():  # Lowercase for case-insensitive matching
#               score += count * 0.05  # Adjust weight as needed
      
#       # Positional weight
#       position_weight = (len(sentences) - i) / len(sentences)
#       score += position_weight * 0.2
      
#       # Named entity recognition (example: prioritize sentences with people)
#       entities = nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(sentence)))
#       for entity in entities:
#           if type(entity) == nltk.Tree and entity.label() == 'PERSON':
#               score += 0.1

#       sentence_scores.append(score)

#   # Sort sentences with scores (descending order)
#   sorted_sentences = sorted(zip(sentences, sentence_scores), key=lambda x: x[1], reverse=True)

#   # Extract top-ranked sentences
#   top_sentences = [sentence for sentence, _ in sorted_sentences[:num_sentences]]

#   # Tokenize words in each top-ranked sentence
#   tokenized_sentences = []
#   for sentence in top_sentences:
#       tokenized_words = word_tokenize(sentence)
#       tokenized_sentences.append(tokenized_words)

#   # Return list of tokenized words from top ranked sentences
#   return tokenized_sentences


# def main():

#     nltk.download('punkt')

#     layout = [
#         [sg.Text("Enter your Marathi text:", font=("Arial", 12, "bold"))],
#         [sg.Multiline(key="marathi_text", size=(800, 12), font=("Arial", 12))],  # Input Box
#         [sg.Text("Number of sentences for summary:", font=("Arial", 12, "bold"))],
#         [sg.Spin([i for i in range(1, 11)], initial_value=2, key="num_sentences")],
#         [sg.Button("Summarize"), sg.Exit(), sg.Button("Reset")],
#         [sg.Output(size=(800, 12), key="summary_output", font=("Arial", 12))]  # Use Output for multi-line display
#     ]

#     window = sg.Window("Marathi Text Summarizer", layout, size=(1000, 600))

#     while True:
#             event, values = window.read()
#             if event in (sg.WIN_CLOSED, 'Exit'):
#                 break

#             elif event == 'Summarize':
#                 marathi_text = values["marathi_text"]
#                 try:
#                     num_sentences = int(values["num_sentences"])
#                     keywords = [str(keyword).lower() for keyword in values.get("keywords", [])]  # Get optional keywords (lowercase)

#                     tokenized_summary = summarize_marathi_text(marathi_text, num_sentences, keywords)

#                     # Example: Print or display the tokenized summary (modify as needed)
#                     for sentence in tokenized_summary:
#                         print(" ".join(sentence))

#                 except ValueError:
#                     # Handle invalid number of sentences
#                     window["summary_output"].update("Invalid input. Please enter integers for number of sentences and keywords (optional).")
#                 except Exception as e:
#                     # Broader exception handling (optional)
#                     window["summary_output"].update(f"An error occurred: {str(e)}")

# if __name__ == "__main__":
#     main()

# GUI Display

In [79]:
# def main():
#   nltk.download('punkt')

#   layout = [
#       [sg.Text("Enter your Marathi text:", font=("Arial", 12, "bold"))],
#       [sg.Multiline(key="marathi_text", size=(800, 12), font=("Arial", 12))],  # Input Box
#       [sg.Text("Number of sentences for summary:", font=("Arial", 12, "bold"))],
#       [sg.Spin([i for i in range(1, 11)], initial_value=5, key="num_sentences")],
#       [sg.Button("Summarize"), sg.Exit(), sg.Button("Reset")],
#       [sg.Output(size=(800, 12), key="summary_output", font=("Arial", 12))]  # Use Output for multi-line display
#   ]

#   window = sg.Window("Marathi Text Summarizer", layout, size=(1000, 600))

#   while True:
#       event, values = window.read()
#       if event in (sg.WIN_CLOSED, 'Exit'):
#           break
#       elif event == 'Summarize':
#           marathi_text = values["marathi_text"]
#           try:
#               num_sentences = int(values["num_sentences"])
#               summary = summarize_marathi_text(marathi_text, num_sentences)
#               window["summary_output"].update(summary)  # Display summary
#           except ValueError:
#               # Handle invalid number of sentences
#               window["summary_output"].update("Invalid number of sentences. Please enter an integer between 1 and 10.")
#           except Exception as e:  # Broader exception handling (optional)
#               window["summary_output"].update(f"An error occurred: {str(e)}")
#       elif event == 'Reset':
#           # Clear input and output, ready for new text
#           window["summary_output"].update("")
#           window["marathi_text"].update("")

#   window.close()  # Also clear input box on exit
#   window["marathi_text"].update("")  # Optional: Clear input box on exit

# if __name__ == "__main__":
#   main()

# Method 1 : direct input of text

In [80]:
# marathi_text = """कमळ हे फूल मंद सुवासिक व आकर्षक असल्यामुळे ते सर्वाना आवडते. पांढरा, लाल ,गुलाबी, काळपट जांभळा असे कमळाचे विविध रंग असतात. कमळाची पाने मोठी व लेबगोल आकाराची असतात. कमळाच्या फुलाच्या देठांमध्ये हवेच्या पोकळया असतात. देळाची लांबी जास्त असते, दंठाचा रंग पाढरट- हिरवा असतो, देठाच्या पोकळीत हवा व पाणी भरल्याने हे देठ पाण्यावर ताठ उभे राहतात. कमळाच्या पानावर मेणासारखा पातळ थर असतो.त्यामुळे पाण्यात राहूनही ही पाने कुजत नाहीत. सरोवरात उमलणारी कमळे, ब्रह्मकमळ, कृष्णकमळ असे या फुलांचे प्रकार आहेत. ही फुले सरोवरात आणि तलावात उमलतात. ब्रम्हमकमळाचे रोप किंवा बी नसते. या फुलझाडांचे पान कुंडीत किंवा जमिनीत लावतात. पानाला पाने फुटत याचे राप तयार होते. ही झाडे साधारणत: एक ते दीड मीटर उंच असतात. यांना वर्षातून एकदाच फुले येतात. ब्रम्हकमळाचे फुल रात्री बारा वाजता उमलते. या झाडासमोर आपण बसून राहिलो तरी हे फुल उमललेले आपल्याला समजत नाही. कृष्णकमळाचा वेल असतो. वेलीला फुले आल्यावर हा वेल खूपच छान दिसतो."""

In [81]:
# marathi_text = """हेज्यायची कटकट करवादत तो भेलकांडत उठला. बंगालीकडचा हा नवा स्टॉक जरा जास्त पावरबाज निघाला होता त्याच्यासाठी. तरी बंगाली सांगत होता, बॉडी बारीक आहे तर जरा कमी दम मार म्हणून. पण बॉडीने काय होतंय भेंडी.. अर्ध्या शहरात आपली हवा आहे, कोन माय का लाल पण आपल्या नादाला लागत नाही. चुकून कोणी तसं वाटलं तरी आपला कोयता आणि तो... साल पण घरच्याना लै प्रॉब्लेम. पूर्वी महिन्यातून एकदा अंडी आणि पाव्हने आल्यावर चिकन खाणारे हे, आता रोज बोट्या हाणतात तेव्हा नाय दिसत का हा पैसा कुटून आला. जाउंदे भेंडी.. सकाळ सकाळ काय भोसडा उदास करायचा.. मनातल्या मनात हे चालू असताना मोन्याने चूळ भरली, अंगणात आला तर सूर्य डोक्यावर.. 10 पावलावर टपरीवर जाऊन त्याने सिगरेट पेटवली आणि टपरीवाल्याला एक टपली हाणली. आज दिवस कसा सत्कारणी लावायचा याचा विचार चालू असताना त्याला परवाची संध्याकाळ आठवली.. पलीकडच्या गल्लीत सुरू असलेल्या क्लाससमोरची ती बोळ.. क्लासमधून बाहेर पडलेली ती साधीशी पण फटाकडी पोरगी, आणि त्याने केलेला तो प्रकार.. आठवून पुन्हा गुदगुल्या होत होत्या त्याला. आज पण तिकडे जायचं ठरवून तो मोकळा झाला. आज काय विषय? म्हणत तो त्यांच्या नेहमीच्या अड्ड्यावर बसला. खरं तर त्याला कंटाळा आला होता.. मागच्या 302 मधून वाचण्यासाठी जोशींभाऊनी जरा सुमडीत राहायला सांगितलं होतं म्हणून.. नाहीतर सलग 2 आठवडे शहरात राहण्याची ही वेळच आली नसती. जोशींभाऊनी सांगितलं म्हणजे थांबायला हवं.. जोशी नसता तर आपले हाल कुत्र्याने खाल्ले नसते याची त्याला जाणीव होती. काय नाय भाई, काल तो चायनिजवाला मला म्हणतो कसा, शेठ 15 दिवस झाले रोज खाऊन जाताय, जरा बिलाचे पैसे बघा, पूर्ण नको, पण अर्धे तरी जमवा शेठ.. त्याला म्हणलं मोन्याभाईसाठी नेतोय चायनीज मग..? मग काय भाई, त्याची टिरटीर चालूच.. दिली मग एक साटकन ठेवून, तर त्याने माझी कॉलर धरली भाई, म्हणाला मोन्याभाई आहे म्हणून अर्धे मागतोय.. त्याला सांगून आलोय, आज रात्री 9 वाजता तुझा हिशोब करायला मोन्याभाई सोत्ता येणार.. अच्छा.. हे लक्षण काय ठीक नव्हतं.. आपली हवा कमी होतेय हे मोन्याला लक्षात आलं. तो उठला, आपल्या गाडीला सेल मारून निघाला, त्याच्यामागे त्याचे दोनचार पंटर.. गुरू थेटरात एक पिच्चर पाहून ते बंगालीच्या अड्ड्यावर गेले.. चार आठ दम मारले, आणि सोबत दारु.. जसे 8 वाजले तसे मोन्याला क्लास आठवला. पण ती पोरगी आलीच नव्हती. मग दिसेल तिला जरा चिडीमारी करून शेवटी तो चायनीज गाडीवर पोचला.. तिथे सात आठ गिऱ्हाईक. गर्दी बघून त्याने आवाज मोठा करून चायनीजवाल्याला शिव्या देणं सुरू केलं आणि धावल्यासारखा त्याच्या अंगावर गेला.. जाताना त्याने एकदोघांना धक्का मारला.. की त्याला कुणी धक्का मारला? विचार करायला वेळ नव्हता कारण त्याला आता चायनिजवाल्याला राउंडमध्ये घ्यायचं होतं.. साला आपल्याला पैसे मागतो भेंडी.. गांजाची तार चांगलीच डोक्यात गेली होती.. त्याला ती लाल गाडी हलताना दिसत होती.. आज जरा जास्त स्ट्रॉंग झालाय कार्यक्रम.. त्याच्या लक्षात आलं.. पण पण.. विचार करता करता तो भेलकांडून जाऊन भिजवलेल्या मंचुरीयनच्या टोपल्यात पडला.. त्याचे पंटर त्याला उचलायचा प्रयत्न करत होते.. पण मोन्याला स्वस्थ होताच येत नव्हतं.. खूप तडफड करत त्याचं सगळं शरीर एकाजागी गोळा झालं.. त्याची अवस्था बघुन पंटर पळून गेले.. शेवटी चायनीजवाल्यानेच त्याला सिव्हिलला दाखल केलं.. पण.. उशीर झाला होता.. दुसऱ्या दिवशी पेपरात, नशेचा, दारूचा अतिरेक वगैरे मथळ्यात त्याची बातमी आली.. जोशीने सूत्रं फिरवून त्याचा आपल्याशी असलेला संबंध लपवला होता.. व्हिल हॉस्पिटल: मोन्याच्या मृत्यूमध्ये पोलिसांनी लक्ष देण्यासारखं फार नसलं तरी डॉक्टर शिंदे मात्र अस्वस्थ होते. मोन्याच्या रक्तात त्यांना एक अनोळखी संयुगाचे ट्रेसेस सापडले होते. गांजा, दारू अतिसेवनाच्या केसेस त्यांनी भरपूर पाहिल्या असल्या तरी ही केस काहीतरी वेगळी होती.. मोन्याच्या यातना त्यांनी पाहिल्या होत्या.. त्याच्या प्रायव्हेट पार्टला झालेला अतिशय जास्त रक्तपुरवठा, आणि शिवाय, एक अनोळखी संयुग जे ट्रेस करण्यापूर्वी विघटित झालं असावं.. दंडावर असलेल्या छोट्या छोट्या puncture wounds त्यांनी पाहिल्या, पण मोन्याच्या ड्रग abuse history त्यांना माहीत होती. शंका नको म्हणून शिंदेंच्या सूचनेनुसार पोलिसांनी गुपचूप जाऊन बंगालीकडून आणलेला गांजा शिंदेंनी चेक केला होता, पण त्यात प्राणघातक असं काही नव्हतं. पोलिसांच्या सूचनेनुसार रिपोर्टमध्ये त्यांनी गांजा दारू वगैरे कारणं दिली असली तरी, ही केस त्यांच्या डोक्यात फिट्ट होती.. अशी केस त्यांनी आधी पाहिल्याचं त्यांना अंधुक आठवत होतं, पण केव्हा कुठे ते जाम डोक्याबाहेर गेलं होतं.. मोन्याच्या घरात दुःखाचं वातावरण म्हटलं तर होतं, म्हटलं तर नव्हतं.. एक पीडा गेली असं एकीकडे वाटत होतं, तर पैश्याचा ओघ थांबला असं दुसरीकडे.. त्या घरात जरी संमिश्र भावना असल्या, तरी कॉलनीत, व्यापारी वर्गात आणि इतर सगळ्यांना आनंद झाला होता. खास करून त्या मुलीच्या घरात..."""

In [82]:
# marathi_text = """विस्तीर्ण पसरलेलं जंगल, जंगलातच उगम पावलेली आणि गावाला वेढा देणारी, आजूबाजूच्या डोंगरांना हिरवाई देणारी वाघई नदी, एका बाजूला जंगल तर बाकी तीन बाजूंना नदी आणि डोंगरदऱ्यांनी वेढलेलं टुमदार गाव- वाघदरा. पूर्वी मुबलक असणाऱ्या वाघांच्या संख्येमुळे हे नाव या नदीला आणि गावाला लाभलं होतं. गावात एक प्राथमिक शाळा, एक पोस्टाची पेटी. बाकी सारे व्यवहार करायला गावकऱ्यांना २० किमी लांब जावं लागत असे. दादाराव पाटील आल्यापासून तशी गरज जास्त उरली नव्हती हेही खरं. फोन वरून बरच कामे होत, शिवाय वाड्यावर कॉम्प्युटरवर होण्यासारखी सारी सरकारी कामे होऊन जात होती. वाड्यावर म्हणजे दादाराव पाटलांच्या वाड्यावर..
# जंगलाला लागून असलेला हा वाडा म्हणजे एक कोडं होतं. वाड्याचा पसारा मोठा म्हणजे जवळपास एकर भर.. नदी आणि जंगलाच्या आडोशाला जागा पाहून चाऱ्ही बाजूला पुरुषभर उंचीच्या दगडी भिंती जंगलाच्या बाजूला बांधलेला दोन मजली चौसोपी टुमदार वाडा. त्याच्यापुढं दगडी कुंपणाच्या बरोबरीनेच बांधलेला मोठाच्या मोठा गोठा, तबेला, कुत्र्यांसाठीची जाळीदार खोली. आणि अजून ८ खोल्या.. वाड्याच्या मुख्य दारापाशी दोन्ही बाजूला बैठकीच्या खोल्या. बाहेरून येणार जाणार सारे लोक आधी इथे थांबत आणि प्राथमिक चर्चा इथे होई, आणि मगच पुढं एन्ट्री. अर्थात गावाच्या कोणत्याही रहिवाश्याला वाड्यात बिनधोक प्रवेश होता. वाड्याच्या ह्या बैठकीत बसणारा बबन माने म्हणजे गावाचंच नाहीतर पंचक्रोशीचं चालतं बोलतं दप्तर.. खेडं असलं तरी गावात तरुण भरपूर होते आणि सारे शेती आणि त्याला पूरक व्यवसाय सांभाळून होते. बबन माने त्यातलाच एक हुन्नरी कलाकार.. पण याचं डोकं शेती ऐवजी इतर गोष्टीत जास्त, म्हणजे शेतकऱ्यांसाठी असणाऱ्या अनेक योजना शोधण्यापासून गावातल्या पोरापोरीची सोयरीक जुळवण्यापर्यंत, गावात येणाऱ्या प्रत्येक माणसाची जुजबी माहिती त्याच्यापर्यंत पोचायची, आणि वाड्यात येणार्यांची कुंडली.. आणि हे सगळं व्हायचं ते येणाऱ्या माणसाच्या नकळत. दादाराव पाटलांच्या वाड्यात वर्दळ कायम असायची. खरंतर दादाराव पाटलांचं आणि पाटलीणबाईंचं गावावर निःसीम प्रेम होतं. गाव तस बऱ्यापैकी लहानच होतं. जंगल आणि नदीमुळे गावात यायला जायला एकच रस्ता.. मुख्य हायवे पासून २५ किलोमीटर आत असलेलं हे एकुलतं एक गाव त्या रस्त्यावर होतं. फाट्यावर कायम एक रिक्षा किंवा जीप उभी असायची. त्यासोबत असलेली बबन्याच्या वडलांची चहा पानसुपारीची बारकी झोपडी, सोबतीला गावातलाच एखादा पोरगा दिवसभर आळीपाळीने असायचा.. तो आणि बबन्याचा बा सोडता माणसाचा मागमूस नाही. बबन्याचा बाप तसा सतत व्यस्त असायचा.. काथ्याचा दोर वळण्यात त्याचा हात कुणीच धरायचं नाही. बसल्या बसल्या दोर बनवायचा तर फाट्यावर झोपडीत बसून दोर वळ म्हणाला बबन्या. शिवाय एक अस्सल कारवानी उमदं कुत्रं आणून ठेवलं होतं ते एक. जनावर असं कि २००-३०० मीटर पासून जरी अनोळखी वास आला तर न भुकता बबन्याच्या बापाला जाऊन बरोबर सांगायचं. मग येणाऱ्या माणसाला थांबवून, पैसे देत असला तर विकत नाहीतर फुकट चहा पाजून बबन्याचा बाप, आलेला माणूस कोण, कुठला, गावात काय काम, किती दिस राहणार वगैरे बित्तम् बातमी काढायचा.. आपणच रघुला म्हणजे गावच्या रिक्षावाल्याला आवाज द्यायचा आणि गावात धाडायचा.. टोलनाकाच म्हणा ना.. एकुणात गाव आणि गावची माणसं बाकी जगापासून अलिप्तच राहायची..
# एका सधन गावातले सधन आदर्श शेतकरी हीच ओळख दादांची जपली गेली त्यात बबनचा हात मोठा होता. दादांच्याकडे येणारी इतर कामे बबनकडून येत. कामाच्या काठिण्य पातळीनुसार माणूस ठरवला जाई. टेक्नॉलॉजिचा भरपूर वापर होत असला तरी तो कुठे करायचा आणि कुठे नाही याची जाणीव दादांना होती. काही कामे पैश्यांसाठी तर काही कामे निव्वळ माणुसकीपोटी केली जात होती.
# पुण्यासारख्या मोठ्या शहरात एका गरीब पण होतकरू मुलाच्या घरात दिलेली वाघदर्याची मुलगी सुप्रिया, सुप्रियेच्या कॉलनीतली ती मुलगी जेव्हा रडत रडत घरी आली तेव्हा सुप्रिया वाण्याच्या दुकानात काहीतरी घ्यायला गेलेली. संध्याकाळी वेळ. आणि मुलीची एकंदर अवस्था पाहून सुप्रियेला गलबलून आलं. जेमतेम १७ वर्षाची ती नाजूक पोर, विस्कटलेले केस, ड्रेस पाठीवर फाटलेला, रक्ताळलेला ओठ. वाघदऱ्याच्या सुरक्षित वातावरणात वाढलेली सुप्रियेच्या काळजात चर्रर्र झालं. दोन वर्षांपूर्वी या वस्तीत आली असली तरी ती सगळ्यांना ओळखत होती. सुप्रिया त्या मुलीच्या- आरतीच्या पाठोपाठ घरी गेली. झाला प्रकार सांगायला आरती तयार नव्हती, पण सुप्रियेच्या मायेच्या स्पर्शाने तिला वाचा फुटली. जसजशी आरती सांगत होती, तसतशी सुप्रिया एकाच वेळी दुखावत आणि संतापत होती. सगळं ऐकून घेतल्यावर सुप्रियेने घरचा रस्ता धरला.. मनात साठवून ठेवलेलं सारं काही घरी पोचल्याबरोबर तिने तिच्या आईला भडाभडा सांगून टाकलं.. आणि तिच्या आईने वाड्याचा रस्ता धरला..
# सुप्रियाच्या आईने जशी सगळी हकीकत बबन्याला वाड्याच्या बैठकीत ऐकवली तशी ती निर्धास्त झाली. नाही म्हणायला तिलाही वाटलं होतंच कि असल्या गुंड असलेल्या वस्तीत आपली मुलगी कशी राहील.. पण वाड्यावर एकदा विषय पोहचला कि गावातलं कुणीही असो, ते निर्धास्त व्हायचे. बबन्याने लगोलग दादाराव पाटलांना वर्दी दिली. दादांनी सगळ्यात आधी आपला हुकमी एक्का जॉनीला परस्पर पुण्याला पाठवलं. जॉनी म्हणजे कोण तर गर्दीतला अनोळखी, लक्षात न राहणारा चेहरा. याचं खरं नाव कुणालाही माहित नव्हतं. जॉनीला ज्यांनी एकदा पाहिलं असेल ते दुसऱ्यांदा त्याला पाहिल्यावर ओळ्खतीलच अशी खात्री नव्हती इतका तो गर्दीत मिसळून जायचा. जॉनी पुण्याला पोहचला आणि कपडे- वेष बदलत एक दिवस मोन्याच्या मागोमाग फिरत त्याची माहिती काढत राहिला.. इकडे वाड्यावर दादांनी गावातला वैदू, सरकारी दवाखान्यातला डॉक्टर आणि बबन्याला घेऊन मिटिंग घेतली. वैदू वाड्याच्या मागच्या बाजूने जंगलात गेला, डॉक्टर आपल्या दवाखान्यात आणि बबन्याने गावातल्या भूषणला बोलावून घेतलं.. जॉनीने एव्हाना ठरल्या प्रोटोकॉलनुसार पुणे स्टेशनवर जाऊन मुंबई जाणारी गाडी पकडली. साधा कीपॅड मोबाईल असलेलं एक सावज हेरून त्याचा मोबाईल चोरला, आणि बबन्याला फोन करून म्हणाला कि "हैवानानं पोसलेला लांडगा, पिसाळून गेलाय" उत्तरादाखल बबनने फक्त म्हटलं, "पत्र पाठवतो". स्टेशनला उतरताना तो कीपॅड मोबाईल त्याच्या मूळ मालकाच्या पिशवीत पुन्हा पोहचला होता.
# दुसऱ्या दिवशी भूषण पुणे स्टेशनजवळ पोस्ट ऑफिसला पोहचला त्याने जॉनीला दुरूनच हेरलं आणि बॅगमधून एक पाकीट काढून ते सहज जॉनीपर्यंत पोचते करून तो आल्यापावली निघून गेला.
# पाकिटात एक लहानशी सिरिंज होती, ज्यात वैदूने दिलेला धोत्रा बियांचा विशुद्ध अर्क, आणि डॉक्टरने दिलेले स्ट्रॉंग aphrodisiac होते. लहानात लहान मात्रासुद्धा रक्तदाब वाढवून जीव घेईल असं ते जहाल इंजेक्शन होतं. रात्री चायनीजच्या गाड्याच्या जवळपासच ७ वाजल्यापासूनच जॉनी आपल्या शिकारीची वाट पाहत बसला होता. एक लहानसा धक्का, बारीकशी अगदी मच्छर चावला कि मुंगी अशी वाटावी अशी कळ, आणि थेट मुख्य धमनीत पोहोचलेलं ते जहाल विष.. मोन्याचा विषय आटोपला असला तरी त्याचा मालक अजून बाकी होता.."""

In [83]:
# marathi_text = """
# “ए आज्जी मी आलो !”
# मोठ्याने आरोळी ठोकत मी माजघर ओलांडून देवघराकडे धाव घेई.आजी तिथे नक्की असणार हे माहित होते.हातातील वही व पोथी बाजूला ठेवून आजी प्रेमाने माझे स्वागत करीत असे .”सुनील किती वाळलास रे ” ,म्हणून गालावरून हात फिरवे आणि स्वत:च्या कानशिलावर बोट मोडत असे .मामाकडून आजोळहून घरी आल्यावर हा नेहमीच पहिला सीन असे .मग सुटीतील दोन महिण्याच्या गैरहजरीचा मोबदला सव्याज मिळत असे .
# घरातील कामात आईला मदत केल्यावर आजीचा बहुतेक मुक्काम देवघरात असे .दिवाबत्ती, देवपूजा सारा जिम्मा तिच्याकडे असे . संध्याकाळी ती देवळात जायची ,तिथेच जुन्या मैत्रिणी बरोबर बोलायची तेवढे सोडले कि मग बाकी ना कुणाच्या अध्यातमध्यात वा गप्पा टप्पात. तिला त्याची मुळीच आवड नव्हती .पण उपासतापासाचे मात्र तिला वेड होते .त्यामुळे तिच्याकडे एक उपासाचे लाडू व सुक्या मेवा ठेवायचा डब्बा नेहमी असे .तिला तो खातांना मी कधीच पहिला नव्हता परंतु आमचा मात्र त्यावर केव्हाही हक्क असे . शाळा, खेळ, अभ्यास या साऱ्यातून आजी साठी वेळ मुद्दाम काढावा लागायचा नाही .ती या साऱ्यात अंतर्भूत असायची.खरतर माझे पानही तिच्या शिवाय हलत नसे .
# आजीला दोन सवयी होत्या ते म्हणजे साध पान खायची अन वहीत राम राम लिहित बसायची पानाचा तो वेगळा गंध नेहमी तिच्या कपड्याला येत असे .मी त्या लिहिण्या वरून तिला नेहमी चिडवत असे,म्हणायचो “अगं आजी, असे राम राम लिहून का कुठे राम मिळतो ? तू उगाच शाई आणि वह्या वाया घालवतेस बघ “. आजी माझ्याकडे बघून गोड हसे आणि मला डब्यातला एक लाडू वा सुकामेवा देत असे .तिच्या गोड हसण्यामुळे अन लाडूच्या प्रसादाने चर्चा वाढत नसे .मला नेहमी वाटे आजीला समजावून सांगायला पाहिजे .असे राम राम लिहून बोट व पाठ दुखून का घेतेस .पण ते सांगणे या एका वाक्याच्या पुढे कधी गेलेच नाही
# पुढे आम्ही शहरात आलो .आजी मात्र गावी तिकडेच राहिली .सुटीत भेटी गाठी होत असत .प्रेमाचे उधान येत असे .हळू हळू थकलेली आजी कालप्रवाहात विरघळून गेली .तिचे जाणे हृदयात मोठी पोकळी निर्माण करून गेले .पण ती जाणार हे तिला, आम्हा सर्वांना माहित होते .तिच्या जाण्यात आजारपण नव्हते ,दु:ख नव्हते ,वेदना नव्हत्या पान गळून पडावे तशी आजी गेली .
# गावातील घर बंद झाले ,येणे जाणे हि कमी झाले .बऱ्याच वर्षांनी एकदा गावी गेलो .सात बाराचे जुने उतारे आणायला ,रहिवासाचा दाखला काढणे आणि इतर काही अत्यावश्यक कामा करता .घर साफ करून घेतले .जुन्या आठवणीत मन बुडून गेले .
# जुन्या लोखंडी पेटीत पेपर शोधत होतो ,अचानक आजीच्या त्या रामनामाच्या वह्या सापडल्या .एका ओळीत लिहलेल्या काहीही खाडाखोड नसलेल्या .स्पष्ट रेखीव सुंदर जणू एकेक अक्षर कोरून काढलेल्या .माझ्या डोळ्यात पाणी आले .आजीच्या आठवणी फेर धरून नाचू लागल्या .ते माझे बोलणे आठवले “आजी कश्याला उगाच सदानकदा लिहित असतेस हे”.त्यावर आजीचे हसणे जणू कालचीच गोष्ट वाटू लागली .प्रेमाने हृदयाशी धरलेल्या त्या वह्या मी पुन्हा उघडून पाहू लागलो .त्या प्रत्येक वहीच्या पहिल्या पानावर संकल्प होता सुनीलच्या आरोग्य, जय, लाभ, यश, कीर्तीसाठी .माझ्या गळ्यात हुंदका दाटून आला ,आणि डोळ्यातून पुन्हा अश्रू धारा वाहू लागल्या .
# त्या रात्री या घटनेमुळे असेल कदाचित ,मला एक स्वप्न पडले .त्या देवघरात आजी बसली आहे.राम नाम लिहित .आणि मी नेहमी सारखा तिथे धावत जातो आज्जी म्हणून ओरडत आणि तिच्या मांडीवर डोके ठेवतो .आणि मला जाणवले अरे हे तर मी बघतो आहे अचानक मला मी ते दृश बघणारा वेगळा अशी जाणीव होवू लागली .आता आजीच्या मांडीवर मी नव्हतो .एक गोरापान अतिशय सुंदर मुलगा तिथे लोळत होता आणि आजी त्याला लिहिता लिहिता थोपटत होती .मला राग आला माझ्या जागेवर आणखी कुणीतरी झोपलाय आणि आजीला कळत कसे नाही .मी जोराने ओरडून सांगायचे ठरवले पण माझा आवाज मलाच एकू येईना .मला काही सुचेना .त्या मुलाकडे तो कोण आहे या बद्दल ची उत्सुकता ,त्याचा राग, हेवा अश्या भावनांनी मन भरले होते .तोच त्या मुलाचे माझ्याकडे लक्ष्य गेले .तो तसाच लोळत माझ्याकडे बघत हसला आणि कुणी तरी कानात बोलले “रामलला” !! मी दचकून उठलो .अंगावर रोमांच उभे राहिले ,डोळ्यातून अश्रूंचा पूर वाहू लागला.आजीच्या साध्या पानाचा दरवळ सभोवताली दाटून राहिला होता .
# विक्रांत प्रभाकर"""

In [84]:
# summary = summarize_marathi_text(marathi_text, 10)
# # print(summary)
# summary

# Method 2: User input

In [22]:
# marathi_text = input("Enter your Marathi text:\n")

In [23]:
# num_sentences = int(input("Enter the desired number of sentences for the summary: "))

In [24]:
# # Summarize the text
# summary = summarize_marathi_text(marathi_text, num_sentences)
# print("Summary:")
# print(summary)
