In [1]:
# Install necessary libraries
!pip install transformers scikit-learn rouge-score

from transformers import AutoTokenizer, AutoModel
import numpy as np
import torch
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
from rouge_score import rouge_scorer

# Load IndicBERT for sentence embeddings
model_name = "ai4bharat/indic-bert"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Input text in Hindi
text = input("Enter the text you want to summarize in Hindi: ")
hindi_stopwords = [
    "और", "का", "की", "को", "में", "है", "हैं", "यह", "कि", "इस", "था",
    "था", "थे", "ने", "पर", "से", "कर", "तक", "दो", "जो", "किया", "उस",
    "नहीं", "भी", "लिए", "हो", "वह", "रहे", "रखी", "एक", "सकते", "सकता",
    "इसे", "था", "जाता", "जाते", "जाती", "हुई", "गया", "गई", "गए", "जैसे"
]

# Split text into sentences while retaining stop words
sentences = [sentence.strip() for sentence in text.split("।") if sentence.strip()]

# Step 2: Generate sentence embeddings
sentence_embeddings = []
for sentence in sentences:
    inputs = tokenizer(sentence, return_tensors="pt", padding=True, truncation=True, max_length=128)
    outputs = model(**inputs)
    sentence_embedding = outputs.last_hidden_state.mean(dim=1).squeeze().detach().numpy()
    sentence_embeddings.append(sentence_embedding)

# Step 3: Calculate overall text embedding for similarity-based scoring
text_embedding = np.mean(sentence_embeddings, axis=0)
similarity_scores = [cosine_similarity([text_embedding], [sent_emb])[0][0] for sent_emb in sentence_embeddings]

# Step 4: TF-IDF scoring for sentence importance

vectorizer = TfidfVectorizer(stop_words=hindi_stopwords)
tfidf_matrix = vectorizer.fit_transform(sentences)
tfidf_scores = tfidf_matrix.sum(axis=1).A1

# Step 5: Combine similarity and TF-IDF scores
combined_scores = [0.5 * sim + 0.5 * tfidf for sim, tfidf in zip(similarity_scores, tfidf_scores)]

# Step 6: Clustering to avoid redundancy
num_clusters = min(len(sentences) // 2, 3)  # Set number of clusters
kmeans = KMeans(n_clusters=num_clusters, random_state=0)
kmeans.fit(sentence_embeddings)

# Step 7: Pick the top sentence in each cluster based on combined score
selected_sentences = []
for i in range(num_clusters):
    cluster_indices = np.where(kmeans.labels_ == i)[0]
    best_sentence_idx = max(cluster_indices, key=lambda idx: combined_scores[idx])
    selected_sentences.append(sentences[best_sentence_idx])

# Step 8: Formulate the final summary
summary = "। ".join(selected_sentences) + "।"
print("Summary:", summary)

# Evaluation function using ROUGE scores
def evaluate_summary(reference_summary, generated_summary):
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    scores = scorer.score(reference_summary, generated_summary)
    return scores

# Example evaluation (adjust 'reference_summary' as needed)
reference_summary = "भारत का सांस्कृतिक महत्व और ऐतिहासिक पहचान इसे खास बनाती है।"  # Placeholder
scores = evaluate_summary(reference_summary, summary)
print("Evaluation scores:", scores)


Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: rouge-score
  Building wheel for rouge-score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24935 sha256=4a0fb03b1e8903bc43a066515364d9c87d0f7849d44310f87ab6e181f1f65405
  Stored in directory: /root/.cache/pip/wheels/5f/dd/89/461065a73be61a532ff8599a28e9beef17985c9e9c31e541b4
Successfully built rouge-score
Installing collected packages: rouge-score
Successfully installed rouge-score-0.1.2


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/507 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/5.65M [00:00<?, ?B/s]



pytorch_model.bin:   0%|          | 0.00/135M [00:00<?, ?B/s]

Enter the text you want to summarize in Hindi: भारत का सांस्कृतिक और ऐतिहासिक महत्व विश्वभर में अनोखा है। इस देश में कई प्राचीन सभ्यताएँ और संस्कृतियाँ विकसित हुई हैं, जो आज भी जीवित हैं। भारत अनेक भाषाओं, धर्मों, और संस्कृतियों का संगम है। यहाँ की कला, संगीत, और नृत्य शैलियाँ विभिन्नता और गहराई से भरी हुई हैं। भारतीय मंदिरों और स्थापत्य कला को देखकर दुनिया भर के पर्यटक आश्चर्यचकित रह जाते हैं। यहाँ का योग और आयुर्वेद भी विश्वभर में प्रसिद्ध है, जो स्वास्थ्य और शांति का प्रतीक है। साथ ही, भारतीय व्यंजन अपनी विविधता और मसालों के लिए जाने जाते हैं। भारत ने विज्ञान, गणित, और खगोल विज्ञान में भी अनमोल योगदान दिया है। आज भी, यहाँ के लोग अपने परंपराओं और आधुनिकता का मिश्रण करते हुए आगे बढ़ रहे हैं। भारत का इतिहास, यहां की जीवनशैली और परंपराएँ इसे एक खास पहचान देती हैं।
Summary: आज भी, यहाँ के लोग अपने परंपराओं और आधुनिकता का मिश्रण करते हुए आगे बढ़ रहे हैं। भारतीय मंदिरों और स्थापत्य कला को देखकर दुनिया भर के पर्यटक आश्चर्यचकित रह जाते हैं। यहाँ की कला, संगीत, और नृत्य शैलियाँ विभिन्नता और ग

