In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
import numpy as np

In [2]:
def extract_top_n_sentences(sentences: list[str], n: int) -> str:
    if len(sentences) <= n:
        return "This document is not long enough to summary"
    
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(sentences)
    
    svd = TruncatedSVD(n_components=1)
    svd.fit(X)
    
    scores = np.linalg.norm(svd.transform(X), axis=1)

    top_n_indices = np.argsort(scores)[::-1][:n]
    summary = [sentences[i] for i in sorted(top_n_indices)]

    return " ".join(summary)

In [3]:
import pickle
with open("../../Dataset/extractive/extractive.pk", "rb") as f:
    dataset = pickle.load(f)

dataset

{'Arabic': 0       [يتيح كل موقع من مواقع التواصل الاجتماعي خيارا...
 1       [قم بتنظيف وغسل الأطباق التي تود تركها ليلًا ف...
 2       [ليست النظارات المستقطبة من نوع واحد وليس هناك...
 3       [ليست كل الأرانب ودودة، ولكن إذا كان لديك أرنب...
 4       [يعتبر هذا أكثر أعراض الاضطراب شيوعًا ووضوحًا,...
                               ...                        
 6042    [ضع الطلاء الرقيق على قطعة من خشب الخردة أو ال...
 6043    [كان استخدام الأسبستوس شائعًا بين عامي 1920 و1...
 6044    [يمكنك ربط أي موقع إلكتروني عن طريق نسخ العنوا...
 6045    [يتعلّم الكلاب من خلال المكافأة على السلوك الإ...
 6046    [الحصول على دعم اجتماعي يمكن أن يساعد الناس عل...
 Name: document, Length: 6047, dtype: object,
 'Chinese': 0       [如果你的礼物接收者居住在寒冷的地方这将留给他一个持久的回忆并且很实用, 。, 如果不知道如...
 1       [你没有觉得独特是因为每天你都做着相同的陈年旧事, 。, 因此，是时候把事情改变一下了, 。...
 2       [要进行整鸡去骨的话，你必须先准备好切肉刀等厨用刀具, 。, 要想正确地完成剔骨操作，有一把...
 3       [虽然可行，但是叶片繁殖法成功的可能性非常渺茫，所以你千万要做好失败的准备, 。,  芦荟叶...
 4       [如果电脑连接了耳机，那么扬声器是不会有声音的, 。, 插拔耳机可以帮助切换扬

In [6]:
summary = extract_top_n_sentences(dataset['Arabic'][0], 3)

In [7]:
summary

'قد تحتاج إلى أن تحذف نفسك أو تُلغي حسابك على مواقع التواصل الاجتماعي وقد لا تسعد بفعل ذلك، لكنه في بعض الأحيان حل فعال لكي تمنع ذلك الشخص من الظهور إلى بريد الوارد لديك، احذفه من دفتر العناوين الافتراضي على بريدك واضبط مرشحات الأمان في حسابك التي تحميك من الرسائل غير المفيدة وغير المرغوب فيها، لكي تسمح لك بمراقبة محاولات ذلك الشخص للاتصال بك في حال حاول أن يرسل لك بريدًا إلكترونيًا، يمكنك أن تقوم بحذف رسائله أو أن تجمعها في مجلد خاص في حال احتجت إلى جمع الأدلة إذا كانت مضايقاته ترتقي لذلك المستوى الخطير من البلطجة الإلكترونية أو التحرش قد تحتاج في بعض الأحيان إلى جمع مراسلات ذلك الشخص ومحاولاته للاتصال بك كنوع من الأدلة في حال احتجت إلى مقاضاته في المحكمة، لأن تلك المستندات تدعم قضيتك'