In [10]:
import pandas as pd
from transformers import pipeline
import json

# Initialize the classification pipeline with a pre-trained model for zero-shot classification
classifier = pipeline("zero-shot-classification", model="joeddav/xlm-roberta-large-xnli")

# Function to calculate relevance score
def calculate_relevance(text, topic="اخبار الحرب الفلسطينية"):
    # Classify the text
    results = classifier(text, candidate_labels=[topic])

    # Extract the score for the relevant topic
    score = next((results['scores'][i] for i, label in enumerate(results['labels']) if label == topic), 0)

    # Normalize score to a scale of 0 to 10
    rating = score * 10

    return rating

# Load the JSON file
with open('para.json', 'r', encoding='utf-8') as json_file:
    data = json.load(json_file)

# Convert the list to a DataFrame
df = pd.DataFrame(data, columns=["content"])

# Store ratings in a list
scores = []

# Calculate the relevance rating for each row and store it in the list
df['rating'] = df['content'].apply(lambda x: scores.append(calculate_relevance(x)) or scores[-1])

# Print each row with its rating
for index, row in df.iterrows():
    print(f"Content: {row['content']}\nRating: {row['rating']}\n")

# Output the scores for further use
print(scores)


Some weights of the model checkpoint at joeddav/xlm-roberta-large-xnli were not used when initializing XLMRobertaForSequenceClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Content: بثت كتائب عز الدين القسام -الجناح العسكري لحركة المقاومة الإسلامية (حماس)- مشاهد فيديو قالت إنها من استهداف مقاتليها جنود وآليات الاحتلال الإسرائيلي في محاور التقدم شرق مدينة رفح جنوب قطاع غزة.  ووثقت المشاهد دخول قوة إسرائيلية راجلة داخل منزل، وتفجير عبوة مضادة للأفراد فيها، وقتل 6 جنود وإصابة آخرين في حي التنور شرق رفح.  كما أظهرت الكتائب من خلال الفيديو لحظة استهداف وانفجار آلية بداخلها جنديان إسرائيليان.  ويعود تاريخ تنفيذ هذه العملية -كما ورد في فيديو القسام الذي عرضته قناة الجزيرة- إلى يوم أمس (2024/5/18).  وكانت كتائب القسام أعلنت أنها استهدفت بقذيفة "الياسين 105" دبابة "ميركافا 4″ إسرائيلية قرب مسجد الشهيد عماد عقل في مخيم جباليا، شمال قطاع غزة.  
Rating: 6.305360198020935

Content: يعيش المصابون بأمراض مزمنة في قطاع غزة، الحرب وأهوالها بثقل مضاعف؛ إذ يعاني هؤلاء من انهيار النظام الطبي وانقطاع الدواء وتغير نظام حياتهم بشكل غير مسبوق.  وعمَّق استمرار إغلاق معبر رفح -الذي تحتله إسرائيل حاليا عقب بدء عملية عسكرية في رفح جنوبي القطاع- معاناة هؤلاء المرضى بسبب عدم قدرتهم عل

In [11]:
df

Unnamed: 0,content,rating
0,بثت كتائب عز الدين القسام -الجناح العسكري لحرك...,6.305360
1,يعيش المصابون بأمراض مزمنة في قطاع غزة، الحرب ...,9.647305
2,أفادت مصادر إسرائيلية بمقتل وجرح 20 جنديا اليو...,7.359289
3,عرضت كتائب القسام -الجناح العسكري لحركة المقاو...,9.395899
4,في اليوم الـ220 للعدوان الإسرائيلي على غزة، تص...,9.478555
...,...,...
253,يرى الخبير في الشؤون الإستراتيجية والعسكرية ال...,9.068123
254,أعلنت المقاومة الفلسطينية مساء أمس الخميس استه...,9.731743
255,تواصل الحراك الطلابي المناهض للحرب الإسرائيلية...,0.202922
256,حذرت الجبهة الشعبية لتحرير فلسطين، ولجان المقا...,6.890814


In [12]:
# Filter the DataFrame to only include rows with a rating of 6 or higher
df_filtered = df[df['rating'] >= 6]

In [13]:
df_filtered

Unnamed: 0,content,rating
0,بثت كتائب عز الدين القسام -الجناح العسكري لحرك...,6.305360
1,يعيش المصابون بأمراض مزمنة في قطاع غزة، الحرب ...,9.647305
2,أفادت مصادر إسرائيلية بمقتل وجرح 20 جنديا اليو...,7.359289
3,عرضت كتائب القسام -الجناح العسكري لحركة المقاو...,9.395899
4,في اليوم الـ220 للعدوان الإسرائيلي على غزة، تص...,9.478555
...,...,...
251,أعلن الدفاع المدني في شمال قطاع غزة -اليوم الأ...,7.564093
253,يرى الخبير في الشؤون الإستراتيجية والعسكرية ال...,9.068123
254,أعلنت المقاومة الفلسطينية مساء أمس الخميس استه...,9.731743
256,حذرت الجبهة الشعبية لتحرير فلسطين، ولجان المقا...,6.890814


In [14]:
# Convert the filtered DataFrame to a JSON string
filtered_json = df_filtered.to_json(orient='records', force_ascii=False, lines=True)

# Save the JSON string to a file
with open('filtered_data.json', 'w', encoding='utf-8') as f:
    f.write(filtered_json)

print("Filtered data saved to 'filtered_data.json'")

Filtered data saved to 'filtered_data.json'


In [5]:
import pandas as pd
from transformers import pipeline
import json

# Initialize the classification pipeline with a pre-trained model for zero-shot classification
classifier = pipeline("zero-shot-classification", model="joeddav/xlm-roberta-large-xnli")

# Function to calculate relevance score
def calculate_relevance(text, topic="اخبار الحرب الفلسطينية"):
    # Classify the text
    results = classifier(text, candidate_labels=[topic])

    # Extract the score for the relevant topic
    score = next((results['scores'][i] for i, label in enumerate(results['labels']) if label == topic), 0)

    # Normalize score to a scale of 0 to 10
    rating = score * 10

    return rating

# Load the JSON file
with open('hess_non_article_content.json', 'r', encoding='utf-8') as json_file:
    data = json.load(json_file)

# Convert the list to a DataFrame
df1 = pd.DataFrame(data)

# Ensure df has a column named "content" and "title"
if 'content' not in df1.columns or 'title' not in df1.columns:
    raise ValueError("JSON data must contain 'content' and 'title' keys")

# Store ratings in a list
scores = []




Some weights of the model checkpoint at joeddav/xlm-roberta-large-xnli were not used when initializing XLMRobertaForSequenceClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [3]:
df1

Unnamed: 0,title,content
0,"نقابيون يطالبون الحكومة بـ""منحة العيد""",تقترب مناسبة عيد الأضحى في ظل الارتفاع المستمر...
1,إلغاء عيد الأضحى في المغرب,تواجه المغرب جدلاً متجددًا حول إمكانية إلغاء ع...
2,"طلبة عائدون من أوكرانيا يحتجون على ""الزمن المه...",صرخة أخرى أطلقتها حناجر آباء وأولياء الطلبة ال...
3,وزارة تطمئن المغاربة بشأن أسعار الأغنام,أكدت وزارة الفلاحة والصيد البحري والتنمية القر...
4,تقلبات مقلقة تحيط بتربية الماشية وتمتد إلى است...,حوالي شهرين هي المدة التي تفصل المغاربة عن عيد...
...,...,...
63,non,حاول الغرب، على مدى السنوات القليلة الماضية، ك...
64,non,يحذر خبراء في جنوب أفريقيا من عودة الرئيس السا...
65,non,بثت كتائب القسام الجناح العسكري لحركة المقاومة...
66,non,في سياق إقليمي معقد تمر به منطقة أفريقيا جنوب ...


In [6]:
# Calculate the relevance rating for each row and store it in the list
df1['rating'] = df1['content'].apply(lambda x: scores.append(calculate_relevance(x)) or scores[-1])

# Output the scores for further use
print(scores)

[9.772593975067139, 1.2875694036483765, 6.239510774612427, 3.612864315509796, 9.12613570690155, 0.009556359145790339, 6.1649781465530396, 9.822630882263184, 5.723968744277954, 0.004491231811698526, 4.905394613742828, 5.212278962135315, 5.536598563194275, 0.039336299523711205, 4.490860402584076, 7.292255163192749, 2.2954946756362915, 8.525997400283813, 6.342410445213318, 8.93442988395691, 8.927637934684753, 7.577033638954163, 3.9901432394981384, 9.164528846740723, 6.352605819702148, 6.661118268966675, 7.769014239311218, 4.557721316814423, 4.842816889286041, 1.996368020772934, 4.540468156337738, 7.620059251785278, 8.45336377620697, 5.835961103439331, 6.764581203460693, 5.686900615692139, 5.5880314111709595, 0.19397810101509094, 9.154458045959473, 6.401201486587524, 1.4931191504001617, 4.398908019065857, 5.094611644744873, 5.104395747184753, 6.498778462409973, 7.319507002830505, 4.953610599040985, 4.935827553272247, 7.064506411552429, 9.76112186908722, 6.651455760002136, 8.569154143333435

In [28]:
# Filter the DataFrame to only include rows with a rating of 6 or higher
df1_filtered = df1[df1['rating'] <=5.5]

In [24]:
df1_filtered

Unnamed: 0,title,content,rating
1,إلغاء عيد الأضحى في المغرب,تواجه المغرب جدلاً متجددًا حول إمكانية إلغاء ع...,1.287569
3,وزارة تطمئن المغاربة بشأن أسعار الأغنام,أكدت وزارة الفلاحة والصيد البحري والتنمية القر...,3.612864
5,بؤر مقلقة لسلالة دلتا,43 حالة من المتحور “دلتا” تُسجل في المغرب ووزا...,0.009556
9,"ارتفاع عدد ضحايا ""فاجعة مِنى"" .. ودول إفريقية ...",أعلن وزير الصحة السعودي خالد الفالح، اليوم الس...,0.004491
10,الأضاحي تُنشِّط سوق العيد في عفرين السورية,تشهد أسواق منطقة عفرين (شمال غربي سوريا)، حركة...,4.905395
11,مكتب السلامة الصحية: هذه أبرز النصائح في التعا...,يقدم المكتب الوطني للسلامة الصحية للمنتجات الغ...,5.212279
12,مهن عيد الأضحى,عيد الأضحى هو مناسبة دينية تتطلب مجموعة متنوعة...,5.536599
13,حملة عرائشية في عيد الأضحى,حملة 'خلّيه يببع' في المغرب هي حملة شعبية على ...,0.039336
14,"كاتبة مصرية تصف ذبح أضحية العيد بـ""المهزلة الب...",خلقت الكاتبة المصرية فاطمة ناعوت جدلاً كبيراً ...,4.49086
16,دليلة الندري .. مقاومة البؤس في الدار البيضاء ...,يدخل الكبش البيت بصعوبة، عرض قرني الكبش أكثر م...,2.295495


In [30]:
# Drop column 'B'
df1_filtered = df1_filtered.drop(columns=['title'])
df1_filtered

Unnamed: 0,content,rating
1,تواجه المغرب جدلاً متجددًا حول إمكانية إلغاء ع...,1.287569
3,أكدت وزارة الفلاحة والصيد البحري والتنمية القر...,3.612864
5,43 حالة من المتحور “دلتا” تُسجل في المغرب ووزا...,0.009556
9,أعلن وزير الصحة السعودي خالد الفالح، اليوم الس...,0.004491
10,تشهد أسواق منطقة عفرين (شمال غربي سوريا)، حركة...,4.905395
11,يقدم المكتب الوطني للسلامة الصحية للمنتجات الغ...,5.212279
13,حملة 'خلّيه يببع' في المغرب هي حملة شعبية على ...,0.039336
14,خلقت الكاتبة المصرية فاطمة ناعوت جدلاً كبيراً ...,4.49086
16,يدخل الكبش البيت بصعوبة، عرض قرني الكبش أكثر م...,2.295495
22,قراءة في المشهد الأمريكي بعد إعلان مقتل أسامة ...,3.990143


In [18]:
len(df1_filtered)

25

In [None]:
# Convert the filtered DataFrame to a JSON string
filtered_json = df1_filtered.to_json(orient='records', force_ascii=False, lines=True)

# Save the JSON string to a file
with open('filtered_&_scored_data.json', 'w', encoding='utf-8') as f:
    f.write(filtered_json)

print("Filtered data saved to 'filtered_&_scored_data.json'")

In [27]:
len(df1_filtered)

36