## Labelling data for multi-label classification

In [1]:
from dotenv import load_dotenv
import json
import time
from typing import Tuple, Set, List
import pandas as pd
from tqdm import tqdm
import json
import re
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser
import os

In [2]:
df = pd.read_csv("./data/cleaned_transcripts.csv")

In [3]:
df.head()

Unnamed: 0,file_name,episode_transcript,length,tags,creator,cleaned_transcript
0,أطفال_غزة,بعد سبعه اشهر وانا لا اجرؤ على حذف شيء\nيخصك م...,00:00:35,"['غزة', 'الدحيح', 'AJ+ عربي', 'Eldahih السليط'...",Al Mokhbir Al Eqtisadi,سبعه اشهر وانا اجرؤ حذف شيء يخصك ازيل تطبيقات ...
1,المخبر_الاقتصادي___كيف_أصبح_أصدقاء_إسرائيل_من_...,عمان وقطر والبحرين والسعوديه دي هي الدول\nالعر...,00:22:52,"['اسرائيل', 'اشرف ابراهيم', 'البرلمان البريطان...",Al Mokhbir Al Eqtisadi,عمان وقطر والبحرين والسعوديه الدول العربيه الا...
2,المخبر_الاقتصادي___كيف_بنى_المهاجرون_المغاربيو...,على غير العادة وبدون أي مقدمات\nخلونا نبدأ الح...,00:20:44,"['الجزائر', 'المغرب العربي', 'المغرب الكبير', ...",Al Mokhbir Al Eqtisadi,العادة وبدون مقدمات خلونا نبدأ الحلقة وندخل ال...
3,المخبر_الاقتصادي___كيف_تخطط_أمريكا_لمنع_تطور_ق...,من حوالي السنتين\nوتحديداً في 3 ديسمبر 2020\nج...,00:14:52,"['AMD', 'APPLE', 'CHINA', 'NVDA', 'QCOM', 'SEC...",Al Mokhbir Al Eqtisadi,السنتين وتحديدا جون راتكليف مدير الاستخبارات ا...
4,المخبر_الاقتصادي___كيف_سرقت_بريطانيا_كوه_نور_أ...,يوم 8 سبتمبر 2022\nتم إعلان وفاة ملكة بريطانيا...,00:14:54,"['الملكة', 'الملكة إليزابيث', 'المملكة المتحدة...",Al Mokhbir Al Eqtisadi,إعلان وفاة ملكة بريطانيا إليزبيث عمر يناهز الش...


### Gemini

In [None]:
load_dotenv()
GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")

def extract_json_object(s: str) -> dict:
    """
    Extracts a JSON object from a given string.
    
    If the string is wrapped in markdown code fences (e.g., ```json ... ```),
    this function extracts only the JSON content. Otherwise, it assumes the string
    itself is a valid JSON representation.
    
    Args:
        s (str): The input string containing a JSON object.
    
    Returns:
        dict: The parsed JSON object.
    
    Raises:
        ValueError: If no valid JSON object can be parsed from the string.
    """
    # Try to extract content inside markdown code fences
    pattern = re.compile(r"```(?:json)?\s*(\{.*\})\s*```", re.DOTALL)
    match = pattern.search(s)
    if match:
        json_str = match.group(1)
    else:
        json_str = s.strip()
    
    try:
        return json.loads(json_str)
    except json.JSONDecodeError as e:
        raise ValueError(f"Error parsing JSON: {e}") from e

def classify_arabic_transcripts_with_history(
    transcripts: List[str], 
    llm: ChatGoogleGenerativeAI, 
    previous_labels: Set[str] = None
) -> Tuple[str, Set[str]]:
    """
    Classifies a batch of Arabic transcripts (multiple transcripts in one API call)
    and returns a JSON string mapping each transcript to its labels, along with an
    updated set of labels (including previous ones).

    Args:
        transcripts: A list of Arabic transcript strings.
        llm: A LangChain model instance for classification.
        previous_labels: A set of previously identified Arabic labels (optional).

    Returns:
        A tuple:
            - A JSON string containing the classifications for each transcript.
            - An updated set of all unique Arabic labels encountered.
    """
    # Combine all transcripts into one string with numbering.
    transcripts_text = "\n\n".join(
        [f"Transcript {i+1}: {transcript}" for i, transcript in enumerate(transcripts)]
    )
    
    previous_labels_prompt = ""
    if previous_labels:
        previous_labels_prompt = (
            f"Keep in mind these previously mentioned labels: {', '.join(previous_labels)}. "
            "Use them if applicable, and add new labels if needed.\n"
        )
    
    prompt_template = ChatPromptTemplate.from_template(
        """
        You are an expert in Arabic text classification.
        For the following Arabic transcripts, provide for each transcript a list of relevant, concise labels in arabic 
        that describe its main topics or themes. Each label should be a short noun or noun phrase.
        Output your answer as a JSON object where the keys are "transcript_1", "transcript_2", etc.,
        and the values are lists of labels.
        Do not include any additional text, commentary, or explanations.

        {previous_labels_prompt}

        Transcripts:
        {transcripts_text}

        JSON Output:
        """
    )
    
    output_parser = StrOutputParser()
    chain = prompt_template | llm | output_parser

    # Invoke the chain once with the batch of transcripts.
    json_output = chain.invoke({
        "previous_labels_prompt": previous_labels_prompt,
        "transcripts_text": transcripts_text
    })
    
    try:
        batch_dict = extract_json_object(json_output)
    except Exception as e:
        print(f"Error parsing JSON output: {e}")
        batch_dict = {}
    
    all_labels = set(previous_labels) if previous_labels else set()
    for key, labels in batch_dict.items():
        for label in labels:
            all_labels.add(label.strip())
    
    return json.dumps(batch_dict, indent=2, ensure_ascii=False), all_labels 


def process_batches(df: pd.DataFrame, column: str, n: int = 5) -> Tuple[pd.DataFrame, Set[str]]:
    """
    Processes transcripts in batches of n and classifies them using a single LLM call per batch.
    The function adds a new column "classifications" to the DataFrame, where each row is updated 
    with a list of labels (obtained from the LLM) corresponding to the transcript.
    It also updates a global set of unique labels across all batches.

    Args:
        df: A DataFrame containing the transcripts.
        column: The column name containing the transcripts.
        n: The batch size for processing.

    Returns:
        A tuple containing:
            - The updated DataFrame with a new "classifications" column.
            - A set of all unique labels encountered.
    """
    llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash", temperature=0, api_key=GOOGLE_API_KEY)
    all_labels = set()

    if "classifications" not in df.columns:
        df["classifications"] = None

    llm_request_counter = 0

    for i in tqdm(range(0, len(df), n), desc="Processing batches"):
        transcripts_batch = df[column].iloc[i:i+n].tolist()

        json_output, batch_labels = classify_arabic_transcripts_with_history(transcripts_batch, llm, all_labels)
        all_labels.update(batch_labels)
        llm_request_counter += 1

        try:
            batch_dict = json.loads(json_output)
            print("Batch dict:", batch_dict)
        except Exception as e:
            print(f"Error parsing JSON output for batch starting at index {i}: {e}")
            batch_dict = {}
        
        # Assign each transcript's labels from the JSON to the corresponding DataFrame row.
        # Keys are assumed to be "transcript_1", "transcript_2", etc.
        for j, key in enumerate(sorted(batch_dict.keys(), key=lambda x: int(x.split('_')[-1]))):
            df_index = i + j
            if df_index < len(df):
                df.at[df.index[df_index], "classifications"] = batch_dict[key]
        
        # Sleep for 20 seconds after every 15 LLM requests to avoid rate limits.
        if llm_request_counter % 15 == 0:
            print("Reached 15 requests. Sleeping for 20 seconds to avoid rate limits...")
            time.sleep(20)

        print(f"Processed batch ending at transcript index {i+n}.")
        print("----------------------------------------------")
    
    return df, all_labels


In [None]:
# # Example usage (with Arabic transcripts):
# llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash", temperature=0, api_key=GOOGLE_API_KEY)
# transcripts_batch1 = [
#     "يتحدث هذا الفيديو عن تاريخ استكشاف الفضاء وأول هبوط على سطح القمر.",
#     "تركز الحلقة على تقنيات الطبخ لخبز خبز العجين المخمر.",
#     "فيلم وثائقي عن تأثير تغير المناخ على القمم الجليدية القطبية.",
#     "درس تعليمي حول كيفية عزف أغنية شعبية على الجيتار.",
#     "حديث عن الذكاء الاصطناعي وتطبيقاته المستقبلية المحتملة."
# ]

# json_output1, all_labels1 = classify_arabic_transcripts_with_history(transcripts_batch1, llm)
# print(json_output1)
# print(f"جميع التصنيفات: {all_labels1}")
# print("-" * 20)

# transcripts_batch2 = [
#     "هذا الفيديو يتحدث عن فوائد التأمل واليقظة الذهنية.",
#     "مراجعة لأحدث سيارة كهربائية وميزاتها.",
#     "مناقشة حول التأثير الاقتصادي للعولمة.",
#     "دليل لزراعة ورعاية حديقة الخضروات.",
#     "غوص عميق في فيزياء ميكانيكا الكم."
# ]

# json_output2, all_labels2 = classify_arabic_transcripts_with_history(transcripts_batch2, llm, all_labels1)
# print(json_output2)
# print(f"جميع التصنيفات: {all_labels2}")
# print("-" * 20)

# transcripts_batch3 = [
#     "فيديو يشرح عملية التمثيل الضوئي في النباتات.",
#     "هذا الفيديو عن تاريخ مصر القديمة وفراعنتها.",
#     "درس تعليمي حول كيفية بناء موقع ويب بسيط باستخدام HTML و CSS.",
#     "مناقشة حول الاعتبارات الأخلاقية لتحرير الجينات.",
#     "مراجعة لفيلم خيال علمي شهير."
# ]

# json_output3, all_labels3 = classify_arabic_transcripts_with_history(transcripts_batch3, llm, all_labels2)
# print(json_output3)
# print(f"جميع التصنيفات: {all_labels3}")

In [None]:
df, all_labels = process_batches(df, 'cleaned_transcript', n=5)

Processing batches:   1%|          | 1/86 [00:04<06:15,  4.41s/it]

Batch dict: {'transcript_1': ['امهات غزه', 'اطفال غزه', 'قتل الاطفال', 'رفح', 'الاحتلال'], 'transcript_2': ['العلاقات البريطانية الإسرائيلية', 'اللوبي الإسرائيلي في بريطانيا', 'دعم بريطانيا لإسرائيل', 'حزب المحافظين', 'غزة', 'السياسة البريطانية في الشرق الأوسط', 'العدوان على غزة', 'الاحتلال الإسرائيلي', 'الكونسير فرينز اوف اسرائيل', 'اصدقاء اسرائيل حزب المحافظين'], 'transcript_3': ['الهجرة المغاربية إلى فرنسا', 'الاستعمار الفرنسي للمغرب العربي', 'أوضاع العمال المغاربة في فرنسا', 'التمييز ضد المغاربة في فرنسا', 'المنطقة المغاربية', 'الجزائر', 'المغرب', 'تونس'], 'transcript_4': ['الحرب التكنولوجية بين أمريكا والصين', 'صناعة أشباه الموصلات', 'الذكاء الاصطناعي', 'العقوبات الأمريكية على الصين', 'التحالف التكنولوجي الرباعي', 'شركة هواوي', 'شركة انفيديا', 'كوريا الجنوبية', 'اليابان', 'تايوان'], 'transcript_5': ['جوهرة كوه نور', 'الاستعمار البريطاني للهند', 'شركة الهند الشرقية', 'المطالبات باستعادة كوه نور', 'تاريخ كوه نور', 'التاج الملكي البريطاني', 'الملكة إليزابيث', 'الماس']}
Processed batc

Processing batches:   2%|▏         | 2/86 [00:07<05:29,  3.92s/it]

Batch dict: {'transcript_1': ['صندوق الاسكا الدائم', 'ايرادات النفط والغاز', 'توزيع ارباح النفط', 'ولاية الاسكا الامريكية', 'هوجو تشافيز', 'الصناديق السيادية'], 'transcript_2': ['سوق النفط', 'أوبك', 'النفط الروسي', 'أسعار النفط', 'الاستقلال في مجال الطاقة', 'المنتجين الأمريكيين للنفط', 'التحالف الغربي', 'تخفيض انتاج النفط'], 'transcript_3': ['ازمة الشحن العالمية', 'قناة بنما', 'البحر الاحمر', 'هجمات الحوثيين', 'قناة السويس', 'اسعار الشحن', 'التجارة العالمية', 'الموانئ الصينية', 'راس الرجاء الصالح'], 'transcript_4': ['معدلات الخصوبة', 'كوريا الجنوبية', 'التركيبة السكانية', 'الزواج', 'الاحلال السكاني', 'السياسات الاجتماعية', 'الاقتصاد الكوري الجنوبي'], 'transcript_5': ['العقوبات الأمريكية على الصين', 'الحرب التكنولوجية بين أمريكا والصين', 'العناصر الأرضية النادرة', 'الاعتماد الاقتصادي على الصين', 'الحرب التجارية', 'تايوان', 'العلاقات الصينية الأمريكية']}
Processed batch ending at transcript index 10.
----------------------------------------------


Processing batches:   3%|▎         | 3/86 [00:11<05:17,  3.83s/it]

Batch dict: {'transcript_1': ['تخفيض الرواتب', 'تسريح الموظفين', 'الركود الاقتصادي', 'تكاليف العمالة', 'الروح المعنوية للموظفين', 'شركة نوكيا', 'مصنع بوخوم', 'النظرية الكينزية'], 'transcript_2': ['مارك زوكربيرج', 'ايلون ماسك', 'تويتر', 'فيسبوك', 'شركة ميتا', 'تطبيق ثريدز', 'الاعتداء على الخصوصية', 'حقوق الملكية الفكرية', 'المنافسة بين الشركات', 'البيانات الشخصية'], 'transcript_3': ['الحرب النووية', 'روسيا', 'أمريكا', 'التدمير المتبادل المؤكد', 'الأسلحة النووية', 'التعبئة الجزئية', 'الامن الغذائي العالمي', 'التغير المناخي', 'تأثير الحرب على الاقتصاد'], 'transcript_4': ['شركة توشيبا', 'فضيحة محاسبية', 'سوق الادارة', 'الاستحواذ', 'الشركات اليابانية', 'الشركات الصينية', 'الاجهزة المنزلية', 'الطاقة النووية'], 'transcript_5': ['شركة هواوي', 'الحرب التجارية', 'العقوبات الأمريكية على الصين', 'الرقائق الإلكترونية', 'صناعة أشباه الموصلات', 'شبكات الجيل الخامس', 'الحصار التكنولوجي', 'شركة TSMC', 'التحالف التكنولوجي الرباعي']}
Processed batch ending at transcript index 15.
------------------------

Processing batches:   5%|▍         | 4/86 [00:16<05:48,  4.25s/it]

Batch dict: {'transcript_1': ['الاحتياطي الفيدرالي', 'الولايات المتحدة', 'الاحتلال الأمريكي للعراق', 'الأصول العراقية', 'صندوق تنمية العراق', 'إعادة إعمار العراق', 'الفساد المالي', 'الدينار العراقي الجديد', 'وزارة الخزانة الأمريكية', 'مجلس الأمن', 'برنامج النفط مقابل الغذاء'], 'transcript_2': ['زيوت الطعام النباتية', 'أسعار الزيوت', 'زيت النخيل', 'إندونيسيا', 'حظر التصدير', 'زيت فول الصويا', 'زيت عباد الشمس', 'الحرب الروسية الأوكرانية', 'الامن الغذائي العالمي', 'تونس', 'السودان', 'لبنان', 'مصر', 'الإمارات', 'المغرب', 'الأردن', 'الجزائر', 'السعودية', 'عمان', 'العراق', 'اليمن', 'الكويت'], 'transcript_3': ['المظاهرات الطلابية الأمريكية', 'غزة', 'العدوان على غزة', 'تيك توك', 'حظر تيك توك', 'الكونجرس الأمريكي', 'اللوبي الإسرائيلي في بريطانيا', 'العلاقات الصينية الأمريكية', 'فيسبوك', 'تويتر', 'إسرائيل', 'فلسطين', 'الامن القومي الامريكي'], 'transcript_4': ['العقوبات على روسيا', 'الحرب الروسية الأوكرانية', 'الشركات الغربية في روسيا', 'تأميم الشركات', 'شركة روزنيفت', 'شركة غازبروم', 'شركة يوني 

Processing batches:   6%|▌         | 5/86 [00:20<05:42,  4.23s/it]

Batch dict: {'transcript_1': ['الحرب الروسية الأوكرانية', 'روسيا', 'أوكرانيا', 'فلاديمير بوتين', 'مجموعة فاجنر', 'الفساد', 'وزارة الدفاع الروسية', 'الجيش الروسي', 'الولايات المتحدة', 'الاستخبارات الأمريكية', 'الشركات العسكرية الخاصة', 'الكرملين', 'سانت بطرسبرج', 'التمرد', 'الخيانة', 'العقوبات الغربية', 'الغاز الروسي', 'النفط الروسي'], 'transcript_2': ['الأزمة الروسية الأوكرانية', 'الأسمدة', 'المغرب', 'روسيا', 'الصين', 'الأمن الغذائي العالمي', 'الفوسفات', 'الاتحاد الأوروبي', 'العقوبات على روسيا', 'برنامج الغذاء العالمي', 'ميناء روتردام', 'الغاز الطبيعي', 'أسعار الغذاء', 'الشركات الروسية', 'الاستثمار الأجنبي'], 'transcript_3': ['العقوبات على روسيا', 'روسيا', 'أوكرانيا', 'اليورو', 'الدولار الأمريكي', 'اليوان الصيني', 'البنوك المركزية', 'الاحتياطيات النقدية', 'الصين', 'الاستيلاء', 'الأصول الروسية', 'التجارة الدولية', 'الناتج المحلي الإجمالي', 'العملات الاحتياطية', 'مجلس الأمن'], 'transcript_4': ['البنوك الأمريكية', 'الركود الاقتصادي', 'الاحتياطي الفيدرالي', 'أسعار الفائدة', 'السياسة الأمري

Processing batches:   7%|▋         | 6/86 [00:24<05:22,  4.03s/it]

Batch dict: {'transcript_1': ['الدواجن', 'الامن الغذائي العالمي', 'الاستيراد', 'اللحوم الحلال', 'البرازيل', 'السعودية', 'الكويت', 'الإمارات', 'الشريعة الإسلامية', 'أسعار الغذاء'], 'transcript_2': ['إسرائيل', 'بريطانيا', 'الجامعات الأمريكية', 'المظاهرات الطلابية الأمريكية', 'معاداة السامية', 'اللوبي الإسرائيلي في بريطانيا', 'الاحتلال الإسرائيلي', 'فلسطين', 'غزة', 'نعمة شفيق', 'كلية لندن للاقتصاد', 'جامعة كولومبيا', 'صندوق النقد الدولي', 'بنك إنجلترا', 'السياسة الأمريكية', 'السياسة البريطانية في الشرق الأوسط'], 'transcript_3': ['حرب أكتوبر', 'إسرائيل', 'مصر', 'سوريا', 'الولايات المتحدة', 'هنري كيسنجر', 'الدعم العسكري', 'النفط', 'أوبك', 'السعودية', 'حظر التصدير', 'الاحتلال الإسرائيلي'], 'transcript_4': ['الحرب الروسية الأوكرانية', 'روسيا', 'أوكرانيا', 'أسعار النفط', 'العقوبات الغربية', 'وزارة الخزانة الأمريكية', 'التضخم', 'الاحتياطي الفيدرالي', 'السفن', 'الصين', 'اسعار الشحن', 'النفط الروسي'], 'transcript_5': ['إسرائيل', 'فلسطين', 'غزة', 'الجامعات الأمريكية', 'المظاهرات الطلابية الأمريكية

Processing batches:   8%|▊         | 7/86 [00:28<05:31,  4.20s/it]

Batch dict: {'transcript_1': ['انقطاع الكهرباء', 'شبكة الكهرباء', 'الولايات المتحدة', 'كندا', 'جورج دبليو بوش', 'الارهاب', 'الخسائر الاقتصادية', 'صناعة السيارات', 'مصافي البترول', 'صناعة الصلب', 'شركة فورد موتورز', 'شركة دايملر', 'هوندا متورز', 'وزارة الدفاع الأمريكية', 'الامن القومي الامريكي'], 'transcript_2': ['كتائب عز الدين القسام', 'طوفان الأقصى', 'إسرائيل', 'فشل استخباراتي', 'الجدار الحديدي', 'قطاع غزة', 'حماس', 'الاحتلال الإسرائيلي', 'بنيامين نتنياهو', 'خط برليف', 'حرب أكتوبر', 'مجلس الأمن القومي الإسرائيلي', 'الامن القومي الاسرائيلي'], 'transcript_3': ['محمد الفايد', 'الأميرة ديانا', 'عماد الدين الفايد', 'الجنسية البريطانية', 'هارودز', 'مارجريت تاتشر', 'الجنيه الاسترليني', 'عدنان خاشقجي', 'حزب المحافظين', 'الرشوة', 'العائلة المالكة البريطانية'], 'transcript_4': ['صندوق النقد الدولي', 'الولايات المتحدة', 'وزارة الخزانة الأمريكية', 'الاقراض', 'السياسة الأمريكية', 'الجمعية العامة للأمم المتحدة', 'الكونجرس الأمريكي', 'الحصص', 'الصين', 'البنوك الأمريكية'], 'transcript_5': ['السيارات

Processing batches:   9%|▉         | 8/86 [00:33<05:43,  4.40s/it]

Batch dict: {'transcript_1': ['صناعة أشباه الموصلات', 'الرقائق الإلكترونية', 'شركة TSMC', 'الحصار التكنولوجي', 'الحرب التكنولوجية بين أمريكا والصين', 'شركة ASML', 'الصين', 'الولايات المتحدة', 'هولندا', 'سرقة التكنولوجيا', 'حقوق الملكية الفكرية', 'التجسس الصناعي', 'العقوبات الأمريكية على الصين'], 'transcript_2': ['حرب أكتوبر', 'حظر التصدير', 'أوبك', 'الجزائر', 'السعودية', 'النفط', 'السياسة الأمريكية', 'هنري كيسنجر', 'الولايات المتحدة', 'إسرائيل', 'الدعم العسكري', 'الامن القومي الامريكي', 'النفط كسلاح'], 'transcript_3': ['وكالات التصنيف الائتماني', 'مودس', 'ستاندرد آند بورز', 'فيتش', 'التصنيف الائتماني', 'الديون الخارجية', 'السندات', 'الركود الاقتصادي', 'الديون السيادية', 'الاحتياطيات النقدية', 'النمو الاقتصادي', 'الفساد', 'التحيز', 'التقييم الائتماني للدول'], 'transcript_4': ['الإعلانات', 'شهر رمضان', 'الإنفاق الاستهلاكي', 'التسويق', 'المنتجات الغذائية', 'الولاء للعلامة التجارية', 'علم النفس الاستهلاكي', 'وسائل الإعلام', 'التلفزيون', 'الشركات', 'المستهلكين', 'الرغبات', 'الاحتياجات', 'ال

Processing batches:  10%|█         | 9/86 [01:10<18:28, 14.40s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 45.
----------------------------------------------


Processing batches:  12%|█▏        | 10/86 [01:13<13:52, 10.95s/it]

Batch dict: {'transcript_1': ['العملات الرقمية', 'سوق العملات الرقمية', 'الخسائر الاقتصادية', 'التضخم', 'الاستثمار', 'البتكوين', 'العملات المستقرة', 'الخوارزمية', 'الاقراض', 'أسعار الفائدة'], 'transcript_2': ['طوفان الأقصى', 'وزارة الدفاع الأمريكية', 'الدعم العسكري', 'إسرائيل', 'قطاع غزة', 'العدوان على غزة', 'الذكاء الاصطناعي', 'القانون الدولي', 'الجيش الإسرائيلي', 'حماس', 'قتل الاطفال'], 'transcript_3': ['إسرائيل', 'قطاع غزة', 'المساعدات', 'معبر رفح', 'الأسرى الإسرائيليين', 'الكونجرس الأمريكي', 'السياسة الأمريكية', 'الدعم العسكري', 'حرب أكتوبر', 'هنري كيسنجر'], 'transcript_4': ['السلطة الفلسطينية', 'إسرائيل', 'طوفان الأقصى', 'كتائب عز الدين القسام', 'الضفة الغربية', 'قطاع غزة', 'الضرائب', 'بروتوكول باريس', 'محكمة العدل الدولية', 'المقاصة'], 'transcript_5': ['تايوان', 'الصين', 'الولايات المتحدة', 'صناعة أشباه الموصلات', 'شركة TSMC', 'الرقائق الإلكترونية', 'الحرب التجارية', 'الكساد الاقتصادي', 'الاستثمار', 'العمالة']}
Processed batch ending at transcript index 50.
----------------------

Processing batches:  13%|█▎        | 11/86 [01:17<11:07,  8.90s/it]

Batch dict: {'transcript_1': ['صناعة الأدوية', 'الصين', 'المكونات الصيدلانية الفعالة', 'الشركات اليابانية', 'الهند', 'الأمن القومي', 'الشركات الغربية', 'الاستثمار', 'القدرة التنافسية', 'الاحتكار', 'الاعتماد الاقتصادي على الصين', 'الشركات', 'الاستيراد', 'المنتجات الغذائية'], 'transcript_2': ['علم النفس الاستهلاكي', 'الإنفاق الاستهلاكي', 'الادخار', 'الاستثمار', 'الخسائر المالية', 'القرارات المالية', 'المخاطرة', 'الولاء للعلامة التجارية', 'الرغبات', 'السذاجة', 'الاحتيال', 'الفساد المالي', 'الذكاء', 'العاطفة', 'الخوف', 'الطمع', 'الاحتيال المالي', 'الأسواق المالية'], 'transcript_3': ['الأسواق المالية', 'الذهب', 'أسعار الذهب', 'الاستثمار', 'البنوك المركزية', 'الاحتياطي الفيدرالي', 'أسعار الفائدة', 'التضخم', 'السندات', 'العملات', 'السياسة النقدية', 'الاحتيال', 'السرقة', 'بنك إنجلترا'], 'transcript_4': ['الخسائر المالية', 'الاحتيال', 'مخطط بونزي', 'الاستثمار', 'علم النفس الاستهلاكي', 'السذاجة', 'العاطفة', 'الخوف', 'الطمع', 'الأسواق العربية', 'الأوعية الاستثمارية'], 'transcript_5': ['الحرب الرو

Processing batches:  14%|█▍        | 12/86 [01:24<10:04,  8.17s/it]

Batch dict: {'transcript_1': ['الديون الخارجية', 'الدول النامية', 'أسعار الفائدة', 'الاحتياطي الفيدرالي', 'السياسة الاقتصادية', 'التخلف عن السداد', 'صندوق النقد الدولي', 'بيرو', 'الأرجنتين', 'السياسات الحكومية', 'النمو الاقتصادي', 'الخسائر الاقتصادية', 'الديون السيادية', 'الاحتيال', 'الفساد المالي', 'الاستثمار', 'الأسواق المالية', 'الشركات الغربية', 'الاستيلاء', 'الضغط السياسي'], 'transcript_2': ['الدولار الأمريكي', 'روسيا', 'أوكرانيا', 'العقوبات الاقتصادية', 'البنك المركزي الروسي', 'الاحتياطيات النقدية', 'العملات الاحتياطية', 'اليورو', 'الصين', 'التبادل التجاري', 'السياسة الأمريكية', 'الحرب الروسية الأوكرانية', 'الأسواق المالية', 'السياسة النقدية', 'العملات', 'العملات الرقمية', 'الاعتماد الاقتصادي على الصين', 'التحالف الغربي', 'الروبل الروسي'], 'transcript_3': ['المجاعة', 'الصومال', 'الأمن الغذائي العالمي', 'المساعدات', 'الزراعة', 'صندوق النقد الدولي', 'البنك الدولي', 'السياسة الاقتصادية', 'الفقر', 'الحرب الأهلية', 'المنظمات الدولية', 'المعونات الغذائية', 'السياسات الزراعية', 'التنمية

Processing batches:  15%|█▌        | 13/86 [01:28<08:36,  7.08s/it]

Batch dict: {'transcript_1': ['قطاع غزة', 'العدوان على غزة', 'جريمة حرب', 'وزارة الدفاع الأمريكية', 'القنابل الأمريكية', 'شركة جنرال داينامكس', 'كتائب عز الدين القسام', 'طوفان الأقصى', 'الأسلحة', 'القتل', 'امهات غزه', 'اطفال غزه'], 'transcript_2': ['فرنسا', 'الاستعمار الفرنسي للمغرب العربي', 'الاستقلال', 'السياسة الاقتصادية', 'أفريقيا', 'غينيا', 'العملات', 'الفرنك', 'الفساد', 'الخيانة', 'المنظمات الدولية', 'الفقر', 'الاستخبارات الأمريكية'], 'transcript_3': ['إسرائيل', 'الولايات المتحدة', 'الدعاية', 'العلاقات العامة', 'المظاهرات الطلابية الأمريكية', 'الجامعات الأمريكية', 'بنيامين نتنياهو', 'نعمة شفيق', 'جامعة كولومبيا', 'التبرعات', 'الكونجرس الأمريكي', 'معاداة السامية', 'اللوبي الإسرائيلي في واشنطن', 'شرطة نيويورك'], 'transcript_4': ['الولايات المتحدة', 'البرازيل', 'التركيبة السكانية', 'النمو السكاني', 'هنري كيسنجر', 'مذكرة دراسة الأمن القومي', 'تنظيم النسل', 'التعقيم', 'السياسة الأمريكية', 'الدول النامية', 'الموارد'], 'transcript_5': ['العراق', 'كوريا الشمالية', 'أسلحة الدمار الشامل', 

Processing batches:  16%|█▋        | 14/86 [01:33<07:39,  6.38s/it]

Batch dict: {'transcript_1': ['الاقتصاد البريطاني', 'بنك إنجلترا', 'الجنيه الإسترليني', 'أسعار الفائدة', 'التضخم', 'السندات', 'السياسة الاقتصادية', 'حزب المحافظين', 'ليز تراس', 'الأسواق المالية', 'الأزمة المالية العالمية', 'تخفيضات ضريبية', 'الدين العام'], 'transcript_2': ['طوفان الأقصى', 'كتائب عز الدين القسام', 'الجيش الإسرائيلي', 'غزة', 'الميركافا', 'الأسلحة', 'الدبابات', 'حماس', 'الاحتلال الإسرائيلي', 'الصناعات الدفاعية', 'نظام تروفي', 'الأسلحة المضادة للدبابات', 'حرب أكتوبر', 'صواريخ سجر'], 'transcript_3': ['النفط والغاز', 'الوقود الأحفوري', 'السعودية', 'الخليج العربي', 'تنويع مصادر الدخل', 'الناتج المحلي الإجمالي', 'الاستثمار الأجنبي', 'القطاع الخاص', 'النفط', 'الغاز الطبيعي', 'الشركات النفطية', 'السياسة الاقتصادية', 'الرفاهية الاقتصادية', 'رؤية السعودية'], 'transcript_4': ['قناة بنما', 'الولايات المتحدة', 'عمر توريخوس', 'وكالة الاستخبارات المركزية الأمريكية', 'الاستقلال', 'التدخل الأمريكي', 'جيمي كارتر', 'معاهدة توريخوس', 'السيطرة الأمريكية', 'كولومبيا', 'قناة السويس'], 'transcr

Processing batches:  17%|█▋        | 15/86 [01:58<14:08, 11.95s/it]

Processed batch ending at transcript index 75.
----------------------------------------------


Processing batches:  19%|█▊        | 16/86 [02:01<10:54,  9.35s/it]

Batch dict: {'transcript_1': ['الاستعمار الفرنسي للمغرب العربي', 'الاستقلال', 'السيادة النقدية', 'التقشف', 'الفرانك', 'السياسة الاقتصادية', 'الجيش الفرنسي', 'الاغتيال', 'الفساد', 'تونس'], 'transcript_2': ['ازدواجية المعايير', 'الدول النامية', 'الوقود الأحفوري', 'الطاقة المتجددة', 'التغير المناخي', 'السياسة الاقتصادية', 'النفط والغاز', 'أفريقيا', 'الفقر', 'الاستثمار'], 'transcript_3': ['الحرب الروسية الأوكرانية', 'العقوبات على روسيا', 'البنك المركزي الروسي', 'الأصول الروسية', 'إعادة إعمار أوكرانيا', 'النفط الروسي', 'الاقتصاد الروسي', 'الاحتياطيات النقدية', 'الصين', 'الروبل الروسي'], 'transcript_4': ['الاستعمار البريطاني للهند', 'شركة الهند الشرقية', 'النهب', 'الفقر', 'المجاعة', 'العائلة المالكة البريطانية', 'تاريخ كوه نور', 'الاستعمار', 'العائلة المالكة البريطانية', 'الظلم'], 'transcript_5': ['هايتي', 'فرنسا', 'الديون الخارجية', 'الاستعمار الفرنسي', 'الفساد', 'الفقر', 'الاستعباد', 'التعويضات', 'الاستيلاء', 'الظلم']}
Processed batch ending at transcript index 80.
------------------------

Processing batches:  20%|█▉        | 17/86 [02:05<08:56,  7.77s/it]

Batch dict: {'transcript_1': ['العلاقات الصينية الإسرائيلية', 'ميناء حيفا', 'هجمات الحوثيين', 'البحر الاحمر', 'شركة كوسكو', 'التبادل التجاري', 'الموانئ الصينية', 'الامن القومي الاسرائيلي', 'طوفان الأقصى'], 'transcript_2': ['النظام المالي الامريكي', 'بلاك روك', 'علاء الدين', 'إدارة الموارد', 'الأسواق المالية', 'المخاطرة', 'الازمة المالية العالمية', 'الاستثمار', 'الاحتيال المالي', 'الهجمات السيبرانية'], 'transcript_3': ['علم النفس الاستهلاكي', 'القرارات المالية', 'الخسائر المالية', 'الاستثمار', 'الادارة', 'الخسائر الاقتصادية', 'الخوف', 'الخسارة', 'الاستثمار', 'الخسارة القريبة', 'الخسارة البعيدة'], 'transcript_4': ['الفقر', 'الظلم', 'الاحتياجات', 'التعليم', 'الطبقة المتوسطة', 'الطبقة الغنية', 'الظروف المعيشية', 'السياسات الاجتماعية', 'السياسات الحكومية', 'الماين سات'], 'transcript_5': ['قطاع غزة', 'انقطاع الكهرباء', 'الاحتلال الإسرائيلي', 'الطاقة', 'الموارد', 'الغاز الطبيعي', 'حماس', 'اتفاقيات أوسلو', 'معبر كرم ابو سالم', 'الوضع الانساني في غزة']}
Processed batch ending at transcript inde

Processing batches:  21%|██        | 18/86 [02:12<08:22,  7.39s/it]

Batch dict: {'transcript_1': ['السيارات الكهربائية', 'صناعة البطاريات', 'الشركات الصينية', 'الاستثمار الأجنبي', 'وارن بافيت', 'تشارلي مونغر', 'شركة تسلا', 'النمو الاقتصادي', 'القدرة التنافسية', 'سوق السيارات العالمي', 'شركة BYD', 'الرقائق الإلكترونية', 'سلسلة الإمداد', 'الاستيراد', 'الشركات اليابانية', 'الشركات الأمريكية', 'السيارات الهجينة', 'الابتكار التكنولوجي', 'الاستثمار', 'الأسواق المالية'], 'transcript_2': ['هجمات الحوثيين', 'البحر الاحمر', 'الموانئ الإسرائيلية', 'الاقتصاد الإسرائيلي', 'حصار غزة', 'طوفان الأقصى', 'التجارة البحرية', 'اسعار الشحن', 'التأمين', 'اليمن', 'حماس', 'حزب الله', 'إسرائيل', 'قطاع غزة', 'باب المندب', 'راس الرجاء الصالح', 'قناة السويس', 'الامن القومي الاسرائيلي', 'النفط', 'الوقود', 'التجارة الدولية'], 'transcript_3': ['الصيد', 'الثروة السمكية', 'الصين', 'الاستنزاف', 'المياه الدولية', 'الامن الغذائي العالمي', 'كوريا الشمالية', 'الاستزراع المائي', 'البروتين', 'الفقر', 'الشركات الصينية', 'الاحتيال', 'البيئة', 'الأسماك', 'النهب', 'القرصنة', 'الامن القومي', 'المح

Processing batches:  22%|██▏       | 19/86 [02:22<09:10,  8.21s/it]

Batch dict: {'transcript_1': ['الأسواق المالية', 'الخسارة المالية', 'الركود الاقتصادي', 'البورصة', 'الأسهم', 'الديون السيادية', 'الانهيار المالي', 'الطمع', 'الجشع', 'أسعار الفائدة', 'الاستدانة', 'المضاربة', 'الازمة المالية العالمية', 'الاستثمار', 'الشركات اليابانية', 'البنوك المركزية', 'الفيدرالي الأمريكي', 'الكاري تريد', 'سعر الصرف', 'الين الياباني', 'الدولار الأمريكي', 'البيزو المكسيكي', 'اذون الخزانة', 'السيولة', 'مؤشر نيكي', 'الشركات الأمريكية', 'وارن بافيت', 'شركة ابل', 'الاستقالة', 'وزير المالية الياباني', 'الاقتصاد الياباني', 'بنك اليابان المركزي', 'التضخم', 'الادخار', 'الازمة المالية العنيفة', 'العقارات', 'الخسارة', 'الخوف', 'السياسة النقدية'], 'transcript_2': ['الزلزال', 'سوريا', 'تركيا', 'الكارثة الإنسانية', 'الأضرار الاقتصادية', 'الأبنية المدمرة', 'كود الزلازل التركي', 'كود الزلازل السوري', 'الخرسانة المسلحة', 'وزارة الأشغال العامة التركية', 'المهندسين الأتراك', 'المقاولين', 'وزير البيئة والتخطيط العمراني التركي', 'القبض على المقاولين', 'مطار إسطنبول', 'تشيلي', 'كود الزلازل 

Processing batches:  23%|██▎       | 20/86 [02:26<07:38,  6.94s/it]

Batch dict: {'transcript_1': ['الاقتصاد الصيني', 'السيارات الكهربائية', 'الحرب التجارية', 'التعريفات الجمركية', 'الشركات الأمريكية', 'العمالة', 'السياسة الأمريكية', 'القدرة التنافسية', 'شركة تسلا', 'شركة BYD'], 'transcript_2': ['تيك توك', 'الرقابة الصينية', 'البيانات الشخصية', 'الامن القومي الامريكي', 'الخوارزمية', 'شركة بايت دانس', 'الجيل الخامس', 'الشركات الصينية', 'وزارة التجارة الأمريكية', 'فيسبوك'], 'transcript_3': ['الحرب الروسية الأوكرانية', 'أسعار النفط', 'الانتخابات', 'النفط الروسي', 'العقوبات على روسيا', 'أوكرانيا', 'روسيا', 'النفط والغاز', 'السياسة الأمريكية', 'المنتجين الأمريكيين للنفط'], 'transcript_4': ['صناعة أشباه الموصلات', 'الحظر التكنولوجي', 'شركة هواوي', 'العقوبات الأمريكية على الصين', 'الجيل الخامس', 'الشركات الصينية', 'وزارة التجارة الأمريكية', 'الرقائق الإلكترونية', 'شركة ASML', 'السياسة الصينية'], 'transcript_5': ['الطاقة النووية', 'العقوبات على روسيا', 'اليورانيوم', 'روسيا', 'أوكرانيا', 'فرنسا', 'ألمانيا', 'الشركات الروسية', 'الوقود النووي', 'الكهرباء']}
Proces

Processing batches:  24%|██▍       | 21/86 [02:33<07:28,  6.89s/it]

Batch dict: {'transcript_1': ['العقوبات على روسيا', 'الأصول الروسية', 'البنك المركزي الروسي', 'وزارة الخزانة الأمريكية', 'الحرب الروسية الأوكرانية', 'الاتحاد الأوروبي', 'الاستيلاء', 'تجميد الأصول', 'الكونجرس الأمريكي', 'المساعدات', 'الشركات الأمريكية', 'الشركات الغربية في روسيا', 'الروبل الروسي', 'اليورو', 'الدولار الأمريكي', 'السياسة الأمريكية', 'فلاديمير بوتين', 'أوكرانيا', 'الخسائر الاقتصادية', 'التضخم', 'النفط والغاز'], 'transcript_2': ['إسرائيل', 'فلسطين', 'الجامعات الأمريكية', 'المظاهرات الطلابية الأمريكية', 'الاحتلال الإسرائيلي', 'قطاع غزة', 'الجيش الإسرائيلي', 'جوجل', 'امازون', 'الذكاء الاصطناعي', 'الاستثمار', 'مقاطعة إسرائيل', 'معاداة السامية', 'اللوبي الإسرائيلي في واشنطن', 'نعمة شفيق', 'جامعة كولومبيا', 'الكونجرس الأمريكي', 'السياسة الأمريكية', 'الابادة الجماعية', 'طوفان الأقصى'], 'transcript_3': ['الصين', 'تايوان', 'الأمن الغذائي', 'الولايات المتحدة', 'الحرب', 'الكونجرس الأمريكي', 'السياسة الصينية', 'الزراعة', 'الاستيراد', 'الامن القومي', 'الجيش الصيني', 'السياسات الزراعية'

Processing batches:  26%|██▌       | 22/86 [02:40<07:26,  6.97s/it]

Batch dict: {'transcript_1': ['طوفان الأقصى', 'كتائب عز الدين القسام', 'قطاع غزة', 'المستوطنات الإسرائيلية', 'بنيامين نتنياهو', 'فشل استخباراتي', 'المساعدات العسكرية', 'الولايات المتحدة', 'جو بايدن', 'إسرائيل', 'إدارة الأرشيف والوثائق الوطنية الأمريكية', 'هاري ترومان', 'وزارة الخزانة الأمريكية', 'هنري مورجان ثاو', 'بريطانيا', 'فلسطين', 'فرانكلين روزفيلد', 'وزارة الخارجية الأمريكية', 'جورج مارشال', 'الحركة الصهيونية', 'الانتخابات الأمريكية', 'ديفيد جوريون', 'بنك التصدير والاستيراد الأمريكي', 'حرب أكتوبر', 'الكونجرس الأمريكي', 'اتفاقية السلام', 'التفوق العسكري النوعي', 'الكسندر هيج', 'صناعة الأسلحة', 'جورج دبليو بوش', 'باراك اوباما'], 'transcript_2': ['أسعار الذهب', 'البنك المركزي الصيني', 'أسعار الفائدة', 'التضخم', 'الدي فليش', 'الانكماش', 'القطاع العقاري', 'سوق الأسهم', 'الذهب', 'سويسرا', 'اليوان الصيني', 'الاحتياطي الفيدرالي', 'السندات', 'جيرون باول', 'مورجن ستانلي', 'جولدمان ساكس'], 'transcript_3': ['فرنسا', 'أفريقيا', 'جاك شيراك', 'القمة الفرنسية الأفريقية', 'الاستعمار الفرنسي', 'ال

Processing batches:  27%|██▋       | 23/86 [02:45<06:49,  6.50s/it]

Batch dict: {'transcript_1': ['الذكاء الاصطناعي', 'شركة بلانتير تكنولوجيز', 'الجيش الإسرائيلي', 'وزارة الدفاع الإسرائيلية', 'تكنولوجيا المراقبة', 'وكالة الاستخبارات المركزية الأمريكية', 'وكالة الأمن القومي الأمريكية', 'الاعتداء على الخصوصية', 'عملية طوفان الأقصى', 'الفشل الاستخباراتي', 'العدوان على غزة', 'كتائب عز الدين القسام', 'الشرطة التنبؤية', 'الضفة الغربية', 'مواقع التواصل الاجتماعي', 'الاحتلال الإسرائيلي'], 'transcript_2': ['الذهب', 'احتياطيات الذهب', 'البنك المركزي الصيني', 'البنك المركزي الروسي', 'العقوبات الغربية', 'صندوق النقد الدولي', 'الروبل الروسي', 'الاحتياطي الفيدرالي', 'بنك إنجلترا', 'العملات الأجنبية', 'الذهب', 'الاحتياطيات النقدية', 'العملات الاحتياطية', 'الدولار الأمريكي'], 'transcript_3': ['صندوق الثروة السيادي', 'الاستثمار', 'النمو الاقتصادي', 'الادخار', 'النفط', 'الغاز', 'تنويع مصادر الدخل', 'صندوق الثروة السيادي النرويجي', 'الجيل القادم', 'الموارد الطبيعية', 'الاستدامة المالية', 'الاستقرار الاقتصادي', 'السياسة الاقتصادية', 'الاستثمار الأجنبي', 'الازمة المالية ال

Processing batches:  28%|██▊       | 24/86 [03:19<15:01, 14.53s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 120.
----------------------------------------------


Processing batches:  29%|██▉       | 25/86 [03:54<21:01, 20.68s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 125.
----------------------------------------------


Processing batches:  30%|███       | 26/86 [04:01<16:48, 16.81s/it]

Batch dict: {'transcript_1': ['تحالف بريكس', 'الهيمنة الأمريكية', 'التجارة بالعملات المحلية', 'الدولار الأمريكي', 'الاحتياطي الفيدرالي', 'النمو الاقتصادي', 'السياسة الدولية', 'الصين', 'روسيا', 'السعودية', 'الإمارات', 'مصر', 'الأرجنتين', 'إيران', 'التضخم', 'الديون السيادية', 'السياسة الصينية', 'السياسة الروسية', 'السياسة الأمريكية', 'النفط', 'التبادل التجاري', 'العملات الأجنبية', 'أسعار الفائدة', 'السياسة النقدية', 'النفط والغاز', 'الأسواق المالية', 'الاستثمار', 'السيادة النقدية'], 'transcript_2': ['قطاع غزة', 'الاحتلال الإسرائيلي', 'معبر رفح', 'المساعدات', 'مطار غزة الدولي', 'اتفاقيات أوسلو', 'بنيامين نتنياهو', 'ياسر عرفات', 'بيل كلينتون', 'الانتفاضة الفلسطينية الثانية', 'حسني مبارك', 'أرييل شارون', 'العدوان على غزة', 'الكارثة الإنسانية', 'الوضع الانساني في غزة', 'إسرائيل', 'فلسطين', 'الجيش الإسرائيلي', 'حصار غزة', 'إعادة إعمار غزة', 'السياسة الإسرائيلية', 'السياسة الأمريكية', 'المنظمات الدولية', 'المنظمات الحقوقية', 'القانون الدولي', 'الاحتلال', 'الابادة الجماعية', 'قتل الاطفال', 'الج

Processing batches:  31%|███▏      | 27/86 [04:05<12:45, 12.97s/it]

Batch dict: {'transcript_1': ['اللجوء', 'بريطانيا', 'رواندا', 'بورس جونسون', 'ريشي سوناك', 'المحكمة الأوروبية لحقوق الإنسان', 'اتفاقية دبلن', 'الهجرة', 'البريكزت', 'اللاجئين', 'السياسة البريطانية'], 'transcript_2': ['أسعار الوقود', 'صناعة الطيران', 'تذاكر الطيران', 'النفط', 'الحرب الروسية الأوكرانية', 'الطلب المكبوت', 'مصافي البترول', 'التحوط', 'شركة طيران الإمارات'], 'transcript_3': ['الدين العام', 'وزارة الخزانة الأمريكية', 'جانيت يلين', 'سقف الديون', 'الكونجرس الأمريكي', 'الاحتياطي الفيدرالي', 'السندات', 'التخلف عن السداد', 'الاقتصاد الأمريكي', 'الركود الاقتصادي'], 'transcript_4': ['الحكومة الصينية', 'جاك ما', 'مجموعة علي بابا', 'مجموعة النملة', 'الشركات الصينية', 'الرقابة الصينية', 'الاستيلاء', 'القطاع الخاص', 'الشركات التابعة', 'الأسهم الذهبية'], 'transcript_5': ['سقف الديون', 'وزارة الخزانة الأمريكية', 'جانيت يلين', 'الكونجرس الأمريكي', 'التخلف عن السداد', 'اذون الخزانة', 'التضخم', 'الركود الاقتصادي', 'الفوائد', 'الأزمة المالية']}
Processed batch ending at transcript index 135.
-

Processing batches:  33%|███▎      | 28/86 [04:16<11:53, 12.30s/it]

Batch dict: {'transcript_1': ['عملية طوفان الأقصى', 'جو بايدن', 'الكونجرس الأمريكي', 'الجيش الأوكراني', 'الاحتلال الإسرائيلي', 'غزة', 'الذخيرة', 'وزارة الدفاع الأمريكية', 'الأسلحة', 'الجيش الإسرائيلي', 'مستودعات الذخيرة الأمريكية', 'الدعم العسكري', 'العدوان على غزة', 'وزارة الخارجية الأمريكية', 'الأسلحة الأمريكية', 'الأسلحة النووية', 'السياسة الأمريكية', 'الرأي العام العالمي', 'الوضع الانساني في غزة', 'كتائب عز الدين القسام', 'الأسرى الإسرائيليين', 'البيت الأبيض', 'وزارة الدفاع الإسرائيلية', 'يواف جلان', 'بنيامين نتنياهو', 'أرييل شارون', 'حماس', 'الأسلحة البالستية', 'الأسلحة المضادة للدبابات', 'الكونجرس الأمريكي', 'اللوبي الإسرائيلي في واشنطن', 'السياسة الإسرائيلية', 'الامن القومي الاسرائيلي', 'القتل', 'قتل الاطفال', 'امهات غزه', 'اطفال غزه', 'الابادة الجماعية', 'جريمة حرب', 'القنابل', 'الذخيرة', 'القنابل الغبية', 'القنابل الموجهة', 'الأسلحة', 'الأسلحة الأمريكية', 'الأسلحة النووية', 'السياسة الأمريكية', 'الرأي العام العالمي', 'الوضع الانساني في غزة', 'كتائب عز الدين القسام', 'الأسرى ال

Processing batches:  34%|███▎      | 29/86 [04:52<18:27, 19.44s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 145.
----------------------------------------------
Batch dict: {'transcript_1': ['الفشخرة', 'الاستهلاك التفاخري', 'إدارة الموارد', 'الرضا', 'الطبقة المترفة', 'اللامبالاة الاجتماعية', 'الفقر', 'الديون', 'علم النفس الاستهلاكي'], 'transcript_2': ['الخليج العربي', 'إيران', 'العراق', 'حرب الناقلات', 'مضيق هرمز', 'النفط', 'الأسواق العالمية', 'الجيش الإيراني', 'الجيش العراقي', 'النفط كسلاح', 'الخسائر الاقتصادية', 'التعاون العسكري', 'أسعار النفط', 'الكويت', 'السعودية', 'الولايات المتحدة', 'الأسلحة', 'الامن القومي'], 'transcript_3': ['فرنسا', 'إسرائيل', 'السلاح النووي', 'مفاعل ديمونة', 'التعاون العسكري', 'السياسة الخارجية', 'الولايات المتحدة', 'الشركات الفرنسية', 'الابتزاز', 'العدوان على غزة', 'الاحتلال الإسرائيلي', 'بنيامين نتنياهو', 'ايمانويل ماكرون', 'حماس', 'الجمعية العامة للأمم المتحدة', 'الامن القومي الاسرائيلي'], 'transcript_4': ['غزة', 'الاح

Processing batches:  35%|███▍      | 30/86 [05:17<19:44, 21.15s/it]

Processed batch ending at transcript index 150.
----------------------------------------------


Processing batches:  36%|███▌      | 31/86 [05:23<15:05, 16.46s/it]

Batch dict: {'transcript_1': ['عائلة روتشيلد', 'النصب', 'الأمن القومي الأمريكي', 'الشركات المصرفية', 'الاستخبارات الأمريكية', 'الفساد المالي', 'الاحتيال', 'الطبقة المترفة', 'الجشع'], 'transcript_2': ['سوء التغذية', 'صناعة الأغذية', 'الرضاعة الطبيعية', 'حليب الأطفال', 'الشركات', 'الدول النامية', 'الفقر', 'الاحتيال', 'الاحتيال المالي', 'المنتجات الغذائية', 'المنتجات'], 'transcript_3': ['غزة', 'معبر رفح', 'معبر كرم ابو سالم', 'الوضع الانساني في غزة', 'العدوان على غزة', 'الاحتلال الإسرائيلي', 'المعونات الغذائية', 'الخسائر البشرية', 'جريمة حرب', 'الابادة الجماعية', 'الاونروا', 'الجيش الإسرائيلي', 'حماس', 'عملية طوفان الأقصى', 'الوضع الاقتصادي', 'الظلم', 'اطفال غزه', 'امهات غزه', 'الابنية المدمرة', 'الكارثة الإنسانية', 'الاحتياجات', 'الفقر', 'المجاعة'], 'transcript_4': ['البطالة', 'الاقتصاد الصيني', 'العمالة', 'التعليم', 'الجامعات الصينية', 'الشركات الصينية', 'السياسة الصينية', 'القيود الحكومية', 'الطبقة العاملة', 'النمو الاقتصادي', 'السياسات الحكومية'], 'transcript_5': ['إسرائيل', 'الهند', 

Processing batches:  37%|███▋      | 32/86 [05:29<12:00, 13.34s/it]

Batch dict: {'transcript_1': ['تويتر', 'إيلون ماسك', 'الخسائر المالية', 'تسريح الموظفين', 'شركة تسلا', 'الأسهم', 'الإفلاس', 'الأنسولين', 'شركة الأدوية الأمريكية', 'الاحتيال', 'العلامة الزرقاء', 'التحيز', 'الشركات', 'الأسواق المالية'], 'transcript_2': ['بنيامين نتنياهو', 'السياسة الإسرائيلية', 'السياسة الأمريكية', 'اللوبي الإسرائيلي في واشنطن', 'الكونجرس الأمريكي', 'قطاع غزة', 'الاحتلال الإسرائيلي', 'باك', 'الانتخابات الأمريكية', 'الدعم السياسي', 'الفساد المالي', 'المال', 'الرشوة', 'التحيز', 'الرأي العام', 'السياسة الخارجية', 'العدوان على غزة'], 'transcript_3': ['العدوان على غزة', 'الجيش الإسرائيلي', 'الأسلحة', 'الذخيرة', 'الإبادة الجماعية', 'محكمة العدل الدولية', 'صربيا', 'إسرائيل', 'مذبحة سربرنيتسا', 'البوسنة والهرسك', 'مجلس الأمن', 'الجيش الصربي', 'التعاون العسكري', 'القانون الدولي', 'الفساد', 'الجرائم', 'الأسلحة الإسرائيلية'], 'transcript_4': ['الاقتصاد الصيني', 'الأسعار', 'الانكماش', 'الاستهلاك', 'الادخار', 'العقارات', 'البطالة', 'الشركات', 'السياسة الاقتصادية', 'الركود الاقتصادي',

Processing batches:  38%|███▊      | 33/86 [05:36<10:14, 11.59s/it]

Batch dict: {'transcript_1': ['القبة الحديدية', 'الجيش الإسرائيلي', 'كتائب عز الدين القسام', 'حزب الله', 'صواريخ المقاومة', 'قطاع غزة', 'الدعم العسكري', 'وزارة الدفاع الأمريكية', 'بنيامين نتنياهو', 'باراك اوباما', 'الامن القومي الاسرائيلي', 'الأسلحة', 'السياسة الإسرائيلية', 'الجيش الأوكراني', 'الخسائر البشرية', 'عملية طوفان الأقصى', 'الوضع الانساني في غزة', 'اطفال غزه', 'الأسلحة الأمريكية', 'الأسلحة الإسرائيلية'], 'transcript_2': ['شارل ديغول', 'الذهب', 'الدولار الأمريكي', 'الاحتياطي الفيدرالي', 'السياسة الخارجية', 'السياسة النقدية', 'الخزانة الفرنسية', 'صندوق النقد الدولي', 'السياسة الأمريكية', 'السياسة الفرنسية', 'الاحتياطيات النقدية', 'البنوك المركزية', 'العملات', 'الديون السيادية', 'النمو الاقتصادي', 'الركود الاقتصادي', 'التضخم', 'الأسواق المالية', 'السيادة النقدية', 'التبادل التجاري', 'السياسة الدولية', 'الخسائر الاقتصادية', 'الاستقرار الاقتصادي', 'الازمة الاقتصادية', 'الانهيار المالي', 'العملات الأجنبية', 'الذهب', 'السياسة النفطية', 'السياسة المالية'], 'transcript_3': ['إيمانويل 

Processing batches:  40%|███▉      | 34/86 [05:46<09:33, 11.03s/it]

Batch dict: {'transcript_1': ['الثراء السريع', 'تطبيقات المراهنة', 'القمار', 'النصب', 'الاحتيال', 'الادمان', 'الفقر', 'الخسائر المالية', 'الديون', 'الاكتئاب', 'الاحلام', 'الجهد والمال', 'الأسواق المالية', 'الشركات', 'الشباب', 'محدودي الدخل', 'الاحتمالات', 'الحظ', 'المهارة', 'وهم السيطرة', 'الخسارة', 'المكسب', 'الخوارزمية', 'الرقابة الحكومية', 'الشركات التابعة', 'التسويق بالعمولة', 'البيانات الشخصية', 'الاحياء الفقيرة', 'العقوبات الاقتصادية', 'الوضع الاقتصادي', 'التحيز الإعلامي', 'الاستثمار', 'الادارة'], 'transcript_2': ['الأونروا', 'اللاجئين', 'فلسطين', 'قطاع غزة', 'عملية طوفان الأقصى', 'محكمة العدل الدولية', 'الابادة الجماعية', 'الجيش الإسرائيلي', 'وزارة الخارجية الإسرائيلية', 'الجمعية العامة للأمم المتحدة', 'حق العودة', 'الاحتلال الإسرائيلي', 'التمويل', 'المساعدات', 'التعليم', 'الصحة', 'الرعاية الاجتماعية', 'البنى التحتية', 'الضفة الغربية', 'لبنان', 'الأردن', 'سوريا', 'الأمن الغذائي', 'النزوح', 'معبر رفح', 'المنظمات الدولية', 'الولايات المتحدة', 'ألمانيا', 'الاتحاد الأوروبي', 'السويد

Processing batches:  41%|████      | 35/86 [05:50<07:35,  8.92s/it]

Batch dict: {'transcript_1': ['روسيا', 'رومانيا', 'الذهب', 'البنك المركزي الروماني', 'الاتحاد الأوروبي', 'الحرب العالمية الأولى', 'الكرملين', 'الاحتياطيات النقدية', 'فلاديمير لينين', 'العقوبات'], 'transcript_2': ['فرنسا', 'الطاقة النووية', 'أسعار الطاقة', 'النيجر', 'اليورانيوم', 'الفقر', 'الاستعمار الفرنسي', 'أزمة الطاقة', 'الكهرباء', 'الشركات الفرنسية'], 'transcript_3': ['الصين', 'السعودية', 'النفط', 'الدولار الأمريكي', 'اليوان الصيني', 'أوبك', 'الأسواق العالمية', 'الاحتياطيات النقدية', 'التجارة العالمية', 'السياسة النفطية'], 'transcript_4': ['إسرائيل', 'حزب الله', 'غزة', 'الجيش الإسرائيلي', 'الولايات المتحدة', 'القبة الحديدية', 'الكهرباء', 'الوضع الاقتصادي', 'صواريخ المقاومة', 'الامن القومي الاسرائيلي'], 'transcript_5': ['السودان', 'المجاعة', 'الأمن الغذائي', 'الزراعة', 'الفقر', 'الجيش السوداني', 'النزاعات المسلحة', 'المساعدات', 'البنك الدولي', 'صندوق النقد الدولي']}
Processed batch ending at transcript index 175.
----------------------------------------------


Processing batches:  42%|████▏     | 36/86 [06:27<14:25, 17.32s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 180.
----------------------------------------------


Processing batches:  43%|████▎     | 37/86 [06:37<12:18, 15.08s/it]

Batch dict: {'transcript_1': ['فلاديمير بوتين', 'رفع المرتبات والمعاشات التقاعدية', 'الحرب الاقتصادية', 'العقوبات', 'صادرات النفط والغاز', 'سقف أسعار الغاز', 'مجموعة الدول السبع الكبرى', 'الحرب الروسية الأوكرانية', 'وكالة الطاقة الدولية', 'أسعار الوقود', 'التضخم', 'جانيت يلين', 'وزارة الخزانة الأمريكية', 'خام برنت', 'النفط الروسي', 'العقوبات الغربية', 'الصين', 'الهند', 'روسنفت', 'تأمين الحماية والتعويض', 'أولاف شولتس', 'ماريو دراجي', 'النفط', 'أوكرانيا', 'الركود الاقتصادي'], 'transcript_2': ['أمريكا', 'السعودية', 'أسعار النفط', 'أوبك', 'جو بايدن', 'الانتخابات الأمريكية', 'قانون نوبك', 'الغذاء', 'لجنة الطاقة والموارد الطبيعية', 'مجلس الشيوخ الأمريكي', 'جيمي كارتر', 'تشارلز ويليام دنكان جونيور', 'وزارة الطاقة الأمريكية', 'كوكا كولا', 'هنري بيلمن', 'أزمة البنزين', 'واشنطن بوست', 'وكالة الاستخبارات المركزية الأمريكية', 'لجنة التجارة الفدرالية', 'حظر النفط', 'روبرت بارلبرج', 'جامعة هارفارد', 'النفط والغاز', 'السياسة النفطية', 'الطقس السيء', 'وزارة الزراعة الأمريكية', 'الاتحاد السوفيتي', 'بو

Processing batches:  44%|████▍     | 38/86 [07:11<16:36, 20.77s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 190.
----------------------------------------------


Processing batches:  45%|████▌     | 39/86 [07:16<12:28, 15.92s/it]

Batch dict: {'transcript_1': ['إيلون ماسك', 'شركة تسلا', 'تويتر', 'الخسائر المالية', 'الأسهم', 'الأجور', 'الشركات الأمريكية', 'الاستثمار', 'التقييم', 'الادارة'], 'transcript_2': ['العمالة', 'الزراعة', 'إسرائيل', 'تايلاند', 'الأمن الغذائي', 'قطاع غزة', 'المستوطنات الإسرائيلية', 'طوفان الأقصى', 'الموانئ الإسرائيلية', 'الاحتلال', 'اللاجئين', 'التهديدات'], 'transcript_3': ['التضخم', 'الأسعار', 'الركود الاقتصادي', 'الأسواق العالمية', 'سعر الصرف', 'العملات', 'الاستيراد', 'التصدير', 'الديون', 'السياسة النقدية', 'الاحتياطي الفيدرالي', 'ميزان المدفوعات', 'النمو الاقتصادي', 'القدرة الشرائية'], 'transcript_4': ['فلسطين', 'الصين', 'إسرائيل', 'المنظمة الصهيونية', 'اللاجئين', 'الاستيطان', 'السياسة الصينية', 'الحركة الصهيونية', 'أدولف هتلر', 'المانيا', 'الولايات المتحدة', 'الصهيونية', 'موريس ويليام', 'البرت اينشتاين'], 'transcript_5': ['الطاقة', 'فرنسا', 'بريطانيا', 'المغرب', 'الطاقة المتجددة', 'الطاقة الشمسية', 'أسعار الطاقة', 'الكهرباء', 'الغاز', 'روسيا', 'أوكرانيا', 'التعاون', 'الاستثمار', 'التباد

Processing batches:  47%|████▋     | 40/86 [07:20<09:40, 12.61s/it]

Batch dict: {'transcript_1': ['أسعار الذهب', 'التضخم', 'أسعار الصرف', 'الاحتياطي الفيدرالي', 'الأسواق الناشئة', 'التحوط', 'الركود الاقتصادي', 'الذهب كملاذ آمن', 'توقعات المستثمرين', 'السياسة النقدية', 'الطلب على الذهب', 'الذهب', 'الخوف', 'القدرة الشرائية', 'الاستثمار', 'الأسواق المالية'], 'transcript_2': ['إعادة إعمار أوكرانيا', 'الحرب الروسية الأوكرانية', 'الخسائر الاقتصادية', 'الدعم المالي', 'صندوق النقد الدولي', 'الاتحاد الأوروبي', 'الولايات المتحدة', 'احتياطيات البنك المركزي الروسي', 'العقوبات على روسيا', 'التعويضات', 'خطة مارشال الجديدة', 'الناتج المحلي الإجمالي', 'البنية التحتية', 'الدمار', 'الجيش الروسي', 'أوكرانيا', 'روسيا', 'الكونجرس الأمريكي', 'وزارة الخزانة الأمريكية', 'الديون'], 'transcript_3': ['كأس العالم', 'قطر', 'البنية التحتية', 'رؤية قطر', 'الفيفا', 'السياحة', 'القوة الناعمة', 'المكاسب الاقتصادية', 'الاستادات', 'مدينة لوسيل', 'مترو الدوحة', 'مطار حمد الدولي', 'الملاعب', 'الترفيه', 'الرياضة', 'الدوحة', 'الاستثمار الرياضي'], 'transcript_4': ['إيلون ماسك', 'شركة ابل', 'ت

Processing batches:  48%|████▊     | 41/86 [07:31<09:02, 12.06s/it]

Batch dict: {'transcript_1': ['روسيا', 'أفريقيا', 'فلاديمير بوتين', 'القمة الروسية الأفريقية', 'سانت بطرسبرج', 'بوركينا فاسو', 'إبراهيم تراوري', 'الاستعمار', 'الامبريالية', 'فرنسا', 'توماس سانكارا', 'إيمانويل ماكرون', 'معمر القذافي', 'القمة الفرنسية الأفريقية', 'فولتا العليا', 'الاستقلال', 'الفساد', 'السياسيين', 'العمل الجبري', 'كوت ديفوار', 'الراديو', 'الجيش', 'الرقابة', 'الخيانة', 'الخارجية الفرنسية', 'الطبنجة', 'الامبريالية', 'التعليم', 'التقشف', 'الفرنك الأفريقي', 'صندوق النقد الدولي', 'الاغتيال', 'بليز كومباوري', 'نيجيريا', 'أوكرانيا', 'المساعدات'], 'transcript_2': ['النفط', 'إسرائيل', 'قطاع غزة', 'منظمة التعاون الإسلامي', 'حظر النفط', 'الاحتلال الإسرائيلي', 'حقل الما', 'مصر', 'سيناء', 'معاهدة السلام', 'إيران', 'المكسيك', 'حرب أكتوبر', 'باب المندب', 'كازاخستان', 'أذربيجان', 'السلاح', 'الولايات المتحدة', 'ميناء عسقلان', 'ميناء إيلات', 'ميناء حيفا', 'حزب الله', 'البنية التحتية', 'الموانئ', 'المصافي', 'هجمات الحوثيين'], 'transcript_3': ['الدول العربية', 'العملات', 'البنوك المركزية', 

Processing batches:  49%|████▉     | 42/86 [07:37<07:31, 10.25s/it]

Batch dict: {'transcript_1': ['سقف الديون', 'الكونجرس الأمريكي', 'جو بايدن', 'كيفن مكارثي', 'الجمهوريين', 'الديمقراطيين', 'وزارة الخزانة الأمريكية', 'التعديل الرابع عشر', 'الازمة الاقتصادية', 'الركود الاقتصادي', 'التصنيف الائتماني', 'ستاندرد آند بورز', 'مودس', 'سندات الخزانة', 'الأسواق العالمية', 'الفوائد', 'الاحتياطي الفيدرالي', 'السياسة المالية', 'الخسائر الاقتصادية'], 'transcript_2': ['أزمة الطاقة', 'فرنسا', 'ألمانيا', 'روسيا', 'الغاز', 'الغاز الروسي', 'أولاف شولتس', 'إيمانويل ماكرون', 'الجزائر', 'سوناطراك', 'صادرات النفط والغاز', 'الطاقة النووية', 'الطاقة المتجددة', 'الجفاف', 'أسعار الطاقة', 'الكهرباء', 'غازبروم', 'السياسة الأوروبية', 'السياسة الفرنسية'], 'transcript_3': ['إلفيرا نابيولينا', 'البنك المركزي الروسي', 'فلاديمير بوتين', 'الاقتصاد الروسي', 'الروبل الروسي', 'العقوبات', 'الاحتياطيات النقدية', 'أسعار الفائدة', 'التضخم', 'الحرب الروسية الأوكرانية', 'السياسة الروسية', 'السياسة الأمريكية', 'الشركات الروسية', 'القطاع المصرفي'], 'transcript_4': ['الإنفاق الاستهلاكي', 'الديون', 

Processing batches:  50%|█████     | 43/86 [07:41<05:59,  8.36s/it]

Batch dict: {'transcript_1': ['ألمانيا', 'أوكرانيا', 'الدبابات', 'الطاقة الروسية', 'الركود الاقتصادي', 'الشركات الألمانية', 'أولاف شولتس', 'الغاز', 'العمالة', 'الرواتب', 'القطاع الصناعي', 'الصادرات', 'الواردات', 'شركة غازبروم', 'الشركات الغربية', 'الازمة الروسية الأوكرانية', 'أسعار الطاقة'], 'transcript_2': ['الصين', 'الغذاء', 'القمح', 'الحرب الروسية الأوكرانية', 'الأمن الغذائي العالمي', 'الأسعار', 'الهند', 'منظمة الأغذية والزراعة', 'الأسمدة', 'الاستيراد', 'الزراعة', 'الاحتكار', 'السياسات الزراعية', 'الظروف المعيشية', 'الفقر'], 'transcript_3': ['روسيا', 'أوكرانيا', 'الطيران', 'العقوبات', 'إيرباص', 'بوينج', 'قطع الغيار', 'شركات الطيران الروسية', 'شركات تأجير الطائرات', 'الازمة الروسية الأوكرانية', 'الجيوش', 'الرحلات الجوية'], 'transcript_4': ['الأجور', 'الرواتب', 'المهارات', 'الطبقة العاملة', 'الطبقة الغنية', 'الترفيه', 'الطلب', 'المهن', 'القيم الاستهلاكية', 'الرياضة', 'اليوتيوب', 'الطب', 'الهندسة', 'العمالة'], 'transcript_5': ['فنلندا', 'نوكيا', 'التكنولوجيا', 'الهواتف', 'الشركات', 'ال

Processing batches:  51%|█████     | 44/86 [07:46<05:02,  7.19s/it]

Batch dict: {'transcript_1': ['شركات الأدوية', 'نوفو نورديسك', 'الركود الاقتصادي', 'أسعار الفائدة', 'الاحتياطي الفيدرالي', 'التضخم', 'الشركات الدنماركية', 'النمو الاقتصادي', 'السياسات الاقتصادية', 'الادوية', 'السمنة', 'الرهن العقاري'], 'transcript_2': ['الحرب الروسية الأوكرانية', 'العقوبات الاقتصادية', 'النفط الروسي', 'ألمانيا', 'الطاقة الروسية', 'صادرات النفط والغاز', 'أسعار النفط', 'الاتحاد الأوروبي', 'روسيا', 'أوكرانيا'], 'transcript_3': ['صندوق الثروة السيادي النرويجي', 'إسرائيل', 'الاحتلال الإسرائيلي', 'قطاع غزة', 'الاستثمار', 'الشركات الإسرائيلية', 'الاراضي الفلسطينية المحتلة', 'مقاطعة إسرائيل', 'العدوان على غزة', 'الوضع الانساني في غزة', 'الشركات', 'الاستثمارات الأجنبية'], 'transcript_4': ['ايلون ماسك', 'معاداة السامية', 'تويتر', 'تسلا', 'الاحتلال الإسرائيلي', 'طوفان الأقصى', 'الاعلام', 'الشركات', 'الخسائر المالية', 'الرقابة', 'المنظمات الحقوقية', 'الرأي العام'], 'transcript_5': ['الديون الاستهلاكية', 'الاقساط', 'الكريدت كارد', 'الاستهلاك', 'الادمان', 'الشركات', 'الاحتيال', 'الت

Processing batches:  52%|█████▏    | 45/86 [08:10<08:28, 12.41s/it]

Processed batch ending at transcript index 225.
----------------------------------------------


Processing batches:  53%|█████▎    | 46/86 [08:35<10:41, 16.04s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 230.
----------------------------------------------


Processing batches:  55%|█████▍    | 47/86 [08:39<08:10, 12.59s/it]

Batch dict: {'transcript_1': ['الرياضيات', 'الأرقام السالبة', 'جذر العدد السالب', 'المعادلات التكعيبية', 'علماء الرياضيات', 'كاردانو', 'رافاييل بومبيلي', 'الأرقام التخيلية', 'الأعداد المركبة', 'الدوال الدورية', 'الدوال المثلثية', 'معادلة أويلر', 'الموجات', 'المعادلات التفاضلية', 'التحليل', 'الدوائر الكهربائية'], 'transcript_2': ['الصين', 'الإمبراطور بويي', 'المدينة المحرمة', 'الإمبراطورية الصينية', 'الجمهورية الصينية', 'الحرب', 'اليابان', 'منشوريا', 'الحرب العالمية الثانية', 'الاتحاد السوفيتي', 'إعادة التأهيل', 'الحزب الشيوعي الصيني', 'ماو تسي تونغ', 'الجرائم'], 'transcript_3': ['ألف ليلة وليلة', 'شهرزاد', 'القصص', 'المستشرقون', 'الاستشراق', 'الترجمة', 'الخيال', 'الحكايات', 'الرواية', 'التشويق', 'الأدب'], 'transcript_4': ['الاستثمار', 'الشركات', 'الأسهم', 'وارن بافت', 'التقييم', 'المخاطرة', 'الأرباح', 'الخسائر', 'المؤشرات', 'الشركات الكبيرة', 'الشركات الصغيرة', 'الشركات الرخيصة', 'الشركات الغالية', 'التحليل', 'الأسواق المحلية'], 'transcript_5': ['الحيتان', 'التطور', 'البيئة', 'الوحوش',

Processing batches:  56%|█████▌    | 48/86 [08:44<06:31, 10.31s/it]

Batch dict: {'transcript_1': ['الاستعمار', 'أيرلندا', 'فلسطين', 'التهجير القسري', 'التمييز', 'الاحتلال', 'الجيش البريطاني', 'المقاومة', 'الكاثوليكية', 'البروتستانتية', 'الاستيطان', 'المذابح', 'المجاعة', 'الهجرة', 'الجيش الجمهوري الأيرلندي', 'وينستون تشرشل', 'معاهدة السلام', 'الحرب الأهلية', 'اللاجئين', 'وعد بلفور', 'الاعتراف بالدولة الفلسطينية'], 'transcript_2': [], 'transcript_3': ['الآباء', 'الأمهات', 'الأسرة', 'التربية', 'علم النفس الاستهلاكي', 'التحيز', 'الزواج', 'الحمل', 'الجينات', 'الكروموسومات', 'النمو', 'الأطفال', 'الرضاعة', 'الذكورة', 'الأنوثة', 'المجتمع', 'الرعاية الاجتماعية', 'الطب', 'العلوم', 'الوراثة', 'التحليل', 'الاحصائيات'], 'transcript_4': ['الأشجار', 'الطقس السيء', 'المناخ', 'الأعاصير', 'الفيضانات', 'الجفاف', 'الاحتباس الحراري', 'الرأسمالية', 'الاستعمار', 'التجارة', 'الطقس', 'العلوم', 'البيئة', 'التحليل', 'الاحصائيات', 'الآثار المنهوبة', 'المتاحف', 'التحف', 'الكنوز', 'الطقس', 'الجيولوجيا', 'الاحتباس الحراري', 'الرأسمالية', 'الاستعمار', 'التجارة', 'العلوم', 'البيئة', '

Processing batches:  57%|█████▋    | 49/86 [08:49<05:20,  8.67s/it]

Batch dict: {'transcript_1': ['الانتخابات الرئاسية', 'الكونجرس الأمريكي', 'الحزب الجمهوري', 'الحزب الديمقراطي', 'السياسة الأمريكية', 'دونالد ترامب', 'باراك أوباما', 'هيلياري كلينتون', 'المجمع الانتخابي', 'الولايات المتأرجحة', 'الناخبين', 'اللوبي اليهودي', 'السياسة الخارجية', 'التحيز الإعلامي', 'الرقابة', 'الفساد المالي', 'الانتخابات', 'الولايات المتحدة', 'الرئاسة الأمريكية', 'السياسة'], 'transcript_2': ['الطاقة', 'الطاقة النووية', 'الاندماج النووي', 'الوقود الأحفوري', 'الطاقة المتجددة', 'التلوث', 'الفيزياء', 'الكيمياء', 'الشمس', 'النجوم', 'البلازما', 'الذرة', 'الالكترونات', 'البروتونات', 'النيوترونات', 'النفايات النووية', 'الاندماج', 'الفيزياء النووية', 'العلماء', 'الابتكار التكنولوجي', 'الاستهلاك', 'البيئة', 'الاستدامة المالية'], 'transcript_3': ['الدوبامين', 'الهجرة', 'الرغبة', 'المكافأة', 'الادمان', 'الولايات المتحدة', 'الثقافة', 'الاحلام', 'العلوم', 'الطب', 'الوراثة', 'التحفيز', 'الاعصاب', 'البيولوجيا', 'علم النفس الاستهلاكي', 'الادمان', 'الطب', 'العلماء', 'الرياضيات', 'الفيزياء', 

Processing batches:  58%|█████▊    | 50/86 [08:54<04:35,  7.66s/it]

Batch dict: {'transcript_1': ['الأساطير', 'الاحلام', 'الرغبات', 'المعاناة', 'البوذية', 'التأمل', 'الكارما', 'الطبقة المترفة', 'اللامبالاة الاجتماعية', 'الأخلاق'], 'transcript_2': ['التأمين', 'الخطر', 'الاحصائيات', 'الشركات', 'الخسائر', 'البيانات', 'المعلومات', 'العملاء', 'الاسعار', 'الاحتمالات', 'الاحتيال المالي', 'الفيضانات', 'حوادث السير', 'كائنات فضائية', 'القدرة الشرائية', 'الطبقة المترفة', 'الشركات الكبيرة', 'الشركات الصغيرة', 'الخسائر المالية', 'الديون', 'الاحصائيات', 'الاحتمالات', 'الاحتيال المالي', 'الفيضانات', 'حوادث السير', 'كائنات فضائية', 'القدرة الشرائية', 'الطبقة المترفة', 'الشركات الكبيرة', 'الشركات الصغيرة', 'الخسائر المالية', 'الديون'], 'transcript_3': ['التطعيمات', 'الخوف', 'الأوبئة', 'الأمراض', 'اللقاحات', 'الطب', 'العلوم', 'نظريات المؤامرة', 'الرأي العام', 'الذاكرة', 'التحيز', 'الاحصائيات', 'الاحتمالات', 'الخسائر البشرية', 'الخسائر المالية', 'الوفاة', 'التحيز الإعلامي', 'الطبقة المترفة', 'الشركات الكبيرة', 'الشركات الصغيرة', 'الخسائر المالية', 'الديون'], 'transcript

Processing batches:  59%|█████▉    | 51/86 [09:18<07:19, 12.56s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 255.
----------------------------------------------


Processing batches:  60%|██████    | 52/86 [09:25<06:01, 10.63s/it]

Batch dict: {'transcript_1': ['التجميد', 'نبع الشباب', 'إطالة العمر', 'الشيخوخة', 'الأدوية', 'الخلايا', 'الشركات', 'الطب', 'التقاعد', 'الوعي البشري', 'الكروموسومات', 'التيلومير', 'السرطان', 'الطبقات الاجتماعية', 'الاحتباس الحراري', 'الموت', 'الاكتئاب', 'الأنشطة', 'الأهداف'], 'transcript_2': ['الخنزير', 'الشتائم', 'الحيوانات', 'الزبالة', 'اللحوم الحلال', 'الديانات', 'التربية', 'الخنازير البرية', 'الخنازير المستأنسة', 'الخنازير الأليفة', 'الخنازير المظلومة', 'الذكاء', 'الكلاب', 'القطط', 'الرفق بالحيوان', 'المشاعر', 'الزراعة'], 'transcript_3': ['سوبرمان', 'باتمان', 'الفقر', 'الخير', 'ياكوتسك', 'سيبيريا', 'الطقس', 'الخياطة', 'الملابس', 'العصر الحجري', 'الإبر', 'التطريز', 'الثورة الصناعية', 'جيمس وات', 'المحرك البخاري', 'ماكينة الخياطة', 'الجيش الفرنسي', 'إلياس هاوي', 'إسحاق سنجر', 'التسويق', 'التقسيط', 'المرأة', 'الحرب العالمية الأولى', 'وزارة الدفاع الأمريكية', 'الإفلاس', 'النقابات'], 'transcript_4': ['الفيروسات', 'المادة الوراثية', 'الخلايا', 'الحياة', 'الموت', 'التبغ', 'البكتيريا', 'الس

Processing batches:  62%|██████▏   | 53/86 [09:49<08:06, 14.73s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 265.
----------------------------------------------


Processing batches:  63%|██████▎   | 54/86 [10:13<09:26, 17.69s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 270.
----------------------------------------------


Processing batches:  64%|██████▍   | 55/86 [10:43<11:00, 21.32s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 275.
----------------------------------------------


Processing batches:  65%|██████▌   | 56/86 [11:19<12:53, 25.79s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 280.
----------------------------------------------


Processing batches:  66%|██████▋   | 57/86 [11:27<09:49, 20.32s/it]

Batch dict: {'transcript_1': ['جنكيز خان', 'المغول', 'ابن الأثير', 'الحروب', 'التاريخ', 'الاستخبارات', 'الجيش', 'الاستسلام', 'المقاومة', 'الجرائم', 'القتل', 'المدن', 'الامبراطورية المغولية', 'الطاعون', 'الحرب البيولوجية', 'السياسة', 'القانون', 'الدين', 'المرأة', 'التجارة', 'الضحايا', 'الخوف', 'الظلم', 'السياسة الصينية', 'السياسة الأوروبية'], 'transcript_2': ['الضحك', 'المقالب', 'الكوميديا', 'علم النفس', 'السلوك الاجتماعي', 'التواصل', 'الترفيه', 'العدوانية', 'المجتمع', 'الواقع', 'السخرية', 'الازلال', 'الترفيه', 'اليوتيوب', 'المهرجين', 'الجرائم', 'العنف', 'التحيز', 'التحضر', 'القيم الاستهلاكية', 'النجاح', 'الافكار', 'الاعصاب'], 'transcript_3': ['الملح', 'الصحة', 'التاريخ', 'التغذية', 'الأمراض', 'القلب', 'السكتة الدماغية', 'الصوديوم', 'الكهرباء', 'الخضار', 'الفاكهة', 'الطب', 'الخصوبة', 'التحنيط', 'المومياوات', 'المجاعة', 'الزراعة', 'الأسماك', 'الصين', 'أوروبا', 'الكنيسة الكاثوليكية', 'التجارة', 'الرابطة الهانزية', 'الأسطول', 'الاستكشاف', 'الاستيطان', 'الاحتكار', 'الضرائب', 'الجيش', 'الحرب

Processing batches:  67%|██████▋   | 58/86 [11:40<08:25, 18.04s/it]

Batch dict: {'transcript_1': ['ميتافيرس', 'شركة ميتا', 'نضارات الواقع الافتراضي', 'شركة ابل', 'مارك زوكربيرج', 'الشركات التكنولوجية', 'الذكاء الاصطناعي', 'الواقع', 'التكنولوجيا', 'الالعاب', 'الاسهم', 'الخسائر المالية', 'الابتكار التكنولوجي', 'البيانات', 'البرمجيات', 'الشركات', 'الاسعار', 'الروبوتات', 'الذكاء', 'الخيال', 'الخوف', 'الاحلام', 'الخوارزمية', 'الرقابة', 'الخصوصية', 'الاحصائيات', 'التحليل', 'التحقيقات', 'البيئة', 'الترفيه', 'الجيل القادم', 'الجيل الخامس', 'الشركات العالمية', 'الشركات الكبيرة', 'الشركات الصغيرة', 'الشركات الرخيصة', 'الشركات الغالية', 'الشركات التابعة', 'الشركات الغربية', 'الشركات الصينية', 'الشركات الروسية', 'الشركات الأمريكية', 'الشركات الفرنسية', 'الشركات الألمانية', 'الشركات الإسبانية', 'الشركات اليابانية', 'الشركات الكندية', 'الشركات التركية', 'الشركات الماليزية', 'الشركات القطرية', 'الشركات الإماراتية', 'الشركات الإيرانية', 'الشركات الإسرائيلية', 'الشركات الدنماركية', 'الشركات الكورية', 'الشركات النفطية', 'الشركات العسكرية الخاصة', 'الشركات المصرفية', 'ال

Processing batches:  69%|██████▊   | 59/86 [12:05<09:05, 20.20s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 295.
----------------------------------------------
Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Reached 15 requests. Sleeping for 20 seconds to avoid rate limits...


Processing batches:  70%|██████▉   | 60/86 [12:50<12:01, 27.73s/it]

Processed batch ending at transcript index 300.
----------------------------------------------


Processing batches:  71%|███████   | 61/86 [12:53<08:28, 20.35s/it]

Batch dict: {'transcript_1': ['نيوتن', 'الجاذبية', 'التفاضل والتكامل', 'الفيزياء', 'الرياضيات', 'الطاعون', 'الجامعات الأمريكية', 'العلماء', 'الاختراعات'], 'transcript_2': ['جيل زد', 'الآباء', 'علم النفس', 'وسائل التواصل الاجتماعي', 'الصحة', 'الاجيال', 'التربية', 'الاكتئاب', 'الشباب'], 'transcript_3': ['الزراعة', 'النباتات', 'البيئة', 'الخضار', 'الفاكهة', 'الضوء', 'التكيف', 'الاحتباس الحراري', 'الطاقة النووية'], 'transcript_4': ['الجمل', 'الصحراء', 'التكيف', 'الحيوانات', 'الجزيرة العربية', 'الترحال', 'البيئة', 'الاستعمار', 'الابل'], 'transcript_5': ['الكلاب', 'الحيوانات', 'علم النفس', 'العنف', 'الخوف', 'السلامة', 'الطب', 'الغرائز', 'التحذيرات']}
Processed batch ending at transcript index 305.
----------------------------------------------


Processing batches:  72%|███████▏  | 62/86 [13:28<09:49, 24.58s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 310.
----------------------------------------------


Processing batches:  73%|███████▎  | 63/86 [13:51<09:15, 24.17s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 315.
----------------------------------------------


Processing batches:  74%|███████▍  | 64/86 [14:15<08:47, 23.98s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 320.
----------------------------------------------


Processing batches:  76%|███████▌  | 65/86 [14:46<09:08, 26.12s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 325.
----------------------------------------------


Processing batches:  77%|███████▋  | 66/86 [15:16<09:04, 27.24s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 330.
----------------------------------------------


Processing batches:  78%|███████▊  | 67/86 [15:40<08:20, 26.33s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 335.
----------------------------------------------


Processing batches:  79%|███████▉  | 68/86 [15:45<06:02, 20.12s/it]

Batch dict: {'transcript_1': ['الإتيكيت', 'المذاكرة', 'القهوة', 'الامتحانات', 'النوم', 'حفل زفاف', 'الشوكة', 'الكنيسة الكاثوليكية', 'الطاعون', 'الملوك', 'الطبقات الاجتماعية', 'الحرب الباردة', 'القوة الناعمة', 'الملكة إليزابيث', 'البروتوكول', 'الثورة الفرنسية', 'الطبقة المتوسطة', 'الأميرة ديانا', 'الأخلاق', 'السلوك الاجتماعي'], 'transcript_2': ['روبن هود', 'اللصوص', 'الفقر', 'العدالة', 'الطبقات الاجتماعية', 'القرون الوسطى', 'القانون', 'السرقة', 'الأبطال الشعبيين', 'شكسبير', 'السينما', 'التليفزيون', 'الشيوعية', 'الإمبراطورية', 'الثورة المكسيكية', 'الظلم', 'الفلسفة', 'التحيز', 'القيم الاستهلاكية'], 'transcript_3': ['الطبيعة', 'ألاسكا', 'الرحالة', 'النباتات', 'الحيوانات', 'الرومانسية', 'الرواية', 'الزراعة', 'الصيد', 'الصناعة', 'التطور', 'الرأسمالية', 'الأخلاق', 'الرومانسية', 'الذنب', 'الخيال', 'الشركات الكبيرة', 'الاحتباس الحراري', 'البيئة', 'الاستهلاك'], 'transcript_4': ['الذكاء', 'الاختبارات', 'المدارس', 'الغباء', 'التحيز', 'القرارات المالية', 'العقلانية', 'الحكمة', 'الذاكرة', 'التحليل',

Processing batches:  80%|████████  | 69/86 [15:48<04:14, 14.97s/it]

Batch dict: {'transcript_1': ['الأشعة', 'السرطان', 'العلاج بالإشعاع', 'هيروشيما', 'تشيرنوبل', 'الطب', 'التوازن', 'الجهاز المناعي', 'الجلطات', 'سم التعبان', 'الأورام', 'الخلايا السرطانية', 'الفيزياء', 'جائزة نوبل', 'الراديوم', 'البولونيوم', 'ماري كيوري', 'النفايات النووية', 'الأخلاق', 'الكيماوي', 'البرازيل', 'الحوادث'], 'transcript_2': ['الزواج', 'العمل', 'الشركات', 'الذكاء', 'التأمين', 'الحيوانات', 'الفضاء', 'الخطف', 'النصب'], 'transcript_3': ['الاسرة', 'الزواج', 'العلاج', 'السفر', 'الخيانة', 'الافلام', 'التمثيل'], 'transcript_4': ['المهنة', 'الزواج', 'الطلاق', 'الوفاة', 'المطاعم', 'النصب', 'الاحلام'], 'transcript_5': ['الحديقة', 'الحيوانات', 'الخنازير', 'الوفاء', 'الخيانة', 'الاسرة', 'الاكل', 'المقالب', 'الكرتون']}
Processed batch ending at transcript index 345.
----------------------------------------------


Processing batches:  81%|████████▏ | 70/86 [15:52<03:03, 11.49s/it]

Batch dict: {'transcript_1': ['الافلام', 'فيلم رعب', 'كتاب ملعون', 'القتل', 'مشروع سري', 'مكافأة مالية', 'الخطف', 'الوحدة'], 'transcript_2': ['الدوبامين', 'المكافأة', 'الطلاق', 'الخوف', 'الذاكرة', 'الواقع', 'البتكوين', 'الامتحانات', 'الكوابيس'], 'transcript_3': ['الغربة', 'الطبخ', 'الزواج', 'التوابل', 'التخسيس', 'الدايت', 'الصيام المتقطع', 'الاحتلال الانجليزي', 'البرامج التلفزيونية'], 'transcript_4': ['الطاقة', 'الاندماج النووي', 'الخسائر', 'بودكاست', 'المطاعم', 'تقييم المطاعم', 'الديناصورات', 'الأخبار', 'الكورونا'], 'transcript_5': ['فرقة القناصين', 'الأسلحة', 'المهمة', 'جنكيز خان', 'الندم', 'الاحتلال', 'روما', 'الجيوش', 'الغلابة', 'الفرح', 'العملية', 'الرشوة']}
Processed batch ending at transcript index 350.
----------------------------------------------


Processing batches:  83%|████████▎ | 71/86 [16:17<03:54, 15.60s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 355.
----------------------------------------------


Processing batches:  84%|████████▎ | 72/86 [16:20<02:45, 11.81s/it]

Batch dict: {'transcript_1': ['الملاكمة', 'مايك تايسون', 'الخوف', 'العصابات', 'الطفولة', 'الفقر', 'التحول', 'القدوة', 'التدريب', 'الاحتراف', 'السجن', 'الاعتداء', 'الندم'], 'transcript_2': ['الموت', 'الطب', 'التشخيص', 'الموت الدماغي', 'هارفرد', 'القانون', 'المحكمة', 'الأخلاق', 'الأديان', 'الولايات المتحدة', 'الوفاة'], 'transcript_3': ['الكمبيوتر', 'الارقام', 'الذكاء الاصطناعي'], 'transcript_4': ['الحملة الفرنسية', 'نابليون بونابرت', 'مصر', 'الاحتلال', 'المطبعة', 'الضرائب', 'الثورة', 'الأزهر', 'العلماء', 'الجيش', 'الخيانة', 'الخازوق', 'الاستعمار', 'الآثار المنهوبة'], 'transcript_5': ['اللغة العربية', 'النحو', 'سيبويه', 'الكسائي', 'المناظرة', 'البصرة', 'الكوفة', 'الاعراب', 'الخلافة العباسية', 'الحديث', 'القرآن', 'الاعراب', 'الاعراب']}
Processed batch ending at transcript index 360.
----------------------------------------------


Processing batches:  85%|████████▍ | 73/86 [16:45<03:26, 15.89s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 365.
----------------------------------------------


Processing batches:  86%|████████▌ | 74/86 [16:53<02:42, 13.55s/it]

Batch dict: {'transcript_1': ['الشمس', 'الطاقة', 'نجوم الجيل', 'المجرة', 'الكون', 'نقيب المهن الموسيقية', 'برنامج الدحيح', 'الاقتصاد العالمي', 'فيروس كورونا', 'الأوبئة', 'الفيضانات', 'كوكب آثاري', 'النجوم الزائرة', 'الكوارث الطبيعية', 'نهاية العالم', 'الفلك', 'النجوم الجديدة', 'التحليل الطيفي', 'العناصر الكيميائية', 'الهيدروجين', 'الاندماج النووي', 'السوبرنوفا', 'قانون الجذب العام', 'إسحاق نيوتن', 'الغازات', 'الغبار', 'البلازما', 'البروتستار', 'الهيليوم', 'النجوم العملاقة', 'الكربون', 'الأكسجين', 'السيليكون', 'الحديد', 'نواة النجم', 'شاندراسيخار', 'النجم النيتروني', 'المجال المغناطيسي', 'الموجات الراديوية', 'جوسيلين', 'النجم النابض', 'سديم السرطان', 'قياس الزمن', 'الساعات', 'الساعة الشمسية', 'الساعة الرملية', 'الساعة المائية', 'الساعة البندولية', 'الساعات الديجيتال', 'قياس المسافات الفلكية', 'المادة المظلمة', 'الطاقة المظلمة', 'الموجات الجاذبية', 'مريم هيثم عصمت', 'مرصد موجات الجاذبية'], 'transcript_2': ['اللغة', 'الإسبرانتو', 'الحروب', 'السلام', 'الإمبراطورية الروسية', 'اللغات الأوروب

Processing batches:  87%|████████▋ | 75/86 [17:19<03:08, 17.10s/it]

Processed batch ending at transcript index 375.
----------------------------------------------


Processing batches:  88%|████████▊ | 76/86 [17:55<03:48, 22.86s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 380.
----------------------------------------------


Processing batches:  90%|████████▉ | 77/86 [18:31<04:02, 26.92s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 385.
----------------------------------------------


Processing batches:  91%|█████████ | 78/86 [18:36<02:41, 20.18s/it]

Batch dict: {'transcript_1': ['المساعدات الإنسانية', 'الفلسطينيين', 'الاتحاد الأوروبي', 'السياسة الدولية', 'الاحتلال الإسرائيلي', 'الفقر', 'الاستعمار', 'المساعدات', 'المنظمات الدولية', 'الشركات', 'السياسة'], 'transcript_2': ['النوم', 'الرأسمالية', 'التكنولوجيا', 'الشركات', 'الارهاق', 'الراحة', 'الالعاب', 'الادمان', 'المنومات', 'المنشطات', 'التحفيز', 'الضغط النفسي'], 'transcript_3': ['الهجرة', 'الفقر', 'البطالة', 'جودة الحياة', 'الحريات الشخصية', 'الطبقة العاملة', 'التبادل التجاري', 'العمالة', 'العنصرية', 'الاستثمار', 'الشركات', 'السياسة الدولية', 'التحويلات المالية'], 'transcript_4': ['الوحدة', 'العلاقات الاجتماعية', 'الصحة النفسية', 'الاكتئاب', 'التحليل النفسي', 'المجتمع', 'الذات', 'المرآة', 'التواصل', 'التعاطف', 'الاضطرابات النفسية', 'الرعاية الاجتماعية'], 'transcript_5': ['النرجسية', 'التحليل النفسي', 'الطفولة', 'الاضطرابات النفسية', 'العلاقات', 'الغيرة', 'الحسد', 'الذات', 'المشاعر', 'التربية', 'المرض النفسي']}
Processed batch ending at transcript index 390.
------------------------

Processing batches:  92%|█████████▏| 79/86 [18:52<02:13, 19.03s/it]

Batch dict: {'transcript_1': ['الوجبات السريعة', 'السياسات الزراعية', 'الشركات الكبيرة', 'المنتجات الغذائية', 'الادمان', 'الخضروات', 'الفواكه', 'اللحوم'], 'transcript_2': ['الامراض النفسية', 'الاضطرابات النفسية', 'التحليل النفسي', 'المشي', 'الاعصاب', 'الراحة', 'الاحلام', 'الذاكرة', 'الادراك', 'الخوف', 'الغضب', 'الضيق', 'الاكتئاب', 'الرؤية', 'الحفريات', 'التطور', 'الذكاء', 'الحضارة', 'الاحاسيس', 'الالوان', 'الاشكال', 'الاصوات', 'الروائح', 'التعاطف', 'العادات', 'السلوك الاجتماعي', 'الطبقات الاجتماعية', 'النمط العمراني', 'الخيال', 'الوحدة', 'الملل', 'الامتنان', 'الاحساس', 'التنفس', 'الافكار', 'العقل', 'التبج', 'الاسكيمو', 'القبائل', 'الاسكندرية', 'القهوة', 'الشارع', 'المخدرات', 'التهريب', 'الشرطة', 'التهريج', 'الخيانة', 'الايجابية', 'المجتمع', 'العملاء', 'الجرائم', 'القتل', 'الخوف', 'الخيانة', 'الامن', 'الاسرة', 'المنزل', 'العمل', 'الفقر', 'الظروف المعيشية', 'الرؤية', 'الاستكشاف', 'الاحلام', 'الذاكرة', 'الادراك', 'الخوف', 'الغضب', 'الضيق', 'الاكتئاب', 'الراحة', 'الاعصاب', 'التحليل النفسي'

Processing batches:  93%|█████████▎| 80/86 [19:30<02:27, 24.66s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 400.
----------------------------------------------


Processing batches:  94%|█████████▍| 81/86 [19:50<01:55, 23.19s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 405.
----------------------------------------------


Processing batches:  95%|█████████▌| 82/86 [20:26<01:48, 27.14s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 410.
----------------------------------------------


Processing batches:  97%|█████████▋| 83/86 [21:02<01:29, 29.86s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 415.
----------------------------------------------


Processing batches:  98%|█████████▊| 84/86 [21:38<01:03, 31.71s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 420.
----------------------------------------------


Processing batches:  99%|█████████▉| 85/86 [21:46<00:24, 24.36s/it]

Batch dict: {'transcript_1': ['مكيافيلي', 'كتاب الأمير', 'السياسة', 'الأخلاق', 'السلطة', 'الاستبداد', 'الديمقراطية', 'الفلسفة السياسية', 'الجمهورية', 'الخيانة', 'الخوف', 'الخداع', 'الغاية تبرر الوسيلة', 'الفساد', 'الظلم', 'الرغبة', 'العدالة', 'الخلافة', 'الخلافات', 'الخلاف', 'الخيانة', 'الخوف', 'الخداع', 'الغاية تبرر الوسيلة', 'الفساد', 'الظلم', 'الرغبة', 'العدالة', 'الخلافة', 'الخلافات', 'الخلاف'], 'transcript_2': ['التطور', 'نظرية التطور', 'الحفريات', 'القرآن', 'التفسير', 'العلوم', 'الدين', 'الاستعمار', 'العنصرية', 'الداروينية الاجتماعية', 'الرؤية الدينية', 'الخرافات', 'الالحاد', 'الجهل', 'التعصب', 'التحيز', 'التحيز الإعلامي', 'التحيز', 'التحيز الإعلامي'], 'transcript_3': ['القضية الفلسطينية', 'غزة', 'الاحتلال الإسرائيلي', 'الإبادة الجماعية', 'الفصل العنصري', 'المقاومة', 'الأسلحة', 'التكنولوجيا العسكرية', 'الاستعمار', 'الإمبريالية', 'الفاشية', 'العنصرية', 'حقوق الإنسان', 'المظاهرات', 'كتائب عز الدين القسام', 'الجيش الإسرائيلي', 'الأسلحة الإسرائيلية', 'الشركات الإسرائيلية', 'السياسة ا

Processing batches: 100%|██████████| 86/86 [22:22<00:00, 15.61s/it]

Error parsing JSON output: Error parsing JSON: Expecting value: line 1 column 1 (char 0)
Batch dict: {}
Processed batch ending at transcript index 430.
----------------------------------------------





In [16]:
df.to_csv("./data/gemini_multi_label_classifications.csv", index=False)

In [None]:
import pickle
with open('./data/all_labels.pkl', 'wb') as f:
    pickle.dump(all_labels, f)

In [17]:
df = pd.read_csv("./data/gemini_multi_label_classifications.csv")

In [18]:
df.head()

Unnamed: 0,file_name,episode_transcript,length,tags,creator,cleaned_transcript,classifications
0,أطفال_غزة,بعد سبعه اشهر وانا لا اجرؤ على حذف شيء\r\nيخصك...,00:00:35,"['غزة', 'الدحيح', 'AJ+ عربي', 'Eldahih السليط'...",Al Mokhbir Al Eqtisadi,سبعه اشهر وانا اجرؤ حذف شيء يخصك ازيل تطبيقات ...,"['امهات غزه', 'اطفال غزه', 'قتل الاطفال', 'رفح..."
1,المخبر_الاقتصادي___كيف_أصبح_أصدقاء_إسرائيل_من_...,عمان وقطر والبحرين والسعوديه دي هي الدول\r\nال...,00:22:52,"['اسرائيل', 'اشرف ابراهيم', 'البرلمان البريطان...",Al Mokhbir Al Eqtisadi,عمان وقطر والبحرين والسعوديه الدول العربيه الا...,"['العلاقات البريطانية الإسرائيلية', 'اللوبي ال..."
2,المخبر_الاقتصادي___كيف_بنى_المهاجرون_المغاربيو...,على غير العادة وبدون أي مقدمات\r\nخلونا نبدأ ا...,00:20:44,"['الجزائر', 'المغرب العربي', 'المغرب الكبير', ...",Al Mokhbir Al Eqtisadi,العادة وبدون مقدمات خلونا نبدأ الحلقة وندخل ال...,"['الهجرة المغاربية إلى فرنسا', 'الاستعمار الفر..."
3,المخبر_الاقتصادي___كيف_تخطط_أمريكا_لمنع_تطور_ق...,من حوالي السنتين\r\nوتحديداً في 3 ديسمبر 2020\...,00:14:52,"['AMD', 'APPLE', 'CHINA', 'NVDA', 'QCOM', 'SEC...",Al Mokhbir Al Eqtisadi,حوالي السنتين وتحديدا جون راتكليف مدير الاستخب...,"['الحرب التكنولوجية بين أمريكا والصين', 'صناعة..."
4,المخبر_الاقتصادي___كيف_سرقت_بريطانيا_كوه_نور_أ...,يوم 8 سبتمبر 2022\r\nتم إعلان وفاة ملكة بريطان...,00:14:54,"['الملكة', 'الملكة إليزابيث', 'المملكة المتحدة...",Al Mokhbir Al Eqtisadi,إعلان وفاة ملكة بريطانيا إليزبيث عمر يناهز الش...,"['جوهرة كوه نور', 'الاستعمار البريطاني للهند',..."


### TF-IDF labelling

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer


vectorizer = TfidfVectorizer() 
tfidf_matrix = vectorizer.fit_transform(df["cleaned_transcript"])
print(tfidf_matrix.shape)

feature_names = vectorizer.get_feature_names_out()
print(feature_names[:100])

def get_top_tfidf_words(row):
    row_data = row.toarray().flatten()  # Convert sparse row to array
    top_indices = row_data.argsort()[-3:][::-1]  # Get indices of top 3 scores
    top_words = [feature_names[i] for i in top_indices]  # Get corresponding words
    return ', '.join(top_words)



(426, 108547)
['__' 'ìū' 'ōé' 'آاااااه' 'آبا' 'آباء' 'آباؤهم' 'آباد' 'آبار' 'آبل' 'آبي'
 'آت' 'آتون' 'آتيك' 'آثار' 'آثاره' 'آثارها' 'آثامهم' 'آجا' 'آجل' 'آجلا'
 'آجي' 'آجيب' 'آجيت' 'آخد' 'آخدش' 'آخدك' 'آخدلها' 'آخده' 'آخدها' 'آخدهم'
 'آخرا' 'آخرة' 'آخرته' 'آخرتها' 'آخرك' 'آخرنا' 'آخره' 'آخرها' 'آخرهم'
 'آخري' 'آخرين' 'آد' 'آداء' 'آدائك' 'آداب' 'آدم' 'آدمي' 'آدمية' 'آدمين'
 'آدي' 'آديك' 'آذان' 'آر' 'آراء' 'آراءكم' 'آرائهم' 'آرت' 'آرتر' 'آرثر'
 'آردي' 'آرسيلور' 'آرش' 'آرشة' 'آرليت' 'آرليس' 'آرم' 'آرنت' 'آرون' 'آري'
 'آريس' 'آرييل' 'آزوفستال' 'آزيم' 'آسام' 'آستر' 'آسر' 'آسف' 'آسفا' 'آسفين'
 'آسلي' 'آسيا' 'آسيد' 'آسيوي' 'آسيوية' 'آش' 'آشلي' 'آشور' 'آشيل' 'آفات'
 'آفاق' 'آفة' 'آفي' 'آفييشن' 'آكل' 'آكلات' 'آكلة' 'آكلش' 'آكله' 'آكلي']


In [None]:
df['tf_idf_classifications'] = [get_top_tfidf_words(row) for row in tfidf_matrix]


In [21]:
df.to_csv("./data/tf_idf_classifications.csv", index=False)

In [22]:
df = pd.read_csv("./data/tf_idf_classifications.csv")
df.head()

Unnamed: 0,file_name,episode_transcript,length,tags,creator,cleaned_transcript,classifications,tf_idf_classifications
0,أطفال_غزة,بعد سبعه اشهر وانا لا اجرؤ على حذف شيء\nيخصك م...,00:00:35,"['غزة', 'الدحيح', 'AJ+ عربي', 'Eldahih السليط'...",Al Mokhbir Al Eqtisadi,سبعه اشهر وانا اجرؤ حذف شيء يخصك ازيل تطبيقات ...,"['امهات غزه', 'اطفال غزه', 'قتل الاطفال', 'رفح...","عينكم, خلوا, قصه"
1,المخبر_الاقتصادي___كيف_أصبح_أصدقاء_إسرائيل_من_...,عمان وقطر والبحرين والسعوديه دي هي الدول\nالعر...,00:22:52,"['اسرائيل', 'اشرف ابراهيم', 'البرلمان البريطان...",Al Mokhbir Al Eqtisadi,عمان وقطر والبحرين والسعوديه الدول العربيه الا...,"['العلاقات البريطانية الإسرائيلية', 'اللوبي ال...","المحافظين, الاسرائيلي, حزب"
2,المخبر_الاقتصادي___كيف_بنى_المهاجرون_المغاربيو...,على غير العادة وبدون أي مقدمات\nخلونا نبدأ الح...,00:20:44,"['الجزائر', 'المغرب العربي', 'المغرب الكبير', ...",Al Mokhbir Al Eqtisadi,العادة وبدون مقدمات خلونا نبدأ الحلقة وندخل ال...,"['الهجرة المغاربية إلى فرنسا', 'الاستعمار الفر...","المغاربة, المغاربية, فرنسا"
3,المخبر_الاقتصادي___كيف_تخطط_أمريكا_لمنع_تطور_ق...,من حوالي السنتين\nوتحديداً في 3 ديسمبر 2020\nج...,00:14:52,"['AMD', 'APPLE', 'CHINA', 'NVDA', 'QCOM', 'SEC...",Al Mokhbir Al Eqtisadi,حوالي السنتين وتحديدا جون راتكليف مدير الاستخب...,"['الحرب التكنولوجية بين أمريكا والصين', 'صناعة...","الصين, دا, أشباه"
4,المخبر_الاقتصادي___كيف_سرقت_بريطانيا_كوه_نور_أ...,يوم 8 سبتمبر 2022\nتم إعلان وفاة ملكة بريطانيا...,00:14:54,"['الملكة', 'الملكة إليزابيث', 'المملكة المتحدة...",Al Mokhbir Al Eqtisadi,إعلان وفاة ملكة بريطانيا إليزبيث عمر يناهز الش...,"['جوهرة كوه نور', 'الاستعمار البريطاني للهند',...","كوه, نور, الماسة"
