In [9]:
# !hdfs dfs -get hdfs://harunava/user/leon.kepler/clm/data.json ./data.json

In [1]:
import json
with open("data.json","r") as f:
    data = json.load(f)

In [2]:
def format_record(record):
    return f"claim: {record['claim']}, notes: {record['notes']}"
   
str_data = [format_record(record) for record in data]

In [3]:
for i in range(10):
    print(str_data[i])

claim: , notes: This is a satire. It may be offensive through linking china to covid, but it is not misinformation as it is humour. 
claim: , notes: The video describes the Alcea rugosa water extract preparation for the treatment of stomach ulcer (collect petals, cover with cold water, leave it overnight) as well as the treatment instructions (take one tablespoon before food for 10-15 days). 
Traditional herbal medicine can not treat stomach ulcers since it is a severe health problem requiring drug treatment (antibiotics in case ulcers were caused by the infection with bacteria Helicobacter pylori).

claim: , notes: DESCRIPTION: the claim, made by candace owens, is that because black Americans commit more crime, that is why they are killed by the police. Her methodology is flawed.  “These quantities can differ enormously: When officers encounter many more white civilians (due to whites’ majority status, for example), the proportion of killings involving black civilians can be small, ev

In [11]:
import os
os.environ["CUDA_VISIBLE_DEVICES"]='1'

In [12]:
import cudf
from cudf import Series
from cudf import DataFrame

from cuml.feature_extraction.text import TfidfVectorizer

In [13]:
import numpy as np
import pandas as pd
import warnings


pd.set_option('display.max_colwidth', 1000000)
warnings.filterwarnings('ignore')

In [17]:
def join_df(path, df_lib=cudf):
    data = df_lib.DataFrame()
    temp = df_lib.read_csv(path)
    # temp = temp[temp.lang=='en']
    data = df_lib.concat([data,temp])
    # for file in os.listdir(path):
    #     print(f"In path : {path}{file}")
    #     temp = df_lib.read_csv(path+file)
    #     temp = temp[temp.lang=='en']
    #     data = df_lib.concat([data,temp])
    return data

In [18]:
df = join_df('/opt/tiger/workspace/LLM/data.csv')
tweets = Series(df['text'])
len(tweets)

176722

In [19]:
vec = TfidfVectorizer(stop_words='english')

tfidf_matrix = vec.fit_transform(tweets)
tfidf_matrix.shape

(176722, 288685)

In [23]:
from cuml.common.sparsefuncs import csr_row_normalize_l2


def efficient_csr_cosine_similarity(query, tfidf_matrix, matrix_normalized=False):
    query = csr_row_normalize_l2(query, inplace=False)
    if not matrix_normalized:
        tfidf_matrix = csr_row_normalize_l2(tfidf_matrix, inplace=False)
    
    return tfidf_matrix.dot(query.T)


def document_search(text_df, query, vectorizer, tfidf_matrix, top_n=10):
    query_vec = vectorizer.transform(Series([query]))
    similarities = efficient_csr_cosine_similarity(query_vec, tfidf_matrix, matrix_normalized=True)
    similarities = similarities.todense().reshape(-1)
    best_idx = similarities.argsort()[-top_n:][::-1]
    
    pp = cudf.DataFrame({
        'text': text_df['text'].iloc[best_idx],
        'similarity': similarities[best_idx]
    })
    return pp

In [31]:
text = "من ام الفعير يلعن ابوك لابو طيزر عرضك"
document_search(df, text, vec, tfidf_matrix)

Unnamed: 0,text,similarity
106515,"claim: The video claims that a certain healthy diet can prevent from cancer. The diet must depend on vegetables and fruits.\nIt stresses the importance of eating beetroot and its juice which has many benefits. Mixing vegetables and drinking their juice helps a, notes: يكتسب الشمندر لونه الرائع من أحد أنواع مضادات الأكسدة (Antioxidants) الهامة المتواجدة فيه والمدعوة بالبيتالينات، وهذا النوع من مضادات الأكسدة بشكل خاص قد يحمي الجسم من بعض أنواع الخلايا السرطانية. كما يعتقد الباحثون أن البيتالينات تعمل على الكشف في داخل الجسم عن كافة الخلايا غير المستقرة أو السرطانية لتدمرها. السرطان هو ثاني سبب رئيسي للوفاة في الولايات المتحدة، لكن التقديرات تشير إلى أنه يمكن الوقاية مما يصل إلى ثلث الحالات عن طريق اتباع نظام غذائي والتغذية وحدها. ما هي الوصفة؟ يوصي العديد من الخبراء بالأكل من خيرات الأرض. تشير عقود من البحث إلى أن أفضل نظام غذائي للوقاية من السرطان هو كل ما يتضمن النباتات. وهذا يعني الكثير من الفواكه والخضراوات والبقوليات، أو القليل من اللحوم أو غيرها من المنتجات الحيوانية.\nقول اختصاصي النُّظم الغذائية في برنامج Mayo Clinic للحياة الصحية أنجي مراد، اختصاصية تغذية مسجلة ومرخصة: إنه على الرغم من أن الدراسات الجديدة قد احتلت العناوين الرئيسية، فإن الجزء الأكبر من البحث لا يزال يدعم تناول كميات أقل من اللحوم. وتقول: ""هناك الكثير من الأدلة للتحرك نحو نظام غذائي نباتي"".\n",0.255338
109396,"claim: Claim: the video says that Henry Kissinger has called for an end to Russia-Ukraine war to prevent a Russian-Chinese alliance as the world will be preoccupied with a Middle East upcoming war between Iran and Israel which will also involve Saudi Arabia , E, notes: ما جاء في نقل الرجل لتوقعات وزير الخارجية الامريكي \n السابق هنري كيسنجر في لقاء اجرته معه صحيفة الصنداي تايم حيث اكد ان حرب بين اسرائيل وايران قادمة ولكن كيسنجر لم يحدد اين ستقع هذه الحرب هل ستكون على الارض اللبنانية ام السورية ام الايرانية\nالخبر صحيح وقد ترجم المتحدث في الفيدبو نعض مقاطع من اللقاء الصحفي.",0.24503
113445,"claim: Claim: The video claims that there are food supplements that are natural and healthy, and cures the body from illnesses. Such as Spirulina and Reishi Mushrooms, and DXN supplements which are very important for health., notes: \nعلى الرغم من فوائد الفطر الريشي إلا أنه ذو أضرار خاصةً على الفئات الآتية:\nالأفراد الذين يعانون من انخفاض ضغط الدم.\nالأشخاص الذين يتناولون الأدوية من أجل العلاج من ارتفاع ضغط الدم، أو السكري، أو اضطرابات الجهاز المناعي.\nكما أن استهلاكه لمدة تزيد عن ستة شهور قد تسبب رد فعل تحسسيّ لدى بعض الأشخاص، وينتج عن ذلك مجموعة من الأعراض من أبرزها ما يأتي:\nجفاف في الفم والحلق و ممرات الأنف.\nالشعور بالدوخة.\nالمعاناة من الحكّة.\nالإصابة بالطفح الجلديّ.\nاما سبيرولينا فهي:\nالسبيرولينا هي نوع من أنواع الطحالب لونها أخضر مائل للزرقة، وتنمو في المحيطات والبحيرات المالحة في المناخات شبه الاستوائية.\nتعد السبيرولينا من الأغذية الخارقة بسبب غناها بالأصباغ النباتية، وقدرتها العالية على تنظيم عملية التمثيل الضوئي، ما جعلها أحد المكونات المشهورة في المكملات الغذائية.\n \nفيما يتعلق بالمكملات الغذائية من دكسن هناك تحذير من مؤسسة الغذاء والدواء الاردنية الرسمية بهذا الخصوص.\n",0.239793
113496,"claim: Claim: The video claims that Iron mixed with vitamin c and some herbs has a strong effect on the body. It provides the body with the necessary health supplements., notes: \nيُعدّ فيتامين ج: Vitamin C) أ\nمن الفيتامينات الذائبة في الماء، ويعمل في الجسم كمُضادّ للأكسدة؛ حيث يحمي من الأضرار الناتجة عن الجُذور الحُرّة -وهي مُركّباتٌ تنتج عندما يتعرّض الجسم للإشعاعات أو دخان التبغ- وقد تُرتبط بزيادة خطر الإصابة بالعديد من الأمراض، ويحتاج الجسم هذا الفيتامين لصناعة الكولاجين، وغيرها من الفوائد، ومن الجدير بالذكر أنّ الجسم لا يُصنّع هذا الفيتامين، ولذلك فإنّه يحتاج لتناوله من مصادره الغذائيّة، فهو يتوفر في العديد من الخضار والفاكهة، أو يمكن تناوله كمكمل غذائي على شكل حبوبٍ قابلة للمضغ أو كبسولات.0 seconds of 0 secondsVolume 0% أما الحديد فهو من المعادن الموجودة في الجسم والتي يحتاجها للقيام بالعديد من الوظائف، فهو من مكونات الهيموغلوبين الذي يُساهم في نقل الأكسجين من الرئتين إلى باقي أجزاء الجسم، وقد ينجم عن عدم تناول كميات كافية من مصادر الحديد الإصابة بالأنيميا؛\n",0.230646
106030,"claim: The video claims and promotes a face cream which contains natural and herbal ingredients that can whiten the face and remove black spots and treat Melasma.\n, notes: \nالكريم الذي يوصفه الفيديو ليس بالضرورة يعطي نتائج متوقعة لكنه غير ضار كونه مكون من أعشاب ومواد طبيعية .\nالمواقع الطبية تنصح باستشارة الطبيب . علاج الكلف طبيا من طرق العلاج التي تلجأ إليها الكثير من النساء وتفضلها على العديد من العديد من الطرق الطبيعية الأخرى.\nوذلك نظرا لأن الطرق الطبية في الغالب تؤتي نتائج أسرع بكثير من الطرق الطبيعية، وهناك العديد من الطرق الطبية التي يقوم\nالأطباء باستخدامها للتخلص من الكلف\nومن أنواع الغسول التي يمكنك الاعتماد عليها غسول الهيدروكينون والذي يتم تطبيقه على البقع الداكنة في البشرة بصورة مباشرة\nويمتلك قدرة كبيرة على تفتيح البشرة والتخلص من الكلف بصورة نهائية.\nكما يقوم الطبيب بوصف مجموعة من الكريمات التي تحتوي على الستيرويدات القشرية و التريتينوين\nوالتي تعمل على التخلص من جميع البقع الموجودة في البشرة بصورة نهائية، ويعمل على إكساب البشرة لون موحد.",0.218455
105500,"claim: The video claims and promotes a face cream which contains natural and herbal ingredients that can whiten the face and remove black spots and treats Melasma., notes: الكريم الذي يوصفه الفيديو ليس بالضرورة يعطي نتائج متوقعة لكنه غير ضار كونه مكون من اعشاب ومواد طبيعية .\nالمواقع الطبية تنصح باستشارة الطبيب .\nعلاج الكلف طبيا من طرق العلاج التي تلجأ إليها الكثير من النساء وتفضلها على العديد من العديد من الطرق الطبيعية الأخرى.\nوذلك نظرا لأن الطرق الطبية في الغالب تؤتي نتائج أسرع بكثير من الطرق الطبيعية، وهناك العديد من الطرق الطبية التي يقوم\nالأطباء باستخدامها للتخلص من الكلف\nومن أنواع الغسول التي يمكنك الاعتماد عليها غسول الهيدروكينون والذي يتم تطبيقه على البقع الداكنة في البشرة بصورة مباشرة\nويمتلك قدرة كبيرة على تفتيح البشرة والتخلص من الكلف بصورة نهائية.\nكما يقوم الطبيب بوصف مجموعة من الكريمات التي تحتوي على الستيرويدات القشرية و التريتينوين\nوالتي تعمل على التخلص من جميع البقع الموجودة في البشرة بصورة نهائية، ويعمل على إكساب البشرة لون موحد.\n",0.218397
56387,"claim: , notes: Findings in English\n-------------------------------------\nThe video is true.\nThe video is a matter of opinion.\nIt is also Satire and Humor. According to Pew Research Center, Only about 2% of the global population lives in polygamous households, and in the vast majority of countries, that share is under 0.5%. Polygamy is banned throughout much of the world, and the United Nations Human Rights Committee, which has said that “polygamy violates the dignity of women,” called for it to “be definitely abolished wherever it continues to exist.” But there often are limits to government administration of marriages. In many countries, marriages are governed by religious or customary law, which means that oversight is in the hands of clerics or community leaders. Determination\n---------------------------\nNot Misinformation\nIt is Opinion.Satire and Humor.\n-----------------------------------\nFindings in Arabic\n-------------------------------------\nالفيديو ممكن ان يكون صحيحا وهو مجرد راي وهو ايضا للسخرية والتهكم . الجمع بين عدة نساء هي حالة نادرة تكون فقط في المجتمعات الضيقة الفقيرة الضعيفة.\nبحسب موقع اسلام ويب من عَلامَاتِ قِيَامِ السَّاعَةِ التي تَحَدَّثَ عَنْهَا سَيِّدُنَا رَسُولُ اللهِ صَلَّى اللهُ عَلَيهِ وعَلَى آلِهِ وصَحْبِهِ وسَلَّمَ، ذَهَابُ الرِّجَالِ، وَكَثْرَةُ النِّسَاءِ، بِحَيْثُ يَكُونُ لِكُلِّ خَمْسِينَ امْرَأَةً قَيِّمٌ وَاحِدٌ.",0.211028
123936,"claim: ""Turnip is one of the most popular root vegetables with high nutritional value and rich in vitamins, minerals and powerful antioxidants. Turnip helps reduce urine retention."", notes: ""الفيديو صحيح لأن اللفت له فوائد جمة للصحة .Not Misinformation\n يساعد اللفت على التقليل من احتباس البول؛ \n\nكونه يحفّز سوائل المعدة. - يساعد على تنقية الجسم من السموم؛ ما يساعد على التخلص من الوزن الزائد والتقليل من الشعور بالجوع. - اللفت له دور في تعزيز عملية الأيض والتمثيل الغذائي بالجسم؛ ما يزيد من حرق السعرات الحرارية الزائدة، وهذا يزيد من النحافة وإنقاص الوزن الزائد\nبالنسبة للناس الذين لديهم مشاكل في الغدة الدرقية المواقع العلمية تنصح بعدم تناول اللفت .\n\nاللفت ، تحتل هذه الخضروات الجذرية ذات اللون الأبيض مكانة ثابتة في كل مطبخ تقريبًا خلال هذا الوقت من العام ،تأتي هذه الخضروات محملة بالعديد من العناصر الغذائية الدقيقة الأساسية، واللفت غنى بالفيتامينات A و B و C و E و K والكالسيوم والحديد والصوديوم والبوتاسيوم وغيرها التي تساعد على تغذيتنا من الداخل خلال فصل الشتاء، وفقا لما نشره موقع \""food-ndtv\"".\nاللفت يقلل من مخاطر الإصابة بالسرطان وهو مفيد للعينين يحمي صحة العين ويخفض ضغط الدم ويقلل من مشاكل الأمعاء \nكان معروفا لدى الرومان والاوروبيين قبل 4000 الف سنة ونقله الاوروبيون الى امريكا . وكان يعطى طعاما للفقراء لكونه يحتوي على معظم الاحتياجات الغذائية .\n""",0.207513
110092,"claim: Claim: \nClaim: Who are the masonic movement, and what kind of relation binds them with Saddam Hussein and Muqtada Al--Sadr of Iraq. The video demonstrates political regimes that have been destroyed and disappeared, according to the Freemasonry orders and, notes: صدام حسين أول من تنبأ لخطرها وأول من حاربها إيران الخطر القادم من الشرق\nيذكر أنه بحسب المادة 201 من قانون العقوبات العراقي يُعاقب بالإعدام كل من روج لـ""مبادئ الصهيونية، بما في ذلك الماسونية، أو انتسب إلى أي من مؤسساتها، أو ساعدها ماديا أو أدبيا، أو عمل بأي كيفية كانت لتحقيق أغراضها"".\nولا يقيم العراق أي علاقات مع إسرائيل، في وقت ترفض الحكومة وأغلبية القوى السياسية في البلاد التطبيع معها.\nوأكد الصدر في تغريدة عبر حسابه الرسمي على ""تويتر"" أن أحد الأسباب الرئيسة التي دعته بزج ""التيار الصدري"" في العملية الانتخابية مرة أخرى، هي مسألة التطبيع والمطامع الإسرائيلية للهيمنة على العراق. بعد العام 2003 والاحداث التي عقبت سقوط الصنم . اصبح العراق ارضا خصبة للعديد من الاجندات والحركات العالمية وفي مقدمتها الماسونية . فصار رجالها يمارسون مهامهم دون خوف او رقابة فتسنموا المناصب والوزارات وحكموا وعاثوا بالارض فسادا , ليكملوا مهمة افراغ البلد من كل محتوياته وثرواته الفكرية والعلمية والمالية . بالاضافة لما قامت به وحدات عسكرية من قوات المارينز والتي تعمل بأمرة الماسونية وتنفذ مخططاتها , وهي وحدات قتالية جميع عناصرها من اليهود تركزت اعمالهم في مناطق الفرات الاوسط وتحديدا في منطقة الكفل حيث تمكنوا من نقل اثار مقدسة لليهود . \n",0.204488
110090,"claim: Claim: Who are the masonic movement, and what kind of relation that bind them with Saddam Hussein and Muqtada Al--Sadr of Iraq. The video demonstrates some political incidents and regimes that have been disappeared worldwide, according to masonic orders, notes: صدام حسين أول من تنبأ لخطرها وأول من حاربها إيران الخطر القادم من الشرق\nيذكر أنه بحسب المادة 201 من قانون العقوبات العراقي يُعاقب بالإعدام كل من روج لـ""مبادئ الصهيونية، بما في ذلك الماسونية، أو انتسب إلى أي من مؤسساتها، أو ساعدها ماديا أو أدبيا، أو عمل بأي كيفية كانت لتحقيق أغراضها"".\nولا يقيم العراق أي علاقات مع إسرائيل، في وقت ترفض الحكومة وأغلبية القوى السياسية في البلاد التطبيع معها.\nوأكد الصدر في تغريدة عبر حسابه الرسمي على ""تويتر"" أن أحد الأسباب الرئيسة التي دعته بزج ""التيار الصدري"" في العملية الانتخابية مرة أخرى، هي مسألة التطبيع والمطامع الإسرائيلية للهيمنة على العراق. بعد العام 2003 والاحداث التي عقبت سقوط الصنم . اصبح العراق ارضا خصبة للعديد من الاجندات والحركات العالمية وفي مقدمتها الماسونية . فصار رجالها يمارسون مهامهم دون خوف او رقابة فتسنموا المناصب والوزارات وحكموا وعاثوا بالارض فسادا , ليكملوا مهمة افراغ البلد من كل محتوياته وثرواته الفكرية والعلمية والمالية . بالاضافة لما قامت به وحدات عسكرية من قوات المارينز والتي تعمل بأمرة الماسونية وتنفذ مخططاتها , وهي وحدات قتالية جميع عناصرها من اليهود تركزت اعمالهم في مناطق الفرات الاوسط وتحديدا في منطقة الكفل حيث تمكنوا من نقل اثار مقدسة لليهود . \n",0.203773
