Using snorkel to classify articles about oil markets versus all others.

One apparent finding from this and the Syria example (`snorkel_testing_arabic_syria_1.ipynb`) is that a short list of terms that you're very confident will appear in the text is very powerful. Here, that's oil and related terms.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import re
import snorkel

%matplotlib inline
from IPython.core.pylabtools import figsize

In [2]:
from snorkel.labeling.apply import PandasLFApplier
from snorkel.labeling.lf import labeling_function

POS = 1
NEG = -1
ABSTAIN = 0

In [3]:
#Load in our cleaned data and re-check category labels
media_df = pd.read_csv('/Users/awhite/Documents/snorkel/arabic_news_cleaned.csv')
media_df.category.value_counts()

كرة_القدم                       4301
الأزمة_السورية                 3160
جماعات_مسلحة                    2142
أسواق_النفط                    1364
لاجئون                         1256
رياضات_اخرى                     1100
المعارضة_السورية                1002
صواريخ                           741
التقنية_والمعلومات               639
فضاء                             630
أسلحة_ومعدات_عسكرية             625
الهجرة_إلى_أوروبا              616
الأزمة_الأوكرانية              595
اكتشافات                         577
الأزمة_اليمنية                  566
تفجيرات                          559
مشاهير                           539
البحوث_الطبية                    530
معلومات_عامة                     484
طائرات_حربية                    479
الانتخابات_الأمريكية            447
جرائم                           433
مظاهرات                          422
مؤشرات_اقتصادية                 400
عقوبات_اقتصادية                  397
الاعتراف_بدولة_فلسطين            369
امراض                            323
أولمبياد_ريو_د

There are several broad categories like جماعات_مسلحة (armed groups) and أسواق_النفط (oil markets), then more specific categories such as two for the Syrian conflict: الأزمة_السورية (Syrian conflict) and المعارضة_السورية (Syrian opposition). Let's start with one of the general categories, then move on to Syria.  

In [4]:
#Recoding data for these two classification problems
#Full category names not working, probably because Arabic

media_df = media_df.assign(oil = media_df.category.str.contains("النفط") == True)
media_df = media_df.assign(syria = media_df.category.str.contains("سورية") == True)

media_df.oil = media_df.oil.replace({True:1,False:-1})
media_df.syria = media_df.syria.replace({True:1,False:-1})

media_df[media_df.oil == 1].head()

Unnamed: 0,text,category,oil,syria
6208,اسعار تتراجع توقعات انتاج اوبك مستوياته حاليه ...,أسواق_النفط,1,-1
6209,تبدا ببنا انابيب سيبيريا روسي اراض قالت شركه غ...,أسواق_النفط,1,-1
6210,اسعار ترتفع بدعم ارتفعت اسعار بدعم نزوله تعامل...,أسواق_النفط,1,-1
6211,اوبك تجتمع فيينا توقعات ابقا مستويات انتاج تجت...,أسواق_النفط,1,-1
6212,روسيا تنوي محافظه مستويات انتاج حاليه طاقه روس...,أسواق_النفط,1,-1


In [5]:
from sklearn.model_selection import train_test_split

train, test = train_test_split(media_df, test_size = 0.2, random_state = 0)

train, valid = train_test_split(train, test_size = 0.2, random_state = 0)
train, dev = train_test_split(train, test_size = 0.2, random_state = 0)

Y_train = train["oil"].values
Y_dev = dev["oil"].values
Y_valid = valid["oil"].values
Y_test = test["oil"].values

len(train)

14166

In [6]:
pd.set_option("display.max_colwidth", 0)

dev[dev.oil == 1].sample(5)

Unnamed: 0,text,category,oil,syria
21344,روسيا تدشن انابيب جديده لضخ غاز نفط اعطى رئيس روسي فلاديمير بوتين جسر تلفزيوني اخضر لبد عمل خطين لنقل نفط انبوب اخر لنقل غاز طبيعي رئيس بوتين اطلاق انابيب غاز نفط جديده يعزز قدره صناعه لقطاعي نفط غاز روسيا يضمن تنفيذ روسيا لعقود تصدير موكدا مشاريع جديده ستشجع زياده استثمارات اقاليم روسيه خطوط جديده ثلاث انبوب باسم بوفانينكوفو اوختا يصل حقول غاز شبه جزيره يامال بمنظومه غاز روسيه تقع شبه جزيره غرب سيبيريا تعتبر اكبر مكمن غاز طبيعي روسيا ثاني انبوب يطلق اسم كويومبا تايشيت يقع سيبيريا مخصص لضخ نفط حقول ذهب اسود واقعه كويومبا بشرق سيبيريا محطه تكرير نفط تايشت فانبوب لنقل نفط باسم زابولياريه بوربيه اقصى شرق روسي يبلغ طوله كيلومترا بقدره تمريريه تصل مليون سنويا خارطه تظهر خطي نفط كويومبا تايشيت زابولياريه بوربيه نوفوستي فريد غايرلي,أسواق_النفط,1,-1
21443,موسكو نامل بعدم تسييس مشروع سيل شمالي اعربت زاره خارجيه روسيه بعدم تسييس اتحاد اوروبي لمشروع سيل شمالي موكده مشروع اقتصادي تجاري بحت ايغور نيفيروف رئيس قسم اوروبي وزاره لوكاله نوفوستي ننظر انابيب كمشروع متبادل تجاري بحت نامل يكون خلط اقحام سياسيه مشروع حول شرعيه مشروع اضاف نيفيروف مفوضيه اوروبيه تعاملت مشروع بشكل موضوعي توجد ايه اسباب قانونيه لمنعه جهه نظرنا ايه اسباب طابع اقتصادي تعامل بشكل سلبي مشروع اقرا مزيد شركات اوروبيه تموّل سيل شمالي لنقل غاز روسي يتضمن مشروع سيل شمالي خطين انابيب نقل غاز روسي بحر بلطيق اوروبا تبلغ طاقته اجماليه نحو مليار متر مكعب غاز سنويا مخطط مشروع جديد قرب سيل شمالي علما لتنفيذ مشروع سيل شمالي حصول موافقه روسيا فنلندا سويد دنمارك مانيا نوفوستيناديجدا انيوتينا,أسواق_النفط,1,-1
6655,طاقه دوليه اقتصاد عالم يعتمد اعلن فاتح بيرول رئيس كاله طاقه دوليه اعتماد اقتصاد عالمي اوسط ازدياد بيرول فشلت اتفاق تجميد انتاج ايجاد عوده استقرار لاسعار متدنيه اوسط رئيس وكاله سعوديه عراق يملكان اكبر منطقه مشيرا يتجاوز معروض خلفيه تراجع انتاج برازيل ولايات متحده كندا ناجم انخفاض اسعار اسواق عالميه بيرول صحيفه فاينانشال تايمز يعتبر اوسط ارتفع ازداد استيراد مستهلكه تنتج اوسط حاليا عالم كاله طاقه دوليه متوسط انتاج بلدان يبلغ مليون برميل يوميا اعلى يمثل انتاج عالمي,أسواق_النفط,1,-1
21179,موسكو توكد مواصله تعاو رياض اكد زير طاقه روسي كسندر نوفاك مواصله تعاون سعوديه رغم عدم جود اتفاق تثبيت انتاج نفط نوفاك لدينا تعاون مشترك مجال طاقه فضلا تعاون ثنائي اقتصادي تجاري بطبيعه حال نواصل اتصالات زير نفط سعودي جديد تستمر اتصالاتنا ضمن لجان حكوميه دوليه اضاف وزير روسي رغم حقيقه دول نفطيه فشلت توصل لاتفاق بشان تجميد انتاج نفط دوحه ماضي اصلنا اتصالاتنا نقوم بتطوير تعاوننا اتجاهات اشار نوفاك عمل مشترك موسكو رياض تعزز عهد زير نفط سعودي معربا امله استمرار تعاون مجال طاقه بعهد وزير جديد موضحا توجد لديه خطط فوريه اجتماع وزير خالد فالح تولى منصب خلفا نعيمي تاتي تصريحات عقب اخفاق منتجي نفط اتفاق تثبيت مستويات انتاج لدعم اسعار اجتماع دوحه بقطر شهر ماضي نحو شهرين اتفاق رباعي سعوديه روسيا فنزويلا قطر تجميد انتاج مستويات بشرط تزام منتجين كبار آخرين بشروط اتفاق روسيه,أسواق_النفط,1,-1
6216,اوبك تقرر حفاظ مستوى انتاج مليون برميل يوميا قررت منظمه اوبك اجتما سنوي فيينا محافظه مستويات انتاج سابقه مستوى مليون برميل يوميا لمده اشهر اوبك تعارض انضمام اعضا روسيا اوبك تتطرق لعوده اندونيسيا منظمه سعودي نعيمي اوبك قررت محافظه مستوى انتاج مستوى مليون برميل يوميا معمول قرار اوبك ضغوط فائض اسعار رغبه منظمه اسعار كايران فنزويلا جزائر قررت اوبك اجتما مقبل مقبل اشهر نعيمي اكبر دوله منتجه منظمه منظمه ملتزمين حفاظ مستوى انتاج اعضا منظمه اجتما مساله عوده اندونيسيا عضويه منظمه سعودي انتعاش اسعار باكثر فتره اخيره سجلت ادنى مستوى سنوات بلغت دولارا برميل مسوولون مجتمعون فيينا مبررا لتعديل استراتيجيه انعشت ضعيف استهلاك عالمي كبحت طفره صخري ولايات متحده اوبك معالجه اسئله صعبه اشهر مقبله استعداد اعضا ايران ليبيا لزياده انتا نفطي سنوات تراجع تسعى ايران اعضا منظمه لافساح مجال زياده معروض مليون برميل يوميا تخفيف عقوبات غربيه مفروضه توصل لاتفاق مجموعه بشان برنام نووي تامل ليبيا تعاني صراع مسلح زياده انتاج حوالي مليون برميل يوميا اعاده تشغيل موانئ رئيسيه,أسواق_النفط,1,-1


In [7]:
#testing regex quirks in Arabic text
test1 = "الجزائر"
test2 = "الجزاىر"

test1.count(r"الجزا*ر")

#Wildcard not working

0

In [8]:
oil = r"برميل|نفظ|بترول"

@labeling_function()
def oil_terms(x):
    return POS if re.search(oil, x.text) else NEG

In [9]:
econ = r"سعر|اسعار|ستثمار|اقتصاد|سوق|اسواق"

@labeling_function()
def econ_terms(x):
    return POS if re.search(econ, x.text) else ABSTAIN

In [10]:
conflict = r"ضبرات|معارك|سلح"

@labeling_function()
def conflict_terms(x):
    return NEG if re.search(conflict, x.text) else ABSTAIN

In [11]:
exclude = r"كرة القدم|فلم|افلام"

@labeling_function()
def misc_exclude(x):
    return NEG if re.search(exclude, x.text) else ABSTAIN

In [12]:
countries = r"خليجي|الجزائر|ليبي|نيجيري|سعودي|روسي|امريك"

@labeling_function()
def oil_countries(x):
    return POS if re.search(countries, x.text) else ABSTAIN


In [13]:
lfs = [oil_terms, econ_terms, conflict_terms, misc_exclude, oil_countries]

applier = PandasLFApplier(lfs=lfs)
L_train = applier.apply(df=train)
L_dev = applier.apply(df=dev)

100%|██████████| 14166/14166 [00:04<00:00, 2899.16it/s]
100%|██████████| 3542/3542 [00:00<00:00, 5144.75it/s]


In [14]:
from snorkel.labeling.analysis import LFAnalysis

LFAnalysis(L=L_dev, lfs=lfs).lf_summary(Y=Y_dev)

Unnamed: 0,j,Polarity,Coverage,Overlaps,Conflicts,Correct,Incorrect,Emp. Acc.
oil_terms,0,[1],0.034726,0.034726,0.034726,104,0,0.845528
econ_terms,1,"[0, 1]",1.0,1.0,0.618577,143,34,0.040373
conflict_terms,2,[0],0.792772,0.792772,0.48419,0,168,0.0
misc_exclude,3,[0],0.99266,0.99266,0.61406,0,177,0.0
oil_countries,4,"[0, 1]",1.0,1.0,0.618577,151,26,0.042631


In [15]:
from snorkel.analysis.error_analysis import get_label_buckets

buckets = get_label_buckets(Y_dev, L_dev[:, 1])
dev.iloc[buckets[(POS, ABSTAIN)]].sample(5, random_state=1)

Unnamed: 0,text,category,oil,syria
21065,غارديان تتحصل ثائق داعش لبنا دوله خلافه نشرت صحيفه غارديان بريطانيه ثيقه سريه مسربه تعود لداعش تكشف تفاصيل خطط تنظيم ارهابي لبنا اسس يدعي دوله خلافه مرحله اولى اعلان تنظيم خلافه اسلاميه اراضي عراق سوريا ركز قادته اصدار اوامر تخص جوانب سطحيه حياه اجتماعيه حدود دوله مزعومه حظر ارتدا ملابس اسلاميه تربيه حمام اعتبار اخيره مضيعه وقت انتقل داعش اصدار لوائح تعليمات تخص دوله بحد نشرت غارديان ثيقه سريه مكونه صفحه تحمل عنوان مبادئ اداره دوله اسلاميه تضم وثيقه مذكوره مبادئ نظام تربوي اعلامي لداعش آليات دعايته علاقاته خارجيه تحكم تجاره نفط غاز تصور وثيقه نظاما شديد تعقيد لتسيير معسكرات تنقسم اعداديه خاصه اطفال تدريبيه لمسلحين محترفين تشير صحيفه برنامج يبرز مدى جديه تعاطي تنظيم ارهابي قضيه اسس دوله غارديان تحدي يواجهه ائتلاف غربي داعش ينحصر تنفيذ مهمه قتاليه عاديه تنظيم اعتباره مجرد جمله مسلحين تنقل صحيفه ستينلي ماكريستال جنرالات احتياط امريكيين قوله غرب بتعامله داعش عصابه مجانين عاديين يجازف وقوع خطر تقدير قواه صحيفه بريطانيه تشير ثائق داعش صادره مدار اشهر خمسه اخيره تركز اجراات امن تعبئه تجنيد امر يدل تنامي اعراض بارانويا صفوف تنظيم فرض حظرا شبكات الـ خاصه اعلن عاما هاربين ساحات قتال نقص جنود تنظيم نوفوستي,أسواق_النفط,1,-1
21414,مصر ثالث كشف غاز لشركه اعلنت شركه نفط بريطانيه اكتشافا جديدا غاز طبيعي منطقه امتياز شمال دمياط بحريه بشرق دلتا نيل يوكد جود مكامن لغاز منطقه مصريه يعد ثالث نجاح لنشاطـ قطاع كشفي سلامات اتول وتم حفر بئر استكشافيه اطلق اسم قطاميه ضحله بعمق اجمالى مترا مياه امتار تقريبا تدل معطيات اوليه جود طبقه حامله غاز بسماكه مترا تجري حاليا دراسه خيارات متعلقه بربط كشف بنيه تحتيه قائمه بوب دودلي رئيس تنفيذى لمجموعه عالميه يعتبر بئر قطاميه كشف منطقه امتياز نقوم فعل بتطوير حقل اتول تقييم اكتشاف سلامات نجاحنا مستمر مجال يوكد ايماننا دلتا نيل حوض غاز طراز عالمي تقع بئر قطاميه ضحله شمال مدينه دمياط تبعد جنوب غرب حقل سلامات غرب تسهيلات حقل حابى بحريه يذكر شركه تنتج نحو اجمالي غاز مصري فريد غايرلي,أسواق_النفط,1,-1
21057,موسكو تعلق توريدات روسي اوكرانيا اعلن يكسي ميللر رئيس شركه غازبروم روسيه تعليق امدادات طبيعي روسي اوكرانيا استلام دفعات نقديه جديده كييف توريدات روسيا تعتزم ايقاف ارداتها لاوكرانيا تنظر تعليق امدادات رئيس شركه غازبروم روسيه شركته تتلق دفعات جديه شركه طاقه اوكرانيه نفطوغاز توريدات جديده تعليق امدادات بحلول ساعه بتوقيت موسكو روسيا اوكرانيا مفوضيه اوروبيه نهايه ماضي بروتوكول مبدئي بشان توريدات روسي اوكرانيا يعرف حزمه شتويه اتفاق قيام كييف بدفع مسبقا روسي مورد تضمن اتفاق كييف تخفيضات توفير تمويل لازم لاوكرانيا مفوضيه اوروبيه لشرا كميات مطلوبه طبيعي لازم مستودعات اوكرانيه بهدف ضمان امدادات مستقره روسي اوروبا اراضي اوكرانيه,أسواق_النفط,1,-1
21133,شركه بريطانيه تسحب موظف جزائر كشفت شركه بريتش بتروليوم ستسحب موظف محطتي عين صالح ميناس غاز جزائر اسبوعين مقبلين اعلنت شركه نفط غاز نرويجيه شتات اويل تشغل منشاتين شراكه خطط لتخفيض موظف هجوم قذائف صاروخيه منشاه عين صالح يسفر قوع اصابات خسائر قالت شركه بريطانيه بيان قررت اجرا نقل موقت مراحل لجميع افراد طاق مشروعي عين صالح اميناس جزائر اسبوعين مقبلين اتخذ قرار كاجرا احترازي وقت ماضي استهدف مسلحون مجهولون قاعده نفطيه بعين صالح جزائر صواريخ انبا قوع ضحايا نقلت صحيفه خبر جزائريه مصادر امنيه عناصر جيش وطني شعبي تصدت لمحاوله اعتدا ارهابي منشاه نفطيه اقعه منطقه خريشبه كلم عين صالح اضافت جماعه ارهابيه استهدفت قاعده نفطيه تابعه شركه بريطانيه بريتيش بتروليوم قذائف تمهيدا استيلا تدخل عناصر قوات جيش وطني شعبي احبط محاوله,أسواق_النفط,1,-1
6757,تشغيل آبار طبيعي جديده متوسط كشفت زاره بترول مصريه نجاح ايني ايطاليه بريتش بتروليوم بتشغيل آبار جديده طبيعي متوسط اكدت وزاره مليون مكعب يوميا انتاج بنهايه ماضي بفضل تمكن شركات اجنبيه مذكوره تشغيل آبار اربعه متوسط دلتا صحرا غربيه افاد بيان وزاره آبار اربعه بمنطقه شمال دلتا تابع لشركه بمعدل انتاج مليون مكعب يوميا بمعدل انتاج مليون مكعب يوميا علما بئرين تابعين لحقل نورس تشرف ساهم بزياده انتاج ليصل مليون مكعب يوميا بمعدل انتاج مليون مكعب يوميا رابع سترا صحرا غربيه بمعدل انتاج مليون مكعب يوميا يذكر متوسط انتاج يبلغ حوالي مليار مكعب يوميا تستهلك بلاد حوالي مليار مكعب تعوض استيراد تراجع انتاج زياده استهلاك ايام دوله مصدره طاقه تحويل امدادات طاقه محليه مستورده طاقه باستيراد طبيعي مسال,أسواق_النفط,1,-1


Hm...a few entries here are definitely not about the oil market. Bad labeled data! What an unusual problem!

Other errors seem to indicate we can just expand the keywords in existing LFs and get better results.

In [16]:
oil = r"غاز|برميل|نفظ|بترول"
econ = r"سعر|اسعار|ستثمار|اقتصاد|سوق|اسواق|شركة"
conflict = r"ضربات|اهلي|عرقي|معارك|سلح|ارهاب|متطرف"
exclude = r"اسلام|كرة القدم|فلم|افلام|ثقافي"
countries = r"فنزو|كويت|اران|ابو ظبي|قطر|عراق|خليجي|الجزائر|ليبي|نيجيري|سعودي|روسي|امريك|برازيل|امارات"

In [17]:
#Let's add a few more functions as well
@labeling_function()
def discover_oil(x):
    return POS if re.search(oil, x.text) and re.search("كشف|اكشاف", x.text) else ABSTAIN

companies = "بي بي|شيفرون|كونوكو فيلبس|توتال|اكسون|موبيل|شركه نفظ|سوناتراك|روسنفت|وطني للغاز|وطني للبترول|شركه بترول"

@labeling_function()
def oil_companies(x):
    return POS if re.search(companies, x.text) else ABSTAIN

@labeling_function()
def economy_stupid(x):
    return POS if re.search(oil, x.text) and re.search(econ, x.text) else ABSTAIN 

In [18]:
lfs = [oil_terms, econ_terms, conflict_terms,
       misc_exclude, oil_countries, discover_oil,
      oil_companies, economy_stupid]

applier = PandasLFApplier(lfs=lfs)
L_train = applier.apply(df=train)
L_dev = applier.apply(df=dev)
L_valid = applier.apply(df=valid)
L_test = applier.apply(df=test)



100%|██████████| 14166/14166 [00:04<00:00, 3174.69it/s]
100%|██████████| 3542/3542 [00:01<00:00, 3286.77it/s]
100%|██████████| 4428/4428 [00:01<00:00, 3283.05it/s]
100%|██████████| 5534/5534 [00:01<00:00, 3331.26it/s]


In [19]:
LFAnalysis(L=L_dev, lfs=lfs).lf_summary(Y=Y_dev)

Unnamed: 0,j,Polarity,Coverage,Overlaps,Conflicts,Correct,Incorrect,Emp. Acc.
oil_terms,0,[1],0.068605,0.068605,0.068605,129,0,0.530864
econ_terms,1,"[0, 1]",1.0,1.0,0.693111,143,34,0.040373
conflict_terms,2,[0],0.658385,0.658385,0.446923,0,164,0.0
misc_exclude,3,[0],0.920949,0.920949,0.639752,0,169,0.0
oil_countries,4,"[0, 1]",1.0,1.0,0.693111,158,19,0.044608
discover_oil,5,"[0, 1]",1.0,1.0,0.693111,12,165,0.003388
oil_companies,6,"[0, 1]",1.0,1.0,0.693111,6,171,0.001694
economy_stupid,7,"[0, 1]",1.0,1.0,0.693111,105,72,0.029644


Still not great performance...let's cut unsuccessful LFs at least.

In [21]:
lfs = [oil_terms, econ_terms, discover_oil,
      oil_companies, economy_stupid]

applier = PandasLFApplier(lfs=lfs)
L_train = applier.apply(df=train)
L_dev = applier.apply(df=dev)
L_valid = applier.apply(df=valid)
L_test = applier.apply(df=test)

100%|██████████| 14166/14166 [00:04<00:00, 2843.10it/s]
100%|██████████| 3542/3542 [00:01<00:00, 3053.98it/s]
100%|██████████| 4428/4428 [00:01<00:00, 2968.62it/s]
100%|██████████| 5534/5534 [00:01<00:00, 2858.99it/s]


In [22]:
#let's see how well we can do with one decent LF and four bad LFs
from snorkel.labeling.model import MajorityLabelVoter
from snorkel.labeling.model import LabelModel

majority_model = MajorityLabelVoter()
Y_pred_train = majority_model.predict(L=L_train)

label_model = LabelModel(cardinality=2, verbose=True)
label_model.fit(L_train=L_train, n_epochs=1000, lr=0.001, log_freq=100, seed=123)

majority_acc = majority_model.score(L=L_valid, Y=Y_valid)["accuracy"]
print(f"{'Majority Vote Accuracy:':<25} {majority_acc * 100:.1f}%")
label_model_acc = label_model.score(L=L_valid, Y=Y_valid)["accuracy"]
print(f"{'Label Model Accuracy:':<25} {label_model_acc * 100:.1f}%")

Majority Vote Accuracy:   57.3%
Label Model Accuracy:     70.4%


In [23]:
from sklearn.feature_extraction.text import CountVectorizer

words_train = [row.text for i, row in train.iterrows()]
words_valid = [row.text for i, row in valid.iterrows()]
words_test = [row.text for i, row in test.iterrows()]

vectorizer = CountVectorizer(ngram_range=(2,2))
X_train = vectorizer.fit_transform(words_train)
X_valid = vectorizer.transform(words_valid)
X_test = vectorizer.transform(words_test)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB().fit(X_train, Y_train)

predicted = classifier.predict(X_test)
np.mean(predicted == Y_test)            

0.9813877846042646