# "News Sentiment and Stock Market Data Exploration"
> "Performing Exploratory Data Analysis for the Saudi Stock Market"

- toc: true
- branch: master
- badges: true
- comments: true
- categories: [data-wrangling, EDA]
- image: images/arabic-stock-market-sentiment-analysis/featured_sectors_bar.png
- hide: false
- search_exclude: true

# News Sentiment and Stock Market Data Exploration

In [1]:
#!pip install pandas-profiling[notebook,html]
#!pip install cufflinks
#!pip install chart_studio
#!pip install googletrans

In [2]:
#plotly.offline doesn't push your charts to the clouds
import plotly.offline as pyo
#allows us to create the Data and Figure objects
from plotly.graph_objs import *
#plotly.plotly pushes your charts to the cloud  
# import chart_studio.plotly as py
import plotly.figure_factory as ff
import plotly.express as px

import matplotlib.pyplot as plt
%matplotlib inline

# import cufflings to easily plot pandas data frames
import cufflinks as cf
# work with cufflinks offline and set its theme
import plotly.io as pio
pio.templates.default = "plotly_white"

cf.go_offline()
cf.set_config_file(theme='white')

import pandas as pd
from pandas_profiling import ProfileReport
from googletrans import Translator
import datetime as dt

import numpy as np

import os
import json
import re
import sys

In [3]:
print(pd.__version__)

1.0.3


In [4]:
def print_full(x):
    pd.set_option('display.max_colwidth', None)
    return x

def reset():
    pd.reset_option('display.max_colwidth')

In [5]:
cf.getThemes()

['ggplot', 'pearl', 'solar', 'space', 'white', 'polar', 'henanigans']

In [6]:
cf.colors.scales() 

In [7]:
df = pd.read_excel('Samira - Arabic Stock Market Data.xlsx')

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34386 entries, 0 to 34385
Data columns (total 19 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   Sector                     34386 non-null  object        
 1   Company ID                 34386 non-null  int64         
 2   Company Name               34386 non-null  object        
 3   Date                       34386 non-null  object        
 4   Time                       34386 non-null  object        
 5   News Title                 34386 non-null  object        
 6   News Details               30098 non-null  object        
 7   Polarity                   34386 non-null  object        
 8   Polarity Words             34386 non-null  object        
 9   Date_1st_Additional        34386 non-null  datetime64[ns]
 10  Oppening                   34269 non-null  float64       
 11  The Highest                34269 non-null  float64       
 12  The 

In [9]:
df['Polarity'].value_counts()

Positive     15506
Neutral      11479
-             4288
Negative      3102
neutral          4
positive         3
negative         3
 Negative        1
Name: Polarity, dtype: int64

We need to normalize this column

In [10]:
df['Polarity'] = df['Polarity'].str.strip().str.capitalize()

In [11]:
df['Polarity'].value_counts()

Positive    15509
Neutral     11483
-            4288
Negative     3106
Name: Polarity, dtype: int64

In [12]:
df.head(2)

Unnamed: 0,Sector,Company ID,Company Name,Date,Time,News Title,News Details,Polarity,Polarity Words,Date_1st_Additional,Oppening,The Highest,The Lowest,Closing,Changing,Changing%,The quantity Handled,Total Current Value (SAR),Number of Deals
0,البنوك,1020,بنك الجزيرة,12/31/2011 12:00:00 AM,12:07:52,يعلن بنك الجزيرة عن توصية مجلس إدارته توزيع أر...,يعلن بنك الجزيرة عن توصية مجلس إدارته توزيع أر...,Positive,ارباح سنوية - توزيع أرباح,2011-12-31,9.07,9.12,8.93,8.96,0.11,1.24,1961798.0,17729676.1,514.0
1,البنوك,1050,البنك السعودي الفرنسي,12/30/2019 12:00:00 AM,15:22:03,يعلن البنك السعودي الفرنسي عن توصية مجلس الإدا...,بند توضيح مقدمة يعلن البنك السعودي الفرنسي ع...,Positive,توزيع - ارباح,2019-12-30,37.3,38.2,37.3,37.55,0.3,0.81,555205.0,20956971.9,634.0


In [13]:
translator = Translator()

unique_sectors = df['Sector'].unique().tolist()

unique_sectors_en = [translator.translate(sector, src='ar').text.title() for sector in unique_sectors]

print(unique_sectors)
print(unique_sectors_en)

['البنوك', 'مؤشر السوق الرئيسية (تاسي)', 'المواد الأساسية', 'السلع الرأسمالية', 'السلع طويلة الاجل', 'تجزئة السلع الكمالية', 'الخدمات الإستهلاكية', 'الخدمات التجارية والمهنية', 'الطاقة', 'إنتاج الأغذية', 'الادوية', 'المرافق العامة', 'الإستثمار والتمويل', 'النقل', 'الرعاية الصحية', 'تجزئة الأغذية', 'إدارة وتطوير العقارات', 'الإعلام والترفيه', 'الصناديق العقارية المتداولة', 'الإتصالات', 'التطبيقات وخدمات التقنية', 'التأمين']
['Banks', 'Main Market Index (Tasi)', 'Basic Materials', 'Capital Goods', 'Long-Term Goods', 'Retail Of Luxury Goods', 'Consumer Services', 'Business And Professional Services', 'Energy', 'Food Production', 'Pharmaceutical', 'Public Utility', 'Investment And Financing', 'Transport', 'Healthcare', 'Food Segmentation', 'Real Estate Management And Development', 'Media And Entertainment', 'Real Estate Traded Funds', 'Telecommunications', 'Applications And Technology Services', 'Insurance']


In [14]:
unique_sectors_en = ['Banks', 'Tasi Main Market Index', 
                     'Basic Materials', 'Capital Goods', 
                     'Long-Term Goods', 'Retail Of Luxury Goods', 
                     'Consumer Services', 'Commercial And Professional Services', 
                     'Energy', 'Food Production', 'Pharmaceutical', 
                     'Public Utility', 'Investment And Financing', 'Transport', 
                     'Healthcare', 'Food Segmentation', 'Real Estate M & D', 
                     'Media And Entertainment', 'Real Estate Traded Funds', 
                     'Telecommunications', 'Applications And Technology Services', 'Insurance']


sector_map = {sector_ar:sector_en for sector_ar, sector_en in zip(unique_sectors, unique_sectors_en)}

In [15]:
df['Sector_en'] = df['Sector'].map(sector_map)

In [16]:
df.groupby(['Sector', 'Sector_en']).size()

Sector                       Sector_en                           
إدارة وتطوير العقارات        Real Estate M & D                       1961
إنتاج الأغذية                Food Production                         2423
الإتصالات                    Telecommunications                      1099
الإستثمار والتمويل           Investment And Financing                 826
الإعلام والترفيه             Media And Entertainment                  416
الادوية                      Pharmaceutical                           243
البنوك                       Banks                                   1477
التأمين                      Insurance                               7643
التطبيقات وخدمات التقنية     Applications And Technology Services      22
الخدمات الإستهلاكية          Consumer Services                       1134
الخدمات التجارية والمهنية    Commercial And Professional Services     322
الرعاية الصحية               Healthcare                               887
السلع الرأسمالية             Capital Goods    

In [17]:
drop_cols = ['Date', 'Company ID']

In [18]:
df.drop(drop_cols, axis=1, inplace=True)

In [19]:
# df['Date'] = pd.to_datetime(df['Date_1st_Additional'] + ' ' + df['Time'])

In [20]:
df['Date'] = df.apply(lambda r : pd.datetime.combine(r['Date_1st_Additional'], r['Time']), axis=1)


The pandas.datetime class is deprecated and will be removed from pandas in a future version. Import from datetime module instead.



In [21]:
df.drop(['Date_1st_Additional'], axis=1, inplace=True)

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34386 entries, 0 to 34385
Data columns (total 18 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   Sector                     34386 non-null  object        
 1   Company Name               34386 non-null  object        
 2   Time                       34386 non-null  object        
 3   News Title                 34386 non-null  object        
 4   News Details               30098 non-null  object        
 5   Polarity                   34386 non-null  object        
 6   Polarity Words             34386 non-null  object        
 7   Oppening                   34269 non-null  float64       
 8   The Highest                34269 non-null  float64       
 9   The Lowest                 34269 non-null  float64       
 10  Closing                    34269 non-null  float64       
 11  Changing                   34269 non-null  float64       
 12  Chan

In [23]:
df.columns = ['The Quantity Handled' if col=='The quantity Handled' else col for col in df.columns]

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34386 entries, 0 to 34385
Data columns (total 18 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   Sector                     34386 non-null  object        
 1   Company Name               34386 non-null  object        
 2   Time                       34386 non-null  object        
 3   News Title                 34386 non-null  object        
 4   News Details               30098 non-null  object        
 5   Polarity                   34386 non-null  object        
 6   Polarity Words             34386 non-null  object        
 7   Oppening                   34269 non-null  float64       
 8   The Highest                34269 non-null  float64       
 9   The Lowest                 34269 non-null  float64       
 10  Closing                    34269 non-null  float64       
 11  Changing                   34269 non-null  float64       
 12  Chan

In [25]:
# profile = ProfileReport(df, title="EDA Report", explorative=True)
# profile.to_widgets()
# profile.to_file("EDA-Report.html")

## Data Cleaning and Normalization

### Exploring Nans

In [26]:
df.isnull().sum()      # nans in each column

Sector                          0
Company Name                    0
Time                            0
News Title                      0
News Details                 4288
Polarity                        0
Polarity Words                  0
Oppening                      117
The Highest                   117
The Lowest                    117
Closing                       117
Changing                      117
Changing%                     117
The Quantity Handled          117
Total Current Value (SAR)     117
Number of Deals               117
Sector_en                       0
Date                            0
dtype: int64

In [27]:
# df[df['News Details'].isnull()]

In [28]:
# remove NANs
df = df.dropna(subset=['News Details'])

In [29]:
df.isna().sum()

Sector                         0
Company Name                   0
Time                           0
News Title                     0
News Details                   0
Polarity                       0
Polarity Words                 0
Oppening                     105
The Highest                  105
The Lowest                   105
Closing                      105
Changing                     105
Changing%                    105
The Quantity Handled         105
Total Current Value (SAR)    105
Number of Deals              105
Sector_en                      0
Date                           0
dtype: int64

### Exploring Duplicates

In [30]:
# check number of duplicated records (rows)
df.duplicated().sum()

4

In [31]:
# check the duplicated reviews
print_full(df.loc[df['News Details'].duplicated()])

Unnamed: 0,Sector,Company Name,Time,News Title,News Details,Polarity,Polarity Words,Oppening,The Highest,The Lowest,Closing,Changing,Changing%,The Quantity Handled,Total Current Value (SAR),Number of Deals,Sector_en,Date
148,البنوك,بنك الرياض,08:07:05,يدعو بنك الرياض السادة المساهمين لحضور اجتماع الجمعية العامة العادية (إعلان تذكيري),يسر مجلس إدارة بنك الرياض ، دعوة مساهميه الكرام لحضور اجتماع الجمعية العامة العادية الذي سيعقد ، بمشيئة الله ، عند الساعة السادسة من مساء يوم الاثنين 23/12/1434هـ الموافق 28/10/2013م بمقر الإدارة العامة لبنك الرياض بطريق الملك عبد العزيز حي المربع بمدينة الرياض ، وذلك للنظر في جدول الأعمال التالي: البند الوحيد :انتخاب أعضاء مجلس إدارة البنك لمدة ثلاث سنوات قادمة اعتبارا من تاريخ 26/12/1434هـ الموافق31/10/2013م من بين المرشحين لعضوية مجلس الإدارة. هذا وتتوافر البيانات عن المرشحين لعضوية مجلس الإدارة بمقر الإدارة العامة للبنك للاطلاع عليها ، خلال الخمسة و عشرون يوماً السابقة لموعد الاجتماع .ويحق لكل مساهم يمتلك عشرين سهماً على الأقل حضور الاجتماع المشار إليه ، وله أن يوكل عنه مساهماً آخراً يمتلك عشرين سهما على الأقل لتمثيله في الاجتماع بموجب التوكيل المبين نصه أدناه (وفقاً لضوابط التوكيل الصادرة بقرار معالي وزير التجارة رقم 294 في 13/2/1422هـ ). وبحيث يرسـل التوكيل أدناه إلى بنك الريــاض (لعنــاية إدارة علاقـات المساهمــين ص.ب. 22622 الرياض 11416) ليصل البنك قبل موعد الاجتماع بسبعة أيام على الأقل . وعلى كل مساهم يرغب في حضور الاجتماع إحضار بطاقة الأحوال المدنية والمستندات الدالة على ملكيته وموكليه للأسهم. ويكون اجتماع الجمعية العامة العادية صحيحاً إذا حضره مساهمون يمتلكون نصف رأس مال البنك على الأقل.ووفقا للنظام الأساسي للبنك فإن انتخاب اعضاء مجلس الإدارة سيتم وفق اسلوب التصويت العادي.ويرجى من المساهمين الكرام الحضور قبل موعد الاجتماع بساعة واحدة على الأقل ، وذلك لإنهاء إجراءات تسجيلهم.وللرد على أي استفسار ، يرجى الاتصال عبر الهاتف رقم 3030-401/011 توصيله رقم ( 2444 ، 2445 ) ، أو عبر الفاكس رقم 0016-403/011 (الرياض) خلال ساعات الدوام الرسمي للبنك أو على البريد الإلكتروني : shareholders@riyadbank.com واللـــــه الموفــــــق بنك الرياض ، المركز الرئيسي - طريق الملك عبد العزيز - ص ب : 22622 الرياض 11416 www.riyadbank.comتوكيل خاصأنا المساهم / .................................................. الموقع أدناه ، بموجــــب بطاقة الأحـــوال الـمدنيـة رقم / ........................... الصادرة من بتاريخ / / هـ وبصفتي أحد المساهمين في بنك الرياض ( شركة مساهمة سعودية )، والمالك لعدد ( ) سهم قد وكلت المساهم .......................... بطاقة الأحوال المدنية رقم / .......................... الصادرة من بتاريخ / / هـ ( وهو من غير أعضاء مجلس الإدارة أو موظفي البنك أو المكلفين بالقيام بصفة دائمة بعمل فني أو إداري لحسابه ) ، لينوب عني في حضور اجتماع الجمعية العامة العادية لمساهمي بنك الرياض والمقرر عقده بمشيئة الله، في يوم الاثنين 23/12/1434هـ الموافق 28/10/2013م، والتصويت على بنود جدول أعمال الجمعية نيابة عني والتوقيع على كل المستندات المطلوبة والضرورية واللازمة لإجراءات الاجتماع . كما يسري هذا التوكيل للاجتماع الثاني في حال تأجيل الاجتماع . تحريرا في : / / 1434هـالموافق : / / 2013مالأسم :التوقيع : المصادقة على صحة التوقيع:الصفة :,Positive,توقيع - عقد,14.10,14.25,14.05,14.20,0.10,0.71,670654.0,9.484389e+06,114.0,Banks,2013-10-21 08:07:05
262,البنوك,البنك السعودي الفرنسي,15:42:37,يدعو البنك السعودي الفرنسي مساهميه لحضور اجتماع الجمعية العامة العادية,يسر مجلس إدارة البنك السعودي الفرنسي دعوة مساهميه الكرام لحضور اجتماع الجمعية العامة العادية والتي ستعقد بإذن الله في تمام الساعة السادسة والنصف بعد صلاة المغرب ليوم الأحد 22/4/1432هـ الموافق (27/3/2011) بالدور الثامــن بمقر المركز الرئيسي للبنك الكائن بشارع المعذر بمدينة الرياض وذلك للنظر في جدول الأعمال التالي :- (1) الموافقة على تقرير مجلس الإدارة عن العام المالي المنتهي في 31/12/2010م. (2) التصديق على الميزانية العامة للبنك كما في 31/12/2010م وعلى حساب الأرباح والخسائر عن نفس السنة المالية. (3) الموافقة على تقرير مراقبي الحسابات عن العام المالي المنتهي في 31/12/2010م. (4) الموافقة على توصية مجلس الإدارة بشأن توزيع الأرباح عن العـــام المالي 2010م بمقدار (ريال واحد) للسهم الواحد آي بنسبة 10% من القيمة الاسمية للسهم لحملة أسهم البنــــــك المسجلين بسجلات مساهمي البنك كما في نهاية تداول يوم الأحد 22/4/1432هـ الموافق (27/3/2011) وبعـد إقرارها مـن قبل الجمعية العامة العادية. (5) إبراء ذمة أعضاء مجلس الإدارة عن العام المالي 2010م. (6) الموافقة على اختيار مراقبي الحسابات من بين المرشحين مــن قبل لجنة المراجعـة الداخلية لمراجعة القوائم المالية للبنك للعام المالي 2011م والبيانات ربع السنوية وتحديد أتعابهم. واستناداً لنظام الشركات وللمادة (25) من النظام الأساسي للبنك: لكل مساهم (أيا كان عدد أسهمه) حق حضور الجمعيات العامة للمساهمين. وللمساهم أن ينيب عنه بمقتضى توكيل مكتوب مساهماً آخر من غير أعضاء مجلس الإدارة أو موظفي البنك في الحضور على أن يتم مصادقة التوكيل من جهـة معترف بها:- أ- الغرفة التجارية الصناعية متى كان المساهم منتسباً لأحدها وكذلك الحال إذا كـان للمساهم شركة أو مؤسسة اعتبارية. ب - البنوك السعودية شريطة أن يكون للموكل حساب لدى البنك المصدق. ج - الجهة التي يعمل بها المساهم الراغب في التوكيل. د- - إحدى الجهات الحكومية المختصة. (تتمه),Neutral,جمعية - عامة - موافقة,23.20,23.25,20.85,21.38,-1.65,-7.16,579830.0,1.274188e+07,272.0,Banks,2011-03-02 15:42:37
1188,البنوك,مصرف الراجحي,16:17:51,يدعو مصرف الراجحي السادة مساهمي المصرف لحضور اجتماع الجمعية العامة العادية التاسعة والعشرون ( الاجتماع الأول ),يسر مجلس إدارة مصرف الراجحي دعوة السادة مساهمي المصرف لحضور اجتماع الجمعية العامة العادية (التاسع والعشرون) المقرر عقدها في تمام الساعة السادسة والنصف من مساء يوم الاحد 8 رجب 1439هـ الموافق 25 مارس 2018م (حسب تقويم أم القرى) وذلك في فندق الانتركونتننتال قاعة بريدة في مدينة الرياض (رابط موقع الاجتماع https://goo.gl/maps/rSVJnPZd9oE2 )وذلك للتصويت على البنود التالية : ( مرفق ) علماً بأنه طبقاً للمادة (33) من النظام الأساسي للمصرف، فإن النصاب القانوني لعقد اجتماع الجمعية العامة العادية للمصرف هو حضور مساهمين يمثلون على الأقل ما نسبته 50% من رأس المال، وفي حال عدم اكتمال النصاب في هذا الاجتماع، سيتم عقد اجتماع ثان بعد ساعة واحدة من الوقت المقرر لعقد الاجتماع الأول، ويكون الاجتماع الثاني صحيحاً أيا كان عدد الأسهم الممثلة فيه.ونوجه عناية السادة المساهمين إلى ما يلي:- طبقاً للتعليمات الإشرافية فإنه يحق لكل مساهم حضور اجتماع الجمعية العامة أو توكيل شخص آخر ينوب عنه من غير أعضاء مجلس الإدارة أو موظفي المصرف أو المكلفين بصفة دائمة بعمل فني أو إداري لحسابه لحضور الاجتماع والتصويت على القرارات المعروضة بمقتضى التوكيل (المرفق صيغته بهذه الدعوة)، على أن يتم التصديق على التوكيل من إحدى الجهات التالية: الغرف التجارية الصناعية، أو إحدى البنوك المرخصة، أو الاشخاص المرخص لهم، أو كتابة العدل، أو الاشخاص المرخص لهم بممارسة أعمال التوثيق. وتماشياً مع الانظمة الإشرافية فإن آخر موعد لتلقي نسخة التوكيلات هو يومين على الأقل تسبق موعد تاريخ انعقاد الجمعية، وعلى الوكيل إبراز أصل التوكيل قبل انعقاد الجمعية.- يود المصرف التوضيح لعموم المساهمين بأن أحقية حضور الجمعية العامة العادية والتي ستنعقد يوم الاحد 8 رجب 1439هـ الموافق 25 مارس 2018م (حسب تقويم أم القرى)، هي للمساهمين المقيدين في سجل مساهمي المصرف لدى مركز الايداع بنهاية جلسة التداول التي تسبق اجتماع الجمعية العامة بحسب الأنظمة واللوائح.- على كل مساهم يرغب في حضور الاجتماع أن يحضر معه بطاقة الهوية الخاصة به والمستندات الدالة على ملكية الأسهم وذلك للتحقق من شخصيته وإثبات عدد الأسهم التي يملكها هو أو المساهمون الذين يمثلهم، وسيتم تسجيل أسماء الحضور من المساهمين وعدد الأسهم التي يملكونها أو يمثلونها وذلك ابتداء من الساعة الخامسة والنصف من مساء يوم الاجتماع على أن ينتهي التسجيل قبل بداية الاجتماع.- بإمكان المساهمين الكرام المسجلين في موقع خدمات تداولاتي الإلكتروني التصويت عن بعد على بنود اجتماع الجمعية العامة وذلك من خلال خدمة (التصويت الإلكتروني)، علماً بأن التصويت عن بُعد يبدأ من الساعة 10 صباحاً من يوم الاربعاء 4 رجب 1439هـ الموافق 21 مارس 2018م، وسيستمر حتى الساعة الرابعة من مساء يوم عقد الجمعية، يوم الاحد 8 رجب 1439هـ الموافق 25 مارس 2018م.وعليه ندعو جميع مساهمي المصرف إلى المشاركة والتصويت عن بُعد عن طريق زيارة الموقع الإلكتروني الخاص بتداولاتي https://www.tadawulaty.com.sa علماً بأن التسجيل في خدمات تداولاتي والتصويت متاح مجاناً لجميع المساهمين. - للتواصل ولمزيد من المعلومات يمكن الاتصال بأمانة سجل المساهمين بالمصرف خلال أوقات الدوام الرسمي على الهاتف رقم 2795857-011 / 2795854-011 أو الفاكس 2795860-011 او عن طريق البريد الالكتروني shareholders@alrajhibank.com.sa,Neutral,حضور - اجتماع - الجمعية,48.71,48.71,47.67,48.13,-0.70,-1.43,13194072.0,6.351782e+08,4021.0,Banks,2018-03-15 16:17:51
1237,البنوك,مصرف الراجحي,16:28:26,يدعو مصرف الراجحي مساهميه إلى حضور اجتماع الجمعية العامة العادية,يسر مجلس إدارة مصرف الراجحي دعوة السادة المساهمين الذين يملكون عشرين سهماً فأكثر لحضور اجتماع الجمعيـة العـــامة العادية الخامسة والعشرون والمقرر عقدها بقاعة الخزامى للاحتفالات والمؤتمرات بمركز الخزامى بالرياض ، في تمام الساعة الرابعة عصراً يوم الاربعاء 29 ذو القعدة 1435هـ الموافق 24 سبتمبر 2014م للتصويت على جدول الاعمال التالي :1- انتخاب أعضاء مجلس الإدارة للدورة القادمة التي تبدأ في 14/11/2014م لمدة ثلاث سنوات 13/11/2017. وسيكون التصويت على انتخاب الأعضاء بطريقة التصويت (العادي).ويكون اجتماع الجمعية العامة العادية صحيحاً إذا حضره مساهمون يمثلون نصف رأس مال المصرف على الأقل، ويرجى من المساهمين الذين يتعذر حضورهم في الموعد المحدد ويرغبون في توكيل غيرهم من المساهمين ممن لهم حق حضور الاجتماع (من غير أعضاء مجلس الإدارة أو موظفي الشركة أو المكلفين بالقيام بصفة دائمة بعمل فني أو إداري لحسابها) إرسال الوكالة اللازمة مصدقة من الغرفة التجارية أو من أحد البنوك أو جهة العمل، على أن يتم إرسال الوكالة إلى عناية أمانة سجل المساهمين ، فاكس رقم 0112795860 قبل ثلاثة أيام من موعد انعقاد الجمعية ، كما نرجو من المكرمين المساهمين الراغبين في الحضور (أصالة أو وكالة) أن يحضروا قبل موعد انعقاد الجمعية بساعة على الأقل مع إحضار بطاقة الهوية لإنجاز عمليات التسجيل.وللاستفسار يرجى الاتصال على شؤون المساهمين على الأرقام الآتية: 0112795857 /0112795854/0112795859كما يمكن الحصول على نموذج التوكيل بالمرفق,Positive,يسر - وافق - مجلس ادارة,49.43,49.59,49.10,49.32,-0.11,-0.22,3730547.0,1.842184e+08,1273.0,Banks,2014-08-28 16:28:26
1556,البنوك,البنك الأهلي التجاري,15:12:23,يدعو البنك الأهلي التجاري مساهميه إلى حضور اجتماع الجمعية العامة العادية السابعة عشر (الاجتماع الأول) (إعلان تذكيري),يدعو مجلس إدارة البنك الأهلي التجاري السادة مساهمي البنك لحضور اجتماع الجمعية العامة العادية السابعة عشر (الاجتماع الأول)، والمقرر انعقاده بمشيئة الله في تمام الساعة السابعة والنصف من مساء يوم الأحد 06-04-1439هـ الموافق 24-12-2017م (حسب تقويم أم القرى) وذلك بمقر البنك الرئيسي (مبنى الإدارة العامة) بشارع الملك عبدالعزيز - حي البلد في مدينة جدة (https://goo.gl/maps/Bm7Arhiyj722 ) وذلك للنظر في جدول الأعمال التالي.1- التصويت على سياسة المكافآت السنوية الخاصة بأعضاء مجلس الإدارة واللجان التابعة.(مرفق)2- التصويت على تحديث لائحة لجنة الترشيح والمكافآت والحوكمة.(مرفق)3- التصويت على تحديث سياسة ومعايير وإجراءات الترشيح لعضوية مجلس الإدارة.(مرفق)4- التصويت على الأعمال والعقود التي ستتم بين البنك الأهلي التجاري وشركة التعاونية للتأمين (التعاونية) والترخيص بها لعام قادم وذلك بقبول التعاقد لتقديم خدمات التأمين الطبي لموظفي البنك الأهلي التجاري لمدة عام ميلادي كامل يبدأ من 01 يناير 2018م، وبإجمالي مبلغ (143.315.122) ريال سعودي، والذي تم عن طريق المنافسة بدون شروط أو مزايا تفضيلية. ويعتبر عضو مجلس إدارة البنك سعادة المهندس عبدالعزيز بن عبدالله الزيد صاحب علاقة مباشرة حيث يشغل منصب عضو مجلس إدارة في (التعاونية)، وقد بلغت التعاملات خلال العام 2017م مبلغ وقدره (113.877.750) ريال سعودي، علماً بأن إجمالي مبلغ التعاقد لم يتجاوز نسبة 1% من إجمالي دخل عمليات البنك وفقا لآخر قوائم مالية سنوية مراجعة. (مرفق تبليغ رئيس مجلس الإدارة بالإضافة إلى تقرير المراجع الخارجي).كما نود إشعار السادة المساهمين بما يلي:- طبقاً لتعليمات الجهات الإشرافية يحق لكل مساهم حضور الجمعية العامة أو أن يوكل عنه شخص آخر من غير أعضاء مجلس الإدارة أو موظفي البنك أو المكلفين بصفة دائمة بعمل فني أو إداري لحسابه لحضور اجتماع الجمعية العامة والتصويت على القرارات المعروضة بمقتضى التوكيل (المرفق صيغته مع هذه الدعوة) على أن يتم التصديق على التوكيل من إحدى الجهات التالية: الغرف التجارية الصناعية، أو إحدى البنوك المرخصة، أو الأشخاص المرخص لهم، أو كتابة العدل، أو الأشخاص المرخص لهم بأعمال التوثيق. وتمشياً مع الأنظمة الإشرافية فإن آخر موعد لتلقي نسخة التوكيلات هو قبل يومين على الأقل من موعد تاريخ انعقاد الجمعية، وعلى الوكيل إبراز أصل التوكيل قبل انعقاد الجمعية.- أحقية حضور الجمعية العامة العادية للمساهمين المقيدين في سجل مساهمي البنك لدى مركز الإيداع بنهاية جلسة التداول التي تسبق اجتماع الجمعية العامة وبحسب الأنظمة واللوائح.- طبقاً للمادة الثانية والثلاثون من النظام الأساسي للبنك يكون انعقاد الجمعية العامة العادية (الاجتماع الأول) صحيحاً إذا حضره مساهمون يمثلون نصف رأس المال على الأقل، علماً بأن في حال عدم اكتمال النصاب القانوني لانعقاد (الاجتماع الأول) فإنه سوف يتم انعقاد (الاجتماع الثاني) بعد ساعة واحدة من الوقت المقرر لعقد الاجتماع الأول، ويكون (الاجتماع الثاني) صحيحا أيا كان عدد الأسهم الممثلة فيه.- يرجى من السادة المساهمين الراغبين في توكيل أشخاص آخرين للحضور والتصويت نيابة عنهم في اجتماع الجمعية العامة، إرسال نسخة من التوكيل بعد المصادقة عليه إلى مقر الإدارة العامة بجدة الطابق (24) عناية شؤون المساهمين، وذلك قبل موعد انعقاد الجمعية بيومين على الأقل.- يرجى من السادة المساهمين و/أو موكليهم الكرام التكرم بالحضور قبل موعد الاجتماع بساعة على الأقل وذلك لإنهاء إجراءات تسجيلهم، مع ضرورة إحضار أصل نموذج التوكيل للمُوَكَّلين بالإضافة إلى أصل إثبات هويتهم الشخصية وفقاً لما ورد في نموذج التوكيل.- بإمكان المساهمين الكرام المسجلين في موقع خدمات تداولاتي الإلكتروني التصويت عن بعد على بنود اجتماع الجمعية العامة وذلك من خلال خدمة (التصويت الإلكتروني)، علماً بأن التصويت عن بُعد يبدأ من الساعة العاشرة من صباح يوم الأحد 29-03-1439هـ الموافق 17-12-2017م ، وسيستمر حتى الساعة الرابعة من مساء يوم عقد الجمعية الأحد 06-04-1439هـ الموافق 24-12-2017م، عليه ندعو جميع مساهمي البنك إلى المشاركة والتصويت عن بُعد عن طريق زيارة الموقع الإلكتروني الخاص بتداولاتي https://www.tadawulaty.com.sa علماً بأن التسجيل في خدمات تداولاتي والتصويت متاح مجاناً لجميع المساهمين.لمزيد من المعلومات يمكن الاتصال بشؤون المساهمين في البنك وذلك خلال أوقات الدوام الرسمي على:هاتف 4000 646 012 أو الفاكس 4466 646 012 أو عن طريق البريد الإلكتروني ShareholdersAffairs@alahli.com.والله ولي التوفيقمجلس الإدارة,Neutral,جمعية-عامة-تصويت,33.75,34.25,33.75,33.97,-0.07,-0.21,370001.0,1.256159e+07,212.0,Banks,2017-12-20 15:12:23
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32821,التأمين,شركة بروج للتأمين التعاوني,15:51:03,تدعو شركة بروج للتأمين التعاوني مساهميها إلى حضور اجتماع الجمعية العامة غير العادية المتضمنة زيادة رأس مال الشركة.,يدعو مجلس إدارة شركة بروج للتأمين التعاوني السادة المساهمين الذين يملكون 20 سهم فأكثر لحضور اجتماع الجمعية العامة (الاجتماع الاول) المقرر عقده بمشيئة الله تعالى في فندق الماريوت بالرياض في تمام الساعة (04:00) الرابعة مساء بتاريخ 1436-03-29هـ الموافق 20-01-2015م وذلك لمناقشة جدول الأعمال التالي: 1. الموافقة على زيادة رأس مال الشركة عن طريق طرح أسهم حقوق أولوية بقيمة (120.000.000) مئة وعشرون مليون ريال سعودي وذلك وفق التفصيل والألية الواردة في نشرة الإصدار الموافق عليها من هيئة سوق المال والتي سيتم نشرها في وقت لاحق وقبل الجمعية بوقت كاف. 2. الموافقة على تعديل المادة السابعة (7) من النظام الأساسي للشركة بما يتناسب مع زيادة رأس المال. 3. الموافقة على تعديل المادة الثامنة (8) من النظام الأساسي للشركة بما يتناسب مع زيادة رأس المال. تهدف الشركة من زيادة رأس المال إلى تعزيز هامش الملاءة المالية ودعم نمو النشاط المستقبلي للشركة. تقتصر الزيادة على ملاك الأسهم المقيدين في نهاية تداول يوم انعقاد الجمعية العامة غير العادية التي تقرر زيادة رأس المال.علما بأنه يشترط لصحة انعقاد هذه الجمعية حضور عدد من المساهمين يمثل 50% من رأس المال، ولكل مساهم يملك 20 سهم حق الحضور لاجتماع الجمعية العامة غير العادية، ويرجى من المساهمين الذين يتعذر حضورهم في الموعد المحدد ويرغبون في توكيل غيرهم من المساهمين ممن لهم حق حضور الاجتماع (من غير أعضاء مجلس الإدارة وموظفي الشركة) إرسال التوكيلات اللازمة مصدقة من الغرفة التجارية أو من أحد البنوك أو جهة العمل، وإرساله على العنوان التالي ص.ب. 51855 الرياض 11553 هاتف 2938383-011 فاكس 2172350-011 أو على البريد الإلكتروني invest@burujinsurance.com وذلك قبل موعد الاجتماع بثلاثة أيام على الأقل مع ضرورة إحضار المساهمين للاجتماع (أصالة او وكالة) بطاقاتهم الشخصية.,Positive,زيادة - رأس - المال,23.33,23.42,23.08,23.08,-0.17,-0.73,339727.0,7.881207e+06,333.0,Insurance,2014-12-07 15:51:03
32843,التأمين,شركة بروج للتأمين التعاوني,16:04:04,تعلن شركة بروج للتأمين التعاوني عن أخر التطورات بخصوص توصية مجلس الإدارة بزيادة رأس مال الشركة عن طريق طرح أسهم حقوق أولوية,إشارة الى إعلان الشركة بتاريخ 15/10/2012م الخاص بتوصية مجلس الإدارة بزيادة رأس مال الشركة عن طريق طرح أسهم حقوق أولوية بقيمة 120 مليون ريال سعودي ، تود الشركة إبلاغ مساهميها الكرام بأنه لم يطرأ أي جديد حول هذا الموضوع وأن الشركة ما زالت تراجع طلب زيادة راس المال مع مؤسسة النقد العربي السعودي وسوف تقوم الشركة بالإعلان عن أية مستجدات فور ورودها.,Positive,زيادة - رأس - المال,23.17,23.25,22.92,23.13,-0.10,-0.43,685141.0,1.584514e+07,512.0,Insurance,2014-02-17 16:04:04
33936,التأمين,شركة عناية السعودية للتأمين التعاوني,08:26:47,إعلان شركة عناية السعودية للتأمين التعاوني عن آخر يوم لتداول حقوق الأولية وآخر يوم للاكتتاب في الأسهم الجديدة (إعلان تذكيري),بند توضيح مقدمة تعلن شركة عناية السعودية للتأمين التعاوني عن آخر يوم لتداول حقوق الأولوية وآخر يوم للاكتتاب في الأسهم الجديدة تاريخ نهاية فترة تداول الحقوق 1440-04-17 الموافق 2018-12-24 تاريخ نهاية مرحلة الاكتتاب 1440-04-20 الموافق 2018-12-27,Neutral,مرحلة - الاكتتاب,46.52,50.00,44.00,46.40,0.40,0.87,1204685.0,5.684938e+07,3581.0,Insurance,2018-12-24 08:26:47
34194,التأمين,شركة الإنماء طوكيو مارين,15:28:00,تدعو شركة الإنماء طوكيو مارين مساهميها إلى حضور اجتماع الجمعية العامة العادية - الاجتماع الاول ( إعلان تذكيري ),يدعو مجلس إدارة شركة الإنماء طوكيو مارين السادة المساهمين الذين يملكون 20 سهم فأكثر لحضور اجتماع الجمعية العامة العادية المقرر عقده بمشيئة الله تعالى في فندق النوفيتيل ، برج العنود 1 ، طريق الملك فهد بمدينة الرياض في تمام الساعة 16:00 بتاريخ 11-08-1437 الموافق 18-05-2016 وذلك لمناقشة جدول الأعمال التالي: 1-التصويت على ما ورد في تقرير مجلس الإدارة للعام المالي المنتهي في 31/12/2015م.2- التصويت على تقرير مراقب الحسابات للسنة المالية المنتهية في 31/12/2015م.3-التصويت على القوائم المالية للعام المالي المنتهي في 31/12/2015م .4- التصويت على إبراء ذمة أعضاء مجلس الإدارة عن أدائهم خلال العام المالي المنتهي في 31/12/2015م.5- التصويت على إختيار مدققي الحسابات بناء على توصية لجنة المراجعة لمراجعة حسابات الشركة للسنة المالية 2016 وتحديد أتعابهم .6- التصويت على صرف مبلغ (1.020.000) ريال كمكافأة لأعضاء مجلس الإدارة عن العام 2015م وفقاً لأحكام المادة (17) من النظام الأساس للشركة وذلك بواقع (180.000) ريال لرئيس المجلس و(120.000) ريال لكل عضو.7-التصويت على إعتماد لائحة حوكمة الشركة المحدثة . 8-التصويت على الأعمال والعقود التي تمت بين الشركة والأطراف ذات العلاقة كالتالي:1- المعاملات مع مصرف الإنماء خلال العام المالي المنتهي في 31/12/2015م :أ-إصدار وثائق التأمين للبنك بإجمالي أقساط 23.986 الف ريال سعودي ومطالبات مدفوعة بقيمة 11.585 ألف ريال سعودي. علما بأن السيد عبدالمحسن بن عبدالعزيز الفارس والسيد فهد محمد السماري يمثلان مصرف الإنماء في مجلس الإدارة بشركة الإنماء طوكيو مارين ، وتؤكد الشركة أن المعاملات لم تمنح أي مزايا تفضيلية .2- المعاملات مع شركة طوكيو مارين ونيشودو فير خلال العام المالي المنتهي في 31/12/2015م :أ.دفع أقساط إعادة تأمين (الاختيارية والمعاهدة) 3.134 الف ريال سعودي وتحصيل عمولة إعادة التأمين من 554 ألف ريال سعودي. علما بأن السيد هيساتوا حمادا والسيد كين كامكوشي يمثلان شركة طوكيو مارين ونيشودو فير للتأمين في مجلس الإدارة بشركة الإنماء طوكيو مارين ، وتؤكد الشركة أن المعاملات لم تمنح أي مزايا تفضيلية.3- المعاملات مع شركة حسين العويني خلال العام المالي المنتهي في 31/12/2015م :أ. نفقات عامة وإدارية بإجمالي 1.303 ألف ريال. علما بأنه يشترط لصحة انعقاد هذه الجمعية حضور عدد من المساهمين يمثل 50% من رأس المال، ولكل مساهم يملك 20 سهم حق الحضور لاجتماع الجمعية العامة، ويرجى من المساهمين الذين يتعذر حضورهم في الموعد المحدد ويرغبون في توكيل غيرهم من المساهمين ممن لهم حق حضور الاجتماع (من غير أعضاء مجلس الإدارة وموظفي الشركة) إرسال التوكيلات اللازمة مصدقة من الغرفة التجارية أو من أحد البنوك أو جهة العمل، وإرساله على العنوان التالي شركة الإنماء طوكيو مارين الدور 21 برج العنود 2 طريق الملك فهد ص.ب. 643 الرياض 11421 وذلك قبل موعد الاجتماع بثلاثة أيام على الأقل مع ضرورة إحضار المساهمين للاجتماع (أصالة او وكالة) بطاقاتهم الشخصية، وللاستفسار يرجى الاتصال 966112129369+,Positive,وافق - مجلس ادارة,30.60,33.00,30.60,31.78,1.35,4.44,5562833.0,1.776973e+08,4990.0,Insurance,2016-05-15 15:28:00


On close examination of the duplicated rows, it turned out they're not fully duplicated. So we'll leave them as is 

### Storing the Clean Data for Later Use

In [32]:
df.to_csv('data/clean_data.csv', index=False)

In [33]:
reset()

In [34]:
df1.head(2)

NameError: name 'df1' is not defined

## Descriptive Statistics

In [None]:
cats = ['Sector', 'Company Name', 'Polarity']
nums = ['Oppening', 'The Highest', 'The Lowest', 'Closing', 'Changing', 'Changing%', 
        'The Quantity Handled', 'Total Current Value (SAR)', 'Number of Deals']

texts = ['News Title', 'News Details', 'Polarity Words']

date = ['Date']

#### Numerical Variables Statistics

**Note:** The huge numbers in the column `Total Current Value` is due to the huge amount itself. it's not an approximation

In [None]:
df[nums].describe().round(2)

In [None]:
def describe_cat(cat_var, n=5):
    if cat_var == 'Date':
        col = df[cat_var].dt.date
    else:
        col = df[cat_var]
        
    unique = len(col.unique())
    top_counts = col.value_counts().to_frame().reset_index().head(n)
    top_counts_str = "، ".join([f'{level}: {count}' for level,count in top_counts.values])
    
    summary = pd.Series({'Variable': cat_var, 'Unique': unique, 'Top Counts': top_counts_str})
    
    return summary
    
    
def describe_cats(cat_vars):
    summary = pd.DataFrame(np.nan, columns=['Variable', 'Unique', 'Top Counts'], index=range(len(cat_vars)))
    
    for i, cat in enumerate(cat_vars):
        summary.iloc[i] = describe_cat(cat)
    
    summary['Unique'] = summary['Unique'].astype('int')
        
    return summary

In [None]:
describe_cat('Date')

In [None]:
print_full(describe_cats(cats+date))

In [None]:
reset()

## Exploratory Data Analysis

### Exploring Singe Categorical Variables

#### The Polarity

In [None]:
# !pip install notebook ipywidgets

In [None]:
from IPython.display import HTML

In [35]:
fig = (  df['Polarity']
       .value_counts()
       .reset_index()
       .pipe(px.pie,
             values='Polarity', names='index',
             title='Polarity Distribution',
             color='Polarity',
             color_discrete_sequence=px.colors.qualitative.Prism,
             hole=0.1)
       .update_traces(textinfo='percent+label+value')
    
)

HTML(fig.to_html())

#### Most Featured Sectors

In [43]:
(df
 .groupby('Sector_en')
 .size()
 .to_frame(name='Count')
 .reset_index()
 .sort_values('Count', ascending=False)
 .head(n_most)
 .pipe(px.bar,
       x='Sector_en', y='Count', 
#        color='Count',
#        color_continuous_scale=px.colors.sequential.GnBu,
#        color_continuous_scale=px.colors.sequential.Blues,
#        color_continuous_scale=px.colors.sequential.Plasma_r,
       text='Count', title='Most Featured Sectors', labels={'Count': 'No. Articles', 'Sector_en':'Sector'}))

In [44]:
featured_sectors = (df['Sector_en']
                     .value_counts()
                     .head(n_most)
                     .index.tolist())
featured_sectors

['Insurance',
 'Basic Materials',
 'Capital Goods',
 'Food Production',
 'Real Estate M & D',
 'Banks',
 'Retail Of Luxury Goods',
 'Telecommunications',
 'Consumer Services',
 'Transport']

#### Most Featured Companies

In [45]:
n_most = 10

(df['Company Name']
 .value_counts()
 .head(n_most)
 .iplot(kind='bar', color='navy', yTitle='# of News Articles', title=f'Most {n_most} Featured Companies'))

In [46]:
featured_companies = (df['Company Name']
                     .value_counts()
                     .head(n_most)
                     .index.tolist())
featured_companies

['شركة أبناء عبدالله عبدالمحسن الخضري',
 'شركة إتحاد عذيب للإتصالات',
 'شركة الباحة للإستثمار والتنمية',
 'الشركة السعودية الهندية للتأمين التعاوني',
 'شركة طيبة للإستثمار',
 'شركة الكابلات السعودية',
 'الشركة الوطنية السعودية للنقل البحري',
 'شركة التعدين العربية السعودية',
 'شركة الأحساء للتنمية',
 'الشركة السعودية للنقل الجماعي']

### Exploring Interaction Between 2 Categorical Variables

#### Polarity & Sector

##### Method (1) Grouped Barplot

In [47]:
polarity_by_sector = (df
                      .groupby(['Sector_en', 'Polarity'])
                      .size()
                      .unstack()
                      .fillna(0)
                      .sort_values('Positive', ascending=False))

polarity_by_sector

Polarity,Negative,Neutral,Positive
Sector_en,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Basic Materials,586,2239,3391
Insurance,1167,2601,2985
Capital Goods,293,988,1314
Real Estate M & D,103,635,990
Food Production,237,908,981
Banks,37,416,799
Consumer Services,48,285,654
Retail Of Luxury Goods,46,338,651
Transport,32,364,514
Healthcare,31,242,478


In [48]:
polarity_by_sector.loc[featured_sectors]

Polarity,Negative,Neutral,Positive
Sector_en,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Insurance,1167,2601,2985
Basic Materials,586,2239,3391
Capital Goods,293,988,1314
Food Production,237,908,981
Real Estate M & D,103,635,990
Banks,37,416,799
Retail Of Luxury Goods,46,338,651
Telecommunications,159,419,423
Consumer Services,48,285,654
Transport,32,364,514


In [49]:
(polarity_by_sector.loc[featured_sectors]
 .iplot(kind='bar',
        colorscale='-gnbu',#'set1',
        layout=dict(title='Distribution of Polarity over Sectors',
                    yaxis=dict(title='# of Articles'),
                    xaxis=dict(title='Sector'))))

In [50]:
(polarity_by_sector.loc[featured_sectors]
 .reset_index()
 .melt(id_vars='Sector_en', value_name='Count')
 .pipe(
     px.bar,
     x='Sector_en', y='Count', color='Polarity', text='Count',
     barmode='group', opacity=0.8,
     title='Distribution of Polarity over Sectors',
     labels={'Count': 'No. of Articles'},
     color_discrete_sequence = px.colors.diverging.Spectral_r,
#      color_discrete_sequence=px.colors.sequential.Plasma,
#      color_discrete_sequence=px.colors.qualitative.Prism,
#      color_discrete_sequence=px.colors.sequential.GnBu_r,
#      color_discrete_sequence=px.colors.qualitative.Set1
))

##### Method (2) Heatmap

In [None]:
(polarity_by_sector.loc[featured_sectors]
 .iplot(kind='heatmap',
        title='Distribution of Polarity over Sectors',
        colorscale='gnbu'))

In [None]:
(polarity_by_sector.loc[featured_sectors]
 .T
 .pipe(px.imshow,
       color_continuous_scale=px.colors.sequential.GnBu,
       title='Distribution of Polarity over Sector'))

#### Polarity & Company

##### Method (1) Groupded Barplot

In [None]:
polarity_by_company = (df
                      .groupby(['Company Name', 'Polarity'])
                      .size()
                      .unstack()
                      .fillna(0)
                      .sort_values('Positive', ascending=False))

polarity_by_company

In [None]:
(polarity_by_company.loc[featured_companies]
 .iplot(kind='bar',
        colorscale='blues',
        layout=dict(title='Distribution of Polarity over Companies',
                    yaxis=dict(title='# of Articles'),
                    xaxis=dict(title='Company'))))

##### Method (2) Heatmap

In [None]:
(polarity_by_company.loc[featured_companies]
 .iplot(kind='heatmap',
        title='Distribution of Polarity over Companies',
        colorscale='blues'))

### Exploring Interaction Between 3 Categorical Variables

In [None]:
df_featured = df[(df['Company Name'].isin(featured_companies)) & (df['Sector_en'].isin(featured_sectors))]

In [None]:
px.parallel_categories(df_featured, width=1000, height=700, title='Parallel Plot of Sector, Company, Polarity',
                       labels={'Sector_en': 'Sector'})

### Exploring Single Numerical Variables

In [None]:
df['Closing'].iplot(kind='box', 
                    boxpoints='outliers',
                    color='blue',
                    title='Distribution of Closing Price')

In [None]:
df.pipe(px.box,
        y='Closing',
        points='outliers',
        title='Distribution of Closing Price')

In [None]:
df['Changing%'].iplot(kind='box', 
                      boxpoints='outliers',
                      color='purple',
                      title='Distribution of Changing%')

In [None]:
(df
 .pipe(px.box,
       y='Changing%'))

### Qustion: How wast the variable `Changing%` computed?

In [None]:
df['change_pct'] = df['Closing'].pct_change()

In [None]:
df[['Changing%', 'change_pct']]

### Exploring Relationship Between Numerical Variables

In [None]:
df.columns

In [None]:
(df[nums]
 .corr()
 .fillna(0)
 .round(2))

In [None]:
(df[nums]
 .corr()
 .iplot(kind='heatmap',
        colorscale='ylgnbu',#'rdylbu',#,rdbu, 
        layout=dict(title='Correlation Between All Numerical Variables',
                    width=700,
                    margin=dict(b=120))))

#### Number of Deals vs. Changing

In [None]:
(df.fillna(0)
 .pipe(px.scatter,
       size='Total Current Value (SAR)',
       size_max=70,
       x='Number of Deals',
       y='Changing',
       title='<b>Number of Deals vs. Changing in Price</b> <br>size deontes <i>Total Current Value</i>',
       range_y=[-20, 20],
       range_x=[0, 25000]))

In [None]:
fig = (df.fillna(0)
         .pipe(px.scatter,
               x='Closing',
               y='Changing',
               color='Polarity',
               size='Total Current Value (SAR)',
               size_max=60,
               marginal_x='histogram',
               color_discrete_sequence = px.colors.diverging.Spectral_r,
#                color_discrete_sequence=px.colors.sequential.GnBu,
#                color_discrete_sequence=['red', 'blue', 'green'],
               range_y=[-15, 15],
               range_x=[0, 200],
               height=600,
               facet_col='Polarity',
               title='<b>Closing Price vs. Changing in Price Across Polarities</b><br>size deontes <i>Total Current Value</i>'))

fig.for_each_annotation(lambda a: a.update(text=''))
fig.show()

In [None]:
fig = (df.fillna(0)
        .pipe(px.scatter,
              x='Closing',
              y='Changing%',
              color='Polarity',
              size='Total Current Value (SAR)',
              size_max=60,
              marginal_x='histogram',
             color_discrete_sequence = px.colors.diverging.Spectral_r,
#             color_discrete_sequence=px.colors.sequential.GnBu_r,
#             color_discrete_sequence = px.colors.diverging.Spectral_r,
#             color_discrete_sequence=['red', 'blue', 'green'],
             range_y=[-20, 20],
             range_x=[0, 300],
             height=600,
             facet_col='Polarity',
             title='<b>Closing Price vs. Changing Percent in Price</b><br>size deontes <i>Total Current Value</i>'))

fig.for_each_annotation(lambda a: a.update(text=''))
fig.show()

### Exploring Interaction Between Numerical and Categorical

In [None]:
returns_by_polarity_stats = (df.reset_index()
                             .pivot(columns='Polarity', values='Changing%')).describe()

returns_by_polarity_stats

In [None]:
median = (df[['Polarity', 'Changing%']].reset_index()
          .pivot(columns='Polarity', values='Changing%')
          .apply(lambda x: x.median()))

median.name = 'median'

In [None]:
returns_by_polarity_stats.append(median)

In [None]:
(df.reset_index()
 .pivot(columns='Polarity', values='Changing%')
 .iplot(kind='box', boxpoints='outliers',
        colorscale='gnbu',
        layout=dict(title='Distribution of Percent Change Over Polarity')))

In [None]:
(df
 .pipe(px.box,
       x='Polarity',
       y='Changing%',
       color='Polarity',
       color_discrete_sequence = px.colors.diverging.Spectral_r,
       points='outliers',
       title='Distribution of Percent Change Over Polarity'))

# fig.update_layout(showlegend=False)

From the Boxplot above we can't deduce a strong correlation between the polarity of a news article and a change in stock price. 

This should be corroborated by a statistical test, though!

### What's Happening over Time? 

#### Exploring the Date Variable

In [None]:
df.set_index('Date', inplace=True)

In [None]:
df = df.sort_index()

In [None]:
date_hist = dict(
    data=[
        Histogram(
            x=df.index,
        marker=dict(
            opacity=0.9,
            line=dict(
                color='white', width=1
            )
         )
      )
    ],
    layout=dict(
        title='Distribution of No. of Articles over Months',
        xaxis=dict(
            range=[df.index.min() - pd.Timedelta(days=90), df.index.max()]
        )
    )
)

pyo.iplot(date_hist)

## The Following is Additional Extra Work

#### Moving Avg. of Numerical Variables 

In [None]:
company_name = 'شركة أبناء عبدالله عبدالمحسن الخضري'
window = 10
num_var = 'Closing'

fig = (df
        .loc[df['Company Name'] == company_name, num_var]
        .sort_index()
        .rolling(window).mean()
        .iplot(mode='lines', color='blue', size=8, asFigure=True, 
               title=f'{window} Days Moving Avg. ({num_var}) <br> {company_name}'))

In [None]:
fig

In [None]:
company_name = 'شركة أبناء عبدالله عبدالمحسن الخضري'

fig_1 = (df
 .loc[df['Company Name'] == company_name]
 .groupby('Polarity')
 .resample('A')
 .size()
 .T
 .iplot(kind='bar', barmode='group',
        colorscale='gnbu',
        title=f'Polarity Evolution over Time <br> {company_name}',
        asFigure=True))

In [None]:
fig_1

In [None]:
fig_1['layout']['title']['text']

In [None]:
fig_1.add_trace(fig['data'][0])


## Market Index

We can create an index for the market by choosing the largest company in each sector, in terms of `Total Current Value`. Then plot the overall index market cap over time overlayed on the sentiment as above

In [None]:

index_comps = df.loc['2019'].set_index('Company Name').groupby('Sector_en')['Total Current Value (SAR)'].nlargest(1)

index_comps = index_comps.reset_index().sort_values('Total Current Value (SAR)', ascending=False)

index_comps

In [None]:
index_comps_names = index_comps['Company Name']; index_comps_names

In [None]:
df_index = df[df['Company Name'].isin(index_comps_names)]

In [None]:
index_series = (df_index[['Company Name', 'Total Current Value (SAR)']]
                 .pivot(columns='Company Name', values='Total Current Value (SAR)')
                 .sum(axis=1)
                 .loc[: 'Nov 2019'])

In [None]:
(df_index[['Company Name', 'Total Current Value (SAR)']]
 .pivot(columns='Company Name', values='Total Current Value (SAR)')
 .sum(axis=1)
 .loc['2011': 'Nov 2019']
 .rolling(180).mean()
 .iplot(color='blue',
        layout=dict(title='30-days Moving Average of Market Index')))

In [None]:
index_series.iplot()

In [None]:
(df_index
 .groupby('Polarity')
 .resample('A')
 .size()
 .T
 .iplot(kind='bar', title='Annual Polarity Distribution for the Market Index'))

In [None]:
from plotly.subplots import make_subplots

fig = make_subplots(rows=2, cols=1)

In [None]:
with open('ArSEL1.0.txt') as f:
    text = f.read()
    text = re.sub('###', ';', text)


In [None]:
print(text[:2000])

In [None]:
with open('ArSEL1.0_modified.txt', 'w') as f:
    f.write(text)

In [None]:
cols = 'AWN_OFFSET;EWN_OFFSET;POS_Tag;AWN_Lemma;SAMA_Lemma;Pos_Sentiment_score;Neg_Sentiment_Score;Confidence;AFRAID;AMUSED;ANGRY;ANNOYED;DONT_CARE;HAPPY;INSPIRED;SAD'.split(';')

In [None]:
cols

In [None]:
lex = pd.read_table('ArSEL1.0_modified.txt', sep=';', skiprows=20, header=None)
lex.columns = cols

In [None]:
lex.head()

In [None]:
lex.info()

In [None]:
lex['SAMA_Lemma'].value_counts()

### How to Read Facebook's Fasttext pretrained Models into Gensim

read this ASAP: <a href='https://radimrehurek.com/gensim/models/fasttext.html' target='_blank'>fasttext loading into gensim</a>