In [17]:
import emoji
# This regex implementation is backwards-compatible with the standard ‘re’ module, but offers additional functionality.
import regex
from collections import Counter

In [18]:
def read_tsv(data_file):
    text_data = list()
    labels = list()
    infile = open(data_file, encoding='utf-8')
    for line in infile:
        if not line.strip():
            continue
        label, text = line.split('\t')
        text_data.append(text)
        labels.append(label)
    return text_data, labels

In [19]:
def extract_emo_from_text(text):
    emoji_list = []
    tokens = regex.findall(r'\X', text)
    # print(tokens)
    for word in tokens:
        if any(char in emoji.UNICODE_EMOJI for char in word):
            emoji_list.append(word)
    return emoji_list

In [20]:
def load_lexicon(lex_file):
    emoji_lex = open(lex_file, encoding='utf-8').read().strip().split('\n')
    return emoji_lex

In [21]:
def check_emo_in_lex(emos, lex):
    return any([emo in lex for emo in emos])

In [22]:
pos_file = 'arabic_tweets_tsv/20191104/Arabic_tweets_positive_20191104.tsv'
neg_file = 'arabic_tweets_tsv/20191104/Arabic_tweets_negative_20191104.tsv'

In [23]:
pos_data, pos_labels = read_tsv(pos_file)
neg_data, neg_labels = read_tsv(neg_file)
print(len(pos_data), len(neg_data))

76906 72905


In [24]:
pos_data[0]

'هه خلي فضولش ف جيبش 🌚\n'

In [25]:
pos_data[1]

'موجود ماسافرت 😊\n'

In [26]:
neg_data[0]

'انمي Family Guy الموسم الحلقة السادسة مترجمة HD لودي نت وياك كرمالك شاهد\n'

In [27]:
neg_data[1]

'صدااع من الغباء لي ساعه افكر وش اقول بس غبائها الجمني 😭\n'

In [28]:
pos_lex = load_lexicon('emoji_lex/positive_emoji_v3.txt')
neg_lex = load_lexicon('emoji_lex/negative_emoji_v3.txt')
print(len(pos_lex), len(neg_lex))

350 123


In [29]:
print(pos_lex)

['🌌', '♛', '❥', '🍊', '8)', '🙋', '👣', '🧡', '♨', ':’)', '🍓', '8-)', '❄', '💐', '🏊', ':}', '☀', '😝', '🙊', ';)', '🍆', '🌞', '👫', '🍌', '🌽', ':>', '🙂', ':-3', '🥳', '📹', '❣', '😁', '♔', '❅', '🎄', '🍑', ':D', '💕', '🌈', '👜', ';D', '👤', '🎹', '💞', '*)', '🎾', '🚼', 'xD', '🚄', '❤', '🔝', '😮', '🐰', '🌛', '😗', '😌', '🤴', '😸', '🙏', '🌴', '❤️', '🎿', '👛', '✏', '🎠', '🚢', ':-,', '🌕', '🔭', '👑', '👨', '💃', '🐵', '💏', '🍟', '*-)', '💋', '🏡', '🍔', '🌷', '🔆', '🏈', '💟', ':-)', '😉', '🚿', '🍰', ';]', '😘', '=3', '🍹', '✔', '👍', '🌠', '😻', '🆓', '=D', '🎥', '🍎', '👊', '🎬', '🌚', '♡', '😬', '🎉', '🎅', '✌️', 'B-ˆD', '<3', '🍨', '😎', '☺️', '🏉', '❀', '🐈', '✓', '🐠', '🍦', '💌', '🌱', '🐪', '🤡', ':ˆ)', '🏰', '☺', '🙃', '💰', '📝', ':-]', '💼', '😍', '👖', '=)', ':-}', '💛', '🌾', '🍒', '🐥', '💄', '🐬', '🎁', '🍉', '⛳', '🚵', '🏩', '🍁', '🗻', '🌰', ':-*', '💳', '🔅', '♪', '🙌', '🐣', '🐏', '🎼', '🌅', '✔️', '😆', ':]', '🏀', '📺', ':-))', '😚', '💚', '🐇', '🌼', '👏', '🐱', '🎶', '✎', '🆗', '🌜', '🌘', '😇', '✈', '🚀', '🎈', '👅', '🆒', '8D ', '🎒', '🌔', '🐩', '🚤', '🏠', '🌊', '💖', '🎸', '🤗', '😹'

In [30]:
print(neg_lex)

[':<', '👿', '😬', ':-[', '💀', ':-(', '😷', '😱', ':-c', '😾', ':(', '🐁', '🆘', '😢', 'D8', '😪', '>:\\', ':-.', '🔞', '>:(', ':c', '🙎', '😴', '😑', '☠', '😒', '💉', '😫', ':@', '😥', '🌵', '😠', '⌛', '😳', '🔨', '😤', '❓', '💣', '🔙', '😲', '🤒', ':/', '🌋', '😟', '👮', ':\\', ':’(', '👎', '⛔', 'DX', '🚑', '>:[', '🔓', '😯', '🤕', '🤢', '=/', '🔱', '😩', ':[', ':-<', '💔', '😼', '🐴', ':-/', '❗', '😮', '🚫', '⚠', '🙇', '🙍', '✂', '📍', ':S', '😖', '🖕', '<\\3', 'D-’:', 'v.v', '😡', '😔', '😦', '😵', '>.<', '📌', '🤮', '</3', '👺', '🤧', 'D;', '😰', '🥀', '😣', '=L', '😨', ': (', '😭', '=\\', '🔪', '😞', 'D=', '😐', '🐲', ':L', '😧', ':-||', '😿', '🐍', '🤬', '😓', '😕', ':{', '😶', 'D:', '⏩', ' >:/', '🥵', '🙁', 'D:<', '↪', '👐', '☹', '🤐']


In [31]:
pos_lex[-1], neg_lex[-1]

('🐎', '🤐')

In [32]:
new_pos = list()
new_neg = list()
mixed = list()

In [33]:
for tweet in pos_data:
    emojis = extract_emo_from_text(tweet)
    if check_emo_in_lex(emojis, pos_lex) and check_emo_in_lex(emojis, neg_lex):
        mixed.append(tweet)
    else:
        new_pos.append(tweet)

for tweet in neg_data:
    emojis = extract_emo_from_text(tweet)
    if check_emo_in_lex(emojis, pos_lex) and check_emo_in_lex(emojis, neg_lex):
        mixed.append(tweet)
    else:
        new_neg.append(tweet)

In [34]:
print(len(new_pos), len(new_neg), len(mixed))

75478 68814 5519


In [35]:
new_pos[0]

'هه خلي فضولش ف جيبش 🌚\n'

In [36]:
new_neg[0]

'انمي Family Guy الموسم الحلقة السادسة مترجمة HD لودي نت وياك كرمالك شاهد\n'

In [37]:
mixed[0]

': 👇 حسب نصيحة صيدلاني: ✔️ الأزرق مناسب للي عنده ارتفاع في ضغط الدم وارتفاع السكر .👍 ❌ والأحمر غير مناسب.👎\n'