In [1]:
import emoji
# This regex implementation is backwards-compatible with the standard ‘re’ module, but offers additional functionality.
import regex
from collections import Counter
import random

In [2]:
def read_tsv(data_file):
    text_data = list()
    labels = list()
    infile = open(data_file, encoding='utf-8')
    for line in infile:
        if not line.strip():
            continue
        label, text = line.split('\t')
        text_data.append(text)
        labels.append(label)
    return text_data, labels

In [3]:
def extract_emo_from_text(text):
    emoji_list = []
    tokens = regex.findall(r'\X', text)
    for word in tokens:
        if any(char in emoji.UNICODE_EMOJI for char in word):
            emoji_list.append(word)
    return emoji_list

In [4]:
def load_lexicon(lex_file):
    emoji_lex = open(lex_file, encoding='utf-8').read().split('\n')
    return emoji_lex

In [5]:
def check_emo_in_lex(emos, lex):
    return any([emo in lex for emo in emos])

In [6]:
def label_mix(pos_data, neg_data):
    new_pos = list()
    new_neg = list()
    mixed = list()
    all_tweets = list()
    for tweet in pos_data:
        emojis = extract_emo_from_text(tweet)
        if check_emo_in_lex(emojis, pos_lex) and check_emo_in_lex(emojis, neg_lex):
            mixed.append(tweet)
        else:
            new_pos.append(tweet)
    for tweet in neg_data:
        emojis = extract_emo_from_text(tweet)
        if check_emo_in_lex(emojis, pos_lex) and check_emo_in_lex(emojis, neg_lex):
            mixed.append(tweet)
        else:
            new_neg.append(tweet)
    print('after:', 'pos', len(new_pos), 'neg', len(new_neg), 'mix', len(mixed))
    for tweet in new_pos:
        all_tweets.append('pos\t' + tweet)
    for tweet in new_neg:
        all_tweets.append('neg\t' + tweet)
    for tweet in mixed:
        all_tweets.append('mix\t' + tweet)
    random.shuffle(all_tweets)
    return all_tweets

In [7]:
def write_tsv(outfile_name, tweets):
    outfile = open(outfile_name, encoding='utf-8', mode='w')
    for tweet in tweets:
        outfile.write(tweet + '\n')

In [8]:
pos_lex = load_lexicon('emoji_lex/positive_emoji_v3.txt')
neg_lex = load_lexicon('emoji_lex/negative_emoji_v3.txt')
print('pos:', len(pos_lex), 'neg:', len(neg_lex))

pos: 351 neg: 124


In [9]:
print(pos_lex)

['🌌', '♛', '❥', '🍊', '8)', '🙋', '👣', '🧡', '♨', ':’)', '🍓', '8-)', '❄', '💐', '🏊', ':}', '☀', '😝', '🙊', ';)', '🍆', '🌞', '👫', '🍌', '🌽', ':>', '🙂', ':-3', '🥳', '📹', '❣', '😁', '♔', '❅', '🎄', '🍑', ':D', '💕', '🌈', '👜', ';D', '👤', '🎹', '💞', '*)', '🎾', '🚼', 'xD', '🚄', '❤', '🔝', '😮', '🐰', '🌛', '😗', '😌', '🤴', '😸', '🙏', '🌴', '❤️', '🎿', '👛', '✏', '🎠', '🚢', ':-,', '🌕', '🔭', '👑', '👨', '💃', '🐵', '💏', '🍟', '*-)', '💋', '🏡', '🍔', '🌷', '🔆', '🏈', '💟', ':-)', '😉', '🚿', '🍰', ';]', '😘', '=3', '🍹', '✔', '👍', '🌠', '😻', '🆓', '=D', '🎥', '🍎', '👊', '🎬', '🌚', '♡', '😬', '🎉', '🎅', '✌️', 'B-ˆD', '<3', '🍨', '😎', '☺️', '🏉', '❀', '🐈', '✓', '🐠', '🍦', '💌', '🌱', '🐪', '🤡', ':ˆ)', '🏰', '☺', '🙃', '💰', '📝', ':-]', '💼', '😍', '👖', '=)', ':-}', '💛', '🌾', '🍒', '🐥', '💄', '🐬', '🎁', '🍉', '⛳', '🚵', '🏩', '🍁', '🗻', '🌰', ':-*', '💳', '🔅', '♪', '🙌', '🐣', '🐏', '🎼', '🌅', '✔️', '😆', ':]', '🏀', '📺', ':-))', '😚', '💚', '🐇', '🌼', '👏', '🐱', '🎶', '✎', '🆗', '🌜', '🌘', '😇', '✈', '🚀', '🎈', '👅', '🆒', '8D ', '🎒', '🌔', '🐩', '🚤', '🏠', '🌊', '💖', '🎸', '🤗', '😹'

In [10]:
print(neg_lex)

[':<', '👿', '😬', ':-[', '💀', ':-(', '😷', '😱', ':-c', '😾', ':(', '🐁', '🆘', '😢', 'D8', '😪', '>:\\', ':-.', '🔞', '>:(', ':c', '🙎', '😴', '😑', '☠', '😒', '💉', '😫', ':@', '😥', '🌵', '😠', '⌛', '😳', '🔨', '😤', '❓', '💣', '🔙', '😲', '🤒', ':/', '🌋', '😟', '👮', ':\\', ':’(', '👎', '⛔', 'DX', '🚑', '>:[', '🔓', '😯', '🤕', '🤢', '=/', '🔱', '😩', ':[', ':-<', '💔', '😼', '🐴', ':-/', '❗', '😮', '🚫', '⚠', '🙇', '🙍', '✂', '📍', ':S', '😖', '🖕', '<\\3', 'D-’:', 'v.v', '😡', '😔', '😦', '😵', '>.<', '📌', '🤮', '</3', '👺', '🤧', 'D;', '😰', '🥀', '😣', '=L', '😨', ': (', '😭', '=\\', '🔪', '😞', 'D=', '😐', '🐲', ':L', '😧', ':-||', '😿', '🐍', '🤬', '😓', '😕', ':{', '😶', 'D:', '⏩', ' >:/', '🥵', '🙁', 'D:<', '↪', '👐', '☹', '🤐', '']


In [11]:
pos_file = 'arabic_tweets_tsv/20191104/Arabic_tweets_positive_20191104.tsv'
neg_file = 'arabic_tweets_tsv/20191104/Arabic_tweets_negative_20191104.tsv'
pos_data, pos_labels = read_tsv(pos_file)
neg_data, neg_labels = read_tsv(neg_file)
print('before:', 'pos', len(pos_data), 'neg', len(neg_data))

before: pos 76906 neg 72905


In [12]:
all_tweets = label_mix(pos_data, neg_data)
outfile_name = 'arabic_tweets_tsv/20191104/3labels/Arabic_tweets_20191104.tsv'
write_tsv(outfile_name, all_tweets)

after: pos 75478 neg 68814 mix 5519


In [13]:
for i in range(5):
    print(all_tweets[i])
    print('----------------------')

neg	لا سلطة لنا علي قلوبنا هي تنبض لمن ارادت ومتي ارادت .. وكيف ارادت .. بعضهم ينبض القلب له .. وبعضهم ينبض الق…

----------------------
neg	ياربي متى توصل للمليار😞

----------------------
pos	: #صباحيات صباحكم سعادة وتفاؤل يارب 💙

----------------------
neg	مخلااص بقاا يلعن ميتين امك

----------------------
pos	وبك وطن ينهض سيدي قابوس ❤ #صباح_نوفمبري ⁦🇴🇲⁩

----------------------


In [14]:
pos_file = 'arabic_tweets_tsv/20190413/Arabic_tweets_positive_20190413.tsv'
neg_file = 'arabic_tweets_tsv/20190413/Arabic_tweets_negative_20190413.tsv'
pos_data, pos_labels = read_tsv(pos_file)
neg_data, neg_labels = read_tsv(neg_file)
print('before:', 'pos', len(pos_data), 'neg', len(neg_data))

before: pos 29849 neg 28902


In [15]:
all_tweets = label_mix(pos_data, neg_data)
outfile_name = 'arabic_tweets_tsv/20190413/3labels/Arabic_tweets_20190413.tsv'
write_tsv(outfile_name, all_tweets)

after: pos 29460 neg 27037 mix 2254


In [16]:
for i in range(5):
    print(all_tweets[i])
    print('----------------------')

neg	💥 قرب شهر الخير 🌙 وصار لازمها عرووض

----------------------
neg	#الاهلي_الهلال -تحت هذي التغريده تحدي روقان واسرع اذا فاز الهلال ان شاء الله ، اسرع راح يوزع قيمة ايفون X …

----------------------
pos	صباح الخيرات يارب العالمين والصلاة على محمد وال محمد 🌷 💕 🌷

----------------------
mix	😂😂 فكري بعد ما بغير اسمي 😕 هذا عمر يجيب هالبلاوي 😂😂👊

----------------------
neg	ذكرتك يوم أمطرت دارك وأنا بعيد وهلت دموعي على الخد عبراتها 💔 #بقلمي #جديد #امطار_الشرقيه

----------------------
