In [1]:
import emoji
'''This regex implementation is backwards-compatible with the standard ‘re’ module, 
but offers additional functionality. '''
import regex
from collections import Counter

In [2]:
def read_tsv(data_file):
    text_data = list()
    labels = list()
    infile = open(data_file, encoding='utf-8')
    for line in infile:
        if not line.strip():
            continue
        label, text = line.split('\t')
        text_data.append(text)
        labels.append(label)
    return text_data, labels

In [3]:
def extract_emo_from_text(text):
    emoji_list = []
    tokens = regex.findall(r'\X', text)
    # print(tokens)
    for word in tokens:
        if any(char in emoji.UNICODE_EMOJI for char in word):
            emoji_list.append(word)
    return emoji_list

In [4]:
def extract_emojis(tweets):
    emo = list()
    for tweet in tweets:
        tweet_emos = extract_emo_from_text(tweet)
        emo += tweet_emos
    return emo

In [5]:
pos_file = 'arabic_tweets_tsv/20191104/Arabic_tweets_positive_20191104.tsv'
neg_file = 'arabic_tweets_tsv/20191104/Arabic_tweets_negative_20191104.tsv'
pos_data, pos_labels = read_tsv(pos_file)
neg_data, neg_labels = read_tsv(neg_file)

In [6]:
pos_emos = extract_emojis(pos_data)
neg_emos = extract_emojis(neg_data)

pos_emos_set = set(pos_emos)
neg_emos_set = set(neg_emos)

In [7]:
# intersection 
print(pos_emos_set.intersection(neg_emos_set))

{'👎', '🌧', '🔵', '🔘', '🕯', '😘', '👭', '😤', '😳', '🏃\u200d♂️', '🖇', '🔃', '🗣️', '🌲', '🇭', '😋', '🚢', '◾️', '👉', '🙇', '🤚', '🇪', '🤢', '👋🏻', '📽', '⬅️', '🔙', '🔚', '☹️', '🇮', '👤', '😨', '😗', '☝🏻', '📺', '🚀', '👙', '🎉', '💎', '✊', '😾', '⚫️', '🚘', '👁️', '🙆🏻\u200d♂️', '🖌️', '😎', '🗓', '🚶\u200d♂️', '👖', '💦', '😚', '🎒', '🔜', '✈', '🇵', '🦆', '💅', '🇷', '🌪', '🤦🏻\u200d♀️', '🍓', '🌷', '🐝', '👋', '✌', '🏠', '😲', '😔', '📆', '💖', '↪', '🌻', '🏁', '🌮', '🍯', '🇹', '👄', '🙊', '💋', '🏢', '🤣', '🌳', '💩', '🇬', '😏', '📢', '🤝', '🙃', '🙇🏻\u200d♀️', '👼', '👩', '🍪', '💪🏻', '❎', '👏', '🧔🏻', '🎋', '💇', '👑', '🌏', '📝', '🐰', '🍋', '🥋', '🚨', '😬', '☀', '⚠', '⭕️', '♦️', '⛄', '🤗', '🎃', '✋🏻', '™', '🚓', '🐦', '🔻', '⏳', '⛅', '🥀', '📊', '🏹', '🚶🏻\u200d♂️', '🌺', '💑', '❣️', '📩', '✨', '👅', '😻', '🏅', '🕋', '🔇', '❓', '🤙🏻', '👬', '🇧', '⛔️', '😅', '🌚', '🔄', '📚', '💮', '🐄', '🤷🏻\u200d♀️', '🌄', '🤯', '🎥', '⚠️', '😯', '🎬', '🤧', '💥', '🎊', '😒', '🇱', '👊', '👌🏻', '👍', '🤰', '🧤', '✉️', '💻', '🛑', '🧠', '🖌', '🧦', '🔗', '🕰️', '😶', '💄', '🐵', '🧐', '💫', '🤓', '📹', '😣', '😂', '💨', '🤚🏻', '💴', '

In [8]:
# most freq pos emos
print(Counter(pos_emos))

Counter({'❤️': 7947, '🌹': 7701, '💙': 5895, '😍': 4101, '❤': 3992, '💛': 3536, '✨': 3377, '🌸': 2811, '💕': 2084, '🌷': 1983, '✅': 1956, '♥': 1724, '😂': 1636, '👌': 1633, '🌺': 1583, '💜': 1520, '💐': 1482, '💚': 1416, '🍃': 1376, '👇': 1362, '😁': 1251, '👍': 1212, '🙂': 1181, '🔥': 1146, '💰': 1131, '🖤': 1106, '😊': 984, '🌿': 960, '🌼': 959, '🙏': 850, '🕊': 843, '🌚': 836, '💞': 836, '♥️': 823, '🌟': 784, '💫': 771, '👏': 706, '💘': 690, '😉': 680, '😘': 677, '😎': 660, '💖': 631, '🔘': 598, '💸': 575, '♨️': 558, '🎥': 518, '🎀': 516, '💌': 514, '💎': 509, '🌱': 507, '💓': 493, '💗': 493, '🌻': 492, '👑': 488, '🐣': 481, '😌': 480, '🍁': 469, '👇🏻': 462, '💔': 452, '🙏🏻': 435, '🎼': 434, '🎶': 431, '😜': 411, '🍂': 399, '🔴': 395, '💪': 383, '😄': 379, '🎁': 371, '🇦': 357, '😭': 357, '☺️': 356, '❄': 355, '🎉': 350, '👈': 342, '🇸': 336, '☕': 319, '▪': 317, '✔️': 311, '🤣': 311, '📲': 306, '🎈': 301, '🥢': 300, '🧡': 295, '👈🏻': 295, '☀': 294, '🤩': 284, '✌': 281, '⭐️': 278, '📍': 277, '🤗': 275, '🔸': 273, '💵': 270, '🔁': 270, '💥': 263, '🌴': 262, '🙃': 2

In [9]:
# most freq neg emos
print(Counter(neg_emos))

Counter({'💔': 15018, '😭': 7276, '😔': 3915, '📍': 2771, '🔐': 2270, '😂': 2156, '😩': 1998, '😢': 1729, '😞': 1625, '📌': 1618, '😒': 1519, '♠': 1272, '♣': 1272, '😳': 956, '😴': 892, '🥀': 794, '♥️': 785, '😍': 748, '😑': 624, '❤️': 598, '😡': 577, '😕': 571, '😬': 562, '😐': 559, '😥': 510, '🇵': 501, '🇯': 497, '👇': 467, '😪': 459, '😣': 448, '🇦': 397, '👌': 387, '🌟': 378, '😠': 377, '✨': 369, '🤢': 358, '😶': 340, '😤': 317, '😱': 310, '💙': 305, '❤': 304, '💕': 304, '💛': 298, '🔥': 287, '🤕': 281, '🙄': 276, '📱': 269, '😰': 267, '💷': 266, '↕': 264, '😓': 262, '😷': 261, '🤔': 261, '🤮': 260, '🔸': 254, '😎': 251, '🚫': 245, '🤣': 239, '💸': 239, '😫': 237, '🙁': 235, '👐': 222, '🌹': 217, '❓': 206, '❗️': 203, '💟': 198, '🎀': 197, '🥵': 197, '💪': 195, '👎': 193, '❣️': 193, '🇸': 191, '🇲': 190, '🤐': 187, '😟': 186, '☹': 176, '🤬': 164, '💪🏼': 158, '👈🏻': 155, '👉🏻': 154, '😖': 152, '⭕': 151, '💥': 151, '😁': 146, '⚠': 145, '🥺': 145, '🔙': 145, '🌺': 143, '🌴': 140, '👍': 135, '💜': 134, '♥': 130, '⛔': 128, '🌸': 126, '👏': 124, '🙂': 120, '❗': 119, 