In [None]:
!pip install indic-nlp-library

import pandas as pd
import re
from indicnlp.tokenize import indic_tokenize

In [7]:
emoji_pattern = re.compile("["u"U0001F600-U0001F64F"  # emoticons
        u"U0001F300-U0001F5FF"  # symbols & pictographs
        u"U0001F680-U0001F6FF"  # transport & map symbols
        u"U0001F1E0-U0001F1FF"  # flags (iOS)
        u"U00002500-U00002BEF"  # chinese char
        u"U00002702-U000027B0"
        u"U00002702-U000027B0"
        u"U000024C2-U0001F251"
        u"U0001f926-U0001f937"
        u"U00010000-U0010ffff"
        u"u2640-u2642" 
        u"u2600-u2B55"
        u"u200d"
        u"u23cf"
        u"u23e9"
        u"u231a"
        u"ufe0f"
        u"u3030""]+", flags=re.UNICODE)

def removeEmoji(df):
  for i in range(len(df)):
    df["text"][i] = emoji_pattern.sub(r"", df["text"][i])

def tokenize(df):
  for i in range(len(df)):
    df["text"][i] = indic_tokenize.trivial_tokenize(df["text"][i])

def cleanSentences(df):
  hindi_stopwords = ['तुम','मेरी','मुझे','क्योंकि','हम','प्रति','अबकी','आगे','माननीय','शहर','बताएं','कौनसी','क्लिक','किसकी','बड़े','मैं','and','रही','आज','लें','आपके','मिलकर','सब','मेरे','जी','श्री','वैसा','आपका','अंदर', 'अत', 'अपना', 'अपनी', 'अपने', 'अभी', 'आदि', 'आप', 'इत्यादि', 'इन', 'इनका', 'इन्हीं', 'इन्हें', 'इन्हों', 'इस', 'इसका', 'इसकी', 'इसके', 'इसमें', 'इसी', 'इसे', 'उन', 'उनका', 'उनकी', 'उनके', 'उनको', 'उन्हीं', 'उन्हें', 'उन्हों', 'उस', 'उसके', 'उसी', 'उसे', 'एक', 'एवं', 'एस', 'ऐसे', 'और', 'कई', 'कर','करता', 'करते', 'करना', 'करने', 'करें', 'कहते', 'कहा', 'का', 'काफ़ी', 'कि', 'कितना', 'किन्हें', 'किन्हों', 'किया', 'किर', 'किस', 'किसी', 'किसे', 'की', 'कुछ', 'कुल', 'के', 'को', 'कोई', 'कौन', 'कौनसा', 'गया', 'घर', 'जब', 'जहाँ', 'जा', 'जितना', 'जिन', 'जिन्हें', 'जिन्हों', 'जिस', 'जिसे', 'जीधर', 'जैसा', 'जैसे', 'जो', 'तक', 'तब', 'तरह', 'तिन', 'तिन्हें', 'तिन्हों', 'तिस', 'तिसे', 'तो', 'था', 'थी', 'थे', 'दबारा', 'दिया', 'दुसरा', 'दूसरे', 'दो', 'द्वारा', 'न', 'नहीं', 'ना', 'निहायत', 'नीचे', 'ने', 'पर', 'पर', 'पहले', 'पूरा', 'पे', 'फिर', 'बनी', 'बही', 'बहुत', 'बाद', 'बाला', 'बिलकुल', 'भी', 'भीतर', 'मगर', 'मानो', 'मे', 'में', 'यदि', 'यह', 'यहाँ', 'यही', 'या', 'यिह', 'ये', 'रखें', 'रहा', 'रहे', 'ऱ्वासा', 'लिए', 'लिये', 'लेकिन', 'व', 'वर्ग', 'वह', 'वह', 'वहाँ', 'वहीं', 'वाले', 'वुह', 'वे', 'वग़ैरह', 'संग', 'सकता', 'सकते', 'सबसे', 'सभी', 'साथ', 'साबुत', 'साभ', 'सारा', 'से', 'सो', 'ही', 'हुआ', 'हुई', 'हुए', 'है', 'हैं', 'हो', 'होता', 'होती', 'होते', 'होना', 'होने', 'अपनि', 'जेसे', 'होति', 'सभि', 'तिंहों', 'इंहों', 'दवारा', 'इसि', 'किंहें', 'थि', 'उंहों', 'ओर', 'जिंहें', 'वहिं', 'अभि', 'बनि', 'हि', 'उंहिं', 'उंहें', 'हें', 'वगेरह', 'एसे', 'रवासा', 'कोन', 'निचे', 'काफि', 'उसि', 'पुरा', 'भितर', 'हे', 'बहि', 'वहां', 'कोइ', 'यहां', 'जिंहों', 'तिंहें', 'किसि', 'कइ', 'यहि', 'इंहिं', 'जिधर', 'इंहें', 'अदि', 'इतयादि', 'हुइ', 'कोनसा', 'इसकि', 'दुसरे', 'जहां', 'अप', 'किंहों', 'उनकि', 'भि', 'वरग', 'हुअ', 'जेसा', 'नहिं']    
  punctuations = ['।','/', '`', '+', '?','▁', '(', '$', '@', '[', '_', '!', ',', ':', '^', '|', ']', '=', '%', '&', '.', ')', '(', '#', '*', '', ';', '-', '}','|']
  to_be_removed = hindi_stopwords + punctuations
  for i in range(len(df)):
    df['text'][i]=[ele for ele in df['text'][i] if ele not in (to_be_removed)]

def preprocess(df):
  removeEmoji(df)
  tokenize(df)    
  cleanSentences(df)

In [None]:
url_test = "https://raw.githubusercontent.com/PrynkaSxna/dataset/main/emoHi-test.csv"
df_test = pd.read_csv(url_test)
preprocess(df_test)

In [None]:
url_valid ="https://raw.githubusercontent.com/PrynkaSxna/dataset/main/emoHi-valid.csv"
df_valid = pd.read_csv(url_valid)
preprocess(df_valid)

In [None]:
url_train = "https://raw.githubusercontent.com/PrynkaSxna/dataset/main/emoHi-train.csv"
df_train = pd.read_csv(url_train)
preprocess(df_train)

In [None]:
!pip install inltk
!pip uninstall torch
!pip install torch==1.3.1+cpu -f https://download.pytorch.org/whl/torch_stable.html

from inltk.inltk import setup
setup("hi")

In [None]:
from inltk.inltk import get_embedding_vectors

embeddings_test = []
for i in range(0, len(df_test["text"])):
  embeddings_test.append(get_embedding_vectors(' '.join(df_test["text"][i]), "hi"))

embeddings_valid = []
for i in range(0, len(df_test["text"])):
  embeddings_valid.append(get_embedding_vectors(' '.join(df_valid["text"][i]), "hi"))

embeddings_train = []
for i in range(0, len(df_test["text"])):
  embeddings_train.append(get_embedding_vectors(' '.join(df_train["text"][i]), "hi"))   