In [42]:
#paths required
datafolder_p = r'D:\18-DS\github\SDSHL\data\processed'
datafolder_e = r'D:\18-DS\github\SDSHL\data\external'
datafolder_i = r'D:\18-DS\github\SDSHL\data\internal'
modelfolder  = r'D:\18-DS\data\models'

vectorfolder_bert = modelfolder + r'\BERT'
vectorfolder_ft   = modelfolder + r'\fasttext_wiki.hi'
vectorfolder_standford = modelfolder + r'\POS-Tagger-Hindi'

file           = datafolder_p + r'\1-Hinglish_SarcasmCSV.csv'
file_clean     = datafolder_p + r"\2-Hinglish_Sarcasm_Clean.csv"
file_FE        = datafolder_p + r"\3-features_pos.csv"

file_ft        = datafolder_p + r"\2-Hinglish_Sarcasm_Clean-fasttext.csv"
train_datafile = datafolder_p + r'\2-train.csv'
test_datafile  = datafolder_p + r'\2-test.csv'

In [43]:
#libraries required
import pandas as pd
import nltk
import re
import numpy as np

In [None]:
nltk.download('punkt')

In [44]:
#Loadfiles in memory

#Load Hindi stopwords
df_stopwords = pd.read_csv(datafolder_e + "\Stopword_Hindi.csv")
stop_words= list(df_stopwords['words'])
stop_words=[] #don't do anything with stopwords

#Load 1-Hinglish_SarcasmCSV file
df= pd.read_csv(file, sep="\t")

In [45]:
def dev2engNumeric(txt):
    pat= list('режрезреирейрекрелремренреореп')
    i=0
    for p in pat:
        txt=re.sub(p,str(i),txt)
        i+=1
    return txt

In [46]:
#remove following characters from text '[тАФ\-`":тАЬтАЭ~]'
def normalize_document(doc):

    #pattern = r'[.,;?ред:-тАФтАЭ`~тАЬ]@#ред'
    #pattern = r'[!.,?#ред)()@:"]'
    pattern_sc = r'[тАФ\-`":тАЬтАЭ~]' #remplace these special characters with single space
    pattern_url = r'^(http|href|ftp|file)s?:\/\/.*[\r\n]*' #remove any url with null space
    pattern_at = r'@\S*' #remove any text after @ with null inlcuding @
    pattern_hash = '#\s?' #remove space after hashtag
    pattern_emo = '[\u210d-\U0001F9FF]' #emoticon identification
    
    # lower case and remove special characters\whitespaces. Not required for Devnagari Test
    #doc = re.sub(r'[^a-zA-Z\s]', '', doc, re.I|re.A)
    
    #replace any character which has pattern with blank
    #print (doc, pattern_sc)
    doc = re.sub( pattern_sc,' ',doc)
    doc = re.sub( pattern_url,'',doc)
    doc = re.sub( pattern_at,'',doc)
    doc = re.sub( pattern_hash,'#',doc)
    
    #convert text to lower case. Not required for Devnagari Text
    #doc = doc.lower()
    #doc = doc.strip()
    
    #sometmes emoji and normal text is without space. To create a space between normal word and emoji. 
    #Otherwise it will tokenization problem.
    emo_pos=re.finditer(pattern_emo , doc)


    i=0
    j=0
    doc1=[]
    for pos in emo_pos:
        j=pos.end()
        if j<0:
            j=0
        doc1.append(doc[i:j-1]+" "+doc[j-1]+" " )

        i=pos.end()

    doc1.append( doc[j:]+" " )

        
    if len(doc1)>0: doc="".join(doc1) #use emoticon process text only if text contained any emoticon else leave.

    # tokenize document
    tokens = nltk.word_tokenize(doc)
    
    # filter stopwords out of document
    filtered_tokens = [token for token in tokens if token not in stop_words]
    
    # re-create document from filtered tokens
    doc = ' '.join(filtered_tokens)
    return doc

In [47]:
#Clean the dataset

corpus = list(df.sentence)

normalize_corpus = np.vectorize(normalize_document)
norm_corpus = normalize_corpus(corpus)

df.sentence=norm_corpus

df['sentence'] = df.sentence.str.replace("тАШ","") #Regex was not able to remove these quotes
df['sentence'] = df.sentence.str.replace("тАЩ","") #Regex was not able to remove these quotes
df['sentence'] = df.sentence.str.replace("# ","#") #correct hastags format. It is not able to do in RE
df['sentence'] = df.sentence.str.replace(" & ","&") #remove spaces around &. J & K, A & N, Modi & Shah
df['sentence'] = df.sentence.str.replace("  "," ") #remove spaces around &. J & K, A & N, Modi & Shah
df['sentence'] = df.sentence.str.replace("редред",".") #this is fullstop marker in Devanagari
df['sentence'] = df.sentence.str.replace("ред",".") #this is another fullstop marker in Devanagri
df['sentence'] = df.sentence.str.replace("|",".") #sometimes | is used as sentence marker
df['sentence'] = df.sentence.apply(dev2engNumeric) #replace devanagri number to english numbers
df['sentence'] = df['sentence'].str.replace(' +',' ') # remove any extra space
df['sentence_wo_emo'] = df['sentence'].str.replace(r'[\u210d-\U0001F9FF]','') # Remove emoticon. It does not help in POS tagging.
df['sentence_wo_emo'] = df['sentence_wo_emo'].str.replace(' +',' ')  # remove any extra space

In [None]:
def tranlit2dev(doc, translit_hashtag=False):
    from indicnlp.transliterate import acronym_transliterator
    from indic_transliteration.sanscript import transliterate 
    from indic_transliteration import sanscript
    import re

    ack_transliterator=acronym_transliterator.LatinToIndicAcronymTransliterator()

    words=re.split(r' ',doc) #break sentence on space
    sent = []
    for w in words:
        
        #if first letter is not # then Translit is True.
        #if first Letter is # and tranlit_hastag=True then Translit is True
        #else Translit is false.
        Translit = (translit_hashtag and w[0]=='#') or (w[0]!='#')                                                      
                                                        
        
        if Translit:
            w1 = re.findall(r'[A-z]+',w) ##is  word Latin word?
            if len(w1)>0: #Found english word
                w2=w1[0]
                pat = re.compile(r'([A-Z][a-z]+)') #English word with camel case. Break camel case into different words
                w2= pat.split(w2)
                w4=[]
                for w3 in w2:
                    if len(w3)>0:    
                        if w3.upper()==w3: # all letters are capital in the word
                            w4.append( ack_transliterator.transliterate(w3,lang='hi') )
                        else:
                            w3=w3.lower()
                            w4.append( transliterate(w3, sanscript.ITRANS, sanscript.DEVANAGARI) )
                    else:
                        pass
                    #print (w4)
                w5="_".join(w4)

            else:
                w5=w
        else:
            w5=w

        sent.append(w5)
    return " ".join(sent)                                                                                                             

In [None]:
docs = ['рдЬреЗрд╣рд╛рджреА рдпрд╛рд╕рд┐рди Malik рдФрд░ рдЖрдЬрд╛рдж Kashmir рдЪрд┐рд▓рд╛рдиреЗ рд╡рд╛рд▓реЗ рдХрд╢реНрдореАрд░ рдХреЛ рдмрдЪрд╛рдиреЗ рдЖрдЧреЗ рдирд╣реАрдВ рдЖрдПрдВрдЧреЗ #JammuKashmirFloods #KashmirFloods',
       'рд╕рд░рд┐рдпрд╛ рдХрд╛рдиреВрди рдХреЗ рд╣рд┐рд╕рд╛рдм рд╕реЗ рдЕрдм WIFE IS MOTHER',
       'рдЕрдБрдзреЗрд░реА рд░рд╛рддреЛрдВ рдореЗрдВ рд╕реБрдирд╕рд╛рди TL рдкрд░ рдПрдХ рдЕрд╢реНрд▓реАрд▓ рд▓реМрдВрдбрд╛ рдирд┐рдХрд▓рддрд╛ рд╣реИ рдЙрд╕реЗ рд▓реЛрдЧ Hawashmi рдХрд╣рддреЗ рд╣реИ',
       'DMK рдиреЗ рд╕рд░рдХрд╛рд░ рдХреЛ рдЖрдзрд╛ рддрд▓рд╛рдХрд╝ рджрд┐рдпрд╛ SP&BSP рдиреЗ рд╕рд░рдХрд╛рд░ рд╕реЗ рдЖрдзрд╛ рд╡рд┐рд╡рд╛рд╣ рдХрд┐рдпрд╛ рдкрд░ рдЪрд╛рд╣рд╛ рдХрд░ рднреА Honeymoon рдирд╣реАрдВ рдордирд╛ рд╕рдХрддреЗ рдЕрдкрд╡рд┐рддреНрд░ рд░рд┐рд╢реНрддреЛрдВ рдореЗрдВ рдРрд╕рд╛ рд╣реА рд╣реЛрддрд╛ рд╣реИ .',
       'рджрд┐рд▓реНрд▓реА рдореЗрдВ рд╢рд┐рд▓рд╛ рд╕рд░рдХрд╛рд░ рдиреЗ рдЬреЛ рдЬрдирддрд╛ рдкрд░ рдмрд░реНрдмрд░рддрд╛ рд╕реЗ рдЯрд┐рдпрд░ рдЧреИрд╕ рдФрд░ рдбрдВрдбреЗ рдмрд░рд╕рд╛рдП рдереЗ рдЙрд╕рдХреЗ рдкреАрдЫреЗ рдХрд╣реАрдВ рд╡рд╣ 14 рд▓рд╛рдЦ рдлрд░реНрдЬреА рд╡реЛрдЯ рддреЛ рдкреНрд░реЗрд░рдгрд╛ рдХреЗ рд╢реНрд░реЛрдд рдирд╣реАрдВ рдереЗ AAP',
       'рдЕрдЧрд░ рдореБрд▓рд╛рдпрдо рдФрд░ рдЕрдЦрд┐рд▓реЗрд╢ рдЪрд╛рд╣реЗрдВ рддреЛ UP рдореЗрдВ рдПрдХ рджрдВрдЧрд╛ рдФрд░ рдХрд░рд╡рд╛ рдХреЗ рдмрд┐рд▓ рдорд╣реЗрдВрджреНрд░ рд╕рд┐рдВрд╣ рдзреЛрдиреА рдХреЗ рдирд╛рдо рдкреЗ рдлрд╛рдбрд╝ рд╕рдХрддреЗ рд╣реИрдВ. #IndvsEng',
       'рджрд┐рд▓ рдмрд╣реБрдд рд╣реА рд╣рд░рд╛рдореА рдХрд╛рдорд┐рдиреА рдЪреАрдЬрд╝ рд╣реЛрддреА рд╣реИ рдЕрдЪреНрдЫреЗ рдЦрд╛рд╕реЗ рд╣рд╕реНрддреЗ рдЦреЗрд▓рддреЗ рдЖрджрдореА рдХреЛ рд╕реЗрдВрдЯрд┐рдпрд╛рдкрд╛ рдХрд╛ рдПрдбрдорд┐рди рдмрдирд╛ рджреЗрддреА рд╣реИ #SadStoriesOfTwitter',
       'NIA рдХреА рдЧрд┐рд░рдлреНрдд рдореЗрдВ рддрд╛рдирд┐рдпрд╛ рдкрд░рд╡реАрди рд╣рд╛рдлрд┐рдЬ рд╕рдИрдж рдХреЛ рдХрд░рддреА рдереА рд░рд┐рдкреЛрд░реНрдЯ , рд╣рдерд┐рдпрд╛рд░реЛрдВ рдХреА рдЯреНрд░реЗрдирд┐рдВрдЧ рд▓реЗрдиреЗ рдЬрд╛рдирд╛ рдерд╛ рдкрд╛рдХрд┐рд╕реНрддрд╛рди',
      'рдорд┐рдЧ рд╕реЗ F16 рдЙрдбрд╝рд╛рдКрдБ ! рдЪрд┐рдбрд╝рд┐рдпрд╛ рд╕реЗ рдореЗрдВ рдмрд╛рдЬ рдЧрд┐рд░рд╛рдКрдБ ! рдлрд┐рд░ рджреБрд╢реНрдорди рдШрд░ рдореЗрдВ рдЪрд╛рдп рдкреА рдЖрдКрдБ ! рдореИрдВ рдЕрднрд┐рдирдиреНрджрди рдирд╛рдо рдХрд╣рд╛рдКрдБ !',
      'рдФрд░ рднреА рдмрд╣реБрдд рдкрддреНрд░рдХрд╛рд░реЛрдВ рдкрд░ F I R рд╣реБрдИ рдереА рд╡рд╣ рддреЛ рддреБрдордХреЛ рдирд╣реАрдВ рджрд┐рдЦреА рдЕрдХреНрд▓ рдХреЗ рдЕрдВрдзреЗ рдирд╛рдо рдирдпрдирд╕реБрдЦ']

for doc in docs:
    print( tranlit2dev(doc, translit_hashtag=True) )
                                                                            

print ('='*20)                                                                            
for doc in docs:
    print( tranlit2dev(doc, translit_hashtag=False) )     

### <font color=red> Seeing above results of transliteration I am deciding not to do any transliteration</font>

In [48]:
df=df.set_index('ID')
df = df[['label','sentence','sentence_wo_emo']]

#save file for transliteration
df.to_csv(file_clean,sep="\t",encoding='utf-8')

# Experiment Area

In [None]:
import unicodedata
def splitclusters(s):
    """Generate the grapheme clusters for the string s. (Not the full
    Unicode text segmentation algorithm, but probably good enough for
    Devanagari.)

    """
    virama = u'\N{DEVANAGARI SIGN VIRAMA}'
    cluster = u''
    last = None
    for c in s:
        cat = unicodedata.category(c)[0]
        if cat == 'M' or cat == 'L' and last == virama:
            cluster += c
        else:
            if cluster:
                yield cluster
            cluster = c
        last = c
    if cluster:
        yield cluster

In [None]:
a="рдореЗрд░рд╛ рдирд╛рдо рд╣рд░реА рдердкреНрд▓рд┐рдпрд╛рд▓ рд╣реИ"
a="рд╕рдВрдпреБрдХреНрдд рд░рд╛рдЬреНрдп рдЕрдореЗрд░рд┐рдХрд╛"
list(splitclusters(a))

In [None]:
# re.sub('[тАФ\-`":тАЬтАЭ~]',' ','h~a  tтАФha-pliyalтАЭri@pra`"sтАЬa:d')
# re.sub('#[\s]*','$',"s # KashmirFloods")

# #re.sub(r'^(http|href|ftp|file)s?:\/\/.*[\r\n]*', '', 'file://pmlogy.com')


# #re.sub(, '', 'hari @prasad')

In [None]:
# pattern_extraspace= "\s+"
# doc='ЁЯТЩрдЦрд╝реВрдмрд╕реВрд░рддреА рд╣рдореЗрд╢рд╛ рдЖрдкрдХреЗ ЁЯТЩ тЭгя╕ПрдЪреЗрд╣рд░реЗ рдкрд░ рд╕рдЬрддреА рд░рд╣реЗ тЭгя╕П ЁЯТЩрдЦрд╝реБрд╢реА рд╣рдореЗрд╢рд╛ рдЖрдкрдХреА рдЬрд┐рдиреНрджрдЧреА ЁЯТЩ тЭгя╕П рдореЗрдВ рдорд╣рдХрддреА рд░рд╣реЗредтЭгя╕П ЁЯТЯ .'
# doc='рдХреБрдЫ рдРрд╕реЗ рднреА рд╣рд╛рджрд╕реЗ рд╣реЛрддреЗ рд╣реИ рдЬрд┐рдВрджрдЧреА рдореЗрдВ рдЗрдВрд╕рд╛рди рдмрдЪ рддреЛ рдЬрд╛рддрд╛ рд╣реИ рдкрд░ рдЬрд╝рд┐рдВрджрд╛ рдирд╣реАрдВ рд░рд╣рддрд╛ рд╢реБрдн рд░рд╛рддреНрд░рд┐ рдорд┐рддреНрд░реЛрдВ'
# #sometmes emoji and normal text is without space. To create a space between normal word and emoji. 
# #Otherwise it will tokenization problem.
# pattern_emo = '[\u210d-\U0001F900]'
# emo_pos=re.finditer(pattern_emo , doc)
# i=0
# doc1=[]
# for pos in emo_pos:
#     print (pos)
#     j=pos.end()-2
#     if j<0:
#         j=0
#     doc1.append(doc[i:j]+" " )
#     doc1.append( doc[pos.end()-1]+" " )
#     #print (j,txt1[i:j],txt1[b.end()-1])
#     i=pos.end()

# if len(doc1)>0: doc="".join(doc1)
# #doc = re.sub( pattern_extraspace,' ',doc) #remove extra space

# # tokenize document
# tokens = nltk.word_tokenize(doc)
# tokens

In [None]:
import re
pattern_emo = '[\u210d-\U0001F9FF]'
#pattern_emo = '[\u210d-\U0001F1F3]'
#pattern_emo = '[\u1F1E6-\U0001F43B]'
#pattern_emo = '[\u1F600-\U0001F6FA]'
#[\u263a-\U0001f645]



#a=re.search('\u270d',a)
txt='рддреЗрд░реЗ рдЪреЗрд╣рд░реЗ рдкрд░ рдЬреЛ рдордХреНрдХрд╛рд░реА рд╣реИ рдЙрд╕реЗ рдЫрд┐рдкрд╛рдПрдЧрд╛ рдХреИрд╕реЗ рдореБрд▓реНрдХ рд╕реЗ рдЧрджреНрджрд╛рд░реА рддреЗрд░реЗ рдЦреВрди рдореЗрдВ рд╣реИ рдЙрд╕реЗ рдорд┐рдЯрд╛рдПрдЧрд╛ рдХреИрд╕реЗ тЬНрдХреНрдпрд╛ рдХрд░реЗрдЧрд╛ \
рдЬрд╛рдирдХрд░ рдЕрдЧрд░ рдореБрд▓реНрдХ рдХреЗ рд▓рд┐рдП рдХреБрдЫ ЁЯША рдХрд░рдирд╛ рд╣реА рдерд╛ рдЕрдЪреНрдЫрд╛ рддреЛ рдкрд╣рд▓реЗ рдЬрд╛ рдХрд░ рдЕрдмреНрджреБрд▓ рдХрд▓рд╛рдо рдЬреА рдЬреИрд╕рд╛ рджреЗрд╢ рднрдХреНрдд рдмрдирдХрд░ рджрд┐рдЦрддрд╛ рдЯреБрдЪреНрдЪреЗ рдЖрджрдореА'
txt='рдЗрд╕ рдЙрдард╛рдИрдЧрд┐рд░реЗ рдЖрджрдореА рдХреА рдРрд╕реА рдУрдЫреА рд╣рд░рдХрдд рдХреЗ рд▓рд┐рдП рдЯреНрд░реЗрдВрдб рдирд╣реА рдПрдлрдЖрдИрдЖрд░ рд╣реЛрдиреА рдЪрд╛рд╣рд┐рдП рдФрд░ рджреВрд╕рд░реА рдмрд╛рдд рдХрд▓ рд╣реА рдореЗрдВ рдкреНрд░рд┐рдВрдЯрд┐рдВрдЧ рдкреНрд░реЗрд╕ рдкрд░ рдЬрд╛рдХрд░ рдЗрд╕рдХреЗ рдЯреНрд╡реАрдЯ ЁЯСЗрдХрд╛ рдкреНрд░рд┐рдВрдЯрдЖрдЙрдЯ рдирд┐рдХрд▓рдмрд╛ рдХрд░ рдкреВрд░реЗ рдЬрд┐рд▓реЗ рдХреЗ рдПрдХ рдПрдХ рдШрд░ рдореЗрдВ рдмрдЯрд╡рд╛рдЙрдЧрд╛ рддрд╛рдХрд┐ рд▓реЛрдЧреЛрдВ рдХреЛ рдкрддрд╛ рдЪрд▓реЗ рдХрд╛рдВрдЧреНрд░реЗрд╕ рдХреЗ рдиреЗрддрд╛ рдХреА рд╕реЛрдЪ рдХрд┐рддрдиреА рдЧрд┐рд░реА рд╣реБрдИ рдФрд░ рдШрдЯрд┐рдпрд╛ рд╣реИ #рдЕрд░реЗрд╕реНрдЯ_рдкрдВрдХрдЬ_рдкреВрдирд┐рдпрд╛'
txt='рдореЗрд░реЗ рджреЗрд╢ рдХреЗ рдиреМрдЬрд╡рд╛рдиреЛрдВ рдЙрдареЛ рдФрд░ рдЬрд▓реНрджреА Fb рдЦреЛрд▓реЛ рд▓рд▓рдХрд┐рдпрд╛рдБ ЁЯШНрдСрдирд▓рд╛рдЗрди рд░рд╣реА рд╣реИред ЁЯШЙЁЯШЬ'
txt='рдЖрдЬ рдЬреЛ рдЯреНрд╡реАрдЯ рдХрд░ рд░рд╣реА рд╣реВрдВ рд╡реЛ рдЯреНрд╡реАрдЯ рдЕрдм рддрдХ рдХрд╛ рдмреЗрд╕реНрдЯ рдЯреНрд╡реАрдЯ рд╣реЛрдиреЗ рд╡рд╛рд▓рд╛ рд╣реИред рдЕрдкрдиреЗ рдЕрдкрдиреЗ рдПрдХ рджреЗрд╢ рднрдХреНрдд рд╣реАрд░реЛ рдХрд╛ рдирд╛рдо ЁЯСЗрдХрдореЗрдВрдЯ рдмреЙрдХреНрд╕ рдореЗрдВ рд▓рд┐рдЦреЗ рдореЗрд░реЗ рддреЛ рд╣реИ рдЪрдВрджреНрд░рд╢реЗрдЦрд░ рдЖрдЬрд╛рджред рдФрд░ рдЖрдкрдХреЗ ?'
txt='рд░рд╣рдиреЗ рджреЗ рдореБрдЭреЗ #рдЕрдБрдзреЗрд░реЗ рдореЗрдВ рдП рдЧрд╝рд╛рд▓рд┐рдм , ЁЯШТ рдЙрдЬрд╛рд▓реЛ рдореЗрдВ рдореБрдЭреЗ ЁЯдЧрдЕрдкрдиреЛрдВ рдХреЗ #рдЕрд╕рд▓реА рдЪреЗрд╣рд░реЗ рдирдЬрд╝рд░ ЁЯСАрдЖ рдЬрд╛рддреЗ рд╣реИред ! ЁЯШУ #GoodMorningTwitteред'
#txt='рдлреНрд░реА рдХреА рд░реЛрдЯреА рддреЛ рдХреБрддреНрддреЗ рднреА рдЦрд╛рддреЗ рд╣реИрдВ , рднреВрдЦ рддреЛ рд░рд╛рд╖реНрдЯреНрд░рд╡рд╛рдж рдХреА рд╣реЛрдиреА рдЪрд╛рд╣рд┐рдП ред рдЬрдпрд╣рд┐рдВрдж ЁЯЗоЁЯЗ│ ЁЯЪйЁЯЩП ЁЯЩПрдЬрдп рд╕рдирд╛рддрди рдзрд░реНрдо ЁЯЩПЁЯП╗'
#txt='ЁЯЩЛрдмреЗрдЯреА рдмреАрдорд╛рд░ рд╣реЛ рддреЛ рдмрдбрд╝рд╛ рджреБрдЦ рд╣реЛрддрд╛ рд╣реИ рдмрд╣реВ рдмреАрдорд╛рд░ рд╣реЛ рддреЛ рдбреНрд░рд╛рдорд╛ рд▓рдЧрддрд╛ рд╣реИ ЁЯШКЁЯШК'
#txt='OMGЁЯТЩрдЦрд╝реВрдмрд╕реВрд░рддреА рд╣рдореЗрд╢рд╛ рдЖрдкрдХреЗ ЁЯТЩ тЭгя╕ПрдЪреЗрд╣рд░реЗ рдкрд░ рд╕рдЬрддреА рд░рд╣реЗ тЭгя╕П ЁЯТЩрдЦрд╝реБрд╢реА рд╣рдореЗрд╢рд╛ рдЖрдкрдХреА рдЬрд┐рдиреНрджрдЧреА ЁЯТЩ тЭгя╕П рдореЗрдВ рдорд╣рдХрддреА рд░рд╣реЗредтЭгя╕П ЁЯТЯ . рд▓рдЧрддрд╛ рд╣реИ'
#txt='OMGЁЯШ│рдпреЗ рд╣реИ рдЗрд╕реНрд▓рд╛рдореА рд╕рд╛рдБрдк рдорджрд░рд╕реЛрдВ рдореЗ рдкрдврд╝реЗ рд╣реБрдП рд╕рдкреЛрд▓реЗ рдЕрдЧрд░ рдорджрд░рд╕реЗ рдмрдВрдж рдирд╣реА рд╣реБрдП рддреЛ рднрд╛рд░рдд рдореЗ рдЖрдк рдХреЗ рд╕рд╛рде рдпрд╣реА рд╣реЛрдЧрд╛'
txt="рд╕рдм рдЧрдП рдирд╛ 2019 рдореЗрдВ ЁЯСЗ рдХреЛрдИ рдЫреВрдЯрд╛ рддреЛ рдирд╣реАрдВ 2018 рдореЗрдВ ЁЯШЭ ЁЯШЕ ЁЯШВ ЁЯШЖ #2018 #2019 #HappyNewYear2019 #HappyNewYear #рдирд╡рд╡рд░реНрд╖рдХреАрд╢реБрднрдХрд╛рдордирд╛рдПрдБ #рдирд╡рд╡рд░реНрд╖"
txt1=txt
a=re.finditer(pattern_emo , txt)

i=0
txt2=[]
for b in a:
    j=b.end()
    if j<0:
        j=0
    print (j, txt1[i:j-1]+" "+txt1[j-1]+ " ")
    txt2.append(txt1[i:j-1]+" "+txt1[j-1]+ " " )
    #txt2.append( txt1[j:]+" " )

    i=b.end()

txt2.append( txt1[j:]+" " )
txt2="".join(txt2)
txt2

In [None]:
txt1

In [None]:
pat

In [None]:


txt = ' рдЗрд╕реНрд▓рд╛рдореА рез рд╕рд╛рдБрдк реи рдорджрд░рд╕реЛрдВ рей рдореЗ рек рдкрдврд╝реЗ релрел рд╣реБрдП ремрен рд╕рдкреЛрд▓реЗ рдЕрдЧрд░ рдорджрд░рд╕реЗ рдмрдВрдж'
print( dev2engNumeric(txt) )