## Data Analysis


In [93]:
##importing necessary libraries
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt

In [94]:
##understanding the dataset
## the csv file consists of 4 columns
##first column is label which refers to the ploarity if it is hate speech or not
## second column is the catefory in which the speech belongs to for e.g General Profanity Violence etc
## the third column contains the key word of the sentece
## and finally the fourth column is the sentence itself


In [95]:
colnames = ['label','category','key_word','sentence']
df = pd.read_csv('./data.csv',names=colnames,header=None)

In [96]:
df.head()

Unnamed: 0,label,category,key_word,sentence
0,1,GENERAL,जोगाउन को लागि,गुठी विधेक ल्याएर ठमेल मा राज गुठि को जग्गा मा...
1,1,GENERAL,लखेटनु पछ,दले ले देश सकेछन सबै बेचे र खान सुरू गरेछन अब ...
2,1,GENERAL,ससकृती ध्वस्त पार्ने,नेपाल को ससकृती ध्वस्त पार्ने योजना हो यो !
3,1,GENERAL,भुमाफिया,मठ मन्दिर गुम्बा का जग्गा हरु मा भुमाफिया को न...
4,1,GENERAL,बेची सके,नेपाल का कल कर्खाना र नदि नाला बेची सके अब मठ ...


In [97]:
df[['label','category']].value_counts()

label  category 
1      GENERAL      1782
0      GENERAL      1053
       FEEDBACK      428
       PROFANITY     299
1      VIOLENCE      174
0      VIOLENCE      113
1      PROFANITY     108
       FEEDBACK       78
dtype: int64

In [98]:
## We dont necessarily need to find the category of the sentence
## so we can get rid of the column
## but we need to classify whether the sentences in the category are hate or not
## so for this what we can do is:
## set all feedback category to 0 label(not hate) 
## violence to label 1
## profanity to label 1
## and general will remain as is

In [99]:
df.loc[df['category']=='FEEDBACK','label']=0


In [100]:
df.loc[df['category']=='FEEDBACK'].label.value_counts()
##i.e all the labels are now 0

0    506
Name: label, dtype: int64

In [101]:
df.loc[df['category']=='VIOLENCE','label']=1

In [102]:
df.loc[df['category']=='PROFANITY','label']=1

In [103]:
df.label.value_counts()

1    2476
0    1559
Name: label, dtype: int64

In [104]:
df.head()

Unnamed: 0,label,category,key_word,sentence
0,1,GENERAL,जोगाउन को लागि,गुठी विधेक ल्याएर ठमेल मा राज गुठि को जग्गा मा...
1,1,GENERAL,लखेटनु पछ,दले ले देश सकेछन सबै बेचे र खान सुरू गरेछन अब ...
2,1,GENERAL,ससकृती ध्वस्त पार्ने,नेपाल को ससकृती ध्वस्त पार्ने योजना हो यो !
3,1,GENERAL,भुमाफिया,मठ मन्दिर गुम्बा का जग्गा हरु मा भुमाफिया को न...
4,1,GENERAL,बेची सके,नेपाल का कल कर्खाना र नदि नाला बेची सके अब मठ ...


In [105]:
df.drop(['category','key_word'],axis=1,inplace=True)

In [106]:
df.head()

Unnamed: 0,label,sentence
0,1,गुठी विधेक ल्याएर ठमेल मा राज गुठि को जग्गा मा...
1,1,दले ले देश सकेछन सबै बेचे र खान सुरू गरेछन अब ...
2,1,नेपाल को ससकृती ध्वस्त पार्ने योजना हो यो !
3,1,मठ मन्दिर गुम्बा का जग्गा हरु मा भुमाफिया को न...
4,1,नेपाल का कल कर्खाना र नदि नाला बेची सके अब मठ ...


In [107]:
##now we need to get rid of all the english words and the emojis 


In [108]:
hk_dv_unicode = {'M': '\u0902', 'H': '\u0903',
                 'a': '\u0905', 'A': '\u0906', 'i': '\u0907', 'I': '\u0908',
                 'u': '\u0909', 'U': '\u090A', 'R': '\u090B', 'RR': '\u0960', 'lR': '\u090C',
                 'e': '\u090F', 'ai': '\u0910', 'o': '\u0913', 'au': '\u0914',
                 'k': '\u0915', 'kh': '\u0916', 'g': '\u0917', 'gh': '\u0918', 'G': '\u0919',
                 'c': '\u091A', 'ch': '\u091B', 'j': '\u091C', 'jh': '\u091D', 'J': '\u091E',
                 'T': '\u091F', 'Th': '\u0920', 'D': '\u0921', 'Dh': '\u0922', 'N': '\u0923',
                 't': '\u0924', 'th': '\u0925', 'd': '\u0926', 'dh': '\u0927', 'n': '\u0928',
                 'p': '\u092A', 'ph': '\u092B', 'b': '\u092C', 'bh': '\u092D', 'm': '\u092E',
                 'y': '\u092F', 'r': '\u0930', 'l': '\u0932', 'v': '\u0935',
                 'z': '\u0936', 'S': '\u0937', 's': '\u0938', 'h': '\u0939',
                 "'": '\u093D', 'oM': '\u0950', ' ': ' ', '|': '\u0964', '||': '\u0964'
                 }
hk_dv_vowel_diacritics = {'A': '\u093E', 'a': '',
                          'i': '\u093F', 'I': '\u0940',
                          'u': '\u0941', 'U': '\u0942',
                          'R': '\u0943', 'RR': '\u0944',
                          'lR': '\u0962',
                          'e': '\u0947', 'ai': '\u0948',
                          'o': '\u094b', 'au': '\u094C'}
hk_dv_vowels = ['A', 'a', 'i', 'I', 'u', 'U',
                'R', 'RR',
                'lR', 'e', 'ai', 'o', 'au']
hk_dv_consonants = ['k', 'g', 'G',
                    'c', 'j', 'J',
                    'T', 'D', 'N',
                    't', 'd', 'n',
                    'p', 'b', 'm',
                    'y', 'r', 'l', 'v',
                    'z', 'S', 's', 'h']
hk_dv_special_consonants = ['G', 'J', 'N', 'n', 'm',
                            'y', 'r', 'l', 'v',
                            'z', 'S', 's']
hk_dv_diacritics = ['M', 'H', '\'']
hk_dv_punctuation = ['|', '||']


def transliterate(input_text):

    """
    :param input_text: Text to be transliterated, written in Harvard-Kyoto.
    :return: Text in Devanagari.
    """

    if input_text[-1] != ' ':
        input_text = input_text.center(len(input_text) + 2)
    output_text = []
    i = -1

    for letter in input_text:
        i += 1
        if letter == " ":
            output_text.append(" ")
        elif letter not in hk_dv_unicode:
            output_text.append(letter)
        else:
            if letter in hk_dv_vowels:
                if letter == 'a':
                    if input_text[i + 1] == 'i':
                        if input_text[i - 1] in hk_dv_consonants:
                            output_text.append(hk_dv_vowel_diacritics['ai'])
                        else:
                            output_text.append(hk_dv_unicode['ai'])
                    elif input_text[i + 1] == 'u':
                        if input_text[i - 1] in hk_dv_consonants:
                            output_text.append(hk_dv_vowel_diacritics['au'])
                        else:
                            output_text.append(hk_dv_unicode['au'])
                    else:
                        if input_text[i - 1] in hk_dv_consonants:
                            output_text.append('')
                        else:
                            output_text.append(hk_dv_unicode[letter])
                elif letter == 'i' or letter == 'u':
                    if input_text[i - 1] == 'a':
                        continue
                    else:
                        if input_text[i - 1] in hk_dv_consonants:
                            output_text.append(hk_dv_vowel_diacritics[letter])
                        else:
                            output_text.append(hk_dv_unicode[letter])
                elif letter == 'R':
                    if input_text[i + 1] == 'R':
                        if input_text[i - 1] in hk_dv_consonants:
                            output_text.append(hk_dv_vowel_diacritics['RR'])
                        else:
                            output_text.append(hk_dv_unicode['RR'])
                    elif input_text[i - 1] == 'R' or input_text[i - 1] == 'l':
                        continue
                    else:
                        if input_text[i - 1] in hk_dv_consonants:
                            output_text.append(hk_dv_vowel_diacritics[letter])
                        else:
                            output_text.append(hk_dv_unicode[letter])
                else:
                    if input_text[i - 1] in hk_dv_consonants:
                        output_text.append(hk_dv_vowel_diacritics[letter])
                    else:
                        output_text.append(hk_dv_unicode[letter])
            elif letter in hk_dv_consonants:
                if letter == 'l' and input_text[i + 1] == 'R':
                    if input_text[i - 1] in hk_dv_consonants:
                        output_text.append(hk_dv_vowel_diacritics['lR'])
                    else:
                        output_text.append(hk_dv_unicode['lR'])
                elif input_text[i + 1] == 'h' and letter not in hk_dv_special_consonants:
                    output_text.append(hk_dv_unicode['%sh' % letter])
                elif letter == 'h' and input_text[i - 1] in hk_dv_consonants:
                    if input_text[i+1] not in hk_dv_vowels:
                        output_text.append('\u094D')
                elif input_text[i + 1] not in hk_dv_vowels:
                    output_text.append(hk_dv_unicode[letter])
                    output_text.append('\u094D')
                else:
                    output_text.append(hk_dv_unicode[letter])
            else:
                output_text.append(hk_dv_unicode[letter])

    output_text = "".join(output_text)
    output_text = output_text.strip()
    return output_text


In [109]:
transliterate('Ram')

'ऋअम्'

In [110]:
import re
reg = re.compile(r'[a-zA-Z]')

In [131]:
i = 0
for line in df.sentence:
    words = line.split()
    # print(words)
    new_line = ''
    for word in words:
        try:
            if reg.match(word):
                word = transliterate(word)
                
        except:
            pass
        
        
        new_line += ' '+ word
    df.sentence[i] = new_line
    i += 1
    
        
        

['गुठी', 'विधेक', 'ल्याएर', 'ठमेल', 'मा', 'राज', 'गुठि', 'को', 'जग्गा', 'मा', 'बने', 'को', 'छाया', 'सेन्टर', 'जस्ता', 'लाई', 'जोगाउन', 'को', 'लागि', 'ल्याउदैछ', 'विधेक', '।']
['दले', 'ले', 'देश', 'सकेछन', 'सबै', 'बेचे', 'र', 'खान', 'सुरू', 'गरेछन', 'अब', 'दले', 'लाई', 'लखेटनु', 'पछ', '।']
['नेपाल', 'को', 'ससकृती', 'ध्वस्त', 'पार्ने', 'योजना', 'हो', 'यो', '!']
['मठ', 'मन्दिर', 'गुम्बा', 'का', 'जग्गा', 'हरु', 'मा', 'भुमाफिया', 'को', 'नजर', 'परे', 'को', 'हुना', 'ले', 'यो', 'विधेक', 'आए', 'को', 'हो', '!']
['नेपाल', 'का', 'कल', 'कर्खाना', 'र', 'नदि', 'नाला', 'बेची', 'सके', 'अब', 'मठ', 'मन्दीर', 'लाई', 'पनि', 'बेची', 'खाने', 'नियत', 'देखिन्छ', '।']
['नेपाल', 'का', 'कल', 'कर्खाना', 'र', 'नदि', 'नाला', 'बेची', 'सके', 'अब', 'मठ', 'मन्दीर', 'लाई', 'पनि', 'बेची', 'खाने', 'नियत', 'देखिन्छ', '।']
['यो', 'भणडारि', 'लई', 'कालोमोसो', 'लगाएर', 'भगउनु', 'पर्छ', 'तर्क', 'चै', 'नदीने', 'खालि', 'राम्रो', 'छ', 'मात्र', 'भन्ने', '।']
['अन्य', 'देश', 'मा', 'जमिन', 'राज्य', 'काे', 'हुन्छ', ',', ',', 'जनता', 'र

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


['सलाम', 'कुल्मान', 'सर', 'हजुर्', 'को', 'पछी', '२', 'करोड', '९०', 'लाख', 'जनता', 'छ', 'ईनी', 'हरु', 'को', 'असुल', 'गर्नुपर्छ', '।']
['सबै', 'भातामारा', 'दाका', 'हरु', 'हुन', 'कुलमान', 'सर', 'मात्रै', 'हुन', 'असल', 'इमानदार', 'ब्यक्ति', 'हुनुहुन्छ', 'उहाँ', '।']
['सबै', 'भातामारा', 'दाका', 'हरु', 'हुन', 'कुलमान', 'सर', 'मात्रै', 'हुन', 'असल', 'इमानदार', 'ब्यक्ति', 'हुनुहुन्छ', 'उहाँ', '।']
['यस्ता', 'कार्यक्रम', 'मा', 'dr.', 'सुरेन्द्र', 'केसि', 'लाई', 'बोलाउनु', 'पर्छ', 'पत्रकार', 'जिउ', 'यस्ता', 'दलाल', 'थग', 'हरुलाइ', 'ठिक', 'पर्नु', 'हुन्छ', '।']
['बिल', 'तिर्न', 'नसक्ने', 'लाई', 'सिधै', 'जन्म', 'कैद', 'गर्नु', 'पर्छ', 'हुन', 'त', 'कानुन', 'भने', 'को', 'दुखी', 'गरिबलाइ', 'मत्र', 'हो', '।']
['साला', 'कुत्ता', 'थग', 'हरुलाइ', 'छोद', 'नु', 'हुदैन', 'एउटा', 'गरिब', 'जनता', 'ले', 'दुई', 'चार', 'सय', 'रुपया', 'नतिर्दा', 'लाइन', 'कात्ने', 'अर्बौं', 'रुपिया', 'नतिर्ने', 'साला', 'कुत्ता', 'हरु', 'यस्ता', 'कुत्ता', 'हरुलाइ', 'नछोद्नु', 'कुल', 'मान', 'सर', '।']
['कर', 'छुट', 'गर्न', 'ncl', 'ल

In [112]:
# import re
# word="स्तरउन्नती"
# reg = re.compile(r'[a-zA-Z]')

# if reg.match(word):
#     print("It is an alphabet")
# else:
#     print("It is not an alphabet")
    


It is not an alphabet


In [113]:
# df.sentence

0       गुठी विधेक ल्याएर ठमेल मा राज गुठि को जग्गा मा...
1       दले ले देश सकेछन सबै बेचे र खान सुरू गरेछन अब ...
2             नेपाल को ससकृती ध्वस्त पार्ने योजना हो यो !
3       मठ मन्दिर गुम्बा का जग्गा हरु मा भुमाफिया को न...
4       नेपाल का कल कर्खाना र नदि नाला बेची सके अब मठ ...
                              ...                        
4030    गाडी एकदम राम्रो छ तर रोड भने आलु जस्तो छ दुइच...
4031    गाडी एकदम राम्रो छ तर रोड भने आलु जस्तो छ दुइच...
4032                   कम से कम वायु प्रदूषण त कम हुन्छ ।
4033             अब यसरी नै अन्य बस हरु थप्दै लानु पर्छ ।
4034           गाडीत आयो तर सडक स्तरउन्नती गर्न्नु पर्छ ।
Name: sentence, Length: 4035, dtype: object

In [114]:

def remove_emojis(data):
    emoj = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
        u"\U00002500-\U00002BEF"  # chinese char
        u"\U00002702-\U000027B0"
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
        u"\U0001f926-\U0001f937"
        u"\U00010000-\U0010ffff"
        u"\u2640-\u2642" 
        u"\u2600-\u2B55"
        u"\u200d"
        u"\u23cf"
        u"\u23e9"
        u"\u231a"
        u"\ufe0f"  # dingbats
        u"\u3030"
                      "]+", re.UNICODE)
    return re.sub(emoj, '', data)

In [135]:
i = 0 
for line in df.sentence:
    line = remove_emojis(line)
    df.sentence[i] = line 
    i += 1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [136]:
df.to_csv('./improved.csv')

In [117]:
# import pandas as pd

# data = {
#   "calories": [420, 380, 390],
#   "duration": [50, 40, 45]
# }

# #load data into a DataFrame object:
# df = pd.DataFrame(data)

# print(df) 

In [118]:
# df.duration

In [119]:
# i = 0
# for data in df.duration:
#     df.duration[i]= 0
#     i +=1

In [120]:
# df.duration

In [123]:
for line in df.sentence:
    print(type(line))

<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class

In [129]:
name = 'Roshan'
second = 'Karki'
name+=' '+second

In [130]:
name

'Roshan Karki'