In [1]:
import pandas                        as pd
import numpy                         as np
from wordcloud                       import WordCloud, STOPWORDS 
import seaborn                       as sns
import matplotlib.pyplot             as plt
from nltk.corpus                     import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
cvec = CountVectorizer()
from collections import Counter 

In [2]:
import warnings 
warnings.simplefilter('ignore')

In [3]:
hin = pd.read_csv('Data/cleaned hindi.csv')
ben = pd.read_excel('Data/cleaned bangla.xlsx')

In [5]:
classes = ['NAG', 'CAG', 'OAG']

In [6]:
def fetch_stopwords(url):
    stop = pd.read_csv(url, sep='\n', header=0, names=['words'])
    stop = stop['words'].values.tolist()
    return stop

In [7]:
hinglish_stopwords = fetch_stopwords('https://raw.githubusercontent.com/TrigonaMinima/HinglishNLP/master/data/assets/stop_hinglish')
english_stopwords = set(stopwords.words('english') + hinglish_stopwords)
hindi_stopwords = set(fetch_stopwords('https://raw.githubusercontent.com/TrigonaMinima/HinglishNLP/master/data/assets/stop_hindi'))
bangla_stopwords = set(fetch_stopwords('https://raw.githubusercontent.com/rachitsaksena/Multilingual-Agression-Classification/master/Cache/Models/bangla%20stop.txt'))

In [8]:
def N_most_freq_words(df, n):
    lis = []
    for agg in classes:
        print(agg)
        subset = df[df["Sub-task A"] == agg]
        c = Counter();
        for i in range(subset.shape[0]):
            c += Counter(subset["tokenized"].iloc[i])
        temp = c.most_common(n)
        words=[]
        for i in range(len(temp)):
            print(temp[i][0], ":", temp[i][1])
            words.append(temp[i][0])
        print()
        lis.append(list(words))
    return lis

In [9]:
def intersection(list1, list2):
    return [word for word in list1 if word in list2]

In [10]:
# REMOVING UTIL
def remove_common_frequent(df, common):
    sentences = []
    for i in range(df.shape[0]):
        sent = " ".join([token for token in df['tokenized'].iloc[i] if token not in common])
        sentences.append(sent)
    df['monolingual'] = sentences

In [11]:
np.array([type(i)==float for i in hin['monolingual']]).any()

True

In [12]:
hin['tokenized'] = [str(i).split() for i in hin['monolingual']]
hin.head()

Unnamed: 0,ID,Text,Sub-task A,Sub-task B,normalized lexicon,monolingual,tokenized
0,C4.131,Bollywood film dekhne ke samay logic ghar mein...,NAG,NGEN,बॉलीवुड फ़िल्म देखने के समय तर्क घर में चोर मा...,बॉलीवुड फ़िल्म देखने समय तर्क में चोर मां झुंड...,"[बॉलीवुड, फ़िल्म, देखने, समय, तर्क, में, चोर, ..."
1,C4.638,Chutiya movie...,NAG,NGEN,चुटिया चलचित्र...,चुटिया चलचित्र,"[चुटिया, चलचित्र]"
2,C38.598,Us jaat bnde ka khene ka matlab tha mar daluga...,OAG,NGEN,हमें जाट बंदे का कहने का मतलब था समुद्र डालूगा...,हमें जाट बंदे कहने मतलब समुद्र डालूगा उपयोग पर...,"[हमें, जाट, बंदे, कहने, मतलब, समुद्र, डालूगा, ..."
3,C4.2101.1,@Feminism Is CANCER *un feminist yeh sahi hai ...,OAG,NGEN,@feminism है कैंसर *ए नारीवादी ये सही है परंतु...,feminism कैंसर नारीवादी सही परंतु मतलब थोड़ी सा...,"[feminism, कैंसर, नारीवादी, सही, परंतु, मतलब, ..."
4,C29.14.2,Amrit Anand अब तो जुड़े ही है उनको बोलो जुड़ने,NAG,NGEN,अमृत आनंद अब तो जुड़े ही है उनको बोलो जुड़ने,अमृत आनंद जुड़े बोलो जुड़ने,"[अमृत, आनंद, जुड़े, बोलो, जुड़ने]"


In [13]:
hin_frequent = N_most_freq_words(hin, 20)

NAG
भाई : 485
में : 411
सेवा : 383
चलचित्र : 308
पता : 232
सही : 180
क्या : 163
समीक्षा : 158
वीडियो : 141
बात : 129
बड़े : 111
हाँ : 106
सिंह : 102
महोदय : 96
चाहिए : 80
अच्छा : 79
कहाँ : 79
sahi : 78
फ़िल्म : 74
तोह : 74

CAG
में : 318
सेवा : 285
पता : 201
क्या : 122
भाई : 122
लोग : 109
चलचित्र : 107
हाँ : 90
बात : 88
समीक्षा : 81
देश : 73
सही : 68
चाहिए : 62
भारत : 54
तोह : 53
तुम : 51
कहाँ : 51
काम : 49
सेना : 47
है। : 45

OAG
में : 249
सेवा : 204
पता : 135
क्या : 121
चलचित्र : 74
भाई : 65
हाँ : 63
गांड : 57
चुटिया : 55
लोग : 54
देश : 53
chutiye : 52
बात : 50
सही : 46
समलैंगिक : 45
तुम : 45
kar : 44
सिंह : 44
समीक्षा : 43
बड़े : 42



In [14]:
for i in range(3):
    print('\n\n')
    print(classes[i])
    print(hin_frequent[i])




NAG
['भाई', 'में', 'सेवा', 'चलचित्र', 'पता', 'सही', 'क्या', 'समीक्षा', 'वीडियो', 'बात', 'बड़े', 'हाँ', 'सिंह', 'महोदय', 'चाहिए', 'अच्छा', 'कहाँ', 'sahi', 'फ़िल्म', 'तोह']



CAG
['में', 'सेवा', 'पता', 'क्या', 'भाई', 'लोग', 'चलचित्र', 'हाँ', 'बात', 'समीक्षा', 'देश', 'सही', 'चाहिए', 'भारत', 'तोह', 'तुम', 'कहाँ', 'काम', 'सेना', 'है।']



OAG
['में', 'सेवा', 'पता', 'क्या', 'चलचित्र', 'भाई', 'हाँ', 'गांड', 'चुटिया', 'लोग', 'देश', 'chutiye', 'बात', 'सही', 'समलैंगिक', 'तुम', 'kar', 'सिंह', 'समीक्षा', 'बड़े']


In [15]:
intersection(intersection(hin_frequent[0], hin_frequent[1]), hin_frequent[2])

['भाई',
 'में',
 'सेवा',
 'चलचित्र',
 'पता',
 'सही',
 'क्या',
 'समीक्षा',
 'बात',
 'हाँ']

In [16]:
common_hin = intersection(intersection(hin_frequent[0], hin_frequent[1]), hin_frequent[2])

In [17]:
remove_common_frequent(hin, common_hin)

In [18]:
hin.head()

Unnamed: 0,ID,Text,Sub-task A,Sub-task B,normalized lexicon,monolingual,tokenized
0,C4.131,Bollywood film dekhne ke samay logic ghar mein...,NAG,NGEN,बॉलीवुड फ़िल्म देखने के समय तर्क घर में चोर मा...,बॉलीवुड फ़िल्म देखने समय तर्क चोर मां झुंड कृप...,"[बॉलीवुड, फ़िल्म, देखने, समय, तर्क, में, चोर, ..."
1,C4.638,Chutiya movie...,NAG,NGEN,चुटिया चलचित्र...,चुटिया,"[चुटिया, चलचित्र]"
2,C38.598,Us jaat bnde ka khene ka matlab tha mar daluga...,OAG,NGEN,हमें जाट बंदे का कहने का मतलब था समुद्र डालूगा...,हमें जाट बंदे कहने मतलब समुद्र डालूगा उपयोग पर...,"[हमें, जाट, बंदे, कहने, मतलब, समुद्र, डालूगा, ..."
3,C4.2101.1,@Feminism Is CANCER *un feminist yeh sahi hai ...,OAG,NGEN,@feminism है कैंसर *ए नारीवादी ये सही है परंतु...,feminism कैंसर नारीवादी परंतु मतलब थोड़ी सारे म...,"[feminism, कैंसर, नारीवादी, सही, परंतु, मतलब, ..."
4,C29.14.2,Amrit Anand अब तो जुड़े ही है उनको बोलो जुड़ने,NAG,NGEN,अमृत आनंद अब तो जुड़े ही है उनको बोलो जुड़ने,अमृत आनंद जुड़े बोलो जुड़ने,"[अमृत, आनंद, जुड़े, बोलो, जुड़ने]"


In [19]:
hin['tokenized'] = [str(i).split() for i in hin['monolingual']]
hin.head()

Unnamed: 0,ID,Text,Sub-task A,Sub-task B,normalized lexicon,monolingual,tokenized
0,C4.131,Bollywood film dekhne ke samay logic ghar mein...,NAG,NGEN,बॉलीवुड फ़िल्म देखने के समय तर्क घर में चोर मा...,बॉलीवुड फ़िल्म देखने समय तर्क चोर मां झुंड कृप...,"[बॉलीवुड, फ़िल्म, देखने, समय, तर्क, चोर, मां, ..."
1,C4.638,Chutiya movie...,NAG,NGEN,चुटिया चलचित्र...,चुटिया,[चुटिया]
2,C38.598,Us jaat bnde ka khene ka matlab tha mar daluga...,OAG,NGEN,हमें जाट बंदे का कहने का मतलब था समुद्र डालूगा...,हमें जाट बंदे कहने मतलब समुद्र डालूगा उपयोग पर...,"[हमें, जाट, बंदे, कहने, मतलब, समुद्र, डालूगा, ..."
3,C4.2101.1,@Feminism Is CANCER *un feminist yeh sahi hai ...,OAG,NGEN,@feminism है कैंसर *ए नारीवादी ये सही है परंतु...,feminism कैंसर नारीवादी परंतु मतलब थोड़ी सारे म...,"[feminism, कैंसर, नारीवादी, परंतु, मतलब, थोड़ी,..."
4,C29.14.2,Amrit Anand अब तो जुड़े ही है उनको बोलो जुड़ने,NAG,NGEN,अमृत आनंद अब तो जुड़े ही है उनको बोलो जुड़ने,अमृत आनंद जुड़े बोलो जुड़ने,"[अमृत, आनंद, जुड़े, बोलो, जुड़ने]"


In [20]:
hin_frequent = N_most_freq_words(hin, 20)

NAG
वीडियो : 141
बड़े : 111
सिंह : 102
महोदय : 96
चाहिए : 80
अच्छा : 79
कहाँ : 79
sahi : 78
फ़िल्म : 74
तोह : 74
देख : 70
nhi : 69
sir : 68
kya : 67
video : 63
लोग : 62
करो : 58
aap : 57
मेरे : 57
koi : 54

CAG
लोग : 109
देश : 73
चाहिए : 62
भारत : 54
तोह : 53
तुम : 51
कहाँ : 51
काम : 49
सेना : 47
है। : 45
तथा : 44
kar : 44
करो : 42
kya : 42
इसलिए : 42
लड़की : 41
वीडियो : 41
hain : 40
log : 40
सिर्फ : 40

OAG
गांड : 57
चुटिया : 55
लोग : 54
देश : 53
chutiye : 52
समलैंगिक : 45
तुम : 45
kar : 44
सिंह : 44
बड़े : 42
kya : 41
चाहिए : 39
मेरे : 39
भूमि : 36
नारीवादी : 35
तोह : 35
सेना : 33
भारत : 33
chutiya : 32
कहाँ : 32



In [21]:
intersection(intersection(hin_frequent[0], hin_frequent[1]), hin_frequent[2])

['चाहिए', 'कहाँ', 'तोह', 'kya', 'लोग']