In [1]:
import pandas as pd
import nltk
import re

df = pd.read_csv('ranjan-youtube-comments.csv')

# post-comment similarity
df['p_jc_similarity'] = 0.0
des_tkns = set(nltk.tokenize.word_tokenize(str(df['description'][0])))
tk = set(nltk.tokenize.word_tokenize(str(df['description'][0])))

for index, row in df.iterrows():
    tkns = set(nltk.tokenize.word_tokenize(str(row['text_original'])))
    intersection = len(des_tkns.intersection(tkns))
    union = len(des_tkns) + len(tkns) - intersection
    df.at[index, 'p_jc_similarity'] = intersection / union

In [2]:
#the interval between post and comment
t1 = pd.to_datetime(df['publishedAt'])
t2 = pd.to_datetime(df['videoUploadedAt'])
df['interval'] = (t1 - t2).dt.total_seconds() # seconds

In [3]:
#number of words in the comment
df['no_words'] = df['text_original'].str.split().apply(len)

In [4]:
#comment length
df['comment_length'] = df['text_original'].str.len()

In [5]:
#stop words ratio
stopwords = pd.read_csv('stopwords.txt', header=None)[0].to_numpy()

df['stop_w_ratio'] = 0.0

for index, row in df.iterrows():
    count = 0
    tkns = nltk.tokenize.word_tokenize(str(row['text_original']))
    for tk in tkns:
        if tk in stopwords:
            count = count + 1
    df.at[index, 'stop_w_ratio'] = count / len(tkns)

In [6]:
#link, email, phone and black words
df['has_link'] = 0
df['has_subscribe'] = 0
df['has_email'] = 0
df['has_phone'] = 0

word_list = ['subscribe', 'subcribe', 'subcrib', 'සබ්ස්']

for index, row in df.iterrows():
    if any(re.findall(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', str(row['text_original']))):
        df.at[index, 'has_link'] = 1
    
    if any(re.findall(r'|'.join(word_list), str(row['text_original']), re.IGNORECASE)):
        df.at[index, 'has_subscribe'] = 1
        
    if any(re.findall(r'(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)', str(row['text_original']))):
        df.at[index, 'has_email'] = 1
        
    if any(re.findall(r'[0-9]{7,}', str(row['text_original']))):
        df.at[index, 'has_phone'] = 1

In [7]:
#no of sentences
df['no_sentences'] = df['text_original'].str.replace('?', '.').str.split('.').apply(len)

In [8]:
#word duplication ratio
df['word_dup_ratio'] = 0.0

for index, row in df.iterrows():
    count = dict()
    words = row['text_original'].split()
    for word in words:
        if word not in count:
            count[word] = 0
        count[word] += 1
    
    duplicates = 0
    for item in count:
        if count[item] > 1:
            duplicates += 1
    df.at[index, 'word_dup_ratio'] = duplicates / len(words)

In [11]:
# negative word count and ratio
negativewords = pd.read_csv('negative-words_si.txt', header=None)[0].to_numpy()

df['neg_w_count'] = 0
df['neg_w_ratio'] = 0.0

for index, row in df.iterrows():
    count = 0
    tkns = nltk.tokenize.word_tokenize(str(row['text_original']))
    for tk in tkns:
        if tk in negativewords:
            count = count + 1
    df.at[index, 'neg_w_count'] = count
    df.at[index, 'neg_w_ratio'] = count / len(tkns)

In [None]:
# negative word count and ratio
positivewords = pd.read_csv('positive-words_si.txt', header=None)[0].to_numpy()

df['pos_w_count'] = 0
df['pos_w_ratio'] = 0.0

for index, row in df.iterrows():
    count = 0
    tkns = nltk.tokenize.word_tokenize(str(row['text_original']))
    for tk in tkns:
        if tk in positivewords:
            count = count + 1
    df.at[index, 'pos_w_count'] = count
    df.at[index, 'pos_w_ratio'] = count / len(tkns)

In [9]:
user_details = df[df.is_spam == 1][['authorChannelId', 'subscriberCount', 'videoCount', 'channelViewCount']]
user_details

Unnamed: 0,authorChannelId,subscriberCount,videoCount,channelViewCount
1,UCJh8tRprawVFIk7oHbIUNgw,19,4,141
4,UCVFCjr3prM5nWNZRixyPIqg,0,11,117133
6,UClxuGJD4y3fQ6ew21mj0ApA,16,13,331
7,UCMVZFl51gTtuUmO6iav33ew,0,0,0
8,UCX1MlmfPHjcZahA_2IbMH0Q,11,2,419
13,UCdOyi1XOX1iFwvOgJzDAnAA,113,11,833
14,UCjU7UzFjtppLWQNl6s9F8lw,1,8,95
15,UCF7825i1T5FQmCYDPQoKqiw,226,89,20236
16,UC3n9NwEr7MGksjbzEX2-Gww,2390,30,512750
17,UCuZE2E3l8LDEEJhMQJOw0xA,1,4,119


In [17]:
df.head()

Unnamed: 0,id,video_id,comment_id,title,text_display,text_original,description,likeCount,publishedAt,subscriberCount,...,comment_length,stop_w_ratio,has_link,has_subscribe,has_email,has_phone,no_sentences,word_dup_ratio,neg_w_count,neg_w_ratio
0,1,wxrPhUbPgaM,Ugz2gA6hyFkMVzCVHCZ4AaABAg,අපි සෙක්ස් කරේ කවද්ද පියුමි ? රංජන් පියුමිගෙන්...,එජාප ඡන්දපදනම මහා සුනාමියක් කල රන්ජන් නමි ඡන්ද...,එජාප ඡන්ද පදනම මහා සුනාමියක් කළ රන්ජන් නම් ඡන්...,ජනතාව ගේ බදු මුදලින් ආතල් ගන්න අපේ හිටපු UNP ඇ...,189,2020-01-10 14:54:03,2,...,53,0.1,0,0,0,0,1,0.1,0,0.0
1,2,wxrPhUbPgaM,Ugzo2rFLU1MMBi0fuFJ4AaABAg,අපි සෙක්ස් කරේ කවද්ද පියුමි ? රංජන් පියුමිගෙන්...,"<a href=""https://www.youtube.com/channel/UCJh8...",https://www.youtube.com/channel/UCJh8tRprawVFI...,ජනතාව ගේ බදු මුදලින් ආතල් ගන්න අපේ හිටපු UNP ඇ...,0,2020-01-14 07:51:35,19,...,64,0.0,1,0,0,0,3,0.0,0,0.0
2,3,wxrPhUbPgaM,UgxyBqOgcrAlULT0-5p4AaABAg,අපි සෙක්ස් කරේ කවද්ද පියුමි ? රංජන් පියුමිගෙන්...,",☝ one shot ,ගෙ අතල් වලට ???? අඩන ගමන් ???? හ...",one shot ගෙ ආතල් වලට අඬන ගමන් හිනා යන උන් ????...,ජනතාව ගේ බදු මුදලින් ආතල් ගන්න අපේ හිටපු UNP ඇ...,0,2020-01-14 07:23:54,18,...,61,0.058824,0,0,0,0,5,0.0,0,0.0
3,6,wxrPhUbPgaM,Ugz2TN-pa_ISU9RkYIt4AaABAg,අපි සෙක්ස් කරේ කවද්ද පියුමි ? රංජන් පියුමිගෙන්...,සිංහල වල් කතා වල දැන් Upload කරන්නෙ රන්ජගෙ එව යකෝ,සිංහල වල් කතා වල දැන් Upload කරන්නෙ රන්ජගෙ ඒව යකෝ,ජනතාව ගේ බදු මුදලින් ආතල් ගන්න අපේ හිටපු UNP ඇ...,0,2020-01-14 06:17:10,28,...,49,0.4,0,0,0,0,1,0.0,0,0.0
4,7,wxrPhUbPgaM,UgyGEBUY4jNDX1Aor7p4AaABAg,අපි සෙක්ස් කරේ කවද්ද පියුමි ? රංජන් පියුමිගෙන්...,ඕස්ට්‍රේලියාවේදී ගිනි නිවන රථයක් ලැව් ගින්නට අ...,ඕස්ට්‍රේලියාවේදී ගිනි නිවන රථයක් ලැව් ගින්නට අ...,ජනතාව ගේ බදු මුදලින් ආතල් ගන්න අපේ හිටපු UNP ඇ...,0,2020-01-14 06:02:39,0,...,160,0.181818,1,1,0,0,4,0.0,0,0.0
