In [8]:
import praw
import prawcore
import pandas as pd
import numpy as np 
import glob
import os
import re
import math
import sklearn

from collections import Counter
from itertools import chain, combinations
from more_itertools import pairwise
from tqdm import tqdm
from datetime import datetime, date

import networkx as nx
import seaborn
import matplotlib.pyplot as plt
import en_core_web_sm

# import plotly.graph_objs as go
# import plotly.tools as tls
# import plotly.express as px

from spacy import load
import warnings
warnings.filterwarnings("ignore", message=r"\[W008\]", category=UserWarning)

In [4]:
from transformers import pipeline
sentiment_toxicity = pipeline("sentiment-analysis", model="unitary/toxic-bert")

tokenizer_kwargs = {'padding':True,'truncation':True,'max_length':512}



In [9]:
path = 'data'
user_dir = 'user_data'
reddit = praw.Reddit(
    client_id='4bDjCY6y8ncrc3kLrBbpBg',
    client_secret='zPHZKfk9S666S9IxR5HtvkZ83ufNxw',
    user_agent='webcrawler created for IS596'
)
nlp = en_core_web_sm.load()

In [10]:
def normalize(text):
    norm_text = []

    for token in text:
        if not token.is_punct and not token.is_stop and not token.is_space:
            norm_text.append(token.lemma_.lower())

    norm_text = ' '.join(norm_text)
    norm_text = re.sub(r'(?:^| )\w(?:$| )', ' ', norm_text).strip()  # removes single characters
    norm_text = re.sub(r'[^a-zA-Z0-9 ]', '', norm_text)
    
    return norm_text

In [11]:
def get_user_status(path):
    try:
        user.is_suspended
        print('sus')
        user_status = 'suspended'
    except AttributeError:
        user_status = 'active'
    except:
        user_status = 'deleted'
    return user_status

### For known bots

In [12]:
# infile_name = f'{path}/bot_list.csv'
# infile = open(infile_name, 'r')
# file_df = pd.read_csv(infile)
# user_names = file_df.user_name
# print(user_names)

0         KickOpenTheDoorBot
1                 Canna_Tips
2                MrTechnodad
3                    BigJets
4                    properu
                ...         
2495                 Korpels
2496    LEAPYEAR_FOR_SCIENCE
2497              LadyMoirai
2498    Late-Requirement-653
2499               Lauris024
Name: user_name, Length: 2500, dtype: object


### For suspected bots

In [13]:
botdefense = reddit.subreddit('botdefense').new(limit=500)
user_names = []

for submission in botdefense:
    user_names.append(submission.title[13:])
user_names = user_names[1:]
print(user_names[:10])

['Humzsdmj', 'Breawsfdg', 'Outsidryzujhx', 'Fantastic-Camp-9597', 'Newbornsale480', 'WeepyBingo', 'NervouslyStick', 'blogdesmartnx', 'CalligrapherSimple50', 'Shantawtaylor', 'Daddidounet', 'Appropriatbhfd', 'advisoryArctiid943', 'BriefOrdera', 'Strongjoachim', 'Federicebl', 'Born_Ad9041', 'Anteatxcv', 'veryBeat', 'Negotiwqdcfv', 'Dry_Association1880', 'GentlyPleafsed', 'Spiritual-Solid-5119', 'Activesxgv', 'gonzdarr', 'Daperasf', 'ferotgeio', 'Visiblecgb', 'zpayment', 'Weak_Past_4575', 'Rare_Bee649', 'Compwfxfg', 'Noelicoszv', 'Ok-Lock-3079', 'Ambitiazxc', 'Independencfg', 'OkTry5944', 'Positivdfsgh', 'PieceKitchen9791', 'Animatotgjug', 'Basiqwfdfd', 'Alarmeezuyxu', 'Cablerugckjk', 'WildWorth8147', 'Strange-Debt3043', 'actuallyAnswer599', 'Necessary-Wonder3842', 'Loud_Bid7147', 'Aggravating-Most2548', 'Gloomyiolinist', 'Previoysitug', 'Emptysdadzfgh', 'Catchwsfg', 'Alarminsdfggf', 'ShaggilySeek', 'Superqwsfg', 'Hapucotadd', 'Completrftyaag', 'Workinfhykxt', 'Any-Gap-2903', 'Personasdfg

In [None]:
rows = []
for user_name in tqdm(user_names):
    try:
        user_dict = {}
        user = reddit.redditor(user_name)
        user_dict['username'] = user_name
        user = reddit.redditor(user_name)

        if get_user_status(user) == 'active' and str(user_name) not in 'nan': # checks that user isn't suspended/deleted
            if not user.is_mod: #ignore mods

                comment_array = []
                timestamps = []
                reply_timestamps = []
                comment_toxicities = []

                comment_karma = user.comment_karma
                submission_karma = user.link_karma

                karma_ratio = round(comment_karma/submission_karma, 4)

                try:
                    for this_comment in user.comments.new(limit=15):

                        parent_comment_id = this_comment.parent_id
                        if parent_comment_id.startswith('t3'):
                            parent_comment_id = parent_comment_id[3:]
                            parent = reddit.submission(parent_comment_id)
                        else:
                            parent = reddit.comment(parent_comment_id)

                        parent_timestamp = datetime.fromtimestamp(parent.created_utc)
                        comment_timestamp = datetime.fromtimestamp(this_comment.created_utc)

                        comment_array.append(this_comment.body)
                        comment_toxicities.append(sentiment_toxicity(this_comment.body, **tokenizer_kwargs)[0]['score'])

                        timestamps.append(comment_timestamp)
                        reply_timestamps.append((parent_timestamp, comment_timestamp))

                except Exception as e:
                    print(e)
                    continue

                for i in range(len(comment_array)):
#                         comment_array[i] = normalize(nlp((comment_array[i]))) # normalizes comment but leaves as string
                    comment_array[i] = nlp(normalize(nlp((comment_array[i])))) # this normalizes comment and wraps in nlp

                comment_similarities = []
                time_intervals = []
                response_intervals = []

                for sent_1, sent_2 in combinations(comment_array, 2):

#                         comment_similarities.append(calculate_cosine_sim(sent_1, sent_2)) checks cosine simularity of each comment against the next 
                    comment_similarities.append(sent_1.similarity(sent_2)) # nlp similiarity

                successive_times = list(pairwise(timestamps))
                for pair in successive_times: # calculates the intervals between user's comments
                    time_intervals.append(abs(pair[0] - pair[1]))

                for pair in reply_timestamps:
                    response_intervals.append(abs(pair[1] - pair[0]))# calculates how quickly a comment replied to its parent

                try:
                    time_data = pd.Series(time_intervals)
                    avg_time_diff = (time_data.sum()/len(time_data)).round('1s')
                except Exception as e:
                    print(e)
                    continue

                try:
                    response_data = pd.Series(response_intervals)
                    avg_reply_speed = (response_data.sum()/len(response_data)).round('1s')
                except Exception as e:
                    print(e)
                    continue

                try:
                    avg_comment_similarity = sum(comment_similarities)/len(comment_similarities)
                    avg_toxicity = sum(comment_toxicities)/len(comment_toxicities)
                except ZeroDivisionError:
                    continue
                except Exception as e:
                    print(e)
                    continue
                try:
                    user_dict['comment_karma'] = comment_karma
                    user_dict['submission_karma'] = submission_karma
                    user_dict['karma_ratio'] = karma_ratio
                    user_dict['avg_comment_similarity'] = avg_comment_similarity # formating dict
                    user_dict['avg_toxicity'] = avg_toxicity
                    user_dict['avg_reply_speed'] = avg_reply_speed
                    user_dict['avg_comment_time_interval'] = avg_time_diff
#                         user_dict['comment_intervals'] = time_intervals

                    rows.append(user_dict) 
                except Exeception as e:
                    print(e)
                    continue

    except Exception as e:
        print(e)
        continue

users_df = pd.DataFrame.from_dict(rows, orient='columns')
users_df.to_csv(f'{path}/{user_dir}/raw_known_bots.csv')

### Streaming Feature Extraction

In [None]:
rows = []

for submission in botdefense.stream.submissions():
    try:
        user_name = submission.title[13:]

        user_dict = {}
        user_dict['username'] = user_name
        user = reddit.redditor(user_name)

        comment_karma = user.comment_karma
        submission_karma = user.link_karma

        karma_ratio = round(comment_karma/submission_karma, 4)

        comment_array = []
        timestamps = []
        reply_timestamps = []
        comment_toxicities = []


        for this_comment in user.comments.new(limit=15):

            parent_comment_id = this_comment.parent_id
            if parent_comment_id.startswith('t3'):
                parent_comment_id = parent_comment_id[3:]
                parent = reddit.submission(parent_comment_id)
            else:
                parent = reddit.comment(parent_comment_id)

            parent_timestamp = datetime.fromtimestamp(parent.created_utc)
            comment_timestamp = datetime.fromtimestamp(this_comment.created_utc)

            comment_array.append(this_comment.body)
            comment_toxicities.append(sentiment_toxicity(this_comment.body, **tokenizer_kwargs)[0]['score'])

            timestamps.append(comment_timestamp)
            reply_timestamps.append((parent_timestamp, comment_timestamp))

        for i in range(len(comment_array)):
            comment_array[i] = nlp(normalize(nlp((comment_array[i]))))

        comment_similarities = []
        time_intervals = []
        response_intervals = []

        for sent_1, sent_2 in combinations(comment_array, 2):
            comment_similarities.append(sent_1.similarity(sent_2))

        successive_times = list(pairwise(timestamps))
        for pair in successive_times: # calculates the intervals between user's comments
            time_intervals.append(abs(pair[0] - pair[1]))
        for pair in reply_timestamps:
            response_intervals.append(abs(pair[1] - pair[0]))

        time_data = pd.Series(time_intervals)
        avg_time_diff = (time_data.sum()/len(time_data)).round('1s')

        response_data = pd.Series(response_intervals)
        avg_reply_speed = (response_data.sum()/len(response_data)).round('1s')

        avg_comment_similarity = sum(comment_similarities)/len(comment_similarities)
        avg_toxicity = sum(comment_toxicities)/len(comment_toxicities)

        user_dict['comment_karma'] = comment_karma
        user_dict['submission_karma'] = submission_karma
        user_dict['karma_ratio'] = karma_ratio
        user_dict['avg_comment_similarity'] = avg_comment_similarity # formating dict
        user_dict['avg_toxicity'] = avg_toxicity
        user_dict['avg_reply_speed'] = avg_reply_speed
        user_dict['avg_comment_time_interval'] = avg_time_diff

        print(user_dict)
        rows.append(user_dict) 

    except Exception as e:
        print(e)

users_df = pd.DataFrame.from_dict(rows, orient='columns')
users_df.to_csv(f'{path}/{user_dir}/suspected_bots_2.csv')

### For suspected bots

In [15]:
# botdefense = reddit.subreddit('botdefense').new(limit=500)
# user_names = []

# for submission in botdefense:
#     user_names.append(submission.title[13:])
# user_names = user_names[1:]
# print(user_names)

['Apartexalt698', 'AgePsycholog', 'South_Tensio', 'Independentfdy', 'SenorBeef', 'Aggressive_Finger579', 'Downtowarkb', 'xansochi', 'Backgroundbv', 'MixedRapidity', 'mynkamerve', 'legoholamoo', 'cuspiafc', 'kakashi4ok', 'thierryleblanyi', 'Fhaingsk', 'Barbecx', 'Lakapparygd', 'UpstateAlight72', 'chitatsjy', 'conkeysoundhq', 'FickleEntrepreneu', 'Automatic_Suc', 'Unhapolasvgf', 'kubafundipd', 'fondsbrilhz', 'IvaSwinton', 'CryptoColon', 'Mysterious_Fer', 'HistoricalAm', 'No-Education-4082', 'ElliotDictator', 'Individual_Drink162', 'illitsPoordrr', 'tominogrt', 'usadilozz', 'bakezillapk', 'vossejarhe', 'tropotbw', 'mioasislq', 'dapaulasafh', 'jarbythedoorkh', 'acicarronb', 'vatinukasgh', 'cosmicdancersjk', 'e2r3a3kukys', '1glasib', 'w8229549', 'outrightfoal480', 'Horror_Constan', 'Typicalecovergd', 'CommercialClient51', 'moidwayinfonixc', 'pc29lo', 'ntyriminger', 'initialshuffler', 'Suitable-Method3245', 'NulkStomomocg', 'Subartaspz', 'Acceptable_Roun', 'EmbarrassedCoun', 'Andresallison99

In [12]:
rows = []
for user_name in tqdm(user_names):
    try:
        user_dict = {}
        user = reddit.redditor(user_name)
        user_dict['username'] = user_name
        user = reddit.redditor(user_name)

        if get_user_status(user) == 'active' and str(user_name) not in 'nan': # checks that user isn't suspended/deleted
            if not user.is_mod: #ignore mods

                comment_array = []
                timestamps = []
                reply_timestamps = []
                comment_toxicities = []

                comment_karma = user.comment_karma
                submission_karma = user.link_karma

                karma_ratio = round(comment_karma/submission_karma, 4)

                try:
                    for this_comment in user.comments.new(limit=15):

                        parent_comment_id = this_comment.parent_id
                        if parent_comment_id.startswith('t3'):
                            parent_comment_id = parent_comment_id[3:]
                            parent = reddit.submission(parent_comment_id)
                        else:
                            parent = reddit.comment(parent_comment_id)

                        parent_timestamp = datetime.fromtimestamp(parent.created_utc)
                        comment_timestamp = datetime.fromtimestamp(this_comment.created_utc)

                        comment_array.append(this_comment.body)
                        comment_toxicities.append(sentiment_toxicity(this_comment.body, **tokenizer_kwargs)[0]['score'])

                        timestamps.append(comment_timestamp)
                        reply_timestamps.append((parent_timestamp, comment_timestamp))

                except Exception as e:
                    print(e)
                    continue

                for i in range(len(comment_array)):
#                         comment_array[i] = normalize(nlp((comment_array[i]))) # normalizes comment but leaves as string
                    comment_array[i] = nlp(normalize(nlp((comment_array[i])))) # this normalizes comment and wraps in nlp

                comment_similarities = []
                time_intervals = []
                response_intervals = []

                for sent_1, sent_2 in combinations(comment_array, 2):

#                         comment_similarities.append(calculate_cosine_sim(sent_1, sent_2)) checks cosine simularity of each comment against the next 
                    comment_similarities.append(sent_1.similarity(sent_2)) # nlp similiarity

                successive_times = list(pairwise(timestamps))
                for pair in successive_times: # calculates the intervals between user's comments
                    time_intervals.append(abs(pair[0] - pair[1]))

                for pair in reply_timestamps:
                    response_intervals.append(abs(pair[1] - pair[0]))# calculates how quickly a comment replied to its parent

                try:
                    time_data = pd.Series(time_intervals)
                    avg_time_diff = (time_data.sum()/len(time_data)).round('1s')
                except Exception as e:
                    print(e)
                    continue

                try:
                    response_data = pd.Series(response_intervals)
                    avg_reply_speed = (response_data.sum()/len(response_data)).round('1s')
                except Exception as e:
                    print(e)
                    continue

                try:
                    avg_comment_similarity = sum(comment_similarities)/len(comment_similarities)
                    avg_toxicity = sum(comment_toxicities)/len(comment_toxicities)
                except ZeroDivisionError:
                    continue
                except Exception as e:
                    print(e)
                    continue
                try:
                    user_dict['comment_karma'] = comment_karma
                    user_dict['submission_karma'] = submission_karma
                    user_dict['karma_ratio'] = karma_ratio
                    user_dict['avg_comment_similarity'] = avg_comment_similarity # formating dict
                    user_dict['avg_toxicity'] = avg_toxicity
                    user_dict['avg_reply_speed'] = avg_reply_speed
                    user_dict['avg_comment_time_interval'] = avg_time_diff
#                         user_dict['comment_intervals'] = time_intervals

                    rows.append(user_dict) 
                except Exeception as e:
                    print(e)
                    continue

    except Exception as e:
        print(e)
        continue

users_df = pd.DataFrame.from_dict(rows, orient='columns')
users_df.to_csv(f'{path}/{user_dir}/known_bots.csv')




invalid value encountered in double_scalars

  0%|▏                                                                              | 4/2500 [00:07<1:20:33,  1.94s/it]

'str' object cannot be interpreted as an integer


  1%|▉                                                                               | 31/2500 [01:22<58:27,  1.42s/it]

sus


  2%|█▎                                                                           | 43/2500 [04:52<18:50:28, 27.61s/it]

sus


  2%|█▋                                                                            | 54/2500 [08:33<6:00:27,  8.84s/it]

sus


  2%|█▊                                                                            | 60/2500 [08:56<3:03:35,  4.51s/it]

'str' object cannot be interpreted as an integer


  3%|█▉                                                                            | 64/2500 [09:16<2:49:11,  4.17s/it]

sus


  4%|██▊                                                                           | 90/2500 [11:51<1:50:45,  2.76s/it]

'str' object cannot be interpreted as an integer


  5%|███▌                                                                         | 116/2500 [18:53<3:45:04,  5.66s/it]

sus


  6%|████▌                                                                        | 148/2500 [28:55<6:17:23,  9.63s/it]

sus


  7%|█████                                                                        | 164/2500 [30:33<4:07:14,  6.35s/it]

sus


  8%|██████▏                                                                      | 199/2500 [40:24<3:51:56,  6.05s/it]

sus


  9%|██████▉                                                                      | 227/2500 [49:19<4:49:26,  7.64s/it]

sus


 10%|███████▌                                                                    | 249/2500 [57:52<38:50:55, 62.13s/it]

sus


 11%|███████▉                                                                   | 265/2500 [1:00:17<4:56:10,  7.95s/it]

sus


 11%|████████▏                                                                  | 271/2500 [1:01:43<6:46:42, 10.95s/it]

sus


 12%|█████████▎                                                                 | 310/2500 [1:12:10<3:33:44,  5.86s/it]

sus


 13%|█████████▊                                                                 | 325/2500 [1:19:21<3:53:09,  6.43s/it]

'str' object cannot be interpreted as an integer


 13%|█████████▉                                                                 | 331/2500 [1:19:58<2:06:10,  3.49s/it]

sus


 14%|██████████▎                                                                | 345/2500 [1:22:04<2:44:05,  4.57s/it]

sus


 14%|██████████▍                                                                | 346/2500 [1:22:05<2:06:27,  3.52s/it]

sus


 14%|██████████▌                                                               | 358/2500 [1:29:09<10:51:18, 18.24s/it]

sus


 15%|███████████▎                                                               | 378/2500 [1:31:54<5:48:07,  9.84s/it]

sus


 16%|███████████▊                                                               | 392/2500 [1:39:00<5:43:09,  9.77s/it]

sus


 16%|████████████                                                               | 402/2500 [1:40:47<7:01:03, 12.04s/it]

sus


 17%|████████████▊                                                              | 425/2500 [1:49:37<2:38:41,  4.59s/it]

sus


 19%|██████████████▍                                                            | 481/2500 [2:09:00<6:52:50, 12.27s/it]

sus


 21%|███████████████▌                                                           | 517/2500 [2:19:47<5:12:34,  9.46s/it]

'str' object cannot be interpreted as an integer


 21%|███████████████▊                                                           | 527/2500 [2:20:45<4:29:40,  8.20s/it]

'str' object cannot be interpreted as an integer


 21%|███████████████▉                                                           | 532/2500 [2:20:49<1:06:52,  2.04s/it]

sus


 22%|████████████████▎                                                         | 549/2500 [2:28:14<24:13:37, 44.70s/it]

sus


 23%|█████████████████▎                                                        | 586/2500 [2:37:56<14:30:06, 27.28s/it]

'str' object cannot be interpreted as an integer


 25%|██████████████████▊                                                        | 626/2500 [2:49:17<5:21:53, 10.31s/it]

sus


 26%|███████████████████▏                                                       | 641/2500 [2:50:36<1:39:55,  3.23s/it]

sus


 26%|███████████████████▎                                                       | 644/2500 [2:51:12<4:45:44,  9.24s/it]

sus


 27%|███████████████████▉                                                       | 666/2500 [2:59:13<4:03:12,  7.96s/it]

sus


 27%|████████████████████▏                                                      | 671/2500 [3:00:22<5:24:35, 10.65s/it]

sus


 27%|████████████████████▏                                                      | 674/2500 [3:00:41<3:22:41,  6.66s/it]

sus


 27%|████████████████████▎                                                      | 679/2500 [3:01:18<2:21:38,  4.67s/it]

sus


 27%|████████████████████▌                                                      | 684/2500 [3:02:12<5:26:16, 10.78s/it]

sus


 28%|█████████████████████                                                      | 700/2500 [3:09:19<2:24:49,  4.83s/it]

sus


 28%|█████████████████████                                                      | 701/2500 [3:09:20<1:53:44,  3.79s/it]

sus


 28%|█████████████████████                                                      | 703/2500 [3:09:22<1:11:17,  2.38s/it]

sus


 30%|██████████████████████▎                                                    | 743/2500 [3:20:42<6:30:14, 13.33s/it]

'str' object cannot be interpreted as an integer


 31%|███████████████████████▏                                                   | 772/2500 [3:29:54<3:32:30,  7.38s/it]

sus


 31%|███████████████████████▎                                                   | 777/2500 [3:30:47<3:55:57,  8.22s/it]

sus


 32%|███████████████████████▋                                                   | 789/2500 [3:32:19<2:58:13,  6.25s/it]

sus


 32%|████████████████████████▏                                                  | 805/2500 [3:39:38<3:30:43,  7.46s/it]

sus


 32%|████████████████████████▏                                                  | 807/2500 [3:39:56<3:31:23,  7.49s/it]

sus


 33%|████████████████████████▌                                                  | 819/2500 [3:41:28<2:54:14,  6.22s/it]

sus


 33%|████████████████████████▋                                                  | 821/2500 [3:41:30<1:41:02,  3.61s/it]

sus


 33%|████████████████████████▌                                                 | 830/2500 [3:48:16<24:27:07, 52.71s/it]

sus


 34%|█████████████████████████▎                                                | 855/2500 [3:57:56<20:26:58, 44.75s/it]

sus


 35%|█████████████████████████▉                                                 | 866/2500 [3:59:59<3:42:39,  8.18s/it]

sus


 35%|██████████████████████████▏                                                | 873/2500 [4:00:38<2:03:16,  4.55s/it]

sus


 36%|██████████████████████████▊                                                | 895/2500 [4:09:00<6:31:16, 14.63s/it]

sus


 36%|██████████████████████████▉                                                | 896/2500 [4:09:01<4:42:49, 10.58s/it]

sus


 36%|██████████████████████████▉                                                | 899/2500 [4:09:06<2:10:43,  4.90s/it]

'str' object cannot be interpreted as an integer


 36%|███████████████████████████                                                | 900/2500 [4:09:07<1:40:11,  3.76s/it]

sus


 36%|███████████████████████████▏                                               | 908/2500 [4:10:02<1:59:33,  4.51s/it]

sus


 39%|████████████████████████████▉                                              | 963/2500 [4:31:12<4:52:41, 11.43s/it]

sus


 39%|████████████████████████████▉                                             | 976/2500 [4:38:17<15:03:41, 35.58s/it]

sus


 40%|█████████████████████████████▋                                             | 989/2500 [4:40:22<3:19:34,  7.92s/it]

sus


 40%|█████████████████████████████▉                                            | 1012/2500 [4:49:29<3:59:35,  9.66s/it]

sus


 41%|██████████████████████████████                                            | 1015/2500 [4:49:48<3:00:57,  7.31s/it]

sus


 41%|██████████████████████████████▎                                           | 1024/2500 [4:51:01<2:51:46,  6.98s/it]

sus


 41%|██████████████████████████████▎                                          | 1037/2500 [4:57:35<12:37:04, 31.05s/it]

sus


 42%|██████████████████████████████▊                                           | 1041/2500 [4:58:26<6:04:25, 14.99s/it]

sus


 42%|███████████████████████████████▏                                          | 1054/2500 [5:00:47<3:38:11,  9.05s/it]

sus


 43%|███████████████████████████████▌                                          | 1066/2500 [5:02:19<2:39:31,  6.67s/it]

sus


 43%|███████████████████████████████▌                                          | 1067/2500 [5:02:29<3:03:54,  7.70s/it]

sus


 43%|███████████████████████████████▉                                          | 1078/2500 [5:08:51<3:11:42,  8.09s/it]

sus


 44%|████████████████████████████████▋                                         | 1105/2500 [5:19:38<6:48:55, 17.59s/it]

sus


 44%|████████████████████████████████▊                                         | 1107/2500 [5:19:56<4:51:04, 12.54s/it]

sus


 46%|█████████████████████████████████▋                                        | 1138/2500 [5:30:31<1:49:26,  4.82s/it]

sus


 46%|██████████████████████████████████▏                                       | 1154/2500 [5:38:27<9:10:13, 24.53s/it]

sus


 46%|██████████████████████████████████▏                                       | 1156/2500 [5:38:29<4:42:15, 12.60s/it]

sus


 47%|██████████████████████████████████▌                                       | 1168/2500 [5:40:17<1:49:52,  4.95s/it]

sus


 48%|███████████████████████████████████▎                                      | 1192/2500 [5:49:25<4:07:04, 11.33s/it]

sus


 48%|███████████████████████████████████▊                                      | 1209/2500 [5:51:34<1:46:35,  4.95s/it]

sus


 48%|███████████████████████████████████▊                                      | 1210/2500 [5:51:35<1:21:36,  3.80s/it]

sus


 49%|████████████████████████████████████▍                                     | 1229/2500 [5:59:19<3:31:17,  9.97s/it]

sus


 49%|█████████████████████████████████████▌                                      | 1237/2500 [5:59:43<43:29,  2.07s/it]

sus


 50%|████████████████████████████████████▊                                     | 1243/2500 [6:01:09<3:37:08, 10.36s/it]

sus


 50%|████████████████████████████████████▊                                     | 1245/2500 [6:01:27<3:06:41,  8.93s/it]

sus


 51%|█████████████████████████████████████▊                                    | 1278/2500 [6:11:16<3:12:14,  9.44s/it]

sus


 51%|█████████████████████████████████████▉                                    | 1280/2500 [6:11:18<1:45:44,  5.20s/it]

sus


 51%|██████████████████████████████████████                                    | 1286/2500 [6:12:13<2:07:41,  6.31s/it]

sus


 52%|██████████████████████████████████████▋                                   | 1309/2500 [6:20:16<2:00:26,  6.07s/it]

'str' object cannot be interpreted as an integer


 53%|██████████████████████████████████████▉                                   | 1316/2500 [6:21:27<2:10:19,  6.60s/it]

sus


 53%|███████████████████████████████████████▎                                  | 1328/2500 [6:28:48<4:14:38, 13.04s/it]

sus


 53%|███████████████████████████████████████▍                                  | 1334/2500 [6:29:10<1:08:32,  3.53s/it]

sus


 54%|███████████████████████████████████████▋                                  | 1340/2500 [6:30:04<2:38:26,  8.19s/it]

sus


 54%|████████████████████████████████████████                                  | 1352/2500 [6:31:52<2:09:06,  6.75s/it]

sus


 55%|████████████████████████████████████████▌                                 | 1371/2500 [6:39:52<3:56:35, 12.57s/it]

sus


 55%|████████████████████████████████████████▋                                 | 1374/2500 [6:39:54<1:42:51,  5.48s/it]

sus


 55%|████████████████████████████████████████▋                                 | 1376/2500 [6:40:12<2:00:22,  6.43s/it]

sus


 55%|████████████████████████████████████████▉                                 | 1385/2500 [6:41:57<3:21:15, 10.83s/it]

sus


 56%|█████████████████████████████████████████▍                                | 1399/2500 [6:49:51<3:13:14, 10.53s/it]

sus


 56%|█████████████████████████████████████████▌                                | 1405/2500 [6:50:15<1:16:55,  4.22s/it]

'str' object cannot be interpreted as an integer


 57%|██████████████████████████████████████████                                | 1421/2500 [6:58:58<7:39:34, 25.56s/it]

sus


 57%|██████████████████████████████████████████                                | 1422/2500 [6:58:59<5:28:01, 18.26s/it]

sus


 57%|██████████████████████████████████████████▏                               | 1424/2500 [6:59:01<2:50:59,  9.53s/it]

sus


 57%|██████████████████████████████████████████▍                               | 1434/2500 [7:00:58<2:34:12,  8.68s/it]

sus


 58%|██████████████████████████████████████████▌                               | 1439/2500 [7:01:35<1:59:17,  6.75s/it]

sus


 58%|██████████████████████████████████████████▌                               | 1440/2500 [7:01:36<1:29:54,  5.09s/it]

sus


 58%|██████████████████████████████████████████▊                               | 1448/2500 [7:04:31<7:22:53, 25.26s/it]

sus


 58%|██████████████████████████████████████████▎                              | 1451/2500 [7:07:43<11:17:35, 38.76s/it]

sus


 58%|███████████████████████████████████████████▏                              | 1460/2500 [7:09:04<2:40:29,  9.26s/it]

sus


 58%|███████████████████████████████████████████▏                              | 1461/2500 [7:09:05<1:57:55,  6.81s/it]

sus


 59%|████████████████████████████████████████████▌                               | 1465/2500 [7:09:10<45:56,  2.66s/it]

'str' object cannot be interpreted as an integer


 60%|████████████████████████████████████████████▏                             | 1491/2500 [7:12:00<1:55:54,  6.89s/it]

sus


 61%|████████████████████████████████████████████▊                            | 1536/2500 [7:27:23<12:21:31, 46.15s/it]

sus


 62%|█████████████████████████████████████████████▌                            | 1540/2500 [7:28:25<4:56:22, 18.52s/it]

sus


 62%|██████████████████████████████████████████████                            | 1555/2500 [7:31:04<2:31:55,  9.65s/it]

sus


 62%|██████████████████████████████████████████████                            | 1556/2500 [7:31:05<1:52:42,  7.16s/it]

sus


 63%|██████████████████████████████████████████████▍                           | 1568/2500 [7:33:11<3:22:53, 13.06s/it]

sus


 63%|██████████████████████████████████████████████▊                           | 1583/2500 [7:39:47<2:27:46,  9.67s/it]

sus


 64%|███████████████████████████████████████████████▌                          | 1607/2500 [7:48:45<2:22:16,  9.56s/it]

sus


 64%|█████████████████████████████████████████████████                           | 1612/2500 [7:49:06<59:45,  4.04s/it]

sus


 65%|███████████████████████████████████████████████▊                          | 1617/2500 [7:49:43<1:19:35,  5.41s/it]

sus


 65%|████████████████████████████████████████████████▏                         | 1627/2500 [7:51:16<2:02:57,  8.45s/it]

'str' object cannot be interpreted as an integer


 65%|█████████████████████████████████████████████████▌                          | 1632/2500 [7:51:35<43:48,  3.03s/it]

sus


 66%|█████████████████████████████████████████████████▊                          | 1638/2500 [7:51:57<29:17,  2.04s/it]

sus


 66%|████████████████████████████████████████████████                         | 1644/2500 [7:58:06<11:07:00, 46.75s/it]

sus


 67%|█████████████████████████████████████████████████▍                        | 1669/2500 [8:01:43<2:00:40,  8.71s/it]

sus


 67%|█████████████████████████████████████████████████▍                        | 1670/2500 [8:02:01<2:40:28, 11.60s/it]

sus


 67%|█████████████████████████████████████████████████▌                        | 1675/2500 [8:02:39<2:11:48,  9.59s/it]

sus


 67%|█████████████████████████████████████████████████▋                        | 1680/2500 [8:08:14<9:46:32, 42.92s/it]

sus


 68%|█████████████████████████████████████████████████▉                        | 1688/2500 [8:09:10<1:31:41,  6.78s/it]

sus


 68%|█████████████████████████████████████████████████▉                        | 1689/2500 [8:09:11<1:08:44,  5.09s/it]

sus


 68%|██████████████████████████████████████████████████▏                       | 1694/2500 [8:09:59<1:52:43,  8.39s/it]

'str' object cannot be interpreted as an integer


 68%|███████████████████████████████████████████████████▋                        | 1699/2500 [8:10:10<46:10,  3.46s/it]

sus


 68%|██████████████████████████████████████████████████▍                       | 1705/2500 [8:11:20<1:55:51,  8.74s/it]

sus


 68%|██████████████████████████████████████████████████▌                       | 1707/2500 [8:11:38<1:48:38,  8.22s/it]

sus


 69%|███████████████████████████████████████████████████                       | 1727/2500 [8:19:22<1:51:04,  8.62s/it]

sus


 69%|███████████████████████████████████████████████████▏                      | 1730/2500 [8:20:24<3:23:18, 15.84s/it]

sus


 70%|████████████████████████████████████████████████████▏                     | 1761/2500 [8:30:18<1:36:21,  7.82s/it]

sus


 71%|████████████████████████████████████████████████████▏                     | 1765/2500 [8:30:53<1:35:52,  7.83s/it]

sus


 71%|██████████████████████████████████████████████████████                      | 1779/2500 [8:31:57<31:11,  2.60s/it]

sus


 72%|████████████████████████████████████████████████████▉                     | 1788/2500 [8:38:07<7:10:54, 36.31s/it]

sus


 72%|█████████████████████████████████████████████████████                     | 1792/2500 [8:38:43<3:00:55, 15.33s/it]

sus


 72%|█████████████████████████████████████████████████████▎                    | 1802/2500 [8:39:57<1:09:09,  5.94s/it]

sus


 72%|██████████████████████████████████████████████████████▊                     | 1803/2500 [8:39:58<52:12,  4.49s/it]

sus


 72%|██████████████████████████████████████████████████████▊                     | 1805/2500 [8:40:00<30:13,  2.61s/it]

sus


 72%|█████████████████████████████████████████████████████▋                    | 1812/2500 [8:41:27<1:56:23, 10.15s/it]

sus


 73%|█████████████████████████████████████████████████████▊                    | 1816/2500 [8:42:03<1:20:25,  7.05s/it]

sus


 73%|███████████████████████████████████████████████████████▎                    | 1819/2500 [8:42:06<33:54,  2.99s/it]

sus


 73%|███████████████████████████████████████████████████████▎                    | 1820/2500 [8:42:07<27:24,  2.42s/it]

sus


 73%|██████████████████████████████████████████████████████▏                   | 1830/2500 [8:48:21<3:51:44, 20.75s/it]

sus


 74%|██████████████████████████████████████████████████████▋                   | 1848/2500 [8:50:47<1:18:35,  7.23s/it]

sus


 75%|███████████████████████████████████████████████████████▏                  | 1864/2500 [8:57:42<2:42:05, 15.29s/it]

sus


 75%|███████████████████████████████████████████████████████▌                  | 1876/2500 [8:59:41<1:10:55,  6.82s/it]

sus


 76%|███████████████████████████████████████████████████████▉                  | 1891/2500 [9:02:15<1:33:32,  9.22s/it]

sus


 76%|████████████████████████████████████████████████████████                  | 1892/2500 [9:02:16<1:09:32,  6.86s/it]

sus


 76%|████████████████████████████████████████████████████████▏                 | 1899/2500 [9:07:54<4:35:26, 27.50s/it]

sus


 77%|██████████████████████████████████████████████████████████▏                 | 1916/2500 [9:10:04<40:13,  4.13s/it]

sus


 77%|██████████████████████████████████████████████████████████▎                 | 1918/2500 [9:10:22<56:35,  5.83s/it]

sus


 77%|████████████████████████████████████████████████████████▊                 | 1921/2500 [9:11:14<1:33:18,  9.67s/it]

sus


 77%|████████████████████████████████████████████████████████▉                 | 1922/2500 [9:11:17<1:15:22,  7.82s/it]

sus


 77%|█████████████████████████████████████████████████████████                 | 1927/2500 [9:11:51<1:07:37,  7.08s/it]

sus


 77%|█████████████████████████████████████████████████████████                 | 1928/2500 [9:12:08<1:36:22, 10.11s/it]

sus


 77%|██████████████████████████████████████████████████████████▋                 | 1930/2500 [9:12:10<55:50,  5.88s/it]

sus


 77%|██████████████████████████████████████████████████████████▋                 | 1931/2500 [9:12:11<44:48,  4.72s/it]

sus


 78%|█████████████████████████████████████████████████████████▎                | 1938/2500 [9:18:06<3:56:14, 25.22s/it]

sus


 78%|█████████████████████████████████████████████████████████▋                | 1951/2500 [9:20:43<1:26:57,  9.50s/it]

sus


 78%|███████████████████████████████████████████████████████████▍                | 1957/2500 [9:21:05<48:51,  5.40s/it]

sus


 79%|██████████████████████████████████████████████████████████▎               | 1972/2500 [9:28:22<2:18:03, 15.69s/it]

sus


 79%|██████████████████████████████████████████████████████████▌               | 1978/2500 [9:29:00<1:12:54,  8.38s/it]

sus


 79%|████████████████████████████████████████████████████████████▎               | 1985/2500 [9:29:23<28:08,  3.28s/it]

sus


 79%|████████████████████████████████████████████████████████████▍               | 1987/2500 [9:29:25<17:36,  2.06s/it]

sus


 80%|████████████████████████████████████████████████████████████▊               | 1999/2500 [9:30:41<46:50,  5.61s/it]

sus


 80%|███████████████████████████████████████████████████████████▍              | 2007/2500 [9:31:53<1:12:26,  8.82s/it]

sus


 81%|███████████████████████████████████████████████████████████▌              | 2014/2500 [9:37:13<6:38:55, 49.25s/it]

sus


 83%|██████████████████████████████████████████████████████████████▊             | 2066/2500 [9:49:59<45:26,  6.28s/it]

sus


 84%|█████████████████████████████████████████████████████████████▊            | 2088/2500 [9:58:00<5:51:28, 51.19s/it]

sus


 84%|█████████████████████████████████████████████████████████████▌           | 2110/2500 [10:01:45<1:04:56,  9.99s/it]

sus


 84%|███████████████████████████████████████████████████████████████▎           | 2112/2500 [10:01:49<39:48,  6.16s/it]

'str' object cannot be interpreted as an integer


 85%|█████████████████████████████████████████████████████████████▉           | 2120/2500 [10:08:04<7:08:55, 67.72s/it]

sus


 85%|████████████████████████████████████████████████████████████████           | 2134/2500 [10:09:36<40:48,  6.69s/it]

sus


 86%|████████████████████████████████████████████████████████████████▍          | 2146/2500 [10:11:08<37:41,  6.39s/it]

sus


 86%|████████████████████████████████████████████████████████████████▍          | 2149/2500 [10:11:11<16:41,  2.85s/it]

sus


 87%|█████████████████████████████████████████████████████████████████▎         | 2178/2500 [10:19:20<29:36,  5.52s/it]

sus


 88%|████████████████████████████████████████████████████████████████▏        | 2199/2500 [10:27:57<3:05:52, 37.05s/it]

sus


 88%|████████████████████████████████████████████████████████████████▎        | 2203/2500 [10:28:33<1:11:19, 14.41s/it]

sus


 88%|██████████████████████████████████████████████████████████████████▎        | 2209/2500 [10:29:43<51:02, 10.52s/it]

sus


 88%|██████████████████████████████████████████████████████████████████▎        | 2210/2500 [10:29:44<38:05,  7.88s/it]

sus


 89%|██████████████████████████████████████████████████████████████████▌        | 2218/2500 [10:30:42<22:58,  4.89s/it]

'str' object cannot be interpreted as an integer


 89%|██████████████████████████████████████████████████████████████████▋        | 2222/2500 [10:31:02<16:48,  3.63s/it]

sus


 90%|█████████████████████████████████████████████████████████████████▍       | 2239/2500 [10:34:49<2:15:44, 31.21s/it]

sus


 90%|███████████████████████████████████████████████████████████████████▍       | 2248/2500 [10:38:28<33:54,  8.07s/it]

sus


 90%|███████████████████████████████████████████████████████████████████▌       | 2252/2500 [10:38:48<24:50,  6.01s/it]

sus


 90%|███████████████████████████████████████████████████████████████████▌       | 2253/2500 [10:38:49<18:42,  4.55s/it]

sus


 90%|███████████████████████████████████████████████████████████████████▋       | 2256/2500 [10:38:52<08:53,  2.19s/it]

sus


 91%|████████████████████████████████████████████████████████████████████       | 2270/2500 [10:40:58<17:28,  4.56s/it]

sus


 91%|████████████████████████████████████████████████████████████████████▏      | 2272/2500 [10:40:59<10:02,  2.64s/it]

sus


 91%|████████████████████████████████████████████████████████████████████▎      | 2275/2500 [10:41:34<26:54,  7.17s/it]

sus


 91%|████████████████████████████████████████████████████████████████████▎      | 2278/2500 [10:42:10<32:36,  8.81s/it]

sus


 91%|████████████████████████████████████████████████████████████████████▍      | 2281/2500 [10:42:13<13:39,  3.74s/it]

sus


 91%|██████████████████████████████████████████████████████████████████▊      | 2287/2500 [10:48:06<3:01:03, 51.00s/it]

sus


 92%|█████████████████████████████████████████████████████████████████████▎     | 2309/2500 [10:51:24<31:10,  9.79s/it]

sus


 92%|█████████████████████████████████████████████████████████████████████▎     | 2310/2500 [10:51:25<22:17,  7.04s/it]

sus


 93%|█████████████████████████████████████████████████████████████████████▊     | 2325/2500 [10:59:36<52:20, 17.95s/it]

sus


 93%|██████████████████████████████████████████████████████████████████████     | 2336/2500 [11:01:07<27:24, 10.03s/it]

sus


 94%|██████████████████████████████████████████████████████████████████████▏    | 2338/2500 [11:01:09<14:48,  5.48s/it]

sus


 94%|████████████████████████████████████████████████████████████████████▌    | 2348/2500 [11:08:03<3:45:28, 89.00s/it]

sus


 94%|████████████████████████████████████████████████████████████████████▋    | 2353/2500 [11:08:48<1:03:44, 26.02s/it]

sus


 94%|██████████████████████████████████████████████████████████████████████▊    | 2361/2500 [11:09:44<15:13,  6.57s/it]

sus


 95%|███████████████████████████████████████████████████████████████████████▏   | 2371/2500 [11:11:14<18:08,  8.44s/it]

sus


 96%|████████████████████████████████████████████████████████████████████████   | 2401/2500 [11:19:40<11:41,  7.09s/it]

sus


 97%|████████████████████████████████████████████████████████████████████████▍  | 2414/2500 [11:21:54<15:18, 10.69s/it]

sus


 97%|████████████████████████████████████████████████████████████████████████▌  | 2420/2500 [11:23:34<23:01, 17.27s/it]

sus


 97%|████████████████████████████████████████████████████████████████████████▊  | 2425/2500 [11:27:10<35:26, 28.35s/it]

sus


 98%|█████████████████████████████████████████████████████████████████████████▌ | 2451/2500 [11:31:25<03:59,  4.89s/it]

sus


 98%|█████████████████████████████████████████████████████████████████████████▋ | 2455/2500 [11:31:45<02:41,  3.60s/it]

sus


100%|██████████████████████████████████████████████████████████████████████████▋| 2490/2500 [11:42:46<02:51, 17.19s/it]

sus


100%|██████████████████████████████████████████████████████████████████████████▋| 2491/2500 [11:42:56<02:15, 15.06s/it]

sus


100%|██████████████████████████████████████████████████████████████████████████▊| 2492/2500 [11:43:07<01:49, 13.64s/it]

sus


100%|███████████████████████████████████████████████████████████████████████████| 2500/2500 [11:48:18<00:00, 17.00s/it]


### Streaming Feature Extraction

In [None]:
rows = []

for submission in botdefense.stream.submissions():
    try:
        user_name = submission.title[13:]

        user_dict = {}
        user_dict['username'] = user_name
        user = reddit.redditor(user_name)

        comment_karma = user.comment_karma
        submission_karma = user.link_karma

        karma_ratio = round(comment_karma/submission_karma, 4)

        comment_array = []
        timestamps = []
        reply_timestamps = []
        comment_toxicities = []


        for this_comment in user.comments.new(limit=15):

            parent_comment_id = this_comment.parent_id
            if parent_comment_id.startswith('t3'):
                parent_comment_id = parent_comment_id[3:]
                parent = reddit.submission(parent_comment_id)
            else:
                parent = reddit.comment(parent_comment_id)

            parent_timestamp = datetime.fromtimestamp(parent.created_utc)
            comment_timestamp = datetime.fromtimestamp(this_comment.created_utc)

            comment_array.append(this_comment.body)
            comment_toxicities.append(sentiment_toxicity(this_comment.body, **tokenizer_kwargs)[0]['score'])

            timestamps.append(comment_timestamp)
            reply_timestamps.append((parent_timestamp, comment_timestamp))

        for i in range(len(comment_array)):
            comment_array[i] = nlp(normalize(nlp((comment_array[i]))))

        comment_similarities = []
        time_intervals = []
        response_intervals = []

        for sent_1, sent_2 in combinations(comment_array, 2):
            comment_similarities.append(sent_1.similarity(sent_2))

        successive_times = list(pairwise(timestamps))
        for pair in successive_times: # calculates the intervals between user's comments
            time_intervals.append(abs(pair[0] - pair[1]))
        for pair in reply_timestamps:
            response_intervals.append(abs(pair[1] - pair[0]))

        time_data = pd.Series(time_intervals)
        avg_time_diff = (time_data.sum()/len(time_data)).round('1s')

        response_data = pd.Series(response_intervals)
        avg_reply_speed = (response_data.sum()/len(response_data)).round('1s')

        avg_comment_similarity = sum(comment_similarities)/len(comment_similarities)
        avg_toxicity = sum(comment_toxicities)/len(comment_toxicities)

        user_dict['comment_karma'] = comment_karma
        user_dict['submission_karma'] = submission_karma
        user_dict['karma_ratio'] = karma_ratio
        user_dict['avg_comment_similarity'] = avg_comment_similarity # formating dict
        user_dict['avg_toxicity'] = avg_toxicity
        user_dict['avg_reply_speed'] = avg_reply_speed
        user_dict['avg_comment_time_interval'] = avg_time_diff

        print(user_dict)
        rows.append(user_dict) 

    except Exception as e:
        print(e)

users_df = pd.DataFrame.from_dict(rows, orient='columns')
users_df.to_csv(f'{path}/{user_dir}/suspected_bots_2.csv')