# Download der Analysedaten

Um unsere Analysen ausführen zu können, benötigen wir einen passenden Datensatz.
Wir wollen dafür die Beiträge und Kommentare aus dem Cyberpunk Subreddit extrahieren.
<hr/>

Als Erstes importieren wir alle packages, die wir im Notebook benötigen.

In [3]:
import sqlite3
import pandas as pd
import requests
from datetime import datetime, timedelta
import time
import json
import praw

Wir definieren uns jetzt noch zwei Funktionen zum Laden von Tabellen in DataFrames und Speichern von Dataframes in
Tabellen.

In [10]:
def pd_read_sql(database, sql):
    with sqlite3.connect(database) as con:
        df = pd.read_sql_query(sql, con, )
        return df

def pd_write_sql(database, table, df):
    with sqlite3.connect(database) as con:
        df.to_sql(table, con, index=False, if_exists='replace')

Im Folgenden werden wir die [Pushshift Api](https://pushshift.io/) und Reddit API
[PRAW](https://github.com/praw-dev/praw) benutzen.

Die Pushshift API ermöglicht uns,
Beiträge zu einem gewissen Zeitraum herunterzuladen, was die PRAW API nicht kann. Dafür benutzt die Pushshift API
abgespeicherte Einträge. Das Problem dieser Vorgehensweise ist, dass wenn man Kommentare herunterladen möchte, nur ein
sehr geringer Teil bzw. zu viele Kommentare heruntergeladen werden, da die Speichereinträge veraltet sind.
Zum Beispiel gibt es bei diesem
[Beitrag](https://www.reddit.com/r/cyberpunkgame/comments/kfba3u/megathread_sonyplaystation_will_offer_full/)
laut unserer submissions Tabelle (wird gleich noch erstellt) insgesamt 49,7k Kommentare. Schaut man sich jetzt aber
den Link an, sind es nur noch 37,4k Kommentare, da anscheinend viele gelöscht wurden.


Um genauere Werte zu erhalten, benutzen wir jetzt PRAW, weil diese API direkt über Reddit geht und damit genauere
Ergebnisse liefert (wurde händisch mit zufälligen Beiträgen überprüft).
<hr/>

Jetzt definieren uns eine Funktion, die alle Subreddit Beiträge im Zeitraum 10-09-2020 bis 10-03-2021, also
drei Monate vor und nach Release, herunterlädt.

Als Vorlage dient dazu die *downloadFromUrl* Funktion von Watchful1
[Github Link zur Funktion](https://github.com/Watchful1/Sketchpad/blob/master/postDownloader.py).
Außerdem machen wir folgende Einschränkungen beim Herunterladen:
 * Keine Beiträge über 18
 * Keine Beiträge, die Spoiler enthalten
 * Keine Beiträge mit Contest Mode

Am Ende werden von den Beiträgen folgende Werte gespeichert:
 * Beitrags Id
 * Autor
 * Titel
 * Text
 * Datum im UTC Format
 * Anzahl Kommentare
 * Ob der Beitrag gesperrt wurde
 * Link zum Beitrag

In [8]:
def downloadSubmissions(subreddit_name):
    topics_dict = {"id": [],
                   "author": [],
                   "title": [],
                   "selftext": [],
                   "created_utc": [],
                   "num_comments": [],
                   "locked": [],
                   "full_link": []
                   }

    url = "https://api.pushshift.io/reddit/search/{}/?size=10&sort=desc&sort_type=num_comments&subreddit={}&before={}" \
          "&after={}&over_18=false&spoiler=false&contest_mode=false"

    date_time_str = '18/03/21 00:00:00'
    start_time = datetime.strptime(date_time_str, '%d/%m/%y %H:%M:%S')

    for i in range(0, 26):
        start_time = start_time - timedelta(days=7)
        end_time = start_time - timedelta(days=7)
        print("START:")
        print(start_time)
        print("END:")
        print(end_time)
        start_epoch = int(start_time.timestamp())
        end_epoch = int(end_time.timestamp())
        new_url = url.format("submission", subreddit_name, str(start_epoch), str(end_epoch))
        json_text = requests.get(new_url, headers={'User-Agent': "Post downloader by /u/Watchful1"})
        time.sleep(1)

        try:
            json_data = json_text.json()
        except json.decoder.JSONDecodeError:
            time.sleep(1)
            continue
        if 'data' not in json_data:
            continue
        objects = json_data['data']
        if len(objects) == 0:
            continue
        for object in objects:
            try:
                topics_dict["id"].append(object["id"])
                topics_dict["author"].append(object["author"])
                topics_dict["title"].append(object["title"])
                topics_dict["selftext"].append(object["selftext"])
                topics_dict["created_utc"].append(datetime.fromtimestamp(object['created_utc']).strftime("%Y-%m-%d"))
                topics_dict["num_comments"].append(object["num_comments"])
                topics_dict["locked"].append(object["locked"])
                topics_dict["full_link"].append(object["full_link"])
            except Exception as err:
                print("Unexpected exception")

    submissions_df = pd.DataFrame(topics_dict)
    pd_write_sql("comments.sqlite", "submissions", submissions_df)

Aufruf der Funktion (braucht ein paar Minuten):

In [11]:
downloadSubmissions("cyberpunkgame")

START:
2021-03-11 00:00:00
END:
2021-03-04 00:00:00
START:
2021-03-04 00:00:00
END:
2021-02-25 00:00:00
START:
2021-02-25 00:00:00
END:
2021-02-18 00:00:00
START:
2021-02-18 00:00:00
END:
2021-02-11 00:00:00
START:
2021-02-11 00:00:00
END:
2021-02-04 00:00:00
START:
2021-02-04 00:00:00
END:
2021-01-28 00:00:00
START:
2021-01-28 00:00:00
END:
2021-01-21 00:00:00
START:
2021-01-21 00:00:00
END:
2021-01-14 00:00:00
START:
2021-01-14 00:00:00
END:
2021-01-07 00:00:00
START:
2021-01-07 00:00:00
END:
2020-12-31 00:00:00
START:
2020-12-31 00:00:00
END:
2020-12-24 00:00:00
START:
2020-12-24 00:00:00
END:
2020-12-17 00:00:00
START:
2020-12-17 00:00:00
END:
2020-12-10 00:00:00
START:
2020-12-10 00:00:00
END:
2020-12-03 00:00:00
START:
2020-12-03 00:00:00
END:
2020-11-26 00:00:00
START:
2020-11-26 00:00:00
END:
2020-11-19 00:00:00
START:
2020-11-19 00:00:00
END:
2020-11-12 00:00:00
START:
2020-11-12 00:00:00
END:
2020-11-05 00:00:00
START:
2020-11-05 00:00:00
END:
2020-10-29 00:00:00
START:
2020-

Unnamed: 0,id,author,title,selftext,created_utc,num_comments,locked,full_link
6,lxj21o,pablo397,You have to admit - the level of detail is ama...,,2021-03-04,204,0,https://www.reddit.com/r/cyberpunkgame/comment...
147,k1n0zt,MLGABEN,I come from the future. Here's a picture of th...,,2020-11-26,877,0,https://www.reddit.com/r/cyberpunkgame/comment...
231,j2jfkd,cupcakes234,"Official Statement from Head of Studio CDPR, A...",,2020-09-30,777,0,https://www.reddit.com/r/cyberpunkgame/comment...
210,j9kkxs,CyberpunkReddit,PC Specs Megathread - Please use this thread t...,Hey Choombas\n\nDuring Night City Wire Epi...,2020-10-12,701,0,https://www.reddit.com/r/cyberpunkgame/comment...
47,lgps95,LozengeWarrior,I still can't get over these reflections,,2021-02-10,207,0,https://www.reddit.com/r/cyberpunkgame/comment...


Anzeigen der heruntergeladenen Daten:

In [None]:
df = pd_read_sql("comments.sqlite", "SELECT * From submissions")
df.sample(5)

Jetzt möchten wir die passenden Kommentare zu den Beiträgen herunterladen. Dazu definieren wir uns eine neue Funktion.

In [None]:
def downloadComments():
    reddit = praw.Reddit(
        client_id="6TyfTZDOVae7MA",
        client_secret="NczDzlwURjdTlSItS_s6LxToLqkURA",
        user_agent="pc:6TyfTZDOVae7MA:1.0.0 by (by /u/ArminShinobi)",
        username="ArminShinobi",
        password="doHsoh-wuqry6-mibraq"
    )

    submissions_df = pd_read_sql("submissions.sqlite", "SELECT id FROM submissions")

    topics_dict = {
        "id": [],
        "author": [],
        "body": [],
        "created_utc": [],
        "score": [],
        "parent_id": [],
        "full_link": [],
        "submission_id": []
    }

    i = 0
    for submission_id in submissions_df["id"]:
        time.sleep(2)
        print("Current run: " + str(i))
        i += 1
        submission = reddit.submission(submission_id)
        submission.comments.replace_more(limit=None)
        comments = submission.comments.list()
        for comment in comments:
            topics_dict["id"].append(comment.id)
            topics_dict["author"].append(str(comment.author))
            topics_dict["body"].append(comment.body)
            topics_dict["created_utc"].append(datetime.fromtimestamp(comment.created_utc).strftime("%Y-%m-%d"))
            topics_dict["score"].append(comment.score)
            topics_dict["parent_id"].append(comment.parent_id)
            topics_dict["full_link"].append("https://www.reddit.com" + comment.permalink)
            topics_dict["submission_id"].append(submission_id)

    comments_df = pd.DataFrame(topics_dict)
    pd_write_sql("comments.sqlite", "comments", comments_df)

Aufruf der Funktion (dauert ein halben Tag. Um das Ergebnis zu sehen bitte zur nächsten Zelle springen):

In [None]:
downloadComments()

Anzeigen der heruntergeladenen Daten:

In [12]:
df = pd_read_sql("comments.sqlite", "SELECT * From comments")
df.sample(5)

Unnamed: 0,id,author,body,created_utc,score,parent_id,full_link,submission_id
228279,gfl6ph0,eggnogui,"Before you laugh, I'll tell you it passes the ...",2020-12-12,1,t1_gfj46j5,https://www.reddit.com/r/cyberpunkgame/comment...,kbcb3w
71659,gihiix8,linwail,Holy shit dude. Amazing,2021-01-08,1,t3_ksnuvo,https://www.reddit.com/r/cyberpunkgame/comment...,ksnuvo
310889,gf7wuyj,Dr_McKay,"For me it was Black & White, it was so bad tha...",2020-12-10,1,t1_gf7fhmv,https://www.reddit.com/r/cyberpunkgame/comment...,k9qjgt
204900,gfcddj4,MatthewPatience,I had the same issue until I changed clothes. ...,2020-12-11,2,t1_gfcd3to,https://www.reddit.com/r/cyberpunkgame/comment...,kahg96
69034,gjtc59b,Metemer,"I'm no lawmaker but my main point being, we sh...",2021-01-19,1,t1_gjt9aek,https://www.reddit.com/r/cyberpunkgame/comment...,kwpwfn
