# Reddit-Mining
## Die Ziele im Projekt

Allgemein ist die Aufgabe Texte systematisch aus dem Web zu gewinnen und diese dann auszuwerten.

Wir haben uns zur Aufgabe gemacht durch diverse Reddit-Spiele-Foren (https://reddit.com) zu crawlen und verschiedene Aussagen über die Nutzer und die Spiele der einzelnen Foren zu machen:
    - Wie freundlich sind die Spieler der einzelnen Foren?
    - In welchen Spielen wird am meisten im Web diskutiert?
    - Welche Spieler sind die Freundlichsten, welche Kriterien nehmen den meisten Einfluss?
    
Zusätzlich ist es das Ziel, einen beliebigen Text zu einem der Spiele zuzuordnen.

Zur Datenspeicherung wird nach Aufgabe eine SQL-Lite Datenbank verwendet.   

Wichtig für uns ist Modularität, sodass wir schnell weitere Reddit-Foren hinzufügen können und nach anderen Kriterien suchen können.

# Scraping

Dieser Abschnitt behandelt das Scraping der einzelnen Reddit Pages (Subreddits).

Der Spider benutzt folgende Foren:

In [17]:
start_urls = [
		"https://www.reddit.com/r/DotA2/",
		'https://www.reddit.com/r/GlobalOffensive/',
		#'https://www.reddit.com/r/spacex/', <- War lediglich aus interesse
		'https://www.reddit.com/r/leagueoflegends/',
		'https://www.reddit.com/r/darksouls3/',
		'https://www.reddit.com/r/Witcher3/',
		'https://www.reddit.com/r/Smite/',
		'https://www.reddit.com/r/aoe4/',
		'https://www.reddit.com/r/unrealtournament/',
		'https://www.reddit.com/r/battlefield_one/',
		'https://www.reddit.com/r/FIFA/',
		'https://www.reddit.com/r/WorldofTanks/',
		'https://www.reddit.com/r/FortNiteBR/',
		'https://www.reddit.com/r/PUBATTLEGROUNDS/',
		'https://www.reddit.com/r/starcraft/',
		'https://www.reddit.com/r/RocketLeague/',
		'https://www.reddit.com/r/CallOfDuty/',
		'https://www.reddit.com/r/tf2/',
		'https://www.reddit.com/r/skyrim/',
		'https://www.reddit.com/r/wow/',
		'https://www.reddit.com/r/Guildwars2/',
		'https://www.reddit.com/r/silenthill/',
		'https://www.reddit.com/r/civ/',
		'https://www.reddit.com/r/StreetFighter/',
		'https://www.reddit.com/r/smashbros/',
		'https://www.reddit.com/r/Mario/',
		'https://www.reddit.com/r/Breath_of_the_Wild/',
		'https://www.reddit.com/r/farcry/',
		'https://www.reddit.com/r/pokemon/',
		'https://www.reddit.com/r/Tetris/',
		'https://www.reddit.com/r/heroesofthestorm/',
		'https://www.reddit.com/r/Tekken/',
		'https://www.reddit.com/r/assassinscreed/',
		'https://www.reddit.com/r/mariokart/',
		'https://www.reddit.com/r/granturismo/',
		'https://www.reddit.com/r/forza/',
		'https://www.reddit.com/r/HeroesofNewerth/',
		'https://www.reddit.com/r/Minecraft/',
		'https://www.reddit.com/r/hearthstone/',
		'https://www.reddit.com/r/Terraria/',
		'https://www.reddit.com/r/halo/',
		'https://www.reddit.com/r/GodofWar/',
		'https://www.reddit.com/r/Kirby/',
		'https://www.reddit.com/r/gtaonline/',
		'https://www.reddit.com/r/Wolfenstein/'
]

Für die folgenden Beispiele wird die scrapy basierte Funktion aus Blatt 5 verwendet:

In [22]:
import scrapy
import requests
#copy of sheet 05
def gen_scrapy_response(url):
    # define user agent to simulate interactive user
    user_agent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
    req = requests.get(url, headers={ "user-agent": user_agent })
    return scrapy.http.TextResponse(req.url, body=req.text, encoding='utf-8')

Reddit selbst zählt offenbar nur auf dem Frontend seine eigenen Forenbeiträge (Threads) durch. dies geschieht über einen HTTP-GET Paramemter "count".

Diesen kann man somit benutzen um die Tiefe des Spiders in abhängigkeit zur Aktuellen gescrapten Website zu bestimmen. Per default werden immer 25 Threads pro Page angegeben.

In [27]:
import re
response = gen_scrapy_response(start_urls[0])

#sets the depth of the spider, has to be a multiple of 25, if it is not, the next multiple of 25 is used
max_reddit_count = 25

In der Analyse ist uns aufgefallen, dass alle Reddit-Foren zwar unterschiedliche Designs haben, aber immer die selbe Struktur (auch in Bezug auf den HTML-Baum und die CSS-Klassen) besitzen. Aus diesem Grund können wir das selbe vorgehen auf alle Foren anwenden.

Es gibt drei parse-funktionen:
    - parse: Die Hauptseiten nach Threads parsen, und den "next"-Button finden, um theorethisch durch das gesamte subreddit 
        zu crawlen (reddit zeigt benutzern aber nur die letzten 1.000 Threads eines Subreddits, alle vorherigen sind 
        anscheinend archiviert und auf normalem weg unzugänglich)
    - parse_comments: Geht durch einene einzelnen Thread und erfasst alle Kommentare mit:
        - Erfasser
        - Comment-Karma (abhängig von der Resonanz der User zu diesem Kommentar)
        - Inhalt
        - Thread
        - Spiel
    - parse_user: Die "Homepage" eines einzelnen user parsen um Informationen über:
        - Name
        - Reddit-Geburtstag (Registrierungsdatum)
        - Karma (Die Summe über das gesamte Karma aller Kommentare/Posts)

Die Struktur von Parse ist somit:

In [34]:
#Find count value to termiante if needed
find_count = re.findall("\?count=([0-9]+)",response.url)
if(len(find_count) > 0):
    count = int(find_count[0])
    if(count >= self.max_reddit_count):
        #now the parse function would return before anything would have been yielded
        print("return")

print("Threads of this Page are:")
for thread in response.css("a.comments::attr(href)").extract():
    #yield response.follow(thread, callback=self.parse_comments)
    print(thread)

next_page = response.css("span.next-button > a::attr(href)").extract_first()

print("The link to the next page is:")
if next_page is not None:
    #yield response.follow(next_page, callback=self.parse,headers={ "user-agent": self.user_agent })
    print(next_page)


Threads of this Page are:
https://www.reddit.com/r/DotA2/comments/8gwz56/epicenter_xl_day_7_match_discussions/
https://www.reddit.com/r/DotA2/comments/8gw62o/esl_shutting_down_csgo_streamers_so_they_go_to/
https://www.reddit.com/r/DotA2/comments/8gudcj/naix_finally_turned_into_nyx/
https://www.reddit.com/r/DotA2/comments/8gu0wo/2_new_unnamed_dlcs_were_added_to_dota_2_just_a/
https://www.reddit.com/r/DotA2/comments/8gra6p/introducing_dota_2_battle_royale/
https://www.reddit.com/r/DotA2/comments/8gtpp5/ice_fire_and_memes/
https://www.reddit.com/r/DotA2/comments/8gtspk/dota_2_update_main_client_may_3_2018/
https://www.reddit.com/r/DotA2/comments/8gswvi/valve_pls_let_us_choose_the_voice_line_for_lvl25/
https://www.reddit.com/r/DotA2/comments/8gveyb/promocode_bsj_chronosphere/
https://www.reddit.com/r/DotA2/comments/8gsdey/with_poor_mans_shield_gone_can_we_get_slippers/
https://www.reddit.com/r/DotA2/comments/8gohzm/anyone_here_doesnt_really_play_dota_that_much_but/
https://www.reddit.com/r

Parse_comments ist so aufgebaut:

In [38]:
response = gen_scrapy_response(response.css("a.comments::attr(href)").extract_first())

title = response.css("a.title::text").extract_first()
game = re.findall("https://www.reddit.com/r/([a-zA-Z0-9_-]+)/",response.url)[0]
for comment in response.css("div.comment"):
    user = comment.css("div.entry > p.tagline > a.author::text").extract_first()
    user_link = comment.css("div.entry > p.tagline > a.author::attr(href)").extract_first()
    #yield response.follow(userLink, callback=self.parse_user,headers={ "user-agent": self.user_agent })
    print(user_link)

    points = comment.css("span.score::attr(title)").extract_first()
    if(not points):
        points = "0"
    points = int(points)
    myComment = comment.css("div.usertext-body > div.md")[0]
    text = " ".join(myComment.css("p::text").extract())
    text = re.sub('\s+',' ',text)
    yield dict(game=game,
    score=points,
    thread=title,
    user=user,
    #url=response.url,
    content=text,
    table_type='comments'
    )

SyntaxError: 'yield' outside function (<ipython-input-38-da0db24e455b>, line 8)

Nachdem alle Links erfasst wurden, kann man durch diese Listen iterieren um die Daten zu erfassen. Die Daten werden in einer Liste aus Dictionaries gespeichert, diese dcits besitzen zunächst folgende Informationen:
- game: Das Spiel für welches dieser Kommentar geschrieben wurde
- thread: Der Titel des Threads, für welchen diese Kommentar geschrieben wurde
- user: Der Benutzer der diesen Kommentar geschrieben hat
- content: Der Text-Inhalt des Kommentars

Um gleich die Daten etwas aufzubereiten werden Regular Expressions verwendet

In [15]:
import regex as re
all_comments = []
#iterating through the games
for game in reddit_threads:
    #creating the new dictionary
    comment = {}
    #iterating through the threads of a game
    for thread in reddit_threads[game]:
        response = gen_scrapy_response(thread)
        title = response.css("a.title::text").extract_first()
        comments = response.css("div.comment")
        for comment in comments:
            user = comment.css("div.entry > p.tagline > a.author::text").extract_first()
            text = " ".join(comment.css("div.usertext-body > div.md > *::text").extract())
            text = re.sub('\s+',' ',text)
            all_comments.append({"game":game,"thread":title,"user":user,"content":text})

In [17]:
print(len(all_comments))

4787


In [25]:
import re
link = "https://www.reddit.com/r/DotA2/?count=10&after=t3_8f1w5j"
x = re.findall(r'(https://www.reddit.com/r/\w+/)',link)[0]
print(x)

https://www.reddit.com/r/DotA2/


## Datenbank

Für die weitere Analyse werden die Daten in einer relationalen SQL-Lite Datenbank gespeichert

In [12]:
from datetime import datetime

datetime_object = datetime.strptime('2018-01-17T22:50:01+00:00', '%Y-%m-%dT%H:%M:%S+00:00')
print(datetime_object)

2018-01-17 22:50:01


In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams["figure.dpi"] = 100

def bar_plot(list_of_tuples, columns=('Wort', 'Anzahl'), title=None): 

    labels = [t[0] for t in list_of_tuples]
    values = [t[1] for t in list_of_tuples]
    dummy_pos = np.arange(len(labels))
    
    # Erstellung des Balkendiagramms
    fig=plt.figure(figsize=(18, 10))
    plt.bar(dummy_pos, values)
    plt.xticks(dummy_pos, labels,  rotation="vertical", fontsize=16)
    plt.yticks(fontsize=16)
    plt.xlabel(columns[0], fontsize=20)
    plt.ylabel(columns[1], fontsize=20)
    if title: 
        plt.title(title, fontsize=20)