# Sammeln der Daten der Spiele-News von Gamestar

In dieser Datei werden die Schritte beschrieben, mit denen die Daten für die News-Artikel von [Gamestar](http://www.gamestar.de/) gesammelt werden. Die Auswertung der Daten finden Sie in der Datei Gamestar_Explore_News.ipynb.
* Gestartet wird mit dem Runterscrollen auf der [News-Artikel-Seite](http://www.gamestar.de/news/) und dem damit verbundenen dynamischen Nachladen von Informationen
* Anschließend wird der html-Code durchsucht und die Daten zu den News-Artikeln abgespeichert

In [None]:
# Import aller benötigten Libraries
import matplotlib.pyplot as plt
from selenium import webdriver
from bs4 import BeautifulSoup
import seaborn as sns
import pandas as pd
import time

In [None]:
# Webseite für die News-Artikel
url = 'http://www.gamestar.de/news/'

# Initiieren eines Firefox-Drivers und einer Zeitmessung
start = time.time()
driver = webdriver.Firefox()
driver.get(url)

clicks = 1800
wait = 1.5
# Iterieren über alle clicks
for _ in range(clicks):
    try:
        # Nachladen von weiteren News-Artikeln über das Klicken auf "Mehr Anzeigen"
        driver.find_element_by_xpath('//a[@title="Mehr anzeigen"]').click()
    except:
        pass
    time.sleep(wait)
ende = time.time()
print('Dauer für {} Klicks mit jeweils {}s Wartezeit: {}'.format(clicks, wait, ende-start))

In [None]:
# Vorbereiten des html-Codes fürs Durchsuchen
html = driver.page_source
driver.close()
bs = BeautifulSoup(html, 'lxml')

In [None]:
# Variable um die Daten zu sammeln
data = []
# Iterieren über jeden einzelnen News-Artikel auf der Seite
for elem in bs.find('span', {'class':'box-reload'}).findAll('div'):
    for div in elem.findAll('div'):
        if div.has_attr('class'):
            if div['class']==['col-xs-12', 'm-t-2', 'm-b-05']:
                # Abspeichern des Tages der Veröffentlichung
                day = div.get_text().split(' ')[-1]
            elif div['class']==['media', 'news-list', 'article-list', 'm-b-0']:
                # Abspeichern der Uhrzeit der Veröffentlichung
                time = div.find('span', {'class':'info news-info'}).get_text()
                # Abspeichern des Titles des Artikels
                text = div.find('a')['title']
                # Abspeichern der Kommentaranzahl
                comments = div.find('span', {'class':'info-small'}).get_text()
                data.append([day+' '+time, text, int(comments)])
            else:
                pass
            
# Zusammenfügen aller gesammelten Daten
df = pd.DataFrame(data, columns=['Date', 'Title', 'Comments'])
df['Date'] = pd.to_datetime(df['Date'], dayfirst=True)
df = df.set_index('Date')

def getMainTopic(x):
    return x.split(' - ')[0]

# Hinzufügen der Kurzbeschreibung des Titels
df['Topic'] = df['Title'].apply(lambda x: getMainTopic(x))
# Abspeichern der Daten als csv-Datei
df.to_csv('build/Gamestar_News.csv')