# Sammeln der Daten der Spiele-Tests von Gamestar

In dieser Datei werden die Schritte beschrieben, mit denen die Daten für die Computerspiele-Tests von [Gamestar](http://www.gamestar.de/) gesammelt werden. Die Auswertung der Daten finden Sie in der Datei Gamestar_Explore_Tests.ipynb.
* Zuerst werden alle Links zu den Spieletests auf dieser [Seite](http://www.gamestar.de/index.cfm?pid=646&p=1) gesammelt
* Als zweiter Schritt werden die einzelnen Wertungen der Spiele aufgerufen und zusätzliche Daten wie Publisher und Kategorie hinzugefügt

In [1]:
# Import aller benötigter Bibliotheken
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import pyprind
import csv
import re

In [2]:
# Anzahl der aufzurufenden Seiten, um alle Links zu den Spieletests abzurufen
länge = 145

# Variable zum Sammeln der Daten
tests = []
# Fortschrittsbalken zur Überwachung des Programmes zur Laufzeit
pbar = pyprind.ProgBar(länge-1)
# Iterieren über jede der Seiten mit den Links zu den Spieletests
for i in range(1, länge):
    # URL festlegen, html-Code runterladen und html-Code zum Untersuchen aufbereiten
    url = 'http://www.gamestar.de/index.cfm?pid=646&p='+str(i)
    html = urlopen(url)
    bs = BeautifulSoup(html, 'lxml')
    try:
        # Heraussuchen aller verlinkten Spieletests auf der Seite
        games = bs.findAll('div', {'class':'teaserImage belazy'})
        # Iterieren über jeden der gefundenen Spieletests auf der Seite
        for elem in games:
            try:
                # Abspeichern der Wertung des Spieles
                wertung = elem.find('div').find('a', {'class':''}).get_text()
            except:
                # Sollte keine Wertung vorhanden sein, leer lassen
                wertung = ''
            # Abspeichern des Spielenames
            name = elem.nextSibling.nextSibling.find('h3').get_text().rsplit(' ', 2)[0]
            # Abspeichern des Links, unter dem die Wertung des Spieles genauer aufgeschlüsselt ist
            link = 'http://www.gamestar.de'+elem.find('a', {'class':'linkProductM'})['href']
            try:
                # Abspeichern des Release-Datums des Spieles
                release = elem.nextSibling.nextSibling.find('div', {'class':'genreReleaseDate'}).get_text().split('\n')[2]
            except:
                # Sollte kein Release-Datum vorhanden sein, ler lassen
                release = ''
            # Die gesammelten Daten zusammen abspeichern
            tests.append([wertung, name, release, link])
    except:pass
    pbar.update()

0% [##############################] 100% | ETA: 00:00:00
Total time elapsed: 00:07:55


Zu diesem Zeitpunkt im Programm liegen alle Spieletests von [Gamestar](http://www.gamestar.de) mit ihrer Wertung, ihrem Namen, ihrem Release-Datum und einem Link für die aufgeschlüsselte Wertung vor

In [3]:
# Laden der Daten in einen DataFrame für eine bessere Handhabung
df = pd.DataFrame(tests, columns=['Wertung', 'Name', 'Release', 'Link'])

# Dictionary, um die Quartale für die Spiele zu ergänzen
quartale = {'Januar':1, 'Februar':1, 'März':1, 'April':2, 'Mai':2, 'Juni':2, 'Juli':3, 'August':3, 'September':3, 'Oktober':4, 'November':4, 'Dezember':4 }

release_date = []
# Jedes Release-Datum wird aufgespalten in den Tag, Monat, Jahr und das Quartal, in dem es veröffentlicht wurde
for elem in df['Release']:
    try:
        # Berechnen des Tages
        day = re.search('([0-9]{2})\.', elem).group(1)
    except:
        day = ''
    try:
        # Berechnen des Monats
        month = re.search('[^\W\d_]+', elem).group(0)
        quartal = quartale[month]
    except:
        month = ''
        try:
            # Berechnen des Quartals
            quartal = re.search('([0-9])\.', elem).group(1)
        except:
            quartal = ''
    try:
        # Berechnen des Jahres
        year = re.search('[0-9]+$', elem).group(0)
    except:
        year = ''
    release_date.append([day, month, year, quartal])
    
# Hinzufügen der neu berechneten Daten zu den schon gesammelten
df2 = pd.DataFrame(release_date, columns=['Tag', 'Monat', 'Jahr', 'Quartal'])
game = pd.concat([df, df2], axis=1).drop('Release', axis=1)
game[['Wertung', 'Tag', 'Jahr', 'Quartal']] = game[['Wertung', 'Tag', 'Jahr', 'Quartal']].apply(pd.to_numeric)

# Sicherheitskopie der Daten als csv-Datei
game.to_csv('build/Gamestar_Test_Links.csv', index=False, encoding='utf-8')

In [2]:
# Laden der Sicherheitskopie
game = pd.read_csv('build/Gamestar_Test_Links.csv')
print('Es liegen momentan {} Links zu Spieletests vor.'.format(game.shape[0]))

Es liegen momentan 1420 Links zu Spieletests vor.


In diesem Abschnitt werden die abgespeicherten Links aufgerufen und zu jedem der Spieletests zusätzliche Informationen (Kategorie, Publisher) hinzugefügt.

In [7]:
# Initiieren einer Datei mit den zusätzlichen Testdaten
with open('build/Gamestar_Test_Data.csv', 'w', encoding='utf-8') as csvFile:
    writer = csv.writer(csvFile)
    writer.writerow(['Plattform', 'Kategorie', 'Publisher'])

artikel2 = []
pbar = pyprind.ProgBar(len(game['Link']))
# Iterieren über jeden der gesammelten Spieletest-Links
for link in game['Link']:
    try:
        # Öffnen des Links
        html = urlopen(link)
        bs = BeautifulSoup(html, 'lxml')
        header = bs.find('div', {'class':'productHeadTitle'}).get_text()
    except:pass
    try:
        # Abspeichern der getesteten Plattform
        plattform = re.search('- (.+)', header).group(1)
        if '-' in plattform:
            plattform = plattform.rsplit('- ')[-1]
    except:
        plattform = ''
    try:
        # Abspeichern der Spiele-Kategorie
        kategorie = re.search('.\\n(.*) \\xa0', header).group(1)
    except:
        kategorie = ''
    try:
        # Abspeichern des Publishers
        publisher = re.search('Publisher: (.*) \\n', header).group(1)
        if publisher == '-':
            publisher = ''
    except:
        publisher = ''
    
    # Zusammenfügen der gesammelten Daten
    artikel2.append([plattform, kategorie, publisher])
    # Abspeichern der Daten in der initiierten csv-Datei
    with open('build/Gamestar_Test_Data.csv', 'a', encoding='utf-8') as csvFile:
        writer = csv.writer(csvFile)
        writer.writerow([plattform, kategorie, publisher])
    
    pbar.update()

0% [##############################] 100% | ETA: 00:00:00
Total time elapsed: 00:41:56


In [3]:
# Laden beider csv-Dateien und zusammenfügen der Dateien für einen kompletten Datensatz
data = pd.read_csv('build/Gamestar_Test_Data.csv')
game = pd.read_csv('build/Gamestar_Test_Links.csv')
df = pd.concat([game, data], axis=1)

# Abspeichern des kompletten Datensatzes in einer csv-Datei
df.to_csv('build/Gamestar_Test_Combined.csv', index=False, encoding='utf-8')
print('Es liegen momentan Daten zu {} unterschiedlichen Spieletests vor.'.format(df.shape[0]))

Es liegen momentan Daten zu 1420 unterschiedlichen Spieletests vor.


Sollte einer der abgefragten Werte für einen Spieletest nicht vorhanden gewesen sein, so ist dies in der csv-Datei mit einem leeren Eintrag gekennzeichnet.