# 1. Digitale Daten in den Sozialwissenschaften

Digitale Daten sind Daten, die bei digitalen Prozessen (am Computer, Tablet, Handy etc.) entstehen. Akteur:innen erzeugen durch ihr Handeln im Internet (Käufe und Verkäufe, Suchanfragen, E-Mail-Kommunikation, Posts, Likes, Telenfonate, Videoaufrufe etc.) digitale Spuren (*engl. digital trace*) und diese können für die Beantwortung wissenschaftlicher Fragestellungen genutzt werden.<br>
Aus der Sicht der Sozialwissenschaften handelt es sich bei digitalen Daten meist um sog. *found data*, also Daten, die unabhängig von den Forschungsbemühungen von Wissenschaftler:innen in außerwissenschaftlichen Kontexten (in Unternehmen, Behörden, Nonprofit-Organisationen) entstehen und entsprechend "einfach da" sind. Diese Daten werden üblicherweise nicht unter den kontrollierten Bedingungen einer wissenschaftlichen Erhebung erzeugt (mit Bezug auf *wissenschaftliche Experimente* und *wissenschaftliche Umfragen* spricht man hier deshalb auch manchmal von *designed data*).<br>
Das bedeutet auch, dass Wissenschaftler:innen üblicherweise keinen Einfluss darauf haben, *welche* Daten genau erhoben werden. Darüber hinaus ist häufig die Art und Weise, *wie* die Daten genau enstehen, nicht hinreichend bekannt. Diese Punkte haben einen Einfluss auf die Aussagekraft der mit solchen Daten gewonnen Erkenntnisse.<br>
Trotz dieser Einschränkungen, die bei der Interpretation der Ergebnisse berücksichtigt werden müssen, haben digitale Daten Eigenschaften, die sie zur einer wertvollen Informationsquelle für die Sozialwissenschaften machen. Da digitale Daten häufig in sehr großen Mengen anfallen, wird in diesem Zusammenhang auch das Schlagwort *Big Data* verwendet.

## 1.1 Das Sammeln digitaler Daten

Das Internet enthält zahlreiche wertvolle Informationen zu sozialen Phänomenen. Diese Informationen liegen in großen Mengen und in den unterschiedlichsten Datenformen vor: Texte, Fotos, Videos, Audiodateien usw. Diese Daten händisch (etwa mit Copy und Paste) zu sammeln, wäre sehr zeitaufwendig und extrem fehleranfällig.
Daher werden diese Daten über Skripte (selbstgeschriebene Programmdateien) gesammelt und dann in ein Datenformat (Datenmatrix) überführt, mit dem Sozialwissenschaftler:innen gewohnt sind, zu arbeiten.<br>
Grundsätzlich sind hier zwei Vorgehensweisen voneinander zu unterscheiden:
+ Daten über sog. APIs aus dem Internet sammeln und speichern
+ Daten mittels Webscraping aus dem Internet sammeln und speichern.

### 1.1.1 Daten über APIs aus dem Internet sammeln und speichern

Eine [API](https://de.wikipedia.org/wiki/Programmierschnittstelle) (Application Programming Interface) ist eine Programmierschnittstelle eines Webservers. APIs dienen dem Austausch von Daten zwischen einem Webserver und einer Anwendung (Maschine-zu-Maschine-Kommunikation).
Der Zugriff auf eine API ist vergleichbar mit dem Aufruf einer Webseite. Der Unterschied ist folgender: wenn man eine Webseite aufruft, werden die benötigten Daten zur Darstellung der Webseite vom Webserver an den Webbrowser gesendet. Im Vordergrund steht hier die menschliche Informationsverarbeitung. Webseiten sollen ansprechend gestaltet sein.<br>
Über die API gibt der Webserver die Daten demgegenüber so aus, dass diese für die maschinelle Verarbeitung optimiert sind. Daten, die von Webservern über APIs zur Verfügung gestellt werden, liegen meist im [JSON](https://de.wikipedia.org/wiki/JavaScript_Object_Notation)-Format vor. Dieses Datenformat hat in den letzten Jahren für den Austausch von Daten über das Internet eine weite Verbreitung erfahren.<br>
Typische Schritte beim Sammeln von Daten über APIs sind:
+ API-Dokumenation lesen: welche Daten werden in welchem Format vom Webseitenbetreiber geteilt
+ Anfordern eines Entwicklerkontos bzw. eines Zugangsschlüssels, um auf die API zugreifen zu können
+ gesuchte Informationen über ein Skript anfordern (API call)
+ erhaltene Informationen einlesen
+ Daten in einem Format speichern, das die gewünschte Weiterverarbeitung (z.B. statistische Analysen) ermöglicht

Nicht immer sind APIs vorhanden, über die man Daten von Webservern beziehen kann. Aber auch wenn APIs vorhanden sind, sind nicht alle auf den Webseiten verfügbaren Informationen über APIs abrufbar oder nicht in der Form abrufbar, die man benötigt. Dann bietet sich Webscraping an.

### 1.1.2 Daten mittels Webscraping aus dem Internet sammeln und speichern

Mit [Webscraping](https://de.wikipedia.org/wiki/Screen_Scraping) wird der Einsatz von Skripten bezeichnet, die die relevanten Daten direkt aus dem [HTML](https://de.wikipedia.org/wiki/Hypertext_Markup_Language)-Code der entsprechenden Webseiten sammeln. Alle Informationen, die über einen Webbrowser abrufbar sind, können prinzipiell auch mit Webscrapern heruntergeladen werden. Webscraping ist also vergleichbar mit dem Surfen im Internet. Nur wird das mit einem Skript und nicht mit einem Webbrowser gemacht.
Die Schritte beim Webscaping sind:
+ Webseite aufrufen und den HTML-Code der Seite herunterladen
+ gesuchte Informationen aus dem HTML-Code auslesen
+ Informationen in einem Datenformat abspeichern, mit dem die Daten weiterverarbeiten werden können.

<div class="alert alert-block alert-danger">
<b>Achtung:</b> Webscraping kann gegen die Nutzungsbedingungen einer Webseite verstoßen. So heißt es beispielsweise in den <a href='https://twitter.com/de/tos'>Geschäftsbedingungen von Twitter</a> ausdrücklich: "Das sogenannte 'Scraping' der Dienste ist ohne vorherige Genehmigung von Twitter ausdrücklich untersagt [...]". Entsprechend wichtig ist es, sich vorher auf den Webseiten zu informieren, ob es erlaubt ist, Daten auf den jeweiligen Webseiten zu sammeln.<br>
Relevant ist in diesem Zusammenhang auch die Datei <a href='https://de.wikipedia.org/wiki/Robots_Exclusion_Standard'>robots.txt</a>, die sich im Wurzelverzeichnis der meisten Domains befindet, beispielsweise: <a href='https://www.uni-hamburg.de/robots.txt'>https://www.uni-hamburg.de/robots.txt</a>. In dieser Datei ist vom Webseiten-Betreiber beschrieben, auf welche Verzeichnisse oder Dateien einer Webseite automatisiert zugregriffen werden darf.
</div>

## 1.2 Die Programmiersprache Python

Skripte, mit denen Daten aus dem Internet gesammelt werden, sind in einer Programmiersprache geschrieben. Eine sehr verbreitete und vergleichsweise einfach zu erlernende sowie kostenlose Programmiersprache ist [Python](https://www.python.org/). Python ist insbesondere im Bereich [Data Science](https://de.wikipedia.org/wiki/Data_Science) weit verbreitet. Python ist im Internet sehr gut dokumentiert. Eine Einführung in die Programmiersprache Python findet sich beispielsweise [hier](https://www.w3schools.com/python/python_intro.asp).

Ein gut strukturiertes (über die SUB elektronisch verfügbares) Einführungsbuch in die Python-Programmierung ist:
> Milliken, Connor P. (2020): *Python Projects for Beginners. A Ten-Week Bootcamp Approach to Python Programming*. New York: Apress. https://dx.doi.org/10.1007/978-1-4842-5355-7

## 1.3 Juypter Notebook als interaktive Entwicklungsumgebung für Python

Zum Programmieren benötigt man eine [integrierte Entwicklungsumgebung](https://de.wikipedia.org/wiki/Integrierte_Entwicklungsumgebung) (IDE für *integrated development environment*). Eine integrierte Entwicklungsumgebung ist eine Software, die eine Sammlung von Werkzeugen zur Verfügung stellt, welche die Entwicklung und das Testen von Programmen unterstützt (wie Code-Vervollständigung, Syntax-Highlighting, Einrückhilfen, syntaktische Fehlererkennung). Eine einfache und kostenlose Entwicklungsumgebung für Python, die sich an den Erfordernissen der wissenschaftlichen Datenanalyse orientiert, ist [Jupyter Notebook](https://jupyter.org/). Jupyter Notebook ermöglicht eine *interaktive* Python-Programmierung. Interaktiv heißt hier, dass man den Python-Code direkt in Jupyter Notebook ausführen kann (mit UMSCHALTTASTE + EINGABETASTE) und die Ergebnisse dann auch direkt in Jupyter Notebook angezeigt werden.<br>
Sämtlicher Python-Code zu dieser Lehrveranstaltung und die dazugehörigen Erläuterungen werden von mir über Jupyter Notebook-Dateien zur Verfügung gestellt.