**Web Scraping und Data Mining in Python**

# Das Medium Data Problem in CSS

Jan R. Riebling, *Universität Wuppertal*

# Vorstellung des Workshops

# Ablauf

1. Vorstellung des Workshops und der Infrastruktur.
2. Einführung in Python.
3. APIs und Webscraping.
4. Fortgeschrittnere Techniken.
5. Umgang mit und Analyse von prozessgenerierten Daten.

## Kurze Demonstration

In [1]:
import urllib
import json

url = 'https://raw.githubusercontent.com/Datenschule/offenesparlament-data/master/mdb/mdb.json'
data = urllib.request.urlopen(url).read()

parsed = json.loads(data)

In [2]:
parsed[:3]

[{'id': '1261',
  'profile_url': 'https://www.abgeordnetenwatch.de/profile/barbara-woltmann',
  'first_name': 'Barbara',
  'last_name': 'Woltmann',
  'gender': 'female',
  'birth_date': '1957-01-23',
  'education': 'Verwaltungsjuristin',
  'picture': 'http://www.bundestag.de/blueprint/servlet/image/242052/Hochformat__2x3/177/265/f994edb5537fdeaa975a2075864d39e/Mn/woltmann_barbara_gross.jpg',
  'party': 'CDU',
  'election_list': 'Landesliste Niedersachsen',
  'list_won': 'false',
  'top_id': 'NULL',
  'agw_id': 'a1d9719d-00bb-4b14-a813-41d3e6a939c7',
  'education_category': 'NULL'},
 {'id': '1262',
  'profile_url': 'https://www.abgeordnetenwatch.de/profile/heinrich-zertik',
  'first_name': 'Heinrich',
  'last_name': 'Zertik',
  'gender': 'male',
  'birth_date': '1957-05-12',
  'education': 'Projektmanager Soziales',
  'picture': 'http://www.bundestag.de/blueprint/servlet/image/242056/Hochformat__2x3/177/265/7361382d9759ff5631efaa03bb2c850f/Rf/zertik_heinrich_gross.jpg',
  'party': 'CDU'

# Was ist Medium Data?

## Soziologie und Daten

* Erhebungsinstrumente und Daten als konstitutives Element der Soziologie.
* Bisherige, dominante Unterscheidung:

![](../figures/OffenVsStandard.svg)

* Neue Datenquellen stoßen eine Vielzahl disziplinärer Veränderungen an (*watershed moment* (McFarland, Lewis, und Goldberg 2016). 

## Medium vs. Big Data

* Daten als spezifische Problemstellungen.
* Big Data:
	* *Zeit*: Bereitstellung der Resultate in Echtzeit durch paralleles Rechnen.
	* *Speicherkapazität*: Verarbeitung von großen Datenmengen ($>$ Petabyte).
* Medium Data:
	* *Prozessgeneriertheit*: Daten als Resultat von Interaktionsprozessen mit, in und vermittelt durch sozio-technische Systeme.
	* *Komplexität*: Daten umfassen mehrere Beobachtungsebenen und/oder enthalten Relationen.

## Exkurs: Wie funktioniert Big Data?

* Technologie welche zwei spezifische Probleme addressiert: *Geschwindigkeit der Berechnung* und *Speicherkapazität*.
* Basierend auf Technicken des verteilten Rechnens und verteilter Datenbanken (populärer Vorreiter *map-reduce-framework* von Google). 
* Umgangssprachlich: data which “exceeds the processing capacity of conventional database systems” (Dumbill, 2013).

## Prozessgenerierte Daten

* Soziale Interaktion in ihrem Verlauf beobachtbar.
* Soziale Einbettung, z.B.:
    * Binnenkultur des STS.
    * Einfluss externer sozialer Prozesse.
* Technische Rahmenbedingungen, z.B.:
    * Möglichkeiten der Nutzung.
    * Veränderungen zwischen Versionen.
* Bedeutung für CSS:
    * Berücksichtigung im Erhebungsprozess.
    * Wissen über soziale und technische Rahmenbedingungen.

## Komplexe Daten

* Nicht als klassische Datentabelle handhabbar.
* Relationalität der Daten, z.B.:
    * Interaktionen zwischen verschiedenen Nutzern.
* Unterschiedliche Ebenen der Beobachtung, z.B.:
    * Text-, Personen- und Netzwerkdaten.
* Bedeutung für CSS:
    * Technische Infrastruktur zur Handhabung notwendig.
    * Integration unterschiedlicher methodischer Ansätze.


## Problemfälle

* "Google Flu Trends": Suchvorschläge der Suchmaschine und deren Resultate führen zu methodischem Teufelskreis (Lazer u. a. 2014).
* Politischer Diskurs auf Twitter: Misinterpretation von Aufmerksamkeit als Unterstützung politischer Positionen (Jungherr u. a. 2016).
* "Social Bots"-Forschung: Technische Artefakte werden inhaltlich interpretiert (Gallwitz und Kreil 2021). 

# Computational Social Science

## Zielsetzung

* Medium Data Probleme als Ausgangspunkt für Computational Social Science.
* Techniken und praktische Lösungen für die Erhebung, Analyse und Verwaltung komplexer und prozessgenerierter Daten.
* Bereitstellung von methodischem „shoe leather“ für die Sozialwissenschaften.

## Fachwissen

* Zentrale Bedeutung von Wissen über:
    * Algorithmik.
    * Programmiersprachen.
    * Technologien und Spezifikationen.
* Hilfswissenschaft statt spezieller Soziologie.

# Einstieg in den Workshop

## Skripte und Unterlagen

GitHub Repositorium: [https://github.com/jrriebling/WebScrapingWorkshop.git](https://github.com/jrriebling/WebScrapingWorkshop.git)

```.bash
git clone https://github.com/jrriebling/WebScrapingWorkshop.git
```

## Überprüfung der Installation

# Literatur

* Lazer, David, Ryan Kennedy, Gary King, und Alessandro Vespignani. 2014. „The parable of Google flu: traps in big data analysis“. Science 343(6176):1203–5.
* Jungherr, Andreas, Harald Schoen, Oliver Posegga, und Pascal Jürgens. 2016. „Digital Trace Data in the Study of Public Opinion An Indicator of Attention Toward Politics Rather Than Political Support“. Social Science Computer Review 35(3):0894439316631043.
* Gallwitz, Florian, und Michael Kreil. 2021. The Rise and Fall of „Social Bot“ Research. SSRN Scholarly Paper. ID 3814191. Rochester, NY: Social Science Research Network.
* McFarland, Daniel A., Kevin Lewis, und Amir Goldberg. 2016. „Sociology in the Era of Big Data: The Ascent of Forensic Social Science“. The American Sociologist 47(1):12–35. doi: 10.1007/s12108-015-9291-8.