# Einführung in Python für die Computational Social Science (CSS)
## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität  

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Freitag, 14.04.2023

# Inhalt

1. Vorstellung
2. Kursplan
3. Einführung
4. Organisatorisches
5. Literatur/Zusätzliches Material

# Vorstellung

## Jonas Volle
- Wissenschaftlicher Mitarbeiter am Lehrstuhl von Prof. Andreas Schmitz im DFG-Projekt "Netzwerke, Paradigmen und Karrieren im akademischen Feld: Soziologie in Deutschland und den Vereinigten Staaten"
- Forschungsinteressen: Verknüpfung soziologischer Perspektiven und Methodologien mit Ansätzen der CSS (Textmining, Netzwerkanalysen, maschinelles Lernen) im Bereich der Wissenschaftssoziologie.

## Teilnehmer:innen

- Name?
- Ihr Hintergrund? (z.B. Studienfach, Semester)
- Welche Erwartungen haben Sie an den Kurs? (außer "Ich möchte Python lernen")
- Was bringen Sie mit? (Vorerfahrungen etc.)

# Kursplan

## Einführung (14.04.2023)
- Vorstellung
- Warum Python für die Computional Social Science?
- Einrichtung der Rechenumgebung
    - Installation von anaconda
    - Installation von git
- Wo finde ich die Kursmaterialen?
- Organisatorisches
- Literatur/Zusätzliches Material

## 1. Block (16./17.06.2023)
**Termin**: 16. + 17.06.2023 jeweils 10:15 Uhr bis 17:45 Uhr  
**Raum**: G40B-229  

### Tag 1: Grundlagen
- Grundlegende Datentypen und Ausdrücke
- Variablen und Zuweisungen
- Objekte und Methoden
- Vergleiche und Loops
- Datenstrukturen (Lists, Tuples, Dictionaries)
- Funktionen

### Tag 2: Datenmanagement mit Pandas
- Datenstruktur
- Import und Export verschiedener Dateiformate (csv, excel, etc.)
- pandas DataFrame
- Spalten (columns) auswählen
- Zeilen (rows) filtern
- Aggregierung und Gruppierung
- Fehlende Daten
- Merging


## 2. Block (07./08.07.2023)
**Termin**: 07. + 08.07.2023 jeweils 10:15 Uhr bis 17:45 Uhr  
**Raum**: G40B-229 (ggf. online über Zoom)

### Tag 3:
*Vormittag*: Interaktion mit Application Programming Interfaces (API)  

*Nachmittag*: Webscraping statischer Webseiten mit BeautifulSoup

### Tag 4:
*Vormittag*: Deskriptive Statistiken 

*Nachmittag*: Grafiken plotten mit matplotlib

# Computational Social Science (CSS)
- Interdiziplinäres Feld in der Entstehung
- Verschiedenste Definitionen
- Im Allgemeinen: Computergestützten Ansätzen in den Sozialwissenschaften (Modellierung, Simulierung und Analyse sozialer Phänomene)
- Analyse bspw. sozialer Netzwerke, sozialer Medieninhalte und traditioneller Medieninhalte
- Das Feld profitiert von der zunehmende Verfügbarkeit umfangreicher digitaler Daten (z.B. sozialer Medien, Log-Daten) und der zunehmende Computerleistung

- Daten werden bereits in anderen Disziplinen (Physik, Biologie, Informatik), von Firmen (Google, Facebook, Twitter) oder Staaten gesammelt und ausgewertet
- Daten und Methoden erhalten nur langsam Einzug in die Sozialwissenschaften
- Die grundlegenden Fragen, die sich aus diesen Daten ergeben, sind überwiegend sozialer Natur
- Sozialwissenschaftliche Erhebungs- und Analysetechniken anpassen

# Computing infrastructure
- In der CSS kommen computergestütze Methoden zur Anwendung in der 
    - Datenerhebung, 
    - Datenverarbeitung 
    - Datenanalyse
- Computergestütze Methoden werden in Programmiersprachen implementiert
- Verschiedene Sprachen können kombiniert werden
- Wenn möglich nur **eine** Sprache verwenden

# Welche Programmiersprache?
<img src='images/r.png' style='height: 100px; float: right; margin-left: 10px'>  
<img src='images/python.png' style='height: 100px; float: right; margin-left: 10px'> 

- Die meisten Methoden sind in *R* oder *Python* implementiert
- Große user communities (Irgendwer hat dein Problem schon gelöst!)
- Kostenlos und open source
- Beide Sprachen sind modular (d.h. es gibt Pakete an Funktionen für bestimmte Anwendungen)
- R eher für statistische Anwendungen

- Python hat als Allzwecksprache eine interdisziplinärere und breitere Nutzer:innenbasis
- Stärken von Python in Datenerhebung und Machinelearning
- **Entscheidende Frage**: Welche Sprache benutzt deine Community?

# Reproduzierbarkeit
- Die Verwendung einer Programmiersprachen macht Forschung reproduzierbar
- Forschungsarbeit können unabhängig der Forscher:in wiederholt mit identischen Ergebnissen durchgeführt werden
- Damit Forschung reproduzierbar ist müssen Daten und Code dokumentiert werden

# Anaconda
<img src='images/anaconda.png' style='height: 50px; float: right; margin-left: 10px'>  

- Beliebtes Softwarepaket für R und Python
- Grundlegende Funktionalität: **Paketverwaltung**
- Stellt grundlegende Pakete bereit und bietet die kontrollierte Möglichkeit weitere Pakete hinzuzufügen

## <a id='anaconda_installation'></a>Anaconda Installation

1. Laden Sie die Installationsdatei für Ihr Betriebssystem von dieser [Webseite](https://www.anaconda.com/products/distribution#Downloads) herunter
2. Installieren Sie die Distribution, indem Sie die heruntergeladene Datei ausführen. Verwenden Sie für die Installation Administrator:innenrechte. Unter Windows können Sie dies tun, indem Sie mit der rechten Maustaste auf die heruntergeladene Datei klicken und auf "Als Administrator ausführen" klicken.
3. Bei Installationsproblemen hilft die Anaconda [Dokumentation](https://docs.continuum.io/anaconda/install/) weiter


## Anaconda Navigator
<img src='images/anaconda_navigator.png' style='width:80%'> 

# <a id='anaconda_env'></a>Anaconda Environments
<img src='images/anaconda_environment.png' style='width:80%'> 

# <a id='anaconda_package'></a>Installation von Paketen
<img src='images/anaconda_package.png' style='width:80%'> 

### Bitte installieren Sie bis zur nächsten Sitzung die folgenden Pakete:
- jupyter
- pandas
- numpy
- matplotlib

# Jupyter Notebook
- Interaktives Notebook zur Entwicklung und Dokumentation von Code
- Wichtig für die Dokumentation und Reproduzierbarkeit der Forschung
- Jupyter Notebooks enthalten Inhaltszeilen, die entweder Code oder Text (Markdown) sein können
- Textzeilen dienen dazu den Code zu erklären und zu dokumentieren

... auch diese Präsentation ist ein Jupyter Notebook

In [23]:
# das hier ist z.B. eine Codezeile
5+20

25

## <a id='anaconda_env_open'></a>Jupyter Notebook starten
**Hinweis**: Bevor Sie ein Jupyter Notebook starten können, müssen Sie das Paket "jupyter" in Ihrem Environment installiert haben.
<img src='images/jupyter_notebook_start.png' style='width:80%'> 

# git
<img src='images/git.png' style='height: 100px; float: right; margin-left: 10px'>  

- Versionskontrollsystem
- git bietet die Möglichkeit eine Sammlung an Jupyter Notebooks (oder anderem Code) in einem **Repository** auf einem Git-Server zu speichern
- Versionskontrolle: Beim Hochladen der Dateien werden frühere Versionen nicht überschrieben (So kann immer auch auf alte Versionen zugegriffen werden)

 


## git
- git wird in der Computerwissenschaft und in der IT-industrie häufig verwendet um Code gemeinsam zu entwickeln
- Mehrere Anbieter von git-Servern (GitHub, gitlab, etc.)
- Materialen des Kurses sind hier zu finden: https://github.com/jonas-volle/css_python_course

## <a id='git_install'></a> Installation von git
- Die [Dokumentation](https://git-scm.com/book/en/v2/Getting-Started-Installing-Git) hält Informationen zur Installation bereit 
- Installieren Sie bis zur nächsten Sitzung die entsprechende Version für Ihr Betriebssystem

#  <a id='git_clone'></a> Download der Kursmaterialien

0. Erstellen Sie einen Ordner in dem Sie zukünftige Python Projekte ablegen möchten
1. Öffnen Sie das Programm "Git GUI"
2. Klicken Sie auf "Clone Existing Repository"
3. Geben Sie als "Source Location" folgende url ein: https://github.com/jonas-volle/css_python_course
4. Geben Sie als "Target Location" den Dateipfad des Ordners ihrer Python-Projekte an und ergänzen Sie den Pfad mit einem Ordnernamen für die Kursmaterialien zb. "/python_intro" (Diesen Ordner dürfen Sie vorher noch nicht erstellt haben!)
5. Lassen Sie die "Clone Type" Einstellungen so wie sie sind
6. Klicken Sie auf "Clone"

<img src='images/git_clone.png' style='width:80%'> 

## <a id='test_notebook'></a>Test Notebook
<img src='images/test_notebook.png' style='width:80%'>

<div class='alert alert-block alert-success'>
    <b>To-DO</b>: Öffnen Sie bitte bis zur nächsten Sitzung das Test Notebook und überprüfen Sie, ob Sie alle Pakete richtig installiert haben.
</div>

## Bei Installationsproblemen:
1. Die jeweiligen Dokumentationen lesen
2. googlen und in Foren suchen (z.B. [stackoverflow](https://stackoverflow.com/))
3. per Mail für Sprechstunde bei mir anmelden

# Organisatorisches

- Kleine Prüfungsleistung: Abgabe eines kommentieten Jupyter Notebooks in dem Sie die Kursinhalte anwenden
- Wenn Sie ein großes Interesse an der Thematik haben und sich selbstständig weiter in die Thematik einarbeiten möchten ist auch eine große Prüfungsleistung in Form einer Hausarbeit möglich (Thema vorher mit mir absprechen!)
- Fragen?

# Literatur und zusätzliches Material

### Literatur

Heiberger, Raphael H., and Jan R. Riebling. 2016. ‘Installing Computational Social Science: Facing the Challenges of New Information and Communication Technologies in Social Science’. Methodological Innovations. doi: [10.1177/2059799115622763](https://journals.sagepub.com/doi/10.1177/2059799115622763).

Lazer, David, et al. 2009. ‘Computational Social Science’. Science 323(5915):721–23. doi: [10.1126/science.1167742](https://www.science.org/doi/10.1126/science.1167742).

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.

Van Atteveldt, W., Trilling, D., & Calderón, C. A. (2022). Computational Analysis of Communication. Wiley Blackwell. ([Link](https://cssbook.net/))

Vanderplas, Jacob T. 2016. Python Data Science Handbook: Essential Tools for Working with Data. First edition. Sebastopol, CA: O’Reilly Media, Inc. (Komplettes Buch in Form von Jupyter Notebooks [hier](https://jakevdp.github.io/PythonDataScienceHandbook/))

### Tutorials

Lietz, Haiko et al. 2023. Introduction to Computational Social Science methods with Python. [GitHub-Link](https://github.com/gesiscss/css_methods_python)

### datacamp

- Interaktive Plattform mit online Programmierkursen ([Link](https://app.datacamp.com/))
- DataCamp Classrooms für diesen Kurs verfügbar (6 Monate kostenloser Zugriff auf alle Kurse)
- Zusätzliches Angebot und keine Voraussetzung für das Bestehen dieses Kurses

# To-dos bis zur nächsten Sitzung

1. Installieren Sie bitte anaconda
2. Erstellen Sie ein anaconda Environment für diesen Kurs (z.B. mit dem Namen "python_intro")
3. Installieren Sie in diesem Environment die folgenden Pakete: jupyter, pandas, numpy, matplotlib
4. Installieren Sie "git Gui"
5. Clonen Sie mit dem Programm "git Gui" das [github-Repository](https://github.com/jonas-volle/css_python_course) dieses Kurses

6. Öffnen Sie mit dem Anaconda Navigator aus dem Environment für diesen Kurs ein Jupyter Notebook
7. Öffnen Sie das Jupyter Notebook "test_notebook.ipynb" und überprüfen Sie ob Sie alle Pakete richtig installiert haben

<div class='alert alert-block alert-warning'>
<b>Bitte beginnen Sie mit der Installation nicht erst kurz vor der nächsten Sitzung!</b> <br>Es können immer Probleme auftreten. Nur mit einem funktionierenden Setup können Sie am Kurs teilnehmen!
</div>

<div class='alert alert-block alert-success'>
Wenn Sie Installationsprobleme haben und nach der Lektüre der jeweiligen Dokumentationen nicht weiter wissen, kontaktieren Sie bitte mich. Wir finden dann gemeinsam eine Lösung.
</div>

## Haben Sie noch Fragen?