# Einführung in Python für die Computational Social Science (CSS)
## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität  

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Freitag, 11.04.2025

# Inhalt

1. Vorstellung
2. Kursplan
3. Einführung
4. Grundlegene Befehle der Kommandozeile
5. git
6. Virtuelle anaconda Umgebungen
7. Markdown
8. Organisatorisches
9. Literatur/Zusätzliches Material

# Vorstellung

## Jonas Volle
- Wissenschaftlicher Mitarbeiter am Lehrstuhl von Prof. Andreas Schmitz im DFG-Projekt "Netzwerke, Paradigmen und Karrieren im akademischen Feld: Soziologie in Deutschland und den Vereinigten Staaten"
- Forschungsinteressen: Verknüpfung soziologischer Perspektiven und Methodologien mit Ansätzen der CSS (Textmining, Netzwerkanalysen, maschinelles Lernen) im Bereich der Wissenschaftssoziologie.

## Teilnehmer:innen

- Name?
- Ihr Hintergrund? (z.B. Studienfach, Semester)
- Welche Erwartungen haben Sie an den Kurs? (außer "Ich möchte Python lernen")
- Was bringen Sie mit? (Vorerfahrungen etc.)

# Lernziele
- Installation einer funktionierenden Rechenumgebung für Anwendungen der CSS
- Vermittlung von Grundgentnissen in Python
- Vermittlung von Grundkenntnissen der Textanalyse
- Befähigung zum eigenständigen Lernen von weiterführenden Anwendungen

# Kursplan

| Datum  | Uhrzeit |Thema   | Ort| 
|---|---|---|---|
|11.04.| 09:15 - 10:45 Uhr| Einführung, Einrichten der Rechenumgebung, conda environments, package installation|Online|
|24.04.| 15:15 - 18:45 Uhr|Python Grundlagen|G40-130|
|25.04.| 09:15 - 18:45 Uhr|Pandas|G40-130|
|26.04.| 09:15 - 14:45 Uhr|APIs|G40-130|
|15.05.| 15:15 - 20:45 Uhr|Textanalysen|G40-130|

# Computational Social Science (CSS)
- Interdiziplinäres Feld in der Entstehung
- Verschiedenste Definitionen
- Im Allgemeinen: Computergestützten Ansätzen in den Sozialwissenschaften (Modellierung, Simulierung und Analyse sozialer Phänomene)
- Analyse bspw. sozialer Netzwerke, sozialer Medieninhalte und traditioneller Medieninhalte
- Das Feld profitiert von der zunehmende Verfügbarkeit umfangreicher digitaler Daten (z.B. sozialer Medien, Log-Daten) und der zunehmende Computerleistung

- Daten werden bereits in anderen Disziplinen (Physik, Biologie, Informatik), von Firmen (Google, Facebook, Twitter) oder Staaten gesammelt und ausgewertet
- Daten und Methoden erhalten nur langsam Einzug in die Sozialwissenschaften
- Die grundlegenden Fragen, die sich aus diesen Daten ergeben, sind überwiegend sozialer Natur
- Sozialwissenschaftliche Erhebungs- und Analysetechniken anpassen

# Computing infrastructure
- In der CSS kommen computergestütze Methoden zur Anwendung in der 
    - Datenerhebung, 
    - Datenverarbeitung 
    - Datenanalyse
- Computergestütze Methoden werden in Programmiersprachen implementiert
- Verschiedene Sprachen können kombiniert werden
- Wenn möglich nur **eine** Sprache verwenden

# Welche Programmiersprache?
<img src='images/r.png' style='height: 100px; float: right; margin-left: 10px'>  
<img src='images/python.png' style='height: 100px; float: right; margin-left: 10px'> 

- Die meisten Methoden sind in *R* oder *Python* implementiert
- Große user communities (Irgendwer hat dein Problem schon gelöst!)
- Kostenlos und open source
- Beide Sprachen sind modular (d.h. es gibt Pakete an Funktionen für bestimmte Anwendungen)
- R eher für statistische Anwendungen

- Python hat als Allzwecksprache eine interdisziplinärere und breitere Nutzer:innenbasis
- Stärken von Python in Datenerhebung und Machinelearning
- **Entscheidende Frage**: Welche Sprache benutzt deine Community?

# Reproduzierbarkeit
- Die Verwendung einer Programmiersprachen macht Forschung reproduzierbar
- Forschungsarbeit können unabhängig der Forscher:in wiederholt mit identischen Ergebnissen durchgeführt werden
- Damit Forschung reproduzierbar ist müssen Daten und Code dokumentiert werden

# Anaconda
<img src='images/anaconda.png' style='height: 50px; float: right; margin-left: 10px'>  

- Beliebtes Softwarepaket für R und Python
- Grundlegende Funktionalität: **Paketverwaltung**
- Stellt grundlegende Pakete bereit und bietet die kontrollierte Möglichkeit weitere Pakete hinzuzufügen

# Jupyter Notebook
- Interaktives Notebook zur Entwicklung und Dokumentation von Code
- Wichtig für die Dokumentation und Reproduzierbarkeit der Forschung
- Jupyter Notebooks enthalten Inhaltszeilen, die entweder Code oder Text (Markdown) sein können
- Textzeilen dienen dazu den Code zu erklären und zu dokumentieren

... auch diese Präsentation ist ein Jupyter Notebook

In [1]:
# das hier ist z.B. eine Codezeile
5+20

25

# anaconda virtuell environments

- anaconda ermöglicht es uns virtuelle Python Umgebungen zu erstellen in denen wir bestimmt Python Pakete für einen Zweck (z.B. Webscraping, Machine Learning, etc.) installieren können.
- Das ist zum Beispiel dann wichtig, wenn einzelne Pakete auf bestimmte Versionen anderer Pakete oder sogar bestimmte Python Versionen angewiesen sind.
- Ein weiterer großer Vorteil: Wenn wir eine virtuelle Umgebung zerschießen, können wir einfach eine neue erstellen ;-)


| Befehl | Kommentar |
|----|----|
|`conda --version`| Überprüfen der conda Installation |
|`conda env list` | Anzeigen aller virtuellen Umgebungen |
|`conda create --name python_course python=3.9` | Erstellen einer neuen virtuellen Umgebung mit dem Namen "python_course" mit der Python Version 3.9 |
|`conda env list` | Anzeigen aller virtuellen Umgebungen. Dort müsste nun auch die neue virtuelle Umgebung aufgelistet sein |
|`conda activate python_course`| Aktivierung der virtuellen Umgebung "python course" |
|`python --version`| Überprüfung der Python Version |
|`conda activate base`| Aktivierung der base Umgebung |



# Installation von Python Paketen

| Befehl | Kommentar |
|----|----|
| `conda activate base` | Aktivieren der base Umgebung |
|`conda install -c conda-forge jupyterlab`| Installation des Pakets "jupyterlab" aus dem "Paket-Store" conda-forge. |
| `conda install -c conda-forge nb_conda_kernels` | Installation des Pakets nb_conda_kernels. Dieses Paket ist dafür zuständig, dass jupyter unsere erstellten Umgebungen erkennt.|
| `conda activate python_course` | Aktivierung der virtuellen Umgebung python_course |
| `conda install -c conda-forge ipykernel`| Installation des Pakets ipykernel in der erstellten Umgebung python_course. Dieses Paket ist dafür zuständig, dass jupyter diese Umgebung findet |
|`conda install -c conda-forge pandas numpy matplotlib`| Installation weiterer Pakete |

# Öffnen eines Jupyter Notebooks

| Befehl | Kommentar |
|----|----|
| `conda activate base` | Aktivieren der base Umgebung |
| `jupyter lab`| Öffnen eines jupyter labs |

Im Jupyter Notebook müsste nun die neu erstellte Umgebung `python_course`ausgewählt werden können.

# Auswahl des richtigen Anaconda environments in jupyter lab

<img src="images/kernel_1.jpg">

<img src="images/kernel_2.png">

# Formatierung von jupyter Notebooks mit Markdown

# Header 1
## Header 2
### Header 3
#### Header 4
##### Header 5
###### Header 6

**This is bold text**  
__This is bold text__

*This is italic text*  
_This is italic text_

**Aufgabe**:

- Formatieren Sie das Notebook *notebook_unformatiert.ipynb*
- Dieser Artikel kann Sie dabei unterstützen: [Link](https://medium.com/analytics-vidhya/the-ultimate-markdown-guide-for-jupyter-notebook-d5e5abf728fd)

# Prüfungsleistung

## Option 1
- Leistungsumfang: Abgabe eines selbst verfassten Jupyter Notebooks in dem Sie die Kursinhalte an einem selbst gewählten Datensatz/API anwenden und kommentieren.
- Leistungspunkte: 4CP
- Frist (zwingend!): 22.06.2025

# Literatur und zusätzliches Material

### Literatur

Heiberger, Raphael H., and Jan R. Riebling. 2016. ‘Installing Computational Social Science: Facing the Challenges of New Information and Communication Technologies in Social Science’. Methodological Innovations. doi: [10.1177/2059799115622763](https://journals.sagepub.com/doi/10.1177/2059799115622763).

Lazer, David, et al. 2009. ‘Computational Social Science’. Science 323(5915):721–23. doi: [10.1126/science.1167742](https://www.science.org/doi/10.1126/science.1167742).

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.

Van Atteveldt, W., Trilling, D., & Calderón, C. A. (2022). Computational Analysis of Communication. Wiley Blackwell. ([Link](https://cssbook.net/))

Vanderplas, Jacob T. 2016. Python Data Science Handbook: Essential Tools for Working with Data. First edition. Sebastopol, CA: O’Reilly Media, Inc. (Komplettes Buch in Form von Jupyter Notebooks [hier](https://jakevdp.github.io/PythonDataScienceHandbook/))

### Tutorials

Lietz, Haiko et al. 2023. Introduction to Computational Social Science methods with Python. [GitHub-Link](https://github.com/gesiscss/css_methods_python)

### datacamp

- Interaktive Plattform mit online Programmierkursen ([Link](https://app.datacamp.com/))
- DataCamp Classrooms für diesen Kurs verfügbar (6 Monate kostenloser Zugriff auf alle Kurse)
- Zusätzliches Angebot und keine Voraussetzung für das Bestehen dieses Kurses