# Einführung in Python für die Computational Social Science (CSS)
## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität  

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Freitag, 14.04.2023

# Inhalt

1. Vorstellung
2. Kursplan
3. Einführung
4. Organisatorisches
5. Literatur/Zusätzliches Material

# Vorstellung

## Jonas Volle
- Wissenschaftlicher Mitarbeiter am Lehrstuhl von Prof. Andreas Schmitz im DFG-Projekt "Netzwerke, Paradigmen und Karrieren im akademischen Feld: Soziologie in Deutschland und den Vereinigten Staaten"
- Forschungsinteressen: Verknüpfung soziologischer Perspektiven und Methodologien mit Ansätzen der CSS (Textmining, Netzwerkanalysen, maschinelles Lernen) im Bereich der Wissenschaftssoziologie.

## Teilnehmer:innen

- Name?
- Ihr Hintergrund? (z.B. Studienfach, Semester)
- Welche Erwartungen haben Sie an den Kurs? (außer "Ich möchte Python lernen")
- Was bringen Sie mit? (Vorerfahrungen etc.)

# Lernziele
- Installation einer funktionierenden Rechenumgebung für Anwendungen der CSS
- Vermittlung von Grundgentnissen in Python
- Vermittlung von Grundkenntnissen der Textanalyse
- Befähigung zum eigenständigen Lernen von weiterführenden Anwendungen

# Kursplan

| Datum  |Thema   | Ort| 
|---|---|---|
|11.04.| Einführung, Einrichten der Rechenumgebung, Terminal, Clonen der Materialien, conda environments, package installation|G40B-330| 
|25.04|Python Grundlagen|G40B-330|
|~~09.05.~~|**Veranstaltung fällt aus!** (Christi Himmelfahrt)|   |
|**16.05.**|Pandas 1|Zoom|
|~~23.05.~~|**Veranstaltung fällt aus!** (Konferenz)|   |
|06.06.|Pandas 2|G40B-330|
|20.06.|APIs|G40B-330|
|04.07.|Textanalysen|G40B-330|

# Computational Social Science (CSS)
- Interdiziplinäres Feld in der Entstehung
- Verschiedenste Definitionen
- Im Allgemeinen: Computergestützten Ansätzen in den Sozialwissenschaften (Modellierung, Simulierung und Analyse sozialer Phänomene)
- Analyse bspw. sozialer Netzwerke, sozialer Medieninhalte und traditioneller Medieninhalte
- Das Feld profitiert von der zunehmende Verfügbarkeit umfangreicher digitaler Daten (z.B. sozialer Medien, Log-Daten) und der zunehmende Computerleistung

- Daten werden bereits in anderen Disziplinen (Physik, Biologie, Informatik), von Firmen (Google, Facebook, Twitter) oder Staaten gesammelt und ausgewertet
- Daten und Methoden erhalten nur langsam Einzug in die Sozialwissenschaften
- Die grundlegenden Fragen, die sich aus diesen Daten ergeben, sind überwiegend sozialer Natur
- Sozialwissenschaftliche Erhebungs- und Analysetechniken anpassen

# Computing infrastructure
- In der CSS kommen computergestütze Methoden zur Anwendung in der 
    - Datenerhebung, 
    - Datenverarbeitung 
    - Datenanalyse
- Computergestütze Methoden werden in Programmiersprachen implementiert
- Verschiedene Sprachen können kombiniert werden
- Wenn möglich nur **eine** Sprache verwenden

# Welche Programmiersprache?
<img src='images/r.png' style='height: 100px; float: right; margin-left: 10px'>  
<img src='images/python.png' style='height: 100px; float: right; margin-left: 10px'> 

- Die meisten Methoden sind in *R* oder *Python* implementiert
- Große user communities (Irgendwer hat dein Problem schon gelöst!)
- Kostenlos und open source
- Beide Sprachen sind modular (d.h. es gibt Pakete an Funktionen für bestimmte Anwendungen)
- R eher für statistische Anwendungen

- Python hat als Allzwecksprache eine interdisziplinärere und breitere Nutzer:innenbasis
- Stärken von Python in Datenerhebung und Machinelearning
- **Entscheidende Frage**: Welche Sprache benutzt deine Community?

# Reproduzierbarkeit
- Die Verwendung einer Programmiersprachen macht Forschung reproduzierbar
- Forschungsarbeit können unabhängig der Forscher:in wiederholt mit identischen Ergebnissen durchgeführt werden
- Damit Forschung reproduzierbar ist müssen Daten und Code dokumentiert werden

# Anaconda
<img src='images/anaconda.png' style='height: 50px; float: right; margin-left: 10px'>  

- Beliebtes Softwarepaket für R und Python
- Grundlegende Funktionalität: **Paketverwaltung**
- Stellt grundlegende Pakete bereit und bietet die kontrollierte Möglichkeit weitere Pakete hinzuzufügen

# Jupyter Notebook
- Interaktives Notebook zur Entwicklung und Dokumentation von Code
- Wichtig für die Dokumentation und Reproduzierbarkeit der Forschung
- Jupyter Notebooks enthalten Inhaltszeilen, die entweder Code oder Text (Markdown) sein können
- Textzeilen dienen dazu den Code zu erklären und zu dokumentieren

... auch diese Präsentation ist ein Jupyter Notebook

In [23]:
# das hier ist z.B. eine Codezeile
5+20

25

# git
<img src='images/git.png' style='height: 100px; float: right; margin-left: 10px'>  

- Versionskontrollsystem
- git bietet die Möglichkeit eine Sammlung an Jupyter Notebooks (oder anderem Code) in einem **Repository** auf einem Git-Server zu speichern
- Versionskontrolle: Beim Hochladen der Dateien werden frühere Versionen nicht überschrieben (So kann immer auch auf alte Versionen zugegriffen werden)

## git
- git wird in der Computerwissenschaft und in der IT-industrie häufig verwendet um Code gemeinsam zu entwickeln
- Mehrere Anbieter von git-Servern (GitHub, gitlab, etc.)
- Materialen des Kurses sind hier zu finden: https://github.com/jonas-volle/css_python_24

# Basic terminal commands

[COMMAND] + [-OPTION(S)] + [ARGUMENT(S)]

In [None]:
- pwd
- cd
- ls
- mkdir



# git: Klonen der Kursmaterialien

# anaconda virtuell environments

# Prüfungsleistung

## Option 1
- Leistungsumfang: Abgabe eines selbst verfassten Jupyter Notebooks in dem Sie die Kursinhalte an einem selbst gewählten Datensatz/API anwenden und kommentieren.
- Leistungspunkte: 4CP
- Frist: 01.09.2024

## Option 2
- Leistungsumfang: Hausarbeit (ca. 3.000-3.500 Wörter) Thema unbedingt mit mir absprechen!
- Leistungspunkte: 6CP
- Frist: 15.09.2024
- Anmerkung: Beachten Sie bitte folgende Hinweise: [Link](https://www.soz.ovgu.de/isoz_media/downloads/Arbeitshinweise+f%C3%BCr+Studierende/Hinweise+zum+Anfertigen+von+Hausarbeiten.pdf) 

# Literatur und zusätzliches Material

### Literatur

Heiberger, Raphael H., and Jan R. Riebling. 2016. ‘Installing Computational Social Science: Facing the Challenges of New Information and Communication Technologies in Social Science’. Methodological Innovations. doi: [10.1177/2059799115622763](https://journals.sagepub.com/doi/10.1177/2059799115622763).

Lazer, David, et al. 2009. ‘Computational Social Science’. Science 323(5915):721–23. doi: [10.1126/science.1167742](https://www.science.org/doi/10.1126/science.1167742).

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.

Van Atteveldt, W., Trilling, D., & Calderón, C. A. (2022). Computational Analysis of Communication. Wiley Blackwell. ([Link](https://cssbook.net/))

Vanderplas, Jacob T. 2016. Python Data Science Handbook: Essential Tools for Working with Data. First edition. Sebastopol, CA: O’Reilly Media, Inc. (Komplettes Buch in Form von Jupyter Notebooks [hier](https://jakevdp.github.io/PythonDataScienceHandbook/))

### Tutorials

Lietz, Haiko et al. 2023. Introduction to Computational Social Science methods with Python. [GitHub-Link](https://github.com/gesiscss/css_methods_python)

### datacamp

- Interaktive Plattform mit online Programmierkursen ([Link](https://app.datacamp.com/))
- DataCamp Classrooms für diesen Kurs verfügbar (6 Monate kostenloser Zugriff auf alle Kurse)
- Zusätzliches Angebot und keine Voraussetzung für das Bestehen dieses Kurses