# Einführung in Python für die Computational Social Science (CSS)
## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität  

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

Freitag, 14.04.2023

# Inhalt

# Vorstellung

## Jonas Volle
- Wissenschaftlicher Mitarbeiter am Lehrstuhl von Prof. Andreas Schmitz im DFG-Projekt "Netzwerke, Paradigmen und Karrieren im akademischen Feld: Soziologie in Deutschland und den Vereinigten Staaten"
- Forschungsinteressen: Verknüpfung soziologischer Perspektiven und Methodologien mit Ansätzen der CSS (Textmining, Netzwerkanalysen, maschinelles Lernen) im Bereich der Wissenschaftssoziologie.

## Teilnehmer:innen

- Name?
- Ihr Hintergrund? (z.B. Studienfach, Semester)
- Welche Erwartungen haben Sie an den Kurs?
- Was bringen Sie mit? (Vorerfahrungen etc.)

# Kursplan

## Einführung (14.04.2023)
- Vorstellung
- Warum Python für die Computional Social Science?
- Einrichtung der Rechenumgebung
    - Installation von anaconda
    - Installation von git
- Wo finde ich die Kursmaterialen?
- Organisatorisches
- Zusätzliches Material

## 1. Block (16./17.06.2023)
**Termin**: 16. + 17.06.2023 jeweils 10:15 Uhr bis 17:45 Uhr  
**Raum**: G40B-229  

### Tag 1:
- afbv
- afv



### Tag 2:
- asv
- avfs

## 2. Block (07./08.07.2023)
**Termin**: 16. + 17.06.2023 jeweils 10:15 Uhr bis 17:45 Uhr  
**Raum**: G40B-229  

### Tag 3:
- afbv
- afv



### Tag 4:
- asv
- avfs

# Computational Social Science
- Zunehmende Verfügbarkeit umfangreicher Daten aus den sozialen Medien, ###
- Zunehmende Computerleistung ermöglicht es große Datenmengen zu sammeln und zu analysieren
- Daten werden bereits in anderen Disziplinen (Physik, Biologie, Informatik), Firmen (Google, Facebook, Twitter) oder Staaten gesammelt und ausgewertet
- Daten und Methoden erhalten nur langsam Einzug in die Sozialwissenschaften

- Die grundlegenden Fragen, die sich aus diesen Daten ergeben, sind überwiegend sozialer Natur
    - Wer ist mit wem verbunden und wer hat die einflussreichsten Positionen?
    - Welchen Einfluss hat die Struktur der jeweiligen Gesellschaft auf diese sozialen Beziehungen?
    - Was sind allgemeine Eigenschaften der menschlichen Kommunikation?
    - ...

> "computer-science students had much better methodological chops than their sociology counterparts, but the sociologists had much more interesting questions" - Duncan Watts (zitiert in Giles, 2012: 450)

- Analyse dieser Daten nicht nur den naturwissenschaftlichen Disziplinen oder profitorientierten Firmen überlassen
- Sozialwissenschaftliche Erhebungs- und Analysetechniken anpassen

# Computing infrastructure
- In der CSS kommen computergestütze Methoden zur Anwendung in der 
    - Datenerhebung, 
    - Datenverarbeitung 
    - Datenanalyse
- Computergestütze Methoden werden in Programmiersprachen implementiert
- Verschiedene Sprachen können kombiniert werden
- Wenn möglich nur **eine** Sprache verwenden

# Welche Programmiersprache?
<img src='images/r.png' style='height: 100px; float: right; margin-left: 10px'>  

<img src='images/python.png' style='height: 100px; float: right; margin-left: 10px'>  

- Die meisten Methoden sind in *R* oder *Python* implementiert
- Große user communities (Irgendwer hat dein Problem schon gelöst!)
- Kostenlos und open source
- Beide Sprachen sind modular (d.h. es gibt Pakete an Funktionen für bestimmte Anwendungen)
- R eher für statistische Anwendungen
- Python hat als Allzwecksprache eine interdisziplinärere und breitere Nutzer:innenbasis
- Stärken von Python in Datenerhebung und Machinelearning
- **Entscheidende Frage**: Welche Sprache benutzt deine Community?

# Reproduzierbarkeit
- Die Verwendung einer Programmiersprachen macht Forschung reproduzierbar
- Forschungsarbeit können unabhängig der Forscher:in wiederholt mit identischen Ergebnissen durchgeführt werden
- Damit Forschung reproduzierbar ist müssen Daten und Code dokumentiert werden

# Anaconda
<img src='images/anaconda.png' style='height: 50px; float: right; margin-left: 10px'>  

- Beliebtes Softwarepaket für R und Python
- Grundlegende Funktionalität: **Paketverwaltung**
- Stellt grundlegende Pakete bereit und bietet die kontrollierte Möglichkeit weitere Pakete hinzuzufügen

## Anaconda Navigator
<img src='images/anaconda_navigator.png' style='width:80%'> 

# Anaconda Environments
<img src='images/anaconda_environment.png' style='width:80%'> 

# Installation von Paketen
<img src='images/anaconda_package.png' style='width:80%'> 

### Bitte installieren Sie bis zur nächsten Sitzung die folgenden Pakete:
- jupyter
- pandas
- numpy
- matplotlib

# Jupyter Notebook
- Interaktives Notebook zur Entwicklung und Dokumentation von Code
- Wichtig für die Dokumentation und Reproduzierbarkeit der Forschung
- Jupyter Notebooks enthalten Inhaltszeilen, die entweder Code oder Text (Markdown) sein können
- Textzeilen dienen dazu den Code zu erklären und zu dokumentieren

## Jupyter Notebook starten
<img src='images/jupyter_notebook_start.png' style='width:80%'> 

In [8]:
%%HTML
<iframe width="560" height="315" src="https://www.youtube.com/embed/HW29067qVWk"></iframe>

# git
<img src='images/git.png' style='height: 100px; float: right; margin-left: 10px'>  

- version control system
- git bietet die Möglichkeit eine Sammlung an Jupyter Notebooks (oder anderem Code) in einem **Repository** auf einem Git-Server zu speichern
- Versionskontrolle: Beim Hochladen der Dateien werden frühere Versionen nicht überschrieben (So kann immer auch auf alte Versionen zugegriffen werden)
- git wird in der Computerwissenschaft und in der IT-industrie häufig verwendet um Code gemeinsam zu entwickeln
- Mehrere Anbieter von git-Servern (GitHub, gitlab, etc.)
- Materialen des Kurses sind hier zu finden: https://github.com/jonas-volle/css_python_course
 


## Installation von git
- Die git [Dokumentation](https://git-scm.com/book/en/v2/Getting-Started-Installing-Git) hält Informationen zur Installation bereit 
- Installieren Sie bis zur nächsten Sitzung die entsprechende Version für Ihr Betriebssystem

# Download der Kursmaterialien

0. Erstellen Sie einen Ordner in dem Sie zukünftige Python Projekte ablegen möchten
1. Öffnen Sie das Programm "Git GUI"
2. Klicken Sie auf "Clone Existing Repository"
3. Geben Sie als "Source Location" folgende url ein: https://github.com/jonas-volle/css_python_course
4. Geben Sie als "Target Location" den Dateipfad des Ordners ihrer Python-Projekte an und ergänzen Sie den Pfad mit einem Ordnernamen für die Kursmaterialien zb. "/python_intro" (Diesen Ordner dürfen Sie vorher noch nicht erstellt haben!)
5. Lassen Sie die "Clone Type" Einstellungen so wie sie sind
6. Klicken Sie auf Clone