# Einführung in Python für die Computational Social Science (CSS)
## Session 03 - Grundlagen II + pandas I



## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität  

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Donnerstag, 16.05.2023

**Quelle:** Ich orientiere mich für diese Sitzung an den Kapiteln 3 und 6 aus dem Buch:  

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.


## Inhalt

- Datenstrukturen (Lists, Dictionaries)
- Funktionen
- Datenmanagement mit pandas


## 1. Datenstrukturen (Lists, Tuples, Dictionaries)

### Listen

In Python sind Listen geordnete Sammlungen beliebiger Objekte, wie z. B. Strings, Ganzzahlen, Fließkommazahlen oder andere Datenstrukturen - sogar andere Listen. Die Elemente in einer Liste können vom gleichen Typ sein, müssen es aber nicht. Python-Listen sind sehr flexibel. Sie können Informationen verschiedener Art in einer Liste mischen, Sie können der Liste während des laufenden Betriebs Informationen hinzufügen, und Sie können alle in der Liste enthaltenen Informationen entfernen oder ändern. Dies ist in anderen Sprachen nicht immer der Fall. Die einfachste Liste sieht wie folgt aus:

Alle Listen beginnen und enden mit eckigen Klammern `[]`, und die Elemente werden durch ein Komma getrennt. Im Folgenden definieren wir zwei Listen mit Strings (Megastädte in einer Liste und ihre Länder in einer anderen) und eine Liste mit Zahlen (Einwohnerzahl der Städte im Jahr 2018).

In [None]:
megacities = ['Tokyo','Delhi','Shanghai','Sao Paulo','Mexico City','Cairo','Dhaka','Mumbai','Beijing','Osaka']
countries = ['Japan','India','China','Brazil','Mexico','Egypt','Bangladesh','India','China','Japan']
pop2018 = [37468000, 28514000, 25582000, 21650000, 21581000, 20076000, 19980000, 19618000, 19578000, 19281000]

Jedes Element in einer Liste hat einen Index, der auf seiner Position in der Liste basiert. Indizes sind ganze Zahlen, und wie in den meisten anderen Programmiersprachen beginnt die Indizierung in Python bei 0, was bedeutet, dass der erste Eintrag in einer Liste - oder in allem anderen, was in Python indiziert wird - bei 0 beginnt. In der Liste der Megastädte ist der Index für Tokio 0, Delhi ist 1, Shanghai ist 2, und so weiter.  

Wir können den Index verwenden, um ein bestimmtes Element aus einer Liste auszuwählen, indem wir den Namen der Liste und dann die Indexnummer in eckigen Klammern eingeben:

Wir können auch auf einzelne Einträge zugreifen, indem wir vom Ende der Liste aus arbeiten. Dazu verwenden wir ein `-`-Zeichen in den Klammern. Beachten Sie, dass wir, anders als beim Aufwärtszählen von 0, nicht von '-0' abwärts zählen. Während `[2]` das dritte Element angibt, gibt `[-2]` das vorletzte Element an. 'China' aus der `countries` Liste, können wir so auswählen:

Wenn wir auf ein einzelnes Element in einer Liste zugreifen, gibt Python das Element in seinem Datentyp zurück. So gibt  `megacities[3]` beispielsweise "Sao Paulo" als String zurück, und `pop2018[3]` liefert die Ganzzahl 21650000. Wir können jede beliebige Methode verwenden, die mit diesem bestimmten Datentyp verknüpft ist:

Die Verwendung von eckigen Klammern für den Zugriff auf ein Element in einer Liste (oder einem Tupel, einer Menge oder einem Wörterbuch) wird als Indexierung bezeichnet.  
Wenn wir mehrere Elemente auswählen möchten können wir die sclice-Notation verwenden, bei der zwei Indexpositionen durch einen Doppelpunkt getrennt sind:

Die Verwendung eines Slice zur Indexierung einer Liste gibt das Element an der Position der ersten Ganzzahl sowie jedes Element an jeder Position zwischen der ersten und der zweiten Ganzzahl zurück. Das Element, das durch die zweite ganze Zahl indiziert ist, wird nicht zurückgegeben. Um die letzten drei Einträge unserer Liste abzurufen, würden Sie Folgendes verwenden

Sie können auch die Slice-Notation mit einer fehlenden ganzen Zahl verwenden, um alle Elemente einer Liste bis zu - oder ab - einer bestimmten Indexposition zurückzugeben. Im Folgenden finden Sie die ersten drei Megastädte,

und die letzten sieben:

### Looping over lists

Pythons Listen sind iterierbare Objekte, was bedeutet, dass wir über die Elemente der Liste iterieren (oder loopen) können, um Code für jedes einzelne Element auszuführen. Dies wird üblicherweise mit einer *for-Schleife* durchgeführt. Im Folgenden wird die Liste Megastädte durchlaufen und jedes Element ausgedruckt:

Dieser Code erstellt eine temporäre Variable namens city, die auf das aktuelle Element der Megastädte verweist, über die iteriert wird. Der Name für diese Variable sollte etwas Beschreibendes sein, das Ihnen etwas über die Elemente der Liste verrät.

### Ändern von Listen

Listen können auf verschiedene Weise geändert werden. Wir können die Elemente in der Liste wie andere Werte ändern, z. B. den String "Mexico City" in "Ciudad de México", indem wir den Index des Werts verwenden:

Wir wollen oft Elemente einer Liste hinzufügen oder entfernen. Fügen wir Karachi zu unseren drei Listen hinzu, indem wir die Methode `.append()` verwenden:

Sie werden `.append()` häufig verwenden. Es ist ein sehr bequemer Weg, um eine Liste dynamisch zu erstellen und zu verändern. Lassen Sie uns eine neue Liste erstellen, die einen formatierten String für jede Stadt enthalten soll.

Das Entfernen von items ist ebenso einfach. Es gibt mehrere Möglichkeiten, aber `.remove()` ist eine der gängigsten:

Manchmal möchte man die Ordnung einer Liste ändern. Normalerweise wird die Liste auf irgendeine Weise sortiert (z. B. alphabetisch, absteigend). Im Folgenden erstellen wir eine Kopie von Megastädte und sortieren sie alphabetisch. Da wir das Originalobjekt nicht verändern wollen, erstellen wir explizit eine neue Kopie mit der Methode `.copy()`:

Beachten Sie, dass wir beim Aufruf von `.sort()`  kein `=` verwenden. Diese Methode wird 'in-place' ausgeführt, d.h. sie verändert das Objekt, das sie aufruft. Die Zuweisung von `megacities_copy.sort()` gibt tatsächlich `None` zurück, ein spezieller Wert in Python.

Bei Anwendung auf eine Liste von Zahlen sortiert `.sort()` die Liste von der kleinsten zur größten Zahl um:

Um eine Liste in umgekehrter alphabetischer Reihenfolge oder von der größten zur kleinsten Zahl zu sortieren, können wir das Argument `reverse=True` in der `.sort()`-Methode verwende.

### Zipping and unzipping lists

Wenn Sie Daten haben, die über mehrere Listen verteilt sind, kann es nützlich sein, diese Listen zusammenzuzippen, so dass alle Elemente mit einem Index von 0 miteinander verbunden sind, alle Elemente mit einem Index von 1 und so weiter. Der einfachste Weg, dies zu tun, ist die Verwendung der Funktion `zip()`, die im folgenden Codeblock dargestellt ist.

Das eigentliche Objekt, das die Funktion `zip()` zurückgibt, ist ein "zip-Objekt", in dem unsere Daten als eine Reihe von Tupeln gespeichert sind. Wir können diese gezippten Tupel mit der Funktion `list()` in eine Liste von Tupeln umwandeln:

Es ist auch möglich, eine gezippte Liste mit Hilfe des `*`-Operators und der Mehrfachzuweisung (auch "unpacking" genannt) zu entpacken, wodurch wir mehreren Variablen in einer einzigen Zeile mehrere Werte zuweisen können. Der folgende Code gibt zum Beispiel drei Objekte zurück. Wir weisen jedes einer Variablen auf der linken Seite des `=`-Zeichens zu.

In [None]:
city_unzip, country_unzip, pop_unzip = zip(*zipped_list) 
print(city_unzip) 
print(country_unzip) 
print(pop_unzip)

### List comprehensions

Zuvor haben wir eine leere Liste erstellt und sie mit `.append()` in einer for-Schleife aufgefüllt. Wir können auch die *list comprehension* verwenden, welche das gleiche Ergebnis in einer einzigen Codezeile liefern kann. Zur Veranschaulichung wollen wir versuchen, die Anzahl der Zeichen im Namen jedes Landes in der Länderliste mit einer for-Schleife und anschließend mit einer *list comprehension* zu zählen.

In [None]:
len_country_name = [] 

for country in countries: 
    n_chars_tmp = len(country) 
    len_country_name.append(n_chars_tmp) 

print(len_country_name)

*List comprehension* können anfangs etwas ungewohnt sein, aber mit etwas Übung werden sie einfacher. Das Wichtigste, was Sie sich merken müssen, ist, dass *list comprehensions* immer folgendes enthalten:  

1. den Ausdruck selbst, der auf jedes Element der ursprünglichen Liste angewandt wird (in diesem Fall `len()`), 
2. den Namen der temporären Variable der auf das iterierbare Objekt verweist (in diesem Fall `country`) 
3. das iterierbare Objekt (in diesem Fall die Liste `countries`)

Häufig möchten wir unseren for-Schleifen und `list comprehension` eine Bedingung hinzufügen. Erstellen wir eine neue Liste von Städten mit mehr als 20.500.000 Einwohnern mit Hilfe der Funktion `zip()`:

Das Ergebnis - biggest - ist eine Liste von Listen. Wir können mit verschachtelten Datenstrukturen wie dieser arbeiten, indem wir die gleichen Werkzeuge verwenden, die wir für flache Datenstrukturen benutzen. Zum Beispiel,

In [None]:
for city in biggest: 
    print(f'The population of {city[0]} in 2018 was {city[1]}')

Wann sollten Sie eine for-Schleife und wann eine *list comprehension* verwenden?  

In vielen Fällen ist das eine Frage der persönlichen Vorliebe. *List Comprehensions* sind etwas übersichtlicher aber mit etwas Python-Erfahrung dennoch lesbar. Sie werden jedoch sehr schnell unleserlich, wenn Sie viele Operationen für jedes Element durchführen müssen oder wenn Sie auch nur eine leicht komplexe bedingte Logik/Bedingung haben. In diesen Fällen sollten Sie auf jeden Fall *list comprehensions* vermeiden. Wir wollen immer sicherstellen, dass unser Code so lesbar wie möglich ist.

<div class='alert alert-block alert-success'>

### Aufgabe 1

--> session_03_excercise_1.ipynb

</div>

### Listen kopieren

Dieser Code scheint eine Kopie von Ländern zu erzeugen, aber das ist eine Illusion. Wenn wir eine Liste mit dem Operator `=` kopieren, erstellen wir **kein** neues Objekt. Stattdessen haben wir einen neuen Variablennamen erstellt, der auf das ursprüngliche Objekt im Speicher verweist. Wir haben ein Objekt mit zwei Namen, anstatt zwei verschiedene Objekte. Alle Änderungen, die mit `countries_copy` vorgenommen werden, ändern das gleiche Objekt im Speicher, das durch `countries` beschrieben wird. Wenn wir Karachi an `countries_copy` anhängen und `countries` ausdrucken, würden wir Karachi sehen, und umgekehrt. Wenn wir die ursprüngliche Liste beibehalten und Änderungen an der zweiten vornehmen wollen, ist dies nicht möglich. Stattdessen können wir die Methode `.copy()` verwenden, um eine flache Kopie der ursprünglichen Liste zu erstellen, oder `.deepcopy()`, um eine tiefe Kopie zu erstellen. Um den Unterschied zu verstehen, vergleichen Sie eine flache Liste (z. B. `[1, 2, 3]`) mit einer Liste von Listen (z. B. `[[1, 2, 3], [4, 5, 6]]`). Die Liste der Listen ist verschachtelt; sie ist tiefer als die flache Liste. Wenn wir eine flache Kopie (d. h. .copy()) der flachen Liste erstellen, erzeugt Python ein neues Objekt, das vom Original unabhängig ist. Wenn wir jedoch eine flache Kopie der verschachtelten Listen von Listen erstellen, erzeugt Python nur ein neues Objekt für die äußere Liste; es ist nur eine Ebene tief. Die Inhalte der inneren Listen `[1, 2, 3]` und `[4, 5, 6]` wurden nicht kopiert, sie sind nur Verweise auf die ursprünglichen Listen. Mit anderen Worten: Die äußeren Listen (Länge 2) sind unabhängig voneinander, aber die inneren Listen (Länge 3) sind Verweise auf dasselbe Objekt im Speicher. Wenn wir mit verschachtelten Datenstrukturen arbeiten, wie z. B. Listen von Listen, müssen wir `.deepcopy()` verwenden, wenn wir ein neues Objekt erstellen wollen, das völlig unabhängig vom Original ist.

### not in or in?

Listen, die im Forschungskontext verwendet werden, sind in der Regel viel größer als die Beispiele hier. Sie können Tausende oder sogar Millionen von Einträgen enthalten. Um herauszufinden, ob eine Liste einen bestimmten Wert enthält oder nicht, können wir, anstatt eine gedruckte Liste manuell zu durchsuchen, die Operatoren in und not in verwenden, die True oder False auswerten:

Diese Operatoren können bei der Verwendung von Bedingungen sehr nützlich sein.

### Using enumerate

In manchen Fällen möchten wir gleichzeitig auf das Element und seine Indexposition in einer Liste zugreifen. Dies können wir mit der Funktion `enumerate()` erreichen. Erinnern Sie sich an die drei Listen aus dem Megacity-Beispiel. Die Informationen über jede Megastadt sind auf drei Listen verteilt, aber die Indizes werden von diesen Listen gemeinsam genutzt. Im Folgenden zählen wir die Megastädte auf, indem wir eine temporäre Variable für die Indexposition (i) und jedes Element (Stadt) erstellen und darüber iterieren. Wir verwenden diese Werte, um den Namen der Stadt zu drucken, und greifen dann über die Indexposition auf Informationen über Land und Stadtbevölkerung zu. Dies funktioniert natürlich nur, weil die Elemente in der Liste geordnet sind und in jeder Liste gemeinsam genutzt werden.

In [None]:
for i, city in enumerate(megacities): 
    print(f'{city}, {countries[i]}, has {str(pop2018[i])} residents.')

Wie bereits erwähnt, können wir beliebig viele Zeilen in den eingerückten Codeblock einer for-Schleife einfügen, wodurch unnötige Iterationen vermieden werden können. Wenn Sie viele Operationen mit Elementen in einer Liste von Tupeln durchführen müssen, ist es besser, die Datenstruktur einmal zu durchlaufen und alle erforderlichen Operationen durchzuführen, als die Liste mehrmals zu durchlaufen und jedes Mal nur eine kleine Anzahl von Operationen auszuführen. Je nachdem, was Sie erreichen wollen, möchten Sie vielleicht auch die temporären Objekte in Ihrer for-Schleife iterieren. Python erlaubt dies! Innerhalb des eingerückten Codeblocks Ihrer for-Schleife können Sie eine weitere for-Schleife einfügen (und eine weitere innerhalb dieser Schleife, und so weiter).

### Tuples

In Python ist jedes Objekt entweder veränderlich oder unveränderlich. Wir haben gerade gezeigt, dass Listen in vielerlei Hinsicht veränderbar sind: Hinzufügen und Entfernen von Einträgen, Sortieren und so weiter. Jeder Datentyp in Python, bei dem man etwas an seiner Zusammensetzung ändern kann (Anzahl der Einträge, Werte der Einträge), ist veränderbar. Datentypen, die nach ihrer Instanziierung keine Änderungen zulassen, sind unveränderlich.    

Ein Tupel ist eine geordnete, unveränderliche series von Objekten. Man kann sich Tupel als eine besondere Art von Liste vorstellen, die nach der Erstellung nicht mehr geändert werden kann. Syntaktisch gesehen werden die Werte in einem Tupel in `()` und nicht in `[]` gespeichert. Ein leeres Tupel kann auf ähnliche Weise wie eine Liste erzeugt werden:

In [None]:
my_empty_tuple_1 = () 
my_empty_tuple_2 = tuple()

In [None]:
a_useful_tuple = (2, 7, 4)

Mit den Funktionen `tuple()` und `list()` können wir leicht zwischen Tupeln und Listen konvertieren:

In [None]:
print(type(countries)) 

In [None]:
countries_tuple = tuple(countries) 
print(type(countries_tuple))

Es gibt viele Verwendungszwecke für Tupel: Wenn Sie unbedingt sicherstellen müssen, dass die Reihenfolge einer series von Objekten erhalten bleibt, verwenden Sie ein Tupel, um dies zu garantieren.

In [None]:
countries_sorted = countries.copy() 
countries_sorted.sort() 
countries_sorted

In [None]:
countries_tuple.sort()

### Dictionaries

Eine weitere Python-Datenstruktur, die Sie häufig sehen und verwenden werden, ist das Wörterbuch. Im Gegensatz zu Listen sind Wörterbücher dazu gedacht, zusammengehörige Informationen miteinander zu verbinden. Wörterbücher bieten einen flexiblen Ansatz für die Speicherung von Schlüssel-Wert-Paaren. Jeder Schlüssel muss ein unveränderliches Python-Objekt sein, z. B. eine ganze Zahl, ein Float, ein String oder ein Tupel, und es darf keine doppelten Schlüssel geben. Werte können jede Art von Objekt sein. Wir können auf Werte zugreifen, indem wir den entsprechenden Schlüssel angeben.

Während bei Listen eckige Klammern `[]` und bei Tupeln runde Klammern `()` verwendet werden, werden in Pythons Dictionaries Schlüssel:Wert-Paare in geschweifte Klammern `{}` verpackt, wobei die Schlüssel und Werte durch einen Doppelpunkt `:` und jedes Paar durch ein `,` getrennt werden. Zum Beispiel,

Bei der Erstellung eines Wörterbuchs können beliebig viele Schlüssel verwendet werden. Um schnell auf eine Liste aller Schlüssel im Wörterbuch zuzugreifen, können wir die Methode `.keys()` verwenden:

Um auf einen bestimmten Wert in einem Wörterbuch zuzugreifen, geben wir den Namen des Wörterbuchobjekts gefolgt vom Namen des Schlüssels, auf dessen Wert wir zugreifen möchten, in eckigen Klammern und Anführungszeichen an. So greifen wir auf die Bevölkerung unseres Wörterbuchs tokyo zu:

Wie Listen können auch Wörterbücher während der Arbeit geändert werden. Wir können ein neues Schlüssel-Wert-Paar zu tokyo hinzufügen - z. B. die Bevölkerungsdichte des Großraums Tokio - und dabei dieselbe Syntax verwenden, die wir für den Verweis auf einen Schlüssel gelernt haben, nur dass wir auch einen Wert zuweisen. Da der Schlüssel, auf den wir verweisen, nicht im Wörterbuch vorhanden ist, weiß Python, dass wir ein neues Schlüssel-Wert-Paar erstellen und nicht ein altes durch einen neuen Wert ersetzen. Wenn wir das Wörterbuch ausdrucken, können wir sehen, dass unser neues Paar hinzugefügt wurde.

In diesem Fall haben wir mit einem Wörterbuch begonnen, das bereits einige Schlüssel-Wert-Paare enthielt, als wir das Wörterbuch zum ersten Mal definierten. Wir hätten aber auch mit einem leeren Wörterbuch beginnen und es mit Hilfe der soeben erlernten Methode mit Schlüssel-Wert-Paaren füllen können.

### Nested data structures

Listen, Tupel und Wörterbücher können auf verschiedene Weise verschachtelt werden, einschließlich der Verwendung von Wörterbüchern als Elemente in einer Liste, Listen als Elemente in Listen und Listen als Elemente in Wörterbüchern. Andere Arten von verschachtelten Datenstrukturen sind ebenfalls möglich. Die Arbeit mit diesen verschachtelten Strukturen ist sehr einfach. Unabhängig von der Position des Wertes in der verschachtelten Datenstruktur können Sie die für diesen Typ geeigneten Methoden verwenden.

Wenn wir ein Wörterbuch haben, das Listen als Werte enthält, können wir auf die Werte zugreifen indem wir zunächst den key und dann den index subscripten.

In [None]:
japan = {} 
japan['cities'] = ['Tokyo', 'Yokohama', 'Osaka', 'Nagoya', 'Sapporo', 'Kobe', 'Kyoto', 'Fukuoka', 'Kawasaki', 'Saitama'] 
japan['populations'] = [37, 3.7, 8.81, 9.5, 2.7, 1.5, 1.47, 5.6, 1.5, 1.3] 

print(japan)

### Lists of dictionaries

Wir können Wörterbücher auch als Elemente in einer Liste speichern. Zuvor haben wir die Wörterbücher tokyo und delhi erstellt. Beide enthalten die gleichen Schlüssel: Land und Bevölkerung. Das Hinzufügen dieser oder anderer Wörterbücher zu einer Liste ist ganz einfach. Zum Beispiel,

## 2. Custom functions

Bisher haben wir einige Funktionen verwendet, die in Python eingebaut sind, z. B. `print()` und `len()`. In diesen und anderen Fällen nehmen die eingebauten Funktionen eine Eingabe entgegen, führen einige Operationen durch und geben dann eine Ausgabe zurück. Wenn wir zum Beispiel der Funktion `len()` einen String übergeben, berechnet sie die Anzahl der Zeichen in diesem String und gibt eine ganze Zahl zurück:

In [None]:
seoul = 'Seoul, South Korea' 
len(seoul)

Wir hätten die Länge des Strings auch ohne len() berechnen können, zum Beispiel

Beide Teile des Codes berechnen die Länge des in `seoul` gespeicherten Strings, aber die Verwendung von `len()` vermeidet unnötige Arbeit. Wir verwenden Funktionen, um die Vorteile der Abstraktion zu nutzen: Wir wandeln wiederkehrende Aufgaben und Text in komprimierte und leicht zusammenzufassende Werkzeuge um. Moderne Software wie Python basiert auf Jahrzehnten der Abstraktion. Wir programmieren nicht in Binärform, weil wir diesen Prozess abstrahiert haben und zu höheren Sprachen und Funktionen übergegangen sind, die uns Zeit, Platz und Gehirnleistung sparen. Das ist es, was Sie anstreben sollten, wenn Sie Ihre eigenen Funktionen schreiben: Identifizieren Sie kleine Aufgaben oder Probleme, die Sie häufig wiederholen, und schreiben Sie eine gut benannte Funktion, die sie jedes Mal auf die gleiche Weise behandelt, so dass Sie Funktionen kombinieren können, um größere und komplexere Probleme anzugehen.

Stellen Sie sich eine Reihe von Operationen vor, die wir mehrfach anwenden müssen, jedes Mal mit einer anderen Eingabe. Sie beginnen damit, eine dieser Eingaben auszuwählen und den Code zu schreiben, der das gewünschte Endergebnis liefert. Wie geht es nun weiter? Eine Möglichkeit, die ich nicht empfehle, ist das Kopieren und Einfügen des Codes für jeden der Eingänge. Sobald Sie den Code kopiert haben, ändern Sie die Namen der Ein- und Ausgänge so, dass Sie für jeden Eingang den gewünschten Ausgang erhalten.

Was passiert, wenn Sie ein Problem im Code entdecken oder ihn verbessern wollen? Sie müssen die relevanten Teile Ihres Codes an mehreren Stellen ändern, und jedes Mal riskieren Sie, etwas zu übersehen oder einen Fehler zu machen. Zu allem Überfluss ist das Skript viel länger als nötig, und die Abfolge der Operationen ist viel schwieriger zu verfolgen und auszuwerten.

Stattdessen könnten wir unsere eigenen Funktionen schreiben, mit denen wir Teile des Codes strategisch wiederverwenden können. Wenn wir ein Problem entdecken oder etwas ändern wollen, dann müssen wir die Änderung nur an einer Stelle vornehmen. Wenn wir unsere aktualisierte Funktion ausführen, wird sie zuverlässig die gewünschte neue Ausgabe erzeugen. Wir können unsere Funktionen in einem separaten Skript speichern und sie an anderer Stelle importieren, wodurch diese Skripte und Notizbücher übersichtlicher und leichter zu verstehen sind. Und wenn wir gute beschreibende Namen für unsere Funktionen verwenden - etwas, das wir später besprechen werden -, dann können wir von den Details auf niedriger Ebene abstrahieren und uns auf die übergeordneten Details dessen konzentrieren, was wir zu tun versuchen. Das ist immer eine gute Idee, aber es ist besonders hilfreich, wenn nicht sogar unerlässlich, wenn man an großen Projekten arbeitet.

Das Schreiben eigener Funktionen ist also eine sehr leistungsfähige Methode, um unseren Code aufzuteilen und zu organisieren. Es bietet uns viele der gleichen Vorteile wie die Verwendung von eingebauten Funktionen oder Funktionen aus anderen Paketen, aber auch ein paar zusätzliche Vorteile:

- Wiederverwendbar - machen Sie keine Arbeit, die bereits erledigt wurde 
- Abstraktion - abstrahieren Sie Details auf niedriger Ebene, damit Sie sich auf Konzepte und Logik auf höherer Ebene konzentrieren können 
- Reduzieren Sie das Fehlerpotenzial - wenn Sie einen Fehler finden, brauchen Sie ihn nur an einer Stelle zu beheben 
- Kürzere und besser lesbare Skripte - viel einfacher zu lesen, zu verstehen und zu bewerten

### Writing custom functions

Um eine Funktion in Python zu definieren, beginnt man mit dem Schlüsselwort `def`, gefolgt vom Namen der Funktion, Klammern mit den Argumenten, die die Funktion annehmen soll, und einem `:`. Der gesamte Code, der ausgeführt wird, wenn die Funktion aufgerufen wird, ist in einem eingerückten Block enthalten. Im Folgenden definieren wir eine Funktion namens `welcome()`, die einen Namen annimmt und eine Begrüßung ausgibt:

In diesem Fall gibt die Funktion einen neuen String auf dem Bildschirm aus. Das kann zwar nützlich sein, aber in den meisten Fällen wollen wir etwas mit der Eingabe machen und dann eine andere Ausgabe zurückgeben. Wenn eine Funktion, aus welchem Grund auch immer, keine Ausgabe zurückgibt, gibt sie trotzdem None zurück, wie die Methode .sort().

<div class='alert alert-block alert-success'>

### Aufgabe 2

--> session_03_excercise_2.ipynb

</div>

## 3. Datenmanagement mit Pandas

Nun verwenden wir Python nicht mehr als allgemeine Programmiersprache, sondern zur Verarbeitung von Daten mit Hilfe spezieller Datenverwaltungs- und -analysepakete. Wir werden uns in erster Linie auf ein Paket namens *Pandas* stützen. Pandas wurde von Wes McKinney für die Analyse von Paneldaten entwickelt (daher der Name). Es verfügt über spezielle Datenstrukturen, Funktionen und Methoden, mit denen Sie die meisten Datenverarbeitungsvorgänge für strukturierte quantitative Daten erledigen können.

Pandas Dokumentation: https://pandas.pydata.org/docs/reference/index.html

### Import

### Datenimport mit pandas

Das Pandas-Paket macht es einfach, Daten aus einer externen Datei direkt in ein Dataframe-Objekt zu laden.

| Datentyp | Reader | Writer |
|----------|----------|----------|
| CSV    | `read_csv()`   | `to_csv()`   |
| JSON    | `read_json()`   | `to_json()`   |
| Stata   | `read_stata()`   | `to_stata()`   |
| SAS   | `read_sas()`   | NA   |
| SPSS   | `read_spss()`   | NA   |


In diesem Kapitel werden Daten aus dem VDEM-Datensatz (Varieties of Democracy) verwendet. VDEM ist ein laufendes Forschungsprojekt zur Messung des Niveaus der Demokratie in Regierungen auf der ganzen Welt, und es werden laufend aktualisierte Versionen des Datensatzes veröffentlicht. Die Forschung wird von einem Team aus mehr als 50 Sozialwissenschaftlern geleitet, die die Sammlung und Analyse von Experteneinschätzungen von mehr als 3200 Historikern und Länderexperten koordinieren. Auf der Grundlage dieser Einschätzungen hat das VDEM-Projekt eine bemerkenswert komplexe Reihe von Indikatoren entwickelt, die sich an fünf übergeordneten Facetten der Demokratie orientieren: Wahldemokratie, liberale Demokratie, partizipative Demokratie, deliberative Demokratie und egalitäre Demokratie. Der Datensatz reicht bis ins Jahr 1789 zurück und gilt als Goldstandard für quantitative Daten über globale demokratische Entwicklungen.  

Das Codebuch finden Sie hier: https://v-dem.net/documents/24/codebook_v13.pdf

Wie viele Zeilen und Spalten? Das geht mit der `.shape` Methode.

Welche Variablen benötigen wir? Wir wählen Spalten in einem DataFrame aus, indem wir den DataFrame aufrufen gefolt mit einer Liste in eckigen Klammern, die die Namen der Spalten enthält.

Wir können die Namen der Spalten (columns) mithilfe des Attributs `.columns` für den DataFrame ausdrucken:

In diesem Fall möchten wir die folgenden Variablen behalten: 

1. den Ländernamen 
2. die Länder-ID 
3. die geografische Region 
4. Die Länder-ID 
3. die geographische Region 
4. Das Jahr 5. Der Polyarchie-Index 
6. Der Index der liberalen Demokratie
7. Der Index der partizipativen Demokratie 
8. Der Index der deliberativen Demokratie 
9. Der Index der egalitären Demokratie 
10. Ob die Privatsphäre der Internetnutzer und ihre Daten rechtlich geschützt sind 
11. Wie polarisiert das Land in politischen Fragen ist 
12. Ausmaß der politischen Gewalt 
13. Ob das Land eine Demokratie ist oder nicht 


In [None]:
subset_vars = ['country_name', 'country_text_id', 'e_regiongeo', 
               'year', 'v2x_polyarchy', 'v2x_libdem', 'v2x_partipdem', 
               'v2x_delibdem', 'v2x_egaldem', 'v2smprivex', 'v2smpolsoc', 
               'v2caviol', 'e_boix_regime']



### Was ist im DataFrame?

Mit der Methode `.info()` können wir die Gesamtzahl der Beobachtungen, die Gesamtzahl der Spalten, die Namen der Spalten, die Anzahl der nicht fehlenden Beobachtungen für jede Variable, den Datentyp für jede Variable, die Anzahl der Variablen, die Daten jedes Typs enthalten (z. B. Ganzzahlen und Fließkommazahlen), und die Gesamtmenge des vom DataFrame verwendeten Speichers anzeigen:

Die Datentypen in diesem Datenrahmen sind float64 (Zahlen mit Nachkommastellen), int64 (Ganzzahlen) und object. In Pandas bezieht sich object auf Spalten, die Strings oder gemischte Typen wie Strings und Integers enthalten (object umfasst auch viele andere Dinge: es ist eine Sammelkategorie). Pandas kann auch mit Booleans (Wahr oder Falsch), kategorischen Variablen und einigen speziellen Datetime-Objekten arbeiten. Erinnern Sie sich daran, wie wir die Spalten für unser Dataset ausgewählt haben. Im folgenden Code verwende ich dieselbe Idee, um nur einige wenige Variablen anzuzeigen. Wir werden dies später in diesem Kapitel noch etwas genauer erklären.

Wir können auch die Methode `.describe()` verwenden, um zusammenfassende Informationen über die quantitativen Variablen in unserem Datensatz zu erhalten, einschließlich der Anzahl der nicht fehlenden Informationen, des Mittelwerts und der Standardabweichung.


### Heads, tails, and samples

Wir können auch den "Kopf" oder das "Ende" unseres Datenrahmens mit den Methoden `.head() ` und `.tail()` untersuchen, die standardmäßig die ersten oder letzten fünf Zeilen in einem DataFrame verwenden, es sei denn, Sie geben eine andere Zahl als Argument an, wie z. B. `.head(10)`:

Wenn Sie eine Zufallsstichprobe von Zeilen bevorzugen, können Sie die Methode `.sample()` verwenden, bei der Sie die Anzahl der Zeilen angeben müssen, die Sie abfragen möchten:

### Zeilen filtern

Bei der Ausführung der Methode `.describe()` haben Sie vielleicht bemerkt, dass der Bereich für die Jahresvariable 1789-2019 ist. Angenommen, wir haben einen guten Grund, uns auf die Jahre von 1900 bis 2019 zu konzentrieren. Dann müssen wir die Daten filtern, um nur die Zeilen zu erhalten, die unseren Anforderungen entsprechen. Es gibt mehrere Möglichkeiten, Zeilen zu filtern, einschließlich Slices (z. B. alle Beobachtungen zwischen Index i und Index j) oder nach einer expliziten Bedingung, wie z. B. "Zeilen, in denen das Jahr >= 1900". Beachten Sie, dass, wenn wir einen DataFrame filtern oder zerschneiden, das neue Objekt nur eine Ansicht des Originals ist und sich immer noch auf die gleichen Daten bezieht. Pandas warnt uns, wenn wir versuchen, das gefilterte Objekt zu verändern, so dass es in den meisten Fällen einfacher ist, eine neue Kopie zu erstellen.

### Schreiben von Dateien

So wie wir unsere ursprüngliche CSV-Datei mit der Funktion `read_csv()` in Pandas eingelesen habe, können wir diesen neuen Dataframe mit der Methode `to_csv()` auch wieder schreiben:

<div class='alert alert-block alert-success'>

### Aufgabe 3

--> session_03_excercise_3.ipynb

</div>