# Einführung in Python für die Computational Social Science (CSS)
## Session 04 - Pandas



## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität  

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Donnerstag, 06.06.2023

**Quelle:** Ich orientiere mich für diese Sitzung an den Kapiteln 3 und 6 aus dem Buch:  

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.


## Inhalt

- Datenmanagement mit pandas


## 1. Datenmanagement mit Pandas

Nun verwenden wir Python nicht mehr als allgemeine Programmiersprache, sondern zur Verarbeitung von Daten mit Hilfe spezieller Datenverwaltungs- und -analysepakete. Wir werden uns in erster Linie auf ein Paket namens *Pandas* stützen. Pandas wurde von Wes McKinney für die Analyse von Paneldaten entwickelt (daher der Name). Es verfügt über spezielle Datenstrukturen, Funktionen und Methoden, mit denen Sie die meisten Datenverarbeitungsvorgänge für strukturierte quantitative Daten erledigen können.

Pandas Dokumentation: https://pandas.pydata.org/docs/reference/index.html

### Import

### Datenimport mit pandas

Das Pandas-Paket macht es einfach, Daten aus einer externen Datei direkt in ein Dataframe-Objekt zu laden.

| Datentyp | Reader | Writer |
|----------|----------|----------|
| CSV    | `read_csv()`   | `to_csv()`   |
| JSON    | `read_json()`   | `to_json()`   |
| Stata   | `read_stata()`   | `to_stata()`   |
| SAS   | `read_sas()`   | NA   |
| SPSS   | `read_spss()`   | NA   |


In diesem Kapitel werden Daten aus dem VDEM-Datensatz (Varieties of Democracy) verwendet. VDEM ist ein laufendes Forschungsprojekt zur Messung des Niveaus der Demokratie in Regierungen auf der ganzen Welt, und es werden laufend aktualisierte Versionen des Datensatzes veröffentlicht. Die Forschung wird von einem Team aus mehr als 50 Sozialwissenschaftlern geleitet, die die Sammlung und Analyse von Experteneinschätzungen von mehr als 3200 Historikern und Länderexperten koordinieren. Auf der Grundlage dieser Einschätzungen hat das VDEM-Projekt eine bemerkenswert komplexe Reihe von Indikatoren entwickelt, die sich an fünf übergeordneten Facetten der Demokratie orientieren: Wahldemokratie, liberale Demokratie, partizipative Demokratie, deliberative Demokratie und egalitäre Demokratie. Der Datensatz reicht bis ins Jahr 1789 zurück und gilt als Goldstandard für quantitative Daten über globale demokratische Entwicklungen.  

Das Codebuch finden Sie hier: https://v-dem.net/documents/24/codebook_v13.pdf

Wie viele Zeilen und Spalten? Das geht mit der `.shape` Methode.

Welche Variablen benötigen wir? Wir wählen Spalten in einem DataFrame aus, indem wir den DataFrame aufrufen gefolt mit einer Liste in eckigen Klammern, die die Namen der Spalten enthält.

Wir können die Namen der Spalten (columns) mithilfe des Attributs `.columns` für den DataFrame ausdrucken:

In diesem Fall möchten wir die folgenden Variablen behalten: 

1. den Ländernamen 
2. die Länder-ID 
3. die geografische Region 
4. Die Länder-ID 
3. die geographische Region 
4. Das Jahr 5. Der Polyarchie-Index 
6. Der Index der liberalen Demokratie
7. Der Index der partizipativen Demokratie 
8. Der Index der deliberativen Demokratie 
9. Der Index der egalitären Demokratie 
10. Ob die Privatsphäre der Internetnutzer und ihre Daten rechtlich geschützt sind 
11. Wie polarisiert das Land in politischen Fragen ist 
12. Ausmaß der politischen Gewalt 
13. Ob das Land eine Demokratie ist oder nicht 


In [None]:
# ['country_name', 'country_text_id', 'e_regiongeo', 'year', 'v2x_polyarchy', 'v2x_libdem', 'v2x_partipdem', 'v2x_delibdem', 'v2x_egaldem', 'v2smprivex', 'v2smpolsoc', 'v2caviol', 'e_boix_regime']



### Was ist im DataFrame?

Mit der Methode `.info()` können wir die Gesamtzahl der Beobachtungen, die Gesamtzahl der Spalten, die Namen der Spalten, die Anzahl der nicht fehlenden Beobachtungen für jede Variable, den Datentyp für jede Variable, die Anzahl der Variablen, die Daten jedes Typs enthalten (z. B. Ganzzahlen und Fließkommazahlen), und die Gesamtmenge des vom DataFrame verwendeten Speichers anzeigen:

Die Datentypen in diesem Datenrahmen sind float64 (Zahlen mit Nachkommastellen), int64 (Ganzzahlen) und object. In Pandas bezieht sich object auf Spalten, die Strings oder gemischte Typen wie Strings und Integers enthalten (object umfasst auch viele andere Dinge: es ist eine Sammelkategorie). Pandas kann auch mit Booleans (Wahr oder Falsch), kategorischen Variablen und einigen speziellen Datetime-Objekten arbeiten. Erinnern Sie sich daran, wie wir die Spalten für unser Dataset ausgewählt haben. Im folgenden Code verwende ich dieselbe Idee, um nur einige wenige Variablen anzuzeigen. Wir werden dies später in diesem Kapitel noch etwas genauer erklären.

Wir können auch die Methode `.describe()` verwenden, um zusammenfassende Informationen über die quantitativen Variablen in unserem Datensatz zu erhalten, einschließlich der Anzahl der nicht fehlenden Informationen, des Mittelwerts und der Standardabweichung.


### Heads, tails, and samples

Wir können auch den "Kopf" oder das "Ende" unseres Datenrahmens mit den Methoden `.head() ` und `.tail()` untersuchen, die standardmäßig die ersten oder letzten fünf Zeilen in einem DataFrame verwenden, es sei denn, Sie geben eine andere Zahl als Argument an, wie z. B. `.head(10)`:

In [None]:
# 'country_name', 'year', 'v2x_libdem'



In [None]:
sdf[['country_name', 'year', 'v2x_libdem']]

Wenn Sie eine Zufallsstichprobe von Zeilen bevorzugen, können Sie die Methode `.sample()` verwenden, bei der Sie die Anzahl der Zeilen angeben müssen, die Sie abfragen möchten:

In [None]:
sdf[['country_name', 'year', 'v2x_libdem']]

### Zeilen filtern

Bei der Ausführung der Methode `.describe()` haben Sie vielleicht bemerkt, dass der Bereich für die Jahresvariable 1789-2019 ist. Angenommen, wir haben einen guten Grund, uns auf die Jahre von 1900 bis 2019 zu konzentrieren. Dann müssen wir die Daten filtern, um nur die Zeilen zu erhalten, die unseren Anforderungen entsprechen. Es gibt mehrere Möglichkeiten, Zeilen zu filtern, einschließlich Slices (z. B. alle Beobachtungen zwischen Index i und Index j) oder nach einer expliziten Bedingung, wie z. B. "Zeilen, in denen das Jahr >= 1900". Beachten Sie, dass, wenn wir einen DataFrame filtern oder zerschneiden, das neue Objekt nur eine Ansicht des Originals ist und sich immer noch auf die gleichen Daten bezieht. Pandas warnt uns, wenn wir versuchen, das gefilterte Objekt zu verändern, so dass es in den meisten Fällen einfacher ist, eine neue Kopie zu erstellen.

### Schreiben von Dateien

So wie wir unsere ursprüngliche CSV-Datei mit der Funktion `read_csv()` in Pandas eingelesen habe, können wir diesen neuen Dataframe mit der Methode `to_csv()` auch wieder schreiben:

<div class='alert alert-block alert-success'>

### Aufgabe 1

--> session_04_excercise_1.ipynb

</div>

## Pandas Datenstruktur

### The series

Jede Spalte in einem dataframe ist ein Objekt namens Series. Eine Series ist ein eindimensionales Objekt (z. B. ein Zahlenvektor) mit einem Index, der selbst ein Vektor oder ein Array von Bezeichnungen ist.

Zum Beispiel ist die Spalte *v2x_delibdem* in fsdf eine Series, die Floats und die Indexbezeichnung für jede Beobachtung enthält. Wenn ich eine Stichprobe von 15 Beobachtungen ausdrucke, erhalte ich einen numerischen Index für jede Beobachtung auf der linken Seite und den tatsächlichen Wert auf der rechten Seite. Die Indexwerte sind in der Series selbst geordnet, aber hier sind sie nicht in der richtigen Reihenfolge, weil wir eine Zufallsstichprobe gezogen haben. Da dies nur zu Demonstrationszwecken dient, habe ich einen random_state-Wert eingefügt, um sicherzustellen, dass Sie die gleiche Stichprobe erhalten wie ich, wenn Sie diesen Block erneut ausführen.

In den meisten Fällen ist der Standardindex für eine Series oder einen DataFrame ein unveränderlicher Vektor aus ganzen Zahlen:

Wir können einen Index leicht so ändern, dass er stattdessen aus einem anderen Vektortyp besteht, z. B. einem string. Überraschenderweise müssen Indexwerte nicht eindeutig sein. Dies ermöglicht einige leistungsfähige Techniken, aber die meiste Zeit sollten Sie vermeiden, Indizes manuell zu ändern.

### Zugriff auf eine bestimmte Zeile über ihren Index

Wir können den Index verwenden, um bestimmte Zeilen aus einem dataframe oder bestimmte Werte aus einer series abzurufen, ganz so, als ob wir ein Element aus einer Liste, einem Tupel oder einem Array auswählen würden. Am einfachsten geht das, indem man den Indexwert (z. B. 202) an `.loc[]` übergibt. Wie Sie unten sehen können, ist das Ergebnis der beobachtungsspezifische Wert für jede Variable im dataframe:

Beachten Sie, dass sich `.loc` nicht auf die 202. Zeile des dataframe bezieht. Wenn Sie sich den obigen `.index`-Befehl genau angesehen haben, ist Ihnen vielleicht aufgefallen, dass der dataframe nur 18.787 Zeilen enthält, aber `.loc` immer noch Zeile 20.000 zurückgeben kann - der Index hat sich nicht geändert, als Sie eine Reihe von Zeilen aus dem dataframe entfernt haben. Stellen Sie sich `.loc` als Zugriff auf ein Wörterbuch der Indexwerte vor - es gibt sogar einen KeyError, wenn Sie nach einem Element fragen, das nicht existiert.

Wenn wir stattdessen auf die n-te Zeile eines dataframe zugreifen wollen, können wir `.iloc[n]` verwenden. Stellen Sie sich den Index als eine Liste vor, und Sie beziehen sich auf ein Element dieser Liste durch seinen Listenindex. Verwenden wir `.iloc`, um das letzte Element im dataframe auszuwählen. Beachten Sie, dass die Indexposition für das letzte Element 18.786 sein wird, obwohl die Länge des dataframe 18.787 beträgt, da Python-Datenstrukturen fast immer mit einem Null-Index versehen sind. Hier sehen Sie den Index der Zeile, der früher die Zeilennummer war, als Name am unteren Rand:

Wenn es keinen Grund gibt, die ursprüngliche Indizierung des ungefilterten dataframe beizubehalten, ist es in der Regel eine gute Idee, den Index zurückzusetzen:

Danach werden `.loc` und `.iloc` ziemlich austauschbar, mit ein paar Ausnahmen: `.loc` hat wörterbuchähnliche Fähigkeiten, während `.iloc` eher listenähnlich ist. Schauen wir uns nun den dataframe genauer an.

### Dataframes

Dataframes in Pandas sind eigentlich nur Sammlungen von Series, die an denselben Indexwerten ausgerichtet sind. Mit anderen Worten: Die Serien, mit denen wir zuvor gearbeitet haben, haben ihre eigenen Indizes, wenn wir mit ihnen als eigenständige Serien arbeiten, aber im fsdf dataframe teilen sie sich einen Index.  
Wie Sie bereits gesehen haben, sind dataframes mit Variablen in den Spalten und Beobachtungen in den Zeilen organisiert, und Sie können eine einzelne series aus einem dataframe mit eckigen Klammern holen - lassen Sie uns das jetzt mit dem fsdf dataframe tun:

Beachten Sie, dass wir auch die Punktnotation verwenden können, um Spalten auszuwählen. `fsdf.v2x_delibdem` ist funktional gleichwertig mit `fsdf['v2x_delibdem']` und kann austauschbar verwendet werden.

Wir sind nicht darauf beschränkt, Spalten auszuwählen, die bereits in unserem Datensatz vorhanden sind. Sie können auch neue Spalten erstellen und hinzufügen. Sie können beispielsweise eine neue Spalte mit der Bezeichnung "21. Jahrhundert" erstellen und einen booleschen Wert zuweisen, der darauf basiert, ob die Beobachtung in den 2000er Jahren liegt:

Manchmal handelt es sich bei den neu erstellten Spalten um Umwandlungen einer bereits im dataframe vorhandenen series. Sie können beispielsweise eine neue Spalte "missing_political_violence_data" erstellen, die den Wert "True" annimmt, wenn die Serie "v2caviol" (Ausmaß der politischen Gewalt) leer ist, und andernfalls "False":

In [None]:
fsdf['missing_political_violence_data']

Wie Sie bei der Ausführung von value_counts() sehen können, fehlen für 6042 Beobachtungen Daten zum Ausmaß der politischen Gewalt.

### Missing data

Es ist wichtig zu verstehen, wie mit fehlenden Daten umgegangen wird. Fehlende Daten kommen in realen Datensätzen häufig vor, und sie können aus mehreren Gründen fehlen! Im Allgemeinen verwendet Pandas den Wert np.nan, um fehlende Daten darzustellen. Der np.nan-Wert von NumPy ist ein Spezialfall einer Fließkommazahl, die einen nicht darstellbaren Wert darstellt. Diese Art von Werten werden NaNs (Not a Number) genannt.

np.nan kann nicht in Gleichheitstests verwendet werden, da jeder Vergleich mit einem np.nan-Wert als Falsch ausgewertet wird. Dies schließt den Vergleich von np.nan mit sich selbst ein.  

np.nan-Werte werden nicht zu False oder None ausgewertet. Dies kann es schwierig machen, fehlende Werte zu unterscheiden. Zu diesem Zweck können Sie die Funktion np.isnan() verwenden, die besonders im Kontrollfluss nützlich ist.

In [None]:
fsdf[['country_name', 'year', 'v2caviol']]

In [None]:
fsdf[['country_name', 'year', 'v2caviol']]

Außerdem werden np.nan-Werte im Allgemeinen von Pandas-Funktionen ausgeschlossen, die Berechnungen über dataframes, Zeilen oder Spalten durchführen. In der Dokumentation wird zum Beispiel oft angegeben, dass eine Berechnung über alle Werte durchgeführt wird, wobei NaN- oder NULL-Werte ausgeschlossen werden.

In [None]:
total = len(fsdf['v2caviol']) 
count = fsdf['v2caviol'].count() 
print(f'Total: {total}') 
print(f'Count: {count}') 
print(f'Diff: {total-count}')

Die Gesamtzahl der Elemente in der Spalte v2caviol (politische Gewalt) ist viel höher als die von der Funktion `count()` erhaltene Anzahl. Wenn das, was wir oben gelernt haben, richtig ist, sollte dieser Unterschied berücksichtigt werden, wenn wir herausfinden, wie viele Elemente in dieser Spalte NaNs sind.

In [None]:
nans = fsdf['v2caviol'].isna().sum()
print(' NaNs: {}'.format(nans))

Wie Sie wahrscheinlich wissen, kann die Methode `.isna()`, die der Methode `np.isnan()` ähnelt, aber zusätzliche Fälle abdeckt, beim Transformieren und Filtern von Daten sehr nützlich sein.

### Aggregieren und Gruppieren

Datenanalyseprojekte beinhalten oft Aggregations- oder Gruppierungsoperationen. So kann es beispielsweise erforderlich sein, zusammenfassende Statistiken für Beobachtungen zu berechnen und zu vergleichen, die unterschiedliche Werte für eine kategoriale Variable annehmen. Es kann hilfreich sein, den Datensatz selbst aufzuschlüsseln und Operationen auf verschiedenen Teilmengen von Daten durchzuführen. Dazu verwenden wir die Methode `.groupby()`, die den dataframe auf der Grundlage der Werte einer bestimmten Variable in Gruppen unterteilt. Anschließend können wir Operationen mit den resultierenden Gruppen durchführen. Wir gruppieren unsere Länder in geografische Regionen, indem wir die Variable *e_regiongeo* verwenden:

Der obige Code gibt ein gruppiertes Objekt zurück, mit dem wir arbeiten können. Nehmen wir an, wir wollen eine bestimmte Gruppe herausziehen, z. B. Südostasien, die in den Daten mit der numerischen ID 13 dargestellt wird. Ich weiß das, weil die entsprechenden Informationen im VDEM-Codebuch zu finden sind, das Sie bei Ihrer Arbeit mit den VDEM-Daten immer geöffnet halten sollten.

Wir können die Methode get_group() verwenden, um eine Gruppe aus dem gruppierten Objekt zu ziehen. (Beachten Sie, dass der nachstehende Code .get_group() fsdf[fsdf['e_regiongeo'] == 13] entspricht).

Bei den in south_east_asia gespeicherten Daten handelt es sich um alle Beobachtungen der südostasiatischen Länder in den VDEM-Daten, die nun in einem eigenen dataframe gespeichert sind. .get_group() ist eine weitere Möglichkeit, eine Teilmenge eines dataframes zu extrahieren (mit Hilfe eines groupby-Objekts), und ist besonders nützlich, wenn die Teilmenge der Daten, mit der Sie arbeiten möchten, nur Beobachtungen mit einem bestimmten Wert für eine kategoriale Variable in Ihren Daten sind. Wenn wir einen Datensatz auf diese Weise gruppieren, geschieht dies im Allgemeinen, weil wir etwas für eine Gruppe innerhalb des Datensatzes oder für mehrere Gruppen, die wir vergleichen möchten, berechnen möchten. Dazu geben wir das gruppierte Objekt, die Serie, für die wir eine Operation durchführen möchten, und schließlich die Operation, die wir durchführen möchten, an. Berechnen wir zum Beispiel den Median des Polyarchie-Scores für Länder in jeder der Regionen im Datensatz:

Es wäre nützlicher, den Namen der Region zu sehen als ihre numerische Bezeichnung. Wir können dies erreichen, indem wir ein Wörterbuch erstellen, das die numerischen IDs auf den Regionsnamen abbildet, und dann die Methode .map() verwenden, um Pandas mitzuteilen, wo es die Werte nachschlagen soll, die es benötigt, um eine neue Spalte mit den Ländernamen zu erstellen. Zuerst das Wörterbuch:

In [None]:
regions = { 1:'Western Europe', 
           2:'Northern Europe', 
           3:'Southern Europe', 
           4:'Eastern Europe', 
           5:'Northern Africa',
           6:'Western Africa', 
           7:'Middle Africa', 
           8:'Eastern Africa', 
           9:'Southern Africa', 
           10:'Western Asia', 
           11:'Central Asia', 
           12:'East Asia', 
           13:'South-East Asia', 
           14:'South Asia', 
           15:'Oceania', # (including Australia and the Pacific) 
           16:'North America', 
           17:'Central America', 
           18:'South America', 
           19:'Caribbean' # (including Belize Cuba Haiti Dominican Republic) 
          }

Nun können wir dieses Wörterbuch an die Methode `.map()` übergeben, die auf die Serie `fsdf['e_regiongeo']` angewendet wird, und so eine neue Serie namens `fsdf['Region']` erstellen:

Es ist auch möglich, nach mehreren Variablen zu gruppieren, z. B. nach geografischer Region und Jahr, und dann eine Operation an diesen etwas feineren Gruppen durchzuführen. Auf diese Weise ergeben sich 2211 Gruppen, so dass wir eine Zufallsstichprobe von 10 Gruppen ansehen werden:

Für das gruppierte Objekt selbst können andere Operationen durchgeführt werden, z. B. die Berechnung der Anzahl der Beobachtungen in jeder Gruppe (entspricht value_counts()):

Schließlich können wir mit der Methode `agg()` mehrere Operationen auf ein gruppiertes Objekt anwenden. Die `agg()`-Methode wendet eine oder mehrere Aggregatfunktionen auf ein gruppiertes Objekt an und gibt die Ergebnisse der einzelnen Funktionen zurück:

Wir können sogar unsere eigene Funktion definieren, die agg() verwenden soll! Wenn wir bereit sind, ein Wörterbuch zu übergeben, können wir mit .agg() auch verschiedene Funktionen auf mehrere Variablen gleichzeitig anwenden! Anstatt eine Liste pro Funktion zu übergeben, können Sie ein Wörterbuch verwenden, in dem die Spaltennamen die Schlüssel und die Funktionen die Werte sind (Sie können auch eine Liste von Funktionen übergeben), um eine wirklich komplexe Aggregation in einer einzigen Codezeile durchzuführen.

## Kombinierung von DataFrames

Das Kombinieren von dataframes ist eine sehr häufige Aufgabe. Auch wenn es nicht offensichtlich erscheint, ist das Kombinieren von Datensätzen eine der wertvollsten Fähigkeiten, die man in der rechnergestützten Sozialwissenschaft haben kann. Im Folgenden werden einige der gebräuchlichsten Ansätze betrachtet, nämlich die Verkettung und Zusammenführung, und es wird kurz eine fortgeschrittenere Reihe von Methoden beschrieben, die gemeinhin als Datensatzverknüpfung bezeichnet werden.  

Die Verkettung eines dataframes ist konzeptionell recht einfach - stellen Sie sich vor, Sie hängen die Zeilen oder Spalten eines dataframes unter oder rechts von der letzten Zeile oder Spalte eines anderen dataframes an. Damit dies sinnvoll ist, sollten die beiden dataframes mindestens eine Zeile oder Spalte gemeinsam haben.

In [None]:
full_df = pd.read_csv("../data/vdem/filtered_subset.csv") 
df_australia = full_df[full_df.country_name == "Australia"].copy()
len(df_australia)

In [None]:
df_australia.head()

In [None]:
df_sa = full_df[full_df.country_name == "South Africa"].copy()
len(df_sa)

In [None]:
df_sa.head()

Standardmäßig führt pd.concat() eine zeilenweise Verknüpfung durch, die als Achse=0 bezeichnet wird. Diese Vorgabe kann durch die Angabe von Achse=1 außer Kraft gesetzt werden, wodurch eine spaltenweise Verknüpfung erfolgt:

Wenn wir die beiden dataframes verketten, bleibt die Anzahl der Spalten gleich, aber die Anzahl der Zeilen erhöht sich, da die Zeilen in beiden ursprünglichen dataframes berücksichtigt werden. Normalerweise würde diese Art der Verkettung zu einer unterschiedlichen Anzahl von Spalten führen, aber in diesem Fall hatten die beiden Dataframes, die wir zusammengefügt haben, genau die gleichen Spalten (was sinnvoll ist, da sie beide aus demselben übergeordneten Dataframe extrahiert wurden).

### Merging

Eine andere Möglichkeit, Datensätze zu kombinieren, ist ihre Zusammenführung. Wenn Sie einen dataframe erstellen möchten, der Spalten aus mehreren Datensätzen enthält, aber in den Zeilen nach einer bestimmten Spalte (oder einem Satz von Spalten) ausgerichtet ist, sollten Sie die Funktion merge() verwenden. Um dies zu veranschaulichen, werden wir mit Daten aus zwei verschiedenen Quellen arbeiten. Die erste Quelle sind die VDEM-Daten, die wir im ersten Teil dieses Kapitels verwendet haben (fsdf). Die zweite ist ein Datensatz von Freedom House über den Grad der Internetfreiheit in 65 Ländern. Weitere Informationen finden Sie unter https://freedomhouse.org/countries/freedom-net/scores.

In [None]:
freedom_df = pd.read_csv( "../data/freedom_house/internet_freedoms_2020.csv")

Um diese dataframes zusammenzuführen, müssen wir eine Spalte finden, mit der wir die Zeilen des einen dataframes mit den Zeilen des anderen abgleichen können. Die Spalten müssen nicht den gleichen Namen haben, sondern nur Werte, die einander zugeordnet werden können. Die von uns gewählten Spalten werden in unserer Zusammenführung als "Schlüssel" bezeichnet. In unserem Fall sind dies die Spalten mit den Ländernamen aus jedem Datensatz.

In [None]:
list(fsdf.columns)

In [None]:
list(freedom_df.columns)

Wir verwenden die Funktion "Zusammenführen", um diese beiden dataframes mit "country_name" und "Country" zu kombinieren. Wir führen einen inner-join durch, was der Standard ist, wenn die Option nicht gesetzt ist, und behalten nur die Schlüssel (d. h. Länder), die in beiden dataframes erscheinen:

In [None]:
len(merged), len(merged.columns)

In [None]:
len(freedom_df), len(freedom_df.columns)

In [None]:
len(fsdf), len(fsdf.columns)

Sie sollten fünf neue Spalten in dem zusammengeführten dataframe im Vergleich zu dem fsdf-Dataframe sehen. Beachten Sie, wie viele Zeilen jeder der beiden dataframes hat: viel weniger Zeilen als der ursprüngliche VDEM dataframe, aber viel mehr als der Freedom House dataframe. Wenn also in unserem Fall das Land einer Zeile in dem anderen Datensatz nicht vorkommt, wird diese Zeile nicht in den zusammengeführten dataframe aufgenommen.  

Dies kann mit dem Parameter how angepasst werden. Es gibt fünf Möglichkeiten, dataframes in Pandas zusammenzuführen: left, right, outer, inner und cross. In der Dokumentation können Sie nachlesen, wie die anderen vier Methoden funktionieren.  

![Pandas merge](fig/pandas_merge_venn.png)

<div class='alert alert-block alert-success'>

### Aufgabe 2

--> session_04_excercise_2.ipynb

</div>