## Pandas

Mit Pandas können wir Daten analysieren, die in Tabellarischer Form vorzufinden sind

Formate: XML, Json, CSV, SQL, ...

Wir können die Daten auch bearbeiten und darstellen (mithilfe von Matplotlib, Seaborn, Bokeh)

- Bar Chart
 
- Line Chart

- Pie Chart

- Scatterplot

- ...

In [1]:
import pandas as pd
import numpy as np

## Serie

Eine Serie ist eine Liste von Werten

Eine Serie kann noch extra beschrieben werden im Gegensatz zum Array/List

In [2]:
einwohnerM = pd.Series([9, 83.7, 8.6, 0.38])

In [3]:
einwohnerM

0     9.00
1    83.70
2     8.60
3     0.38
dtype: float64

Zahlen alleine sind nicht sonderlich aussagekräftig

Serie kann einen Namen haben

In [21]:
einwohnerM.name = "Einwohnerzahlen Europa"

In [5]:
einwohnerM

0     9.00
1    83.70
2     8.60
3     0.38
Name: Einwohnerzahlen Europa, dtype: float64

In [6]:
einwohnerM.values

array([ 9.  , 83.7 ,  8.6 ,  0.38])

In [7]:
type(einwohnerM.values)

numpy.ndarray

In [8]:
einwohnerM[1]

83.7

In [9]:
einwohnerM.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
einwohnerM.sort_values()  # Die Sortierung ist nur temporär, bzw. das Ergebnis ist eine neue Serie

3     0.38
2     8.60
0     9.00
1    83.70
Name: Einwohnerzahlen Europa, dtype: float64

In [11]:
einwohnerM

0     9.00
1    83.70
2     8.60
3     0.38
Name: Einwohnerzahlen Europa, dtype: float64

In [26]:
# einwohnerM = einwohnerM.sort_values()
einwohnerM.sort_values(inplace=True, ascending=False)  # Mit Inplace=<bool> kann die Sortierung auf das Original angewandt werden

In [15]:
einwohnerM

1    83.70
0     9.00
2     8.60
3     0.38
Name: Einwohnerzahlen Europa, dtype: float64

Es kann auch aus einem Python Dictionary eine Serie erstellt werden

In [31]:
dict = {"AT": 9, "DE": 83.7, "CH": 8.6, "LI": 0.38 }

In [37]:
einwohnerM = pd.Series(dict, name="Einwohnerzahlen Europa", dtype=np.float32)  # Über kwargs weitere Konfigurationen vornehmen, Tab um Vorschläge zu bekommen

In [36]:
einwohnerM

AT     9.000000
DE    83.699997
CH     8.600000
LI     0.380000
Name: Einwohnerzahlen Europa, dtype: float32

Durch die Benennung der Zeilen ist nun auch ein Alphabetischer Index möglich

In [25]:
einwohnerM["AT"]

9.0

In [30]:
einwohnerM[0]

83.7

Mehrere Elemente auswählen wie bei Numpy

In [41]:
einwohnerM[0:2]

AT     9.000000
DE    83.699997
Name: Einwohnerzahlen Europa, dtype: float32

Mehrere Elemente auswählen mittels Textbasiertem Index

In [40]:
einwohnerM["AT": "CH"]  # Obergrenze ist inkludiert

AT     9.000000
DE    83.699997
CH     8.600000
Name: Einwohnerzahlen Europa, dtype: float32

## Vektorisierung

Funktioniert hier auch wie in Numpy

In [42]:
einwohnerM < 10

AT     True
DE    False
CH     True
LI     True
Name: Einwohnerzahlen Europa, dtype: bool

In [43]:
einwohnerM[einwohnerM < 10]

AT    9.00
CH    8.60
LI    0.38
Name: Einwohnerzahlen Europa, dtype: float32

In [47]:
einwohnerM[(einwohnerM < einwohnerM.mean()) & (einwohnerM > 5)]

AT    9.0
CH    8.6
Name: Einwohnerzahlen Europa, dtype: float32

## DataFrame

Effektiv eine Tabelle (CSV, SQL), Zweidimensional

Hier ist es sinnvolle eine CSV-Datei oder eine SQL-Tabelle zu laden

In [48]:
pd.DataFrame({"Spalte1": [1, 2, 3], "Spalte2": [4, 5, 6], "Spalte3": [7, 8, 9]})

Unnamed: 0,Spalte1,Spalte2,Spalte3
0,1,4,7
1,2,5,8
2,3,6,9


Es gibt verschiedene Methoden um Daten einzulesen

Wir fangen an mit der read_csv() Funktion

## read_csv

Hier ist es wichtig den Delimiter anzugeben und Dezimal- und Tausendertrennzeichen

Es gibt auch die Möglichkeit für weiter Konfiguration:

- header=None um Header zu ignorieren

- parse_dates=True: Konvertiert Datumsspalten zu np.datetime64

- index_col=Spaltenindex um eine Indexspalte zu setzen

In [126]:
df = pd.read_csv("Data/PopulationData.csv", delimiter=";", decimal=".", thousands=",")

In [52]:
df

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
...,...,...,...,...,...,...,...,...,...,...,...,...
230,231,Montserrat,4992,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,232,Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,233,Niue,1626,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,234,Tokelau,1357,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %


In [53]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 235 entries, 0 to 234
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   #                        235 non-null    int64  
 1   Country (or dependency)  235 non-null    object 
 2   Population(2020)         235 non-null    int64  
 3   YearlyChange             235 non-null    object 
 4   NetChange                235 non-null    int64  
 5   Density(P/Km²)           235 non-null    int64  
 6   Land Area(Km²)           235 non-null    int64  
 7   Migrants(net)            201 non-null    float64
 8   Fert.Rate                235 non-null    object 
 9   Med.Age                  235 non-null    object 
 10  UrbanPop %               235 non-null    object 
 11  WorldShare               235 non-null    object 
dtypes: float64(1), int64(5), object(6)
memory usage: 22.2+ KB


In [56]:
df.head(10)  # Die obersten 10 Zeilen

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
5,6,Brazil,212559417,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
6,7,Nigeria,206139589,2.58 %,5175990,226,910770,-60000.0,5.4,18,52 %,2.64 %
7,8,Bangladesh,164689383,1.01 %,1643222,1265,130170,-369501.0,2.1,28,39 %,2.11 %
8,9,Russia,145934462,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
9,10,Mexico,128932753,1.06 %,1357224,66,1943950,-60000.0,2.1,29,84 %,1.65 %


In [58]:
df.tail()  # Die untersten 5 Zeilen

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
230,231,Montserrat,4992,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,232,Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,233,Niue,1626,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,234,Tokelau,1357,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %
234,235,Vatican State,801,0.25 %,2,2003,0,,N.A.,N.A.,N.A.,0.00 %


In [59]:
df.describe()

Unnamed: 0,#,Population(2020),NetChange,Density(P/Km²),Land Area(Km²),Migrants(net)
count,235.0,235.0,235.0,235.0,235.0,201.0
mean,118.0,33171200.0,346105.8,478.408511,553591.8,-5.442786
std,67.982841,135137000.0,1128255.0,2331.282424,1687796.0,123292.057588
min,1.0,801.0,-383840.0,0.0,0.0,-653249.0
25%,59.5,418801.5,424.0,37.0,2545.0,-10047.0
50%,118.0,5459642.0,39170.0,95.0,77240.0,-960.0
75%,176.5,20577050.0,249660.0,240.0,403820.0,9741.0
max,235.0,1439324000.0,13586630.0,26337.0,16376870.0,954806.0


loc: Gibt die Möglichkeit, einzelne Zeilen auszuwählen (Funktioniert nur mit eckigen Klammern)

In [63]:
df.loc[1]

#                                   2
Country (or dependency)         India
Population(2020)           1380004385
YearlyChange                   0.99 %
NetChange                    13586631
Density(P/Km²)                    464
Land Area(Km²)                2973190
Migrants(net)               -532687.0
Fert.Rate                         2.2
Med.Age                            28
UrbanPop %                       35 %
WorldShare                    17.70 %
Name: 1, dtype: object

In [61]:
type(df.loc[1])

pandas.core.series.Series

Mit loc können auch mehrere Zeilen ausgewählt werden

In [64]:
df.loc[5:10]

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
5,6,Brazil,212559417,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
6,7,Nigeria,206139589,2.58 %,5175990,226,910770,-60000.0,5.4,18,52 %,2.64 %
7,8,Bangladesh,164689383,1.01 %,1643222,1265,130170,-369501.0,2.1,28,39 %,2.11 %
8,9,Russia,145934462,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
9,10,Mexico,128932753,1.06 %,1357224,66,1943950,-60000.0,2.1,29,84 %,1.65 %
10,11,Japan,126476461,-0.30 %,-383840,347,364555,71560.0,1.4,48,92 %,1.62 %


Es können auch nur bestimmte Spalten ausgewählt werden

In [65]:
df.loc[0:10, ["Country (or dependency)", "Population(2020)"]]

Unnamed: 0,Country (or dependency),Population(2020)
0,China,1439323776
1,India,1380004385
2,United States,331002651
3,Indonesia,273523615
4,Pakistan,220892340
5,Brazil,212559417
6,Nigeria,206139589
7,Bangladesh,164689383
8,Russia,145934462
9,Mexico,128932753


Mit iloc können Zeilen über einen Index ausgewählt werden

In [67]:
df.iloc[0:10]

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
5,6,Brazil,212559417,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
6,7,Nigeria,206139589,2.58 %,5175990,226,910770,-60000.0,5.4,18,52 %,2.64 %
7,8,Bangladesh,164689383,1.01 %,1643222,1265,130170,-369501.0,2.1,28,39 %,2.11 %
8,9,Russia,145934462,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
9,10,Mexico,128932753,1.06 %,1357224,66,1943950,-60000.0,2.1,29,84 %,1.65 %


Hier kann ein beliebiges Rechteck ausgewählt werden

In [68]:
df.iloc[0:3, 3:5]

Unnamed: 0,YearlyChange,NetChange
0,0.39 %,5540090
1,0.99 %,13586631
2,0.59 %,1937734


Nachdem alle Spalten auch Serien sind, können wir auch Vektorisierung anwenden um die Daten zu filtern

In [71]:
df["Land Area(Km²)"] > 1000000

0       True
1       True
2       True
3       True
4      False
       ...  
230    False
231    False
232    False
233    False
234    False
Name: Land Area(Km²), Length: 235, dtype: bool

In [92]:
la = df[df["Land Area(Km²)"] > 1000000]  # Hier die Boolean Maske einfach in das DataFrame zurückwerfen

## Sortierung

Ergebnisse mit der sort_values Funktion sortieren

Parameter:
- Spalte selbst, Liste angeben für sekundäre/tertiäre Sortierung
- ascending=True/False (standard True)
- inplace=True/False (standard False) -> Sortierung wird auf das Datenset angewandt

In [93]:
la = la.sort_values("Land Area(Km²)", ascending=False)

In [94]:
la

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
8,9,Russia,145934462,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
38,39,Canada,37742154,0.89 %,331107,4,9093510,242032.0,1.5,41,81 %,0.48 %
5,6,Brazil,212559417,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
54,55,Australia,25499884,1.18 %,296686,3,7682300,158246.0,1.8,38,86 %,0.33 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
31,32,Argentina,45195774,0.93 %,415097,17,2736690,4800.0,2.3,32,93 %,0.58 %
63,64,Kazakhstan,18776707,1.21 %,225280,7,2699700,-18000.0,2.8,31,58 %,0.24 %
32,33,Algeria,43851044,1.85 %,797990,18,2381740,-10000.0,3.1,29,73 %,0.56 %


In [98]:
df["Population(2020)"] > 100_000_000

0       True
1       True
2       True
3       True
4       True
       ...  
230    False
231    False
232    False
233    False
234    False
Name: Population(2020), Length: 235, dtype: bool

In [101]:
df[df["Population(2020)"] > 100_000_000].sort_values("Country (or dependency)")

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
7,8,Bangladesh,164689383,1.01 %,1643222,1265,130170,-369501.0,2.1,28,39 %,2.11 %
5,6,Brazil,212559417,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
13,14,Egypt,102334404,1.94 %,1946331,103,995450,-38033.0,3.3,25,43 %,1.31 %
11,12,Ethiopia,114963588,2.57 %,2884858,115,1000000,30000.0,4.3,19,21 %,1.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
10,11,Japan,126476461,-0.30 %,-383840,347,364555,71560.0,1.4,48,92 %,1.62 %
9,10,Mexico,128932753,1.06 %,1357224,66,1943950,-60000.0,2.1,29,84 %,1.65 %
6,7,Nigeria,206139589,2.58 %,5175990,226,910770,-60000.0,5.4,18,52 %,2.64 %


## Spalten entfernen

Spalten oder Zeilen können auch aus dem DataFrame entfernt werden, wenn sie nicht benötigt werden

Dafür wird die drop() Funktion verwendet (WICHTIG: drop erzeugt ein neues DataFrame -> Zuweisen um die Änderung zu übernehmen)

df.index[Start:Ende]: Ermöglicht einen Index zu erstellen für Funktion die einen Index benötigen

Zeilen löschen:

In [123]:
df.drop(df.index[10:])

Spalten löschen (mit Liste):

In [110]:
df.drop(columns=["#", "Fert.Rate", "Med.Age"])

Unnamed: 0,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),UrbanPop %,WorldShare
0,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,61 %,18.47 %
1,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,35 %,17.70 %
2,United States,331002651,0.59 %,1937734,36,9147420,954806.0,83 %,4.25 %
3,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,56 %,3.51 %
4,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,35 %,2.83 %
...,...,...,...,...,...,...,...,...,...
230,Montserrat,4992,0.06 %,3,50,100,,10 %,0.00 %
231,Falkland Islands,3480,3.05 %,103,0,12170,,66 %,0.00 %
232,Niue,1626,0.68 %,11,6,260,,46 %,0.00 %
233,Tokelau,1357,1.27 %,17,136,10,,0 %,0.00 %


## Spalten umbenennen

Zum Umbenennen einer Spalte gibt es die rename() Funktion

Diese Funktion benötigt ein Dictionary in der Form:

columns={ "Alter Spaltenname": "Neuer Spaltenname", ... }

In [130]:
df.rename(columns={"Population(2020)": "Population", "Country (or dependency)": "Country", "Land Area(Km²)": "Area"}, inplace=True)

In [131]:
df

Unnamed: 0,#,Country,Population,YearlyChange,NetChange,Density(P/Km²),Area,Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
...,...,...,...,...,...,...,...,...,...,...,...,...
230,231,Montserrat,4992,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,232,Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,233,Niue,1626,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,234,Tokelau,1357,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %


Es können auch Funktionen in Jupyter angelegt werden

In [140]:
def reset():
    df = pd.read_csv("Data/PopulationData.csv", delimiter=";", decimal=".", thousands=",", index_col="#")

## Neue Spalten hinzufügen

Mithilfe von df["Neuer Name"] = Wert können neue Spalten angelegt werden

Diese neuen Spalten können sich auf bestehende Spalten beziehen

Stichwort: Vektorisierung von Arrays (Numpy: v * v)

In [134]:
df["Pop/Area"] = round(df["Population"] / df["Area"], 2)

In [135]:
df

Unnamed: 0,#,Country,Population,YearlyChange,NetChange,Density(P/Km²),Area,Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare,Pop/Area
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %,153.31
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %,464.15
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %,36.19
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %,150.99
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %,286.55
...,...,...,...,...,...,...,...,...,...,...,...,...,...
230,231,Montserrat,4992,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %,49.92
231,232,Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %,0.29
232,233,Niue,1626,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %,6.25
233,234,Tokelau,1357,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %,135.70


In [136]:
df.sort_values("Pop/Area")

Unnamed: 0,#,Country,Population,YearlyChange,NetChange,Density(P/Km²),Area,Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare,Pop/Area
208,209,Greenland,56770,0.17 %,98,0,410450,,N.A.,N.A.,87 %,0.00 %,0.14
231,232,Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %,0.29
135,136,Mongolia,3278290,1.65 %,53123,2,1553560,-852.0,2.9,28,67 %,0.04 %,2.11
169,170,Western Sahara,597339,2.55 %,14876,2,266000,5582.0,2.4,28,87 %,0.01 %,2.25
142,143,Namibia,2540905,1.86 %,46375,3,823290,-4806.0,3.4,22,55 %,0.03 %,3.09
...,...,...,...,...,...,...,...,...,...,...,...,...,...
103,104,Hong Kong,7496981,0.82 %,60827,7140,1050,29308.0,1.3,45,N.A.,0.10 %,7139.98
113,114,Singapore,5850342,0.79 %,46005,8358,700,27028.0,1.2,42,N.A.,0.08 %,8357.63
166,167,Macao,649335,1.39 %,8890,21645,30,5000.0,1.2,39,N.A.,0.01 %,21644.50
213,214,Monaco,39242,0.71 %,278,26337,1,,N.A.,N.A.,N.A.,0.00 %,39242.00


## Index setzen

Standardmäßig generiert Pandas einen Index

Wir können auch selbst eine Spalte als Indexspalte definieren

Funktioniert auch beim Einlesen der Daten

In [139]:
df.drop(columns=["#"], inplace=True)
df.set_index("Country")

Unnamed: 0_level_0,Population,YearlyChange,NetChange,Density(P/Km²),Area,Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare,Pop/Area
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %,153.31
India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %,464.15
United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %,36.19
Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %,150.99
Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %,286.55
...,...,...,...,...,...,...,...,...,...,...,...
Montserrat,4992,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %,49.92
Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %,0.29
Niue,1626,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %,6.25
Tokelau,1357,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %,135.70


## Werte zählen

Mit der Funktion value_count() können Werte gezählt werden

Diese Funktion zählt nur Zeilen die fehlerfrei sind

In [141]:
df.value_counts()

Country           Population  YearlyChange  NetChange  Density(P/Km²)  Area     Migrants(net)  Fert.Rate  Med.Age  UrbanPop %  WorldShare  Pop/Area
Afghanistan       38928346    2.33 %        886592     60              652860   -62920.0       4.6        18       25 %        0.50 %      59.63       1
Papua New Guinea  8947024     1.95 %        170915     20              452860   -800.0         3.6        22       13 %        0.11 %      19.76       1
New Zealand       4822233     0.82 %        39170      18              263310    14881.0       1.9        38       87 %        0.06 %      18.31       1
Nicaragua         6624554     1.21 %        79052      55              120340   -21272.0       2.4        26       57 %        0.08 %      55.05       1
Niger             24206644    3.84 %        895929     19              1266700   4000.0        7.0        15       17 %        0.31 %      19.11       1
                                                                                       

In [147]:
df["Population"].value_counts()

Population
1439323776    1
895312        1
1968001       1
1886198       1
1701575       1
             ..
11326616      1
11193725      1
10847910      1
10708981      1
801           1
Name: count, Length: 235, dtype: int64

## Gruppierung

Die groupby() Funktion ermöglicht uns, Gruppen anhand eines Kriteriums zu erstellen (z.B.: 2011er Gruppe, 2012er Gruppe, ...)

Mit der get_group(Name) Funktion können wir einzelne Gruppen anschauen und Operationen durchführen

Die einzelnen Gruppen sind selbst Serien

Mithilfe von size() und count() können die Anzahlen der Gruppen observiert werden

In [159]:
df.groupby("Med.Age")  # Pro Alter eine Gruppe mit den Datensätzen des entsprechenden Kriteriums (15er Gruppe, 17er Gruppe, 19er Gruppe, ...)
df.groupby("Med.Age").get_group("19")
df.groupby("Med.Age").get_group("19")["Population"].mean()

18241182.64285714

In [167]:
df.groupby("Med.Age").size()

Med.Age
15       1
16       1
17       6
18      10
19      14
20       9
21       5
22       7
23       4
24       6
25       4
26       7
27       4
28      12
29       5
30       8
31       6
32      11
33       5
34       6
35       3
36       4
37       4
38       7
39       3
40       7
41       5
42      10
43      11
44       5
45       5
46       3
47       2
48       1
N.A.    34
dtype: int64

In [168]:
df.groupby("Med.Age").count()

Unnamed: 0_level_0,Country,Population,YearlyChange,NetChange,Density(P/Km²),Area,Migrants(net),Fert.Rate,UrbanPop %,WorldShare,Pop/Area
Med.Age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
15,1,1,1,1,1,1,1,1,1,1,1
16,1,1,1,1,1,1,1,1,1,1,1
17,6,6,6,6,6,6,6,6,6,6,6
18,10,10,10,10,10,10,10,10,10,10,10
19,14,14,14,14,14,14,14,14,14,14,14
20,9,9,9,9,9,9,9,9,9,9,9
21,5,5,5,5,5,5,5,5,5,5,5
22,7,7,7,7,7,7,7,7,7,7,7
23,4,4,4,4,4,4,4,4,4,4,4
24,6,6,6,6,6,6,6,6,6,6,6
