## Pandas

Mit Pandas können wir Daten anaylsieren, die in Tabellarischer Form vorzufinden sind

Formate: XML, JSON, CSV, SQL, ...

Danach können diese Daten visualisiert werden (mithilfe von Matplotlib, ...)

In [1]:
import numpy as np
import pandas as pd

## Serie

Eine Serie ist eine Liste von Werten

Eine Serie kann auch noch extra beschrieben werden im Gegensatz zu einem normalen Numpy Array

Bei einer Serie können Numpy Funktion verwendet werden, da ein Numpy Array darunter liegt

In [3]:
einwohnerM = pd.Series([9, 83.7, 8.6, 0.38])

In [4]:
einwohnerM

0     9.00
1    83.70
2     8.60
3     0.38
dtype: float64

In [5]:
einwohnerM.sum()

101.67999999999999

In [6]:
einwohnerM.mean()

25.419999999999998

In [7]:
einwohnerM[0]

9.0

In [8]:
einwohnerM.size

4

Eine Serie kann noch mit extra Attributen versehen werden

In [9]:
einwohnerM.name = "Einwohnerzahlen Europa"

In [10]:
einwohnerM

0     9.00
1    83.70
2     8.60
3     0.38
Name: Einwohnerzahlen Europa, dtype: float64

In [11]:
einwohnerM.values

array([ 9.  , 83.7 ,  8.6 ,  0.38])

In [12]:
type(einwohnerM.values)

numpy.ndarray

In [13]:
einwohnerM.index = [
    "AT",
    "DE",
    "CH",
    "LI"
]

In [14]:
einwohnerM

AT     9.00
DE    83.70
CH     8.60
LI     0.38
Name: Einwohnerzahlen Europa, dtype: float64

In [15]:
einwohnerM["AT"]

9.0

In [16]:
einwohnerM[0]

  einwohnerM[0]


9.0

## Sortierung

Es kann nach Werten oder nach dem Index sortiert werden

Hier kann auch die Richtung konfiguriert werden sowie ob die Sortierung auf die Serie angewandt werden soll

In [23]:
einwohnerM.sort_values(ascending=False)

DE    83.70
AT     9.00
CH     8.60
LI     0.38
Name: Einwohnerzahlen Europa, dtype: float64

In [20]:
einwohnerM.sort_index(inplace=True)  # inplace: Funktion anwenden

In [21]:
einwohnerM

AT     9.00
CH     8.60
DE    83.70
LI     0.38
Name: Einwohnerzahlen Europa, dtype: float64

Serie aus einem Dictionary erstellen

In [26]:
pd.Series({"DE": 83.7, "AT": 9, "CH": 8.6, "LI": 0.38}, dtype=np.float32, name="Einwohnerzahlen Europa") 

DE    83.699997
AT     9.000000
CH     8.600000
LI     0.380000
Name: Einwohnerzahlen Europa, dtype: float32

In [28]:
einwohnerM["AT":"CH"]  # Textbasierter Index mittels Bereich auswählen (Obergrenze inkludiert)

AT    9.0
CH    8.6
Name: Einwohnerzahlen Europa, dtype: float64

In [30]:
einwohnerM[0:1]  # Hier ist CH nicht dabei

AT    9.0
Name: Einwohnerzahlen Europa, dtype: float64

## Vektorisierung

In [31]:
einwohnerM > 5

AT     True
CH     True
DE     True
LI    False
Name: Einwohnerzahlen Europa, dtype: bool

In [32]:
einwohnerM[einwohnerM > 5]

AT     9.0
CH     8.6
DE    83.7
Name: Einwohnerzahlen Europa, dtype: float64

In [33]:
einwohnerM.mean()

25.42

In [39]:
einwohnerM[(einwohnerM < einwohnerM.mean()) & (einwohnerM > 5)]

AT    9.0
CH    8.6
Name: Einwohnerzahlen Europa, dtype: float64

## DataFrame

Effektiv eine Tabelle (CSV, SQL), Zweidimensional

Hier ist es sinnvoll eine Tabelle zu laden

In [41]:
pd.DataFrame({"Spalte1": [1, 2, 3], "Spalte2": [4, 5,6], "Spalte3": [7, 8, 9]})

Unnamed: 0,Spalte1,Spalte2,Spalte3
0,1,4,7
1,2,5,8
2,3,6,9


Es gibt verschiedene Möglichkeiten um Daten einzulesen

Wir fangen mit read_csv an

In [110]:
df = pd.read_csv("Data/PopulationData.csv", delimiter=";", decimal=".", thousands=",")  # index_col="Country (or dependency)"

In [111]:
df

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
...,...,...,...,...,...,...,...,...,...,...,...,...
230,231,Montserrat,4992,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,232,Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,233,Niue,1626,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,234,Tokelau,1357,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %


In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 235 entries, 0 to 234
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   #                        235 non-null    int64  
 1   Country (or dependency)  235 non-null    object 
 2   Population(2020)         235 non-null    int64  
 3   YearlyChange             235 non-null    object 
 4   NetChange                235 non-null    int64  
 5   Density(P/Km²)           235 non-null    int64  
 6   Land Area(Km²)           235 non-null    int64  
 7   Migrants(net)            201 non-null    float64
 8   Fert.Rate                235 non-null    object 
 9   Med.Age                  235 non-null    object 
 10  UrbanPop %               235 non-null    object 
 11  WorldShare               235 non-null    object 
dtypes: float64(1), int64(5), object(6)
memory usage: 22.2+ KB


In [57]:
df.head()  # Gibt die obersten X (standardmäßig 5) Datensätze aus

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %


In [59]:
df.tail()  # Ermöglicht, mehr als 5 Zeilen auszugeben im Gegensatz zu der DataFrame Variable

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
230,231,Montserrat,4992,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,232,Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,233,Niue,1626,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,234,Tokelau,1357,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %
234,235,Vatican State,801,0.25 %,2,2003,0,,N.A.,N.A.,N.A.,0.00 %


In [60]:
df.describe()

Unnamed: 0,#,Population(2020),NetChange,Density(P/Km²),Land Area(Km²),Migrants(net)
count,235.0,235.0,235.0,235.0,235.0,201.0
mean,118.0,33171200.0,346105.8,478.408511,553591.8,-5.442786
std,67.982841,135137000.0,1128255.0,2331.282424,1687796.0,123292.057588
min,1.0,801.0,-383840.0,0.0,0.0,-653249.0
25%,59.5,418801.5,424.0,37.0,2545.0,-10047.0
50%,118.0,5459642.0,39170.0,95.0,77240.0,-960.0
75%,176.5,20577050.0,249660.0,240.0,403820.0,9741.0
max,235.0,1439324000.0,13586630.0,26337.0,16376870.0,954806.0


## Einzelne Spalten/Zeilen angreifen

In [63]:
df["Population(2020)"]

0      1439323776
1      1380004385
2       331002651
3       273523615
4       220892340
          ...    
230          4992
231          3480
232          1626
233          1357
234           801
Name: Population(2020), Length: 235, dtype: int64

In [67]:
df.loc[0]  # loc wird verwendet um Zeilen anzugreifen

#                                   1
Country (or dependency)         China
Population(2020)           1439323776
YearlyChange                   0.39 %
NetChange                     5540090
Density(P/Km²)                    153
Land Area(Km²)                9388211
Migrants(net)               -348399.0
Fert.Rate                         1.7
Med.Age                            38
UrbanPop %                       61 %
WorldShare                    18.47 %
Name: 0, dtype: object

In [68]:
df.loc[5:10]

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
5,6,Brazil,212559417,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
6,7,Nigeria,206139589,2.58 %,5175990,226,910770,-60000.0,5.4,18,52 %,2.64 %
7,8,Bangladesh,164689383,1.01 %,1643222,1265,130170,-369501.0,2.1,28,39 %,2.11 %
8,9,Russia,145934462,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
9,10,Mexico,128932753,1.06 %,1357224,66,1943950,-60000.0,2.1,29,84 %,1.65 %
10,11,Japan,126476461,-0.30 %,-383840,347,364555,71560.0,1.4,48,92 %,1.62 %


In [70]:
df.loc[5:10, ["Country (or dependency)", "Population(2020)"]]

Unnamed: 0,Country (or dependency),Population(2020)
5,Brazil,212559417
6,Nigeria,206139589
7,Bangladesh,164689383
8,Russia,145934462
9,Mexico,128932753
10,Japan,126476461


## Daten filtern mithilfe von Vektorisierung

In [74]:
df["Land Area(Km²)"] > 5_000_000

0       True
1      False
2       True
3      False
4      False
       ...  
230    False
231    False
232    False
233    False
234    False
Name: Land Area(Km²), Length: 235, dtype: bool

In [75]:
df[df["Land Area(Km²)"] > 5_000_000]

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
5,6,Brazil,212559417,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
8,9,Russia,145934462,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
38,39,Canada,37742154,0.89 %,331107,4,9093510,242032.0,1.5,41,81 %,0.48 %
54,55,Australia,25499884,1.18 %,296686,3,7682300,158246.0,1.8,38,86 %,0.33 %


In [76]:
df = df[df["Land Area(Km²)"] > 5_000_000]

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
...,...,...,...,...,...,...,...,...,...,...,...,...
230,231,Montserrat,4992,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,232,Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,233,Niue,1626,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,234,Tokelau,1357,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %


## Sortierung

Ergebnisse mit der sort_values Funktion sortieren

Parameter:
1. Die Spalte nach der sortiert wird
2. ascending=True/False
3. inplace=True/False -> Sortierung wird auf das Datenset angewandt

In [78]:
df.sort_values("Land Area(Km²)", ascending=False, inplace=True)

In [81]:
df

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
...,...,...,...,...,...,...,...,...,...,...,...,...
230,231,Montserrat,4992,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,232,Falkland Islands,3480,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,233,Niue,1626,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,234,Tokelau,1357,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %


In [85]:
df[df["Land Area(Km²)"] > 1_000_000].sort_values("Land Area(Km²)", ascending=False)

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
8,9,Russia,145934462,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
38,39,Canada,37742154,0.89 %,331107,4,9093510,242032.0,1.5,41,81 %,0.48 %
5,6,Brazil,212559417,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
54,55,Australia,25499884,1.18 %,296686,3,7682300,158246.0,1.8,38,86 %,0.33 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
31,32,Argentina,45195774,0.93 %,415097,17,2736690,4800.0,2.3,32,93 %,0.58 %
63,64,Kazakhstan,18776707,1.21 %,225280,7,2699700,-18000.0,2.8,31,58 %,0.24 %
32,33,Algeria,43851044,1.85 %,797990,18,2381740,-10000.0,3.1,29,73 %,0.56 %


## Spalten entfernen

Spalten die nicht nützlich sind können entfernt werden

WICHTIG: Hier kommt ein neues DataFrame heraus, Ergebnis zuweisen um die Änderung zu übernehmen

In [93]:
df.drop(columns=["Density(P/Km²)", "#"], inplace=True)

In [94]:
df

Unnamed: 0,Country (or dependency),Population(2020),YearlyChange,NetChange,Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,China,1439323776,0.39 %,5540090,9388211,-348399.0,1.7,38,61 %,18.47 %
1,India,1380004385,0.99 %,13586631,2973190,-532687.0,2.2,28,35 %,17.70 %
2,United States,331002651,0.59 %,1937734,9147420,954806.0,1.8,38,83 %,4.25 %
3,Indonesia,273523615,1.07 %,2898047,1811570,-98955.0,2.3,30,56 %,3.51 %
4,Pakistan,220892340,2.00 %,4327022,770880,-233379.0,3.6,23,35 %,2.83 %
...,...,...,...,...,...,...,...,...,...,...
230,Montserrat,4992,0.06 %,3,100,,N.A.,N.A.,10 %,0.00 %
231,Falkland Islands,3480,3.05 %,103,12170,,N.A.,N.A.,66 %,0.00 %
232,Niue,1626,0.68 %,11,260,,N.A.,N.A.,46 %,0.00 %
233,Tokelau,1357,1.27 %,17,10,,N.A.,N.A.,0 %,0.00 %


In [96]:
df.drop(df.index[20:])  # Zeilen entfernen mithilfe eines RangeIndex Objekts

Unnamed: 0,Country (or dependency),Population(2020),YearlyChange,NetChange,Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,China,1439323776,0.39 %,5540090,9388211,-348399.0,1.7,38,61 %,18.47 %
1,India,1380004385,0.99 %,13586631,2973190,-532687.0,2.2,28,35 %,17.70 %
2,United States,331002651,0.59 %,1937734,9147420,954806.0,1.8,38,83 %,4.25 %
3,Indonesia,273523615,1.07 %,2898047,1811570,-98955.0,2.3,30,56 %,3.51 %
4,Pakistan,220892340,2.00 %,4327022,770880,-233379.0,3.6,23,35 %,2.83 %
5,Brazil,212559417,0.72 %,1509890,8358140,21200.0,1.7,33,88 %,2.73 %
6,Nigeria,206139589,2.58 %,5175990,910770,-60000.0,5.4,18,52 %,2.64 %
7,Bangladesh,164689383,1.01 %,1643222,130170,-369501.0,2.1,28,39 %,2.11 %
8,Russia,145934462,0.04 %,62206,16376870,182456.0,1.8,40,74 %,1.87 %
9,Mexico,128932753,1.06 %,1357224,1943950,-60000.0,2.1,29,84 %,1.65 %


## Spalten umbenennen

Zum Umbenennen von Spalten gibt es die rename() Funktion. Diese Funktion benötigt ein Dictionary als Parameter, welches die bestehenden Spaltennamen als Schlüssel und die neuen Spaltennamen als zugehörige Values enthält

WICHTIG: Hier kommt ein neues DataFrame heraus, Ergebnis zuweisen um die Änderung zu übernehmen

In [98]:
df.rename(columns={"Country (or dependency)": "Country", "Population(2020)": "Pop", "Land Area(Km²)": "Land Area"}, inplace=True)

In [99]:
df

Unnamed: 0,Country,Pop,YearlyChange,NetChange,Land Area,Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
0,China,1439323776,0.39 %,5540090,9388211,-348399.0,1.7,38,61 %,18.47 %
1,India,1380004385,0.99 %,13586631,2973190,-532687.0,2.2,28,35 %,17.70 %
2,United States,331002651,0.59 %,1937734,9147420,954806.0,1.8,38,83 %,4.25 %
3,Indonesia,273523615,1.07 %,2898047,1811570,-98955.0,2.3,30,56 %,3.51 %
4,Pakistan,220892340,2.00 %,4327022,770880,-233379.0,3.6,23,35 %,2.83 %
...,...,...,...,...,...,...,...,...,...,...
230,Montserrat,4992,0.06 %,3,100,,N.A.,N.A.,10 %,0.00 %
231,Falkland Islands,3480,3.05 %,103,12170,,N.A.,N.A.,66 %,0.00 %
232,Niue,1626,0.68 %,11,260,,N.A.,N.A.,46 %,0.00 %
233,Tokelau,1357,1.27 %,17,10,,N.A.,N.A.,0 %,0.00 %


## Neue Spalten hinzufügen

In [102]:
df["Pop/Area"] = round(df["Pop"] / df["Land Area"], 2)

In [103]:
df

Unnamed: 0,Country,Pop,YearlyChange,NetChange,Land Area,Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare,Pop/Area
0,China,1439323776,0.39 %,5540090,9388211,-348399.0,1.7,38,61 %,18.47 %,153.31
1,India,1380004385,0.99 %,13586631,2973190,-532687.0,2.2,28,35 %,17.70 %,464.15
2,United States,331002651,0.59 %,1937734,9147420,954806.0,1.8,38,83 %,4.25 %,36.19
3,Indonesia,273523615,1.07 %,2898047,1811570,-98955.0,2.3,30,56 %,3.51 %,150.99
4,Pakistan,220892340,2.00 %,4327022,770880,-233379.0,3.6,23,35 %,2.83 %,286.55
...,...,...,...,...,...,...,...,...,...,...,...
230,Montserrat,4992,0.06 %,3,100,,N.A.,N.A.,10 %,0.00 %,49.92
231,Falkland Islands,3480,3.05 %,103,12170,,N.A.,N.A.,66 %,0.00 %,0.29
232,Niue,1626,0.68 %,11,260,,N.A.,N.A.,46 %,0.00 %,6.25
233,Tokelau,1357,1.27 %,17,10,,N.A.,N.A.,0 %,0.00 %,135.70


## Index setzen

Es kann beim DataFrame eine eigene Spalte als Index gesetzt werden (statt dem Standart Numerischen Index)

Der Index kann auch beim einlesen der Daten direkt gesetzt werden mithilfe von index_col="Spaltenname"

In [106]:
df.set_index("Country", inplace=True)

In [107]:
df

Unnamed: 0_level_0,Pop,YearlyChange,NetChange,Land Area,Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare,Pop/Area
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
China,1439323776,0.39 %,5540090,9388211,-348399.0,1.7,38,61 %,18.47 %,153.31
India,1380004385,0.99 %,13586631,2973190,-532687.0,2.2,28,35 %,17.70 %,464.15
United States,331002651,0.59 %,1937734,9147420,954806.0,1.8,38,83 %,4.25 %,36.19
Indonesia,273523615,1.07 %,2898047,1811570,-98955.0,2.3,30,56 %,3.51 %,150.99
Pakistan,220892340,2.00 %,4327022,770880,-233379.0,3.6,23,35 %,2.83 %,286.55
...,...,...,...,...,...,...,...,...,...,...
Montserrat,4992,0.06 %,3,100,,N.A.,N.A.,10 %,0.00 %,49.92
Falkland Islands,3480,3.05 %,103,12170,,N.A.,N.A.,66 %,0.00 %,0.29
Niue,1626,0.68 %,11,260,,N.A.,N.A.,46 %,0.00 %,6.25
Tokelau,1357,1.27 %,17,10,,N.A.,N.A.,0 %,0.00 %,135.70


## Gruppierung

Bei der Ermittlung von Werten aus Mengen werden oft Gruppierungen verwendet. Dafür gibt es in Pandas die groupby() Funktion. Diese Funktion erzeugt Gruppen anhand eines Kriteriums (z.B.: Jahreszahlen -> 2011er Gruppe, 2012er Gruppe, 2013er Gruppe, ...)

Aufgaben die mit groupby() zu lösen sind, werden oft mit "pro" angegeben (pro Jahr, pro Land, pro Kunde)

Mit der get_group() Funktion können wir einzelne Gruppen anschauen

In [112]:
df["Med.Age"].unique()

array(['38', '28', '30', '23', '33', '18', '40', '29', '48', '19', '26',
       '25', '32', '17', '46', '42', '47', '20', '44', '31', '45', '41',
       '21', '22', '35', '15', '34', '16', '43', '24', '27', '37', '36',
       '39', 'N.A.'], dtype=object)

In [120]:
df.groupby("Med.Age")  # Pro Alter eine Gruppe mit den Datensätzen (15er Gruppe, 17er Gruppe, 19er Gruppe, ...)
df.groupby("Med.Age").get_group("19")

Unnamed: 0,#,Country (or dependency),Population(2020),YearlyChange,NetChange,Density(P/Km²),Land Area(Km²),Migrants(net),Fert.Rate,Med.Age,UrbanPop %,WorldShare
11,12,Ethiopia,114963588,2.57 %,2884858,115,1000000,30000.0,4.3,19,21 %,1.47 %
51,52,Cameroon,26545863,2.59 %,669483,56,472710,-4800.0,4.6,19,56 %,0.34 %
52,53,Côte d'Ivoire,26378274,2.57 %,661730,83,318000,-8000.0,4.7,19,51 %,0.34 %
69,70,Senegal,16743927,2.75 %,447563,87,192530,-20000.0,4.7,19,49 %,0.21 %
73,74,Zimbabwe,14862924,1.48 %,217456,38,386850,-116858.0,3.6,19,38 %,0.19 %
76,77,Benin,12123200,2.73 %,322049,108,112760,-2000.0,4.9,19,48 %,0.16 %
83,84,South Sudan,11193725,1.19 %,131612,18,610952,-174200.0,4.7,19,25 %,0.14 %
101,102,Togo,8278724,2.43 %,196358,152,54390,-2000.0,4.4,19,43 %,0.11 %
102,103,Sierra Leone,7976983,2.10 %,163768,111,72180,-4200.0,4.3,19,43 %,0.10 %
116,117,Congo,5518087,2.56 %,137579,16,341500,-4000.0,4.5,19,70 %,0.07 %


In [122]:
df.groupby("Med.Age").get_group("19")["Population(2020)"].mean()

18241182.64285714

In [123]:
df.groupby("Med.Age")["Population(2020)"].mean()

Med.Age
15      2.420664e+07
16      2.025083e+07
17      3.539643e+07
18      4.148540e+07
19      1.824118e+07
20      1.939652e+07
21      9.621932e+06
22      7.686515e+06
23      6.028827e+07
24      7.213284e+06
25      3.304188e+07
26      2.510786e+07
27      2.088666e+06
28      1.398790e+08
29      4.693030e+07
30      4.894655e+07
31      1.847800e+07
32      3.284957e+07
33      4.789470e+07
34      3.726593e+06
35      1.595275e+07
36      2.161582e+06
37      1.772735e+06
38      2.590871e+08
39      1.120258e+06
40      4.277205e+07
41      1.942832e+07
42      1.717237e+07
43      7.631299e+06
44      1.210433e+07
45      1.320029e+07
46      3.480124e+07
47      3.041855e+07
48      1.264765e+08
N.A.    3.333179e+04
Name: Population(2020), dtype: float64