# Datensichtung anhand des Beispiels *World Population*
*Erstellt von:* Thomas Schlögl\
*Datum:* 2024/08/10

Wenn man einen DataFrame mit großen Datenmengen hat, kann man sich mittels verschiedener Pandas Methoden einen Überblick verschaffen.

Die wichtigsten drei sind:
* `df.head()`: Ausgabe der ersten 5 Zeilen
* `df.info()`: Ausgabe der Größe und den Spalten, sowie der Anzahl der gültigen Werte in jeder Spalte.
* `df.describe()`: Ausgabe von statistischen Werten für jede Spalte.

Es gibt aber noch andere Möglichkeiten, die wir hier kennenlernen werden.

Die verwendeten Daten sind von dem Dataset *World Population* von Kaggle.\
[https://www.kaggle.com/datasets/iamsouravbanerjee/world-population-dataset](https://www.kaggle.com/datasets/iamsouravbanerjee/world-population-dataset)

In [14]:
import pandas as pd

## DataFrame aus dem CSV-File laden

In [15]:
df = pd.read_csv('data/world_population.csv')

## Die ersten Zeilen anschauen

`head()` zeigt defaultmäßig die ersten 5 Zeilen an.

In [16]:
df.head()

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771.0,38972230.0,33753499.0,28189672.0,19542982.0,10694796.0,12486631.0,10752971,652230.0,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321.0,2866849.0,2882481.0,2913399.0,3182021.0,3295066.0,2941651.0,2324731,28748.0,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225.0,43451666.0,39543154.0,35856344.0,30774621.0,25518074.0,18739378.0,13795915,2381741.0,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273.0,46189.0,51368.0,54849.0,58230.0,47818.0,32886.0,27075,199.0,222.4774,,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824.0,77700.0,71746.0,71519.0,66097.0,53569.0,35611.0,19860,468.0,170.5641,1.01,0.0


Man kann auch die gewünschte Anzahl übergeben, z. B. 10 Zeilen.

In [17]:
df.head(10)

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
0,36,AFG,Afghanistan,Kabul,Asia,41128771.0,38972230.0,33753499.0,28189672.0,19542982.0,10694796.0,12486631.0,10752971,652230.0,63.0587,1.0257,0.52
1,138,ALB,Albania,Tirana,Europe,2842321.0,2866849.0,2882481.0,2913399.0,3182021.0,3295066.0,2941651.0,2324731,28748.0,98.8702,0.9957,0.04
2,34,DZA,Algeria,Algiers,Africa,44903225.0,43451666.0,39543154.0,35856344.0,30774621.0,25518074.0,18739378.0,13795915,2381741.0,18.8531,1.0164,0.56
3,213,ASM,American Samoa,Pago Pago,Oceania,44273.0,46189.0,51368.0,54849.0,58230.0,47818.0,32886.0,27075,199.0,222.4774,,0.0
4,203,AND,Andorra,Andorra la Vella,Europe,79824.0,77700.0,71746.0,71519.0,66097.0,53569.0,35611.0,19860,468.0,170.5641,1.01,0.0
5,42,AGO,Angola,Luanda,Africa,35588987.0,33428485.0,28127721.0,23364185.0,16394062.0,11828638.0,8330047.0,6029700,1246700.0,28.5466,1.0315,0.45
6,224,AIA,Anguilla,The Valley,North America,15857.0,15585.0,14525.0,13172.0,11047.0,8316.0,6560.0,6283,91.0,174.2527,1.0066,0.0
7,201,ATG,Antigua and Barbuda,Saint John’s,North America,93763.0,92664.0,89941.0,85695.0,75055.0,63328.0,64888.0,64516,442.0,212.1335,1.0058,0.0
8,33,ARG,Argentina,Buenos Aires,South America,45510318.0,45036032.0,43257065.0,41100123.0,37070774.0,32637657.0,28024803.0,23842803,2780400.0,16.3683,1.0052,0.57
9,140,ARM,Armenia,Yerevan,Asia,2780469.0,2805608.0,2878595.0,2946293.0,3168523.0,3556539.0,3135123.0,2534377,29743.0,93.4831,0.9962,0.03


## Die letzten Zeilen ausgeben.

Mit `tail()` kann man die letzten Zeilen anschauen. Ohne Angabe eines Wertes wären es 5 Zeilen.

Ausgabe der letzten 3 Zeilen.

In [18]:
df.tail(3)

Unnamed: 0,Rank,CCA3,Country,Capital,Continent,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
231,46,YEM,Yemen,Sanaa,Asia,33696614.0,32284046.0,28516545.0,24743946.0,18628700.0,13375121.0,9204938.0,6843607,527968.0,63.8232,1.0217,0.42
232,63,ZMB,Zambia,Lusaka,Africa,20017675.0,18927715.0,16248230.0,13792086.0,9891136.0,7686401.0,5720438.0,4281671,752612.0,26.5976,1.028,0.25
233,74,ZWE,Zimbabwe,Harare,Africa,16320537.0,15669666.0,14154937.0,12839771.0,11834676.0,10113893.0,7049926.0,5202918,390757.0,41.7665,1.0204,0.2


## Eine bestimmte Spalte ausgeben bzw. eine Series ausgeben.

Wichtig! Beachte, dass auch der Index ausgegeben wird!

In [19]:
df['Country']

0            Afghanistan
1                Albania
2                Algeria
3         American Samoa
4                Andorra
             ...        
229    Wallis and Futuna
230       Western Sahara
231                Yemen
232               Zambia
233             Zimbabwe
Name: Country, Length: 234, dtype: object

## Mehrere Spalten ausgeben

In [20]:
df[['Country','CCA3','Growth Rate']]

Unnamed: 0,Country,CCA3,Growth Rate
0,Afghanistan,AFG,1.0257
1,Albania,ALB,0.9957
2,Algeria,DZA,1.0164
3,American Samoa,ASM,
4,Andorra,AND,1.0100
...,...,...,...
229,Wallis and Futuna,WLF,0.9953
230,Western Sahara,ESH,1.0184
231,Yemen,YEM,1.0217
232,Zambia,ZMB,1.0280


## Nur die Namen der Spalten ausgeben.

In [21]:
df.columns

Index(['Rank', 'CCA3', 'Country', 'Capital', 'Continent', '2022 Population',
       '2020 Population', '2015 Population', '2010 Population',
       '2000 Population', '1990 Population', '1980 Population',
       '1970 Population', 'Area (km²)', 'Density (per km²)', 'Growth Rate',
       'World Population Percentage'],
      dtype='object')

## Den Index des DataFrames ausgeben.

In [22]:
df.index

RangeIndex(start=0, stop=234, step=1)

## Allgemeine Info ausgeben

Neben den Zeilen, werden alle Spalten und ihre Datatypes ausgegeben.

Sehr interessant ist der *Non-Null Count*. Er gibt an wieviel Daten vorhanden sind.
Wenn die Zahl von den Zeilen abweicht, fehlen Daten.

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 17 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Rank                         234 non-null    int64  
 1   CCA3                         234 non-null    object 
 2   Country                      234 non-null    object 
 3   Capital                      234 non-null    object 
 4   Continent                    234 non-null    object 
 5   2022 Population              230 non-null    float64
 6   2020 Population              232 non-null    float64
 7   2015 Population              231 non-null    float64
 8   2010 Population              233 non-null    float64
 9   2000 Population              231 non-null    float64
 10  1990 Population              233 non-null    float64
 11  1980 Population              230 non-null    float64
 12  1970 Population              234 non-null    int64  
 13  Area (km²)          

Ausgabe der Anzahl aller ungültigen Werte einer Spalte.
Hinweis: `isna()` gibt `True` zurück, wenn der Wert keine Zahl ist, also vom Typ `NaN`
Es funktioniert auch `isnull()`.

`sum()` addiert die Anzahl der *True*s auf.

In [25]:
print(df['2022 Population'].isna().sum())

4


## Beispiel: Ausgabe aller Länder die keine gültige Einwohnerzahl für 2022 haben.

In [26]:
nan_countries = df['Country'][df['2022 Population'].isna()]
nan_countries

14     Bahamas
30    Bulgaria
60     Eritrea
81        Guam
Name: Country, dtype: object

## Statistische Werte für jede numerische Spalte ausgeben.

In [27]:
df.describe()

Unnamed: 0,Rank,2022 Population,2020 Population,2015 Population,2010 Population,2000 Population,1990 Population,1980 Population,1970 Population,Area (km²),Density (per km²),Growth Rate,World Population Percentage
count,234.0,230.0,232.0,231.0,233.0,231.0,233.0,230.0,234.0,231.0,231.0,230.0,234.0
mean,117.5,34618980.0,33752870.0,31992210.0,29904160.0,26540150.0,22792750.0,19263850.0,15786910.0,587403.6,456.419192,1.009597,0.427051
std,67.694165,137892100.0,136148100.0,131227900.0,124482600.0,112397600.0,98034630.0,82467380.0,67795090.0,1772476.0,2079.173301,0.013297,1.714977
min,1.0,510.0,520.0,564.0,596.0,651.0,700.0,1647.0,752.0,1.0,0.0261,0.912,0.0
25%,59.25,467698.2,403763.8,410263.0,392181.0,329470.0,261928.0,236584.0,155997.0,2714.0,38.72375,1.001775,0.01
50%,117.5,5611298.0,5493074.0,5190356.0,4889741.0,4265172.0,3864972.0,3141146.0,2604830.0,78865.0,93.9909,1.0079,0.07
75%,175.75,22653720.0,21570740.0,19555630.0,19878040.0,16057780.0,11882760.0,10086030.0,8817329.0,442433.5,238.2844,1.01695,0.28
max,234.0,1425887000.0,1424930000.0,1393715000.0,1348191000.0,1264099000.0,1153704000.0,982372500.0,822534400.0,17098240.0,23172.2667,1.0691,17.88
