# Geodatenanalyse 1
## Termin 7
### Einführung in den Umgang mit Datensätzen

Ca. 40 Minuten

## Inhalt
- Was ist *Pandas*?
- Überblick über *Pandas* Objekte (*Series*, *Dataframe*)
- Tabellarische Daten laden und speichern
- Daten Indizieren, Selektieren und Abfragen
\
\
Die nachfolgende Einführung baut auf den Inhalten und Beispiele der offizielle Pandas Homepage auf. Diese wurden teilweise angepasst für den Kursinhalt. Dort finden sich weiterführende Tutorials, eine detailierte Beschreibung aller Methoden und Attribute, sowie vertiefende Beispiele:
https://pandas.pydata.org/docs/getting_started/index.html

## Was ist Pandas?

Pandas ist eine Python-Bibliotek zur Sichtung, Aufbreitung und Analyse von Daten.

Das Herzstück von Pandas ist das **DataFrame-Objekt**. Dabei handelt es sich um eine zweidimensionale, tabellenartige Datenstruktur in der Daten verschiedener Typen (einschließlich Zeichen, Ganzzahlen, Gleitkommawerte, kategoriale Daten usw.) in Spalten gespeichert werden können. Damit ähnelt es einer Excel oder SQL-Tabelle.

![DataFrame](images\DataFrame2.png)


https://pandas.pydata.org/about/index.html

## Mit Pandas arbeiten
Für das Laden von Pandas wird standardmäßig der Alias <font color='red'>pd</font> verwendet.

In [1]:
import pandas as pd

## Überblick über die Pandas Objekte
### Eine Tabelle selbst erstellen
Wir haben zum Beispiel eine Liste mit Städten. Wir kennen den Namen (characters), die Einwohnerzahl (integer) und einen Vermerk, ob wir sie bereits besucht haben oder nicht (yes/no).

In [2]:
df = pd.DataFrame(
    {
        "Name": ["Berlin", "London", "Wien", "Lissabon"],
        "Einwohner": [3645000, 8982000, 1897000, 504718],
        "Status": ["Ja", "Nein", "Ja", "Ja"],
    }
)
df

Unnamed: 0,Name,Einwohner,Status
0,Berlin,3645000,Ja
1,London,8982000,Nein
2,Wien,1897000,Ja
3,Lissabon,504718,Ja


In [3]:
type(df)

pandas.core.frame.DataFrame

- In unserem **DataFrame** <font color='red'>df</font> finden sich drei Spalten für <font color='red'>Name</font>, <font color='red'>Einwohner</font> und <font color='red'>Status</font> wieder.
- Ein fortlaufender Index wird automatisch erstellt

#### Hinweis
Es gibt viele Möglichkeiten einen **DataFrame** zu erstellen. Das Python Dictionary  <font color='red'>dict</font> bietet sich dafür jedoch besonders an. Der Schlüssel <font color='red'>key</font> wird im **DataFrame** direkt als Spaltenüberschrift verwendet, und die zugehörige Liste als Spalteneintrag übernommen.



Die gleichen Daten in einer Exceltabelle:

![Excel-Beispiel](images\Excel.png)


### Die Spalten eines DataFrame
Jede Spalte eines Pandas **DataFrame** entspricht einer <font color='red'>Series</font>, der zweiten zentralen Datenstruktur in Pandas.

![Series](images\Series.png)

Nehmen wir zum Beispiel die Spalte <font color='red'>Einwohner</font> aus unserem pandas **DataFrame**  <font color='red'>df</font>.

In [4]:
df["Einwohner"]

0    3645000
1    8982000
2    1897000
3     504718
Name: Einwohner, dtype: int64

Das Resultat ist eine **Series**:

In [5]:
type(df["Einwohner"])

pandas.core.series.Series

#### Hinweis
Die Auswahl einer Spalte im Pandas **DataFrame** über die Spaltennamen ähnelt der Auswahl eines Wertes im Python Dictionary über den Schlüssel. Auch hier wird der Spaltenname in eckigen Klammern angegeben <font color='red'>[]</font>:

```df[column label]```

### Numerische Werte
Um in letzter Konsequenz die (numerische) Werte aus einer **Series** zu extrahieren, verwenden wir das <font color='red'>values</font> Attribut\
```Series.values```

In [6]:
populations = df["Einwohner"].values
populations

array([3645000, 8982000, 1897000,  504718], dtype=int64)

In [7]:
type(populations)

numpy.ndarray

Das Ergebnis ist ein **NumPy-Array**! 

Tatsächlich ist Pandas eng verknüpft mit NumPy, der Python-Bibliothek für schnelle numerische Array-Berechnungen.

Dies bedeutet, dass **Series** und **DataFrame** in Pandas im Prinzip eindimensionale bzw. zweidimensionale, beschriftete (<font color='red'>labeled</font>) **Numpy-Arrays** sind.

#### Hinweis
Bei der Abfrage von <font color='red'>values</font> werden keine Klammern <font color="red">()</font> verwendet! values ist ein Attribut von **DataFrame** und **Series**. Attribute sind die inherenten Merkmale eines **DataFrame** oder einer **Series**. Diese benötigen generell keine Klammern. Im Gegensatz dazu wird bei Anwenden einer Methode (für die Klammern erforderlich sind) etwas mit dem **DataFrame** oder der **Series** getan.

## Tabellarische Daten laden und speichern
Häufig erstellen wir unsere Daten aber nicht selbst, sondern arbeiten mit Messdaten und Erhebungen aus unterschiedlichsten Quellen und einer Vielzahl an Formaten.\
Mit der Pandas-Funktion <font color='red'>*read_csv()*</font> können zum Beispiel CSV-Datei als Pandas **DataFrame** geladen werden. Aber auch viele andere Dateiformate oder Datenquellen werden standardmäßig von Pandas unterstützt:
- CSV
- Excel
- JSON
- SQL
- Parkett 
- ...

![Read_Write](images\Read_Write.png)

die entsprechende Funktion trägt jeweils das Präfix <font color='red'>read_*</font>. Äquivalent dazu funktioniert das Speichern mit <font color='red'>to_*</font>.

https://pandas.pydata.org/docs/getting_started/intro_tutorials/02_read_write.html

### Beispiel:
Uns liegt der Iris- (Lilien) Datensatz als .csv Datei vor, und wir möchten ihn uns genauer anschauen.

In [8]:
iris = pd.read_csv("example_data\iris.csv", sep = ",")

Wenn wir uns den Datensatz als **DataFrame** anschauen möchten, gibt Pandas uns standardmäßig immer die **5** ersten und letzten Zeilen aus:

In [9]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


#### Hinweis
Der Iris - Datensatz wurde ursprünglich 1936 von Ronald Fisher, einem britische Statistiker und Biologe publiziert und ist ein standard Testdatensatz, z. B. für statistische Methoden. Aber auch für die Datenvisualisierung mit der Python Bibliotek Seaborn.

> R. A. Fisher (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.

### Daten inspizieren und einen Überblick verschaffen

Um uns nur die Zeilen am Anfang des **DataFrame** anzeigen zu lassen, können wir die <font color='red'>head()</font> Methode verwenden. Die gewünschte Anzahl Zeilen können wir mit einem zusätzlichen Attribut explizit angeben: 

In [10]:
iris.head(6)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa


... und das Gleiche gibt es mit der <font color='red'>tail()</font> Methode auch für das Ende des **DataFrame**:

In [11]:
iris.tail(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


Für allgemeine Informationen zu unserem **DataFrame** gibt es die <font color='red'>info()</font> Methode:

In [12]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


Die Informationen aus der <font color='red'>info()</font> Methode lassen sich auch einzeln als Attribute des **DataFrame** extrahieren

Die Art der Daten (int, float, object,…) in den verschiedenen Spalten unseres **DataFrame** wird durch das <font color="red">dtypes</font> Attribute zusammengefasst:

In [13]:
iris.dtypes

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
species          object
dtype: object

Die Dimension unseres **DataFrame** lässt sich mit <font color='red'>shape</font> auch als Attribute abfragen:

In [14]:
iris.shape

(150, 5)

... die Spaltenüberschriften mit <font color='red'>columns</font>:

In [15]:
iris.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

... und der Index mit dem Attribut <font color='red'>index</font>:

In [16]:
iris.index

RangeIndex(start=0, stop=150, step=1)

#### Hinweis
Das <font color='red'>columns</font> Attribut ergibt ein Pandas **Index**. Darin sind die Spaltennamen als <font color='red'>list</font> und im Format <font color='red'>str</font> gespeichert. 

In [17]:
type(iris.columns)

pandas.core.indexes.base.Index

Für einen allgemeinen Überblick zu gängigen statistischen Kennwerten wie Perzentil, Mittelwert, Standardabweichung usw. kann die Pandas Methode <font color='red'>describe()</font> verwendet werden: 

In [18]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Diese lässt sich durch zusätzliche Attribute noch weiter anpassen und individualisieren:

In [19]:
# Percentil Liste 
perc =[.20, .80] 
  
# Liste der zu verwendenten dtypes  
include =["float", "int","object"] 

In [20]:
iris.describe(percentiles = perc, include = include) 

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
count,150.0,150.0,150.0,150.0,150
unique,,,,,3
top,,,,,versicolor
freq,,,,,50
mean,5.843333,3.057333,3.758,1.199333,
std,0.828066,0.435866,1.765298,0.762238,
min,4.3,2.0,1.0,0.1,
20%,5.0,2.7,1.5,0.2,
50%,5.8,3.0,4.35,1.3,
80%,6.52,3.4,5.32,1.9,


### Eine Datei speichern
Um eine Datei zum Beispiel als Excel-Datei wieder zu speichern, können wir die <font color='red'>to_*</font> Methoden verwenden. Diese haben, genau wie die <font color='red'>read_*</font> Methoden eine Vielzahl verschiedener Attribute mit denen sie konfiguriert werden können:

In [21]:
iris.to_excel("example_data\iris.xlsx", sheet_name="species", index=False)

## Indizieren, Selektieren und Abfragen
Beim Indizieren (Selektieren) von Daten in Pandas handelt es sich um spezielle Filtermethoden. Dabei unterscheid man zwischen zwei verschiedenen Typen:

- **Explizite Filter** - Welcher Wert ist einer Position **<font color = "blue">x</font>** zugeordnet?
- **Logische Filter** - Welche Position hat der Wert **<font color = "blue">x</font>**?

![Filters](images\Filters.png)

### Explizite Filter
Ein Pandas **DataFrame** und **Series** Objekt kann, genau wie ein **Numpy-Array** und eine Python <font color="red">list</font>, in beliebige Subsets (Teilmengen der Daten) zerteilt werden (*slicing*). In Pandas ermöglicht die Beschriftung der Achsen neben der <font color="red">[]</font> Indexing-Methode eine explizite Ansprache über **Position** und **Label** der relevanten Daten. Pandas hat dafür eigens optimierte Methoden. Die zwei Wichtigsten davon sind:

-  <font color="red">.loc</font> -Labelindizierung für eine Label-basierte Abfrage 

-  <font color="red">.iloc</font> -Integerindizierung für eine Integer-basierte Abfrage


Weitere Informationen zur Anwendung und einer Vielzahl weiterer Methoden auf: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

### Label-basierte Abfrage mit .loc

In [22]:
# Zeilenindex anpassen zur besseren Unterscheidung von Label- und Integerabfrage
df.index = ["a","b","c","d"]
df

Unnamed: 0,Name,Einwohner,Status
a,Berlin,3645000,Ja
b,London,8982000,Nein
c,Wien,1897000,Ja
d,Lissabon,504718,Ja


#### Zeilenindizierung

In [23]:
df.loc["a"]     # Rückgabe ist eine Series
df.loc[["a"]]   # Wird eine Liste übergeben, ist die Rückgabe ein DataFrame
df.loc[["a"],:] # Explizite Abfage; Rückage ist ein DataFrame

Unnamed: 0,Name,Einwohner,Status
a,Berlin,3645000,Ja


#### Spaltenindizierung

In [24]:
df.loc[:,"Name"]   # Rückgabe ist eine Series
df.loc[:,["Name"]] # Rückgabe ist ein DataFrame

Unnamed: 0,Name
a,Berlin
b,London
c,Wien
d,Lissabon


#### Kombiniert

In [25]:
df.loc[["a","b","c"],"Name"]   # Rückgabe ist eine Series
df.loc[["a","b","c"],["Name"]] # Rückgabe ist ein DataFrame

Unnamed: 0,Name
a,Berlin
b,London
c,Wien


### Integer-basierte Abfrage mit .iloc

#### Zeilenindizierung

In [26]:
df.iloc[1,:]     # Explizite Abfrage; Rückgabe ist eine Series
df.iloc[1:3,:]   # Slicing-Operator; Rückgabe ist ein DataFrame
df.iloc[[1,2],:] # Liste; Rückgabe ist ein DataFrame

Unnamed: 0,Name,Einwohner,Status
b,London,8982000,Nein
c,Wien,1897000,Ja


#### Spaltenindizierung

In [27]:
df.iloc[:,2]   # Rückgabe ist eine Series
df.iloc[:,1:3] # Slicing-Operator; Rückgabe ist ein DataFrame
df.iloc[:,[1]] # Liste; Rückgabe ist ein DataFrame

Unnamed: 0,Einwohner
a,3645000
b,8982000
c,1897000
d,504718


#### Kombiniert

In [28]:
df.iloc[[0,1],[0,1]] # Liste; Rückgabe ist ein DataFrame
df.iloc[0:2,0:2]     # Gleiche Abfrage, aber wie in NumPy; Rückgabe ist ein DataFrame
df.iloc[0,::-1]      # Nur eine Zeile; Rückgabe ist eine Series

Status            Ja
Einwohner    3645000
Name          Berlin
Name: a, dtype: object

### Logische Filter

In [29]:
df["Status"] == "Ja"

a     True
b    False
c     True
d     True
Name: Status, dtype: bool

In [30]:
df["Name"].isin(["Paris","Berlin","London","NewYork"])

a     True
b     True
c    False
d    False
Name: Name, dtype: bool

#### Den logischen Filter als Maske zum indizieren verwenden

In [31]:
pos = df["Status"] == "Ja"
df.loc[pos,:]

Unnamed: 0,Name,Einwohner,Status
a,Berlin,3645000,Ja
c,Wien,1897000,Ja
d,Lissabon,504718,Ja


In [32]:
df.loc[df["Name"].isin(["Paris","Berlin","London","NewYork"])]

Unnamed: 0,Name,Einwohner,Status
a,Berlin,3645000,Ja
b,London,8982000,Nein


### Broadcasting
Pandas erlaubt das Aktualisieren von Werten innerhalb eines **DataFrame** durch sogenanntes Broadcasting als *In-Place-Operation*.


In [33]:
import numpy as np
df_new = df.copy()

# Boradcasting eines neuen Status für London
df_new.loc[df_new.Name == "London","Status"] = "Ja"
df_new

Unnamed: 0,Name,Einwohner,Status
a,Berlin,3645000,Ja
b,London,8982000,Ja
c,Wien,1897000,Ja
d,Lissabon,504718,Ja


In [34]:
df

Unnamed: 0,Name,Einwohner,Status
a,Berlin,3645000,Ja
b,London,8982000,Nein
c,Wien,1897000,Ja
d,Lissabon,504718,Ja


In [35]:
# Python Bibliotek zur Daten-Visualisierung basierend auf matplotlib
# https://seaborn.pydata.org/
import seaborn as sns

# Seaborn hat einige gute Beispieldatensätze
iris = sns.load_dataset('iris')
type(iris)

pandas.core.frame.DataFrame

## ENDE