# Geodatenanalyse 1
## Tag 3 / Block 1 / Teil 1
### Vorlesung

Ca. 20 Minuten


## Inhalt
- Was ist *Pandas*?
- Überblick über *Pandas* Objekte (*Series*, *Dataframe*)
- Dateien laden und speichern
- Indizierung, Datenabfrage und -manipulationen
\
\
\
\
\
\
Die offizielle Pandas Homepage mit vertiefenden Beispielen:
https://pandas.pydata.org/docs/getting_started/index.html

## Was ist Pandas?

Pandas ist eine Python-Bibliotek zur Sichtung, Aufbreitung und Analyse von Daten.

Das Herzstück von Pandas das **DataFrame-Objekt**. Dabei handelt es sich um eine zweidimensionale, tabellenartige Datenstruktur in der Daten verschiedener Typen (einschließlich Zeichen, Ganzzahlen, Gleitkommawerte, kategoriale Daten usw.) in Spalten gespeichert werden können. Damit ähnelt es einer Excel oder SQL-Tabelle.

![DataFrame](Images\DataFrame2.png)


https://pandas.pydata.org/about/index.html

## Mit Pandas arbeiten
Für das Laden von Pandas wird standardmäßig der Alias <font color='red'>pd</font> verwendet.

In [2]:
# Laden von Pandas
import pandas as pd

## Eine Tabelle selbst erstellen
Wir haben zum Beispiel eine Liste mit Städten, die uns interessieren. Wir kennen den Namen (characters), die Einwohnerzahl (integer) und wissen, ob wir sie bereits besucht haben oder nicht (yes/no).

In [25]:
df = pd.DataFrame(
    {
        "Name": ["Berlin", "London", "Wien", "Lissabon"],
        "Population": [3645000, 8982000, 1897000, 504718],
        "Status": ["yes", "no", "yes", "yes"],
    }
)
df

Unnamed: 0,Name,Population,Status
0,Berlin,3645000,yes
1,London,8982000,no
2,Wien,1897000,yes
3,Lissabon,504718,yes


In [24]:
type(df)

pandas.core.frame.DataFrame

- In unserem **DataFrame** <font color='red'>df</font> finden sich drei Spalten für <font color='red'>Name</font>, <font color='red'>Population</font> und <font color='red'>Status</font> wieder.
- Ein fortlaufender Index wird automatisch erstellt

#### Hinweis
Es gibt viele Möglichkeiten einen **DataFrame** zu erstellen. Das Python Dictionary  <font color='red'>dict</font> bietet sich dafür jedoch besonders an. Der Schlüssel <font color='red'>key</font> wird im **DataFrame** direkt als Spaltenüberschrift verwendet, und die zugehörige Liste als Spalteneintrag übernommen.



Die gleichen Daten in einer Exceltabelle:

![Excel-Beispiel](Images\Excel.png)


## Die Spalten eines DataFrame
Jede Spalte eines Pandas **DataFrame** entspricht einer <font color='red'>Series</font>. Dies ist die zweite zentrale Datenstruktur in Pandas.

![Series](Images\Series.png)

Nehmen wir zum Beispiel die Spalte <font color='red'>Population</font> aus unserem pandas **DataFrame**  <font color='red'>df</font>. Das Resultat ist eine **Series**:

In [35]:
df["Population"]

0    3645000
1    8982000
2    1897000
3     504718
Name: Population, dtype: int64

In [23]:
type(df["Population"])

pandas.core.series.Series

#### Hinweis
Die Auswahl einer Spalte im Pandas **DataFrame** über die Spaltennamen, ähnelt der Auswahl eines Wertes im Python Dictionary über den Schlüssel. Auch hier wird der Spaltenname in eckigen Klammern angegeben <font color='red'>[]</font>:

```df[column label]```

## Numerische Werte
Um in letzter Konsequenz die (numerische) Werte aus einer **Series** zu extrahieren, verwenden wir das <font color='red'>values</font> Attribute\
```Series.values```

In [33]:
populations = df["Population"].values
populations

array([3645000, 8982000, 1897000,  504718], dtype=int64)

In [34]:
type(populations)

numpy.ndarray

Das Ergebnis ist ein **NumPy-Array**! 

Tatsächlich ist Pandas eng verknüpft mit NumPy, der Python-Bibliothek für schnelle numerische Array-Berechnungen.

Dies bedeutet, dass **Series** und **DataFrame** in Pandas im Prinzip eindimensionale bzw. zweidimensionale, beschriftete (<font color='red'>labeled</font>) **Numpy-Arrays** sind.

## Dateien laden und speichern

### Beispiel für indexing

In [37]:
# Python Bibliotek zur Daten-Visualisierung basierend auf matplotlib
# https://seaborn.pydata.org/
import seaborn as sns

In [38]:
# Seaborn hat einige gute Beispieldatensätze
iris = sns.load_dataset('iris')
type(iris)

pandas.core.frame.DataFrame

In [39]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [40]:
iris.shape

(150, 5)

In [41]:
iris.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

DataFrames can be sliced like numpy arrays or python lists

In [None]:
iris.iloc[:3,:]

In [None]:
iris.iloc[-3:,:]

In [None]:
iris.loc[:3,"species"]

### Daten inspizieren und anzeigen

In [None]:
iris.head()

In [None]:
iris.head(2)

In [None]:
iris.tail()

In [None]:
iris.tail(3)

In [None]:
iris.info()

In [None]:
iris.describe()

### Transposing

In [None]:
iris.T

### Broadcasting
Pandas erlaubt das zuordnen von Werten durch sogenanntes Broadcasting


In [None]:
import numpy as np
iris_new = iris.copy()

# Boradcasting np.nan an jedes zweite Element
iris_new.iloc[::2,1] = np.nan
iris_new.head(6)