# Pandas Datenabfragen

In [None]:
import pandas as pd
import datetime

Pandas Dataframes sind ähnlich aufgebaut wie Dataframes in R. Um die Struktur zu vergegenwärtigen wird beispielhaft ein Dataframe erstellt und anschließend wird auf seine Werte zugegriffen.

### Erstellen eines Dataframes

In [None]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],

     index=['cobra', 'viper', 'sidewinder'],

     columns=['max_speed', 'shield'])

df

### Zugriff auf eine Reihe [Reihe,]
Über die Indexwerte lässt sich leicht auf eine Reihe zugreifen. Wenn solche Werte zur Verfügung stehen (z.B. Daten) dann sollten diese beim Erstellen oder einlesen des Dataframes auch als solche markiert werden. 

In [None]:
df.loc["viper"]

Will man auf mehrere Reihe zugreifen, übergibt man eine Liste mit "[ ]" oder einen Bereich.

In [6]:
df.loc[['viper', 'sidewinder']]

Unnamed: 0,max_speed,shield
viper,4,5
sidewinder,7,8


In [7]:
df.loc['viper':'sidewinder']

Unnamed: 0,max_speed,shield
viper,4,5
sidewinder,7,8


### Zugriff auf die Spalte [,Spalte]
Auf die Spalte lässt sich nach der Array Logik zugreifen. Eine Abfrage beseteht aus einer zweigeteilten Liste die sich aus ["Reihe,"Spalte"] zusammensetzt.

Eine Abfrage nach der Spalte sieht demnach wie folgt aus:

In [8]:
df.loc[:,"max_speed"]

cobra         1
viper         4
sidewinder    7
Name: max_speed, dtype: int64

Der ":" steht für die Auswahl aller Elemente dieses Typs. Also aller Spalten bzw. aller Reihen je nach Position des Doppelpunktes.

### Zugriff auf Reihe und Spalte [Reihe,Spalte]
Der Zugriff auf Reihe uns Spalte zugleich, so dass man einen Einzelwert selektiert sieht demnach wie folgt aus: 

In [9]:
df.loc["viper","max_speed"]

4

### Selektierung bei Position (.iloc)
Um die Position innerhalb des Dataframes zu nutzen wird der Befehl ".iloc" genutzt.
Eine Abfrage sieht wie folgt aus und erlaubt auch die Auswahl eines Bereichs:

In [10]:
df.iloc[0,1]

2

In [11]:
#Bereichsauswahl
df.iloc[0:1,:]

Unnamed: 0,max_speed,shield
cobra,1,2


### Wertebereich abfragen
Das Slicing kann auch genutzt werden um Datenbereichsabfragen auszuführen:

In [14]:
df[df.max_speed>2]

Unnamed: 0,max_speed,shield
viper,4,5
sidewinder,7,8


### Resample
Zudem können Daten in andere zeitliche oder räumliche Auflösungen umgesampled werden (resample). Voraussetzung hierfür ist eine Datumsspalte als Index-Spalte.

In [None]:
#Erstellen eines neuen df
df2 = pd.DataFrame([[1, 2], [4, 5], [7, 8], [7, 8], [7, 8], [7, 8], [7, 8]],
     index = pd.date_range(start='2007-01-01', freq='d', periods=7)#['2007-01-01', '2007-01-02', '2007-01-03', '2007-01-04', '2007-01-05', '2007-01-06', "2007-01-07"],
     columns=['max_speed', 'shield'])
#Transformation der Indexspalte in dateime Format
df2.index =  pd.to_datetime(df2.index, format='%Y-%m-%d')
df2

In [91]:
#Resampling des Dataframes in eine 2-Tagesauflösung
#wichtig ist die Angabe der Methode, in diesem Fall Mittelwertbildung, zum Errechnen der neuen aggregierten Werte  
df3 = df2.resample("2D").mean()
df3

Unnamed: 0,max_speed,shield
2007-01-01,2.5,3.5
2007-01-03,7.0,8.0
2007-01-05,7.0,8.0
2007-01-07,7.0,8.0


### Selektieren mehrere Elemente auf einmal durch Abgleich mit einer Liste
Für dieses Vorgehen werden die Daten mit einer Liste verglichen. Passende Werte werden selektiert.

In [94]:
list = [2,8]
#Selektion von Elementen die übereinstimmen
df2["shield"][df2["shield"].isin(list)]

2007-01-01    2
2007-01-03    8
2007-01-04    8
2007-01-05    8
2007-01-06    8
2007-01-07    8
Name: shield, dtype: int64

### Weitere Informationen


Zudem können die Daten in andere zeitliche oder räumliche Auflösungen umgesampled werden (resample).

Siehe hierzu: https://python-kurs.github.io/sommersemester_2019/units/S01E04.html