<img style="width:30%; float:right" src="images/dbu_logo.png">

# Slice and dice

_Slice and dice_ umfassen typische Operatoren um Zeilen, Spalten oder Zellen in einem Datensatz (oder generell in einem multidimensionalen Array) auszuwählen.

**Literaturempfehlung:**

[Jake VanderPlas (2016): _Python Data Science Handbook_](https://ebookcentral.proquest.com/lib/dbuas/reader.action?docID=4746657)

In [1]:
import pandas as pd
import seaborn as sns

In [2]:
tips = sns.load_dataset("tips")
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## Spalten auswählen

Nur die Spalte `tip` auswählen.

In [3]:
tips["tip"].head()

0    1.01
1    1.66
2    3.50
3    3.31
4    3.61
Name: tip, dtype: float64

## Zeilen auswählen

In älteren Pandas-Versionen gab es noch die `.ix[]`-Funktion. Dieser gilt inzwischen als veraltet und wird nicht mehr unterstützt. Grund ist, dass bei `.ix[]` nicht klar war, welcher Selektionsmechanismus genutzt werden soll. Dies ist bei den folgenden beiden neuen Funktionen klar:

- `.iloc[]` -- _integer-location_, also numerische Auwahl, startend mit 0.
- `.loc[]` -- Auswahl mithilfe der Labels (Spaltennamen, Zeilen-Index)

Die erste Zeile auswählen

In [4]:
tips.iloc[0]

total_bill     16.99
tip             1.01
sex           Female
smoker            No
day              Sun
time          Dinner
size               2
Name: 0, dtype: object

Bestimmte Zeilen auswählen

In [5]:
tips.loc[[True, True, False, True]]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2


In [6]:
tips["day"] == "Fri"

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
       ...  
214    False
215    False
216    False
217    False
218    False
219    False
220     True
221     True
222     True
223     True
224     True
225     True
226     True
227    False
228    False
229    False
230    False
231    False
232    False
233    False
234    False
235    False
236    False
237    False
238    False
239    False
240    False
241    False
242    False
243    False
Name: day, Length: 244, dtype: bool

In [7]:
selector = (tips["day"] == "Fri")
tips.loc[selector]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
90,28.97,3.0,Male,Yes,Fri,Dinner,2
91,22.49,3.5,Male,No,Fri,Dinner,2
92,5.75,1.0,Female,Yes,Fri,Dinner,2
93,16.32,4.3,Female,Yes,Fri,Dinner,2
94,22.75,3.25,Female,No,Fri,Dinner,2
95,40.17,4.73,Male,Yes,Fri,Dinner,4
96,27.28,4.0,Male,Yes,Fri,Dinner,2
97,12.03,1.5,Male,Yes,Fri,Dinner,2
98,21.01,3.0,Male,Yes,Fri,Dinner,2
99,12.46,1.5,Male,No,Fri,Dinner,2


## Zeilen und Spalten gleichzeitig auswählen

**Beispiel 1:** Wähle folgende Werte aus:

- Zeilen, wo gilt: tip >= 6
- Nur die Spalten "total_bill" und "tip"

In [8]:
tips.loc[ tips["tip"] >= 6, ["total_bill", "tip"] ]

Unnamed: 0,total_bill,tip
23,39.42,7.58
47,32.4,6.0
59,48.27,6.73
141,34.3,6.7
170,50.81,10.0
183,23.17,6.5
212,48.33,9.0
214,28.17,6.5


**Beispiel 2:** Wie vorheriges Beispiel, nur das wir uns zusätzlich auf Sonntage beschränken wollen.

In [9]:
tips.loc[ (tips["tip"] >= 6) & (tips["day"] == "Sun"), ["total_bill", "tip", "day"] ]

Unnamed: 0,total_bill,tip,day
47,32.4,6.0,Sun
183,23.17,6.5,Sun


**Achtung:** Bei der Verknüpfung von Vergleichen nutzen wir die Operatoren `&` (und) und `|` (oder).

Das gleiche noch einemal schrittweise zusammengesetzt:

In [10]:
selector_rows = (tips["tip"] >= 6) & (tips["day"] == "Sun")
selector_cols = ["total_bill", "tip", "day"]
tips.loc[ selector_rows, selector_cols ]

Unnamed: 0,total_bill,tip,day
47,32.4,6.0,Sun
183,23.17,6.5,Sun


# Aufgaben

## Aufgabe 1

Wähle die Spalte Wochentag aus.

## Aufgabe 2

Selektiere solche Mahlzeiten, welche zur Mittagszeit (_lunch_) stattfanden.

## Aufgabe 3

Wer geht wohl häufiger alleine Essen?

- Selektiere nur solche Fälle, wo jemand alleine isst.
- Zeige nur die Spalte Geschlecht an.

## Aufgabe 4

Mittagessen am Freitag:

- Selektiere nur die Mittagessen am Freitag.
- Zeige die Spalten Gechlecht und Anzahl der Personen an.