---

### 1. **Subsetting**:
Gegeben ist folgender DataFrame:

In [1]:
import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Alter': [25, 30, 35, 40, 22],
    'Stadt': ['Berlin', 'München', 'Köln', 'Berlin', 'München'],
    'Beruf': ['Ingenieurin', 'Lehrer', 'Arzt', 'Ingenieur', 'Designer']
}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Alter,Stadt,Beruf
0,Alice,25,Berlin,Ingenieurin
1,Bob,30,München,Lehrer
2,Charlie,35,Köln,Arzt
3,David,40,Berlin,Ingenieur
4,Eva,22,München,Designer


**Aufgabe**:
1. Wähle alle Zeilen aus, in denen das Alter größer als 30 ist.
2. Erstelle einen neuen DataFrame, der nur die Spalten **Name** und **Beruf** enthält.
3. Wähle alle Zeilen aus, in denen die Stadt "Berlin" ist und der Beruf "Ingenieur" ist.

In [2]:
# Aufgabe 1

df[df['Alter']> 30] 

Unnamed: 0,Name,Alter,Stadt,Beruf
2,Charlie,35,Köln,Arzt
3,David,40,Berlin,Ingenieur


In [3]:
# Aufgabe 2

df_2 = df[['Name', 'Beruf']]
df_2

Unnamed: 0,Name,Beruf
0,Alice,Ingenieurin
1,Bob,Lehrer
2,Charlie,Arzt
3,David,Ingenieur
4,Eva,Designer


In [4]:
# Aufgabe 3

df[(df['Stadt'] == 'Berlin') & (df['Beruf'] == 'Ingenieur')]

Unnamed: 0,Name,Alter,Stadt,Beruf
3,David,40,Berlin,Ingenieur


---

### 2. **Sortieren**:
Verwende denselben DataFrame wie oben.

**Aufgabe**:
1. Sortiere den DataFrame nach dem **Alter** aufsteigend.
2. Sortiere den DataFrame nach der **Stadt** und dann nach dem **Alter** absteigend.
3. Sortiere nach **Beruf**, aber stelle sicher, dass "Lehrer" und "Arzt" an erster Stelle stehen (Tipp: Verwende `pd.Categorical`).

In [5]:
# Aufgabe 1

df.sort_values(by='Alter')

Unnamed: 0,Name,Alter,Stadt,Beruf
4,Eva,22,München,Designer
0,Alice,25,Berlin,Ingenieurin
1,Bob,30,München,Lehrer
2,Charlie,35,Köln,Arzt
3,David,40,Berlin,Ingenieur


In [6]:
# Aufgabe 2

df.sort_values(by=['Stadt', 'Alter'], ascending=False)

Unnamed: 0,Name,Alter,Stadt,Beruf
1,Bob,30,München,Lehrer
4,Eva,22,München,Designer
2,Charlie,35,Köln,Arzt
3,David,40,Berlin,Ingenieur
0,Alice,25,Berlin,Ingenieurin


In [7]:
# Aufgabe 3

beruf_order = ['Lehrer', 'Arzt', 'Ingenieurin', 'Ingenieur', 'Designer']
df['Beruf'] = pd.Categorical(df['Beruf'], categories=beruf_order, ordered=True)

df.sort_values(by='Beruf')

Unnamed: 0,Name,Alter,Stadt,Beruf
1,Bob,30,München,Lehrer
2,Charlie,35,Köln,Arzt
0,Alice,25,Berlin,Ingenieurin
3,David,40,Berlin,Ingenieur
4,Eva,22,München,Designer


---

### 3. **Grouping**:
Verwende denselben DataFrame.

**Aufgabe**:
1. Gruppiere die Daten nach **Stadt** und finde das durchschnittliche Alter pro Stadt.
2. Gruppiere nach **Beruf** und berechne die maximale und minimale Altersverteilung für jede Berufskategorie.
3. Zähle, wie viele Personen es pro Stadt gibt.

In [8]:
# Aufgabe 1

df.groupby('Stadt')['Alter'].mean()

Stadt
Berlin     32.5
Köln       35.0
München    26.0
Name: Alter, dtype: float64

In [9]:
# Aufgabe 2

df.groupby('Beruf')['Alter'].agg(['min', 'max'])

# agg = Aggregatfunktionen

  df.groupby('Beruf')['Alter'].agg(['min', 'max'])


Unnamed: 0_level_0,min,max
Beruf,Unnamed: 1_level_1,Unnamed: 2_level_1
Lehrer,30,30
Arzt,35,35
Ingenieurin,25,25
Ingenieur,40,40
Designer,22,22


In [10]:
# Aufgabe 3

df.groupby('Stadt').size()

Stadt
Berlin     2
Köln       1
München    2
dtype: int64

---

### 4. **Pivot-Tabellen**:
Verwende den gleichen DataFrame.

**Aufgabe**:
1. Erstelle eine Pivot-Tabelle, die das **Durchschnittsalter** pro Stadt zeigt.
2. Erstelle eine Pivot-Tabelle, die das **Durchschnittsalter** in jeder Stadt für jeden Beruf zeigt.
3. Erstelle eine Pivot-Tabelle, die für jede Stadt die Anzahl der Personen mit einem bestimmten Beruf anzeigt.

In [11]:
# Aufgabe 1

df.pivot_table(index='Stadt', values='Alter', aggfunc='mean')

# aggfung = Aggregatfunktion

Unnamed: 0_level_0,Alter
Stadt,Unnamed: 1_level_1
Berlin,32.5
Köln,35.0
München,26.0


In [12]:
# Aufgabe 2

df.pivot_table(index=['Stadt', 'Beruf'], values='Alter', aggfunc='mean')

  df.pivot_table(index=['Stadt', 'Beruf'], values='Alter', aggfunc='mean')


Unnamed: 0_level_0,Unnamed: 1_level_0,Alter
Stadt,Beruf,Unnamed: 2_level_1
Berlin,Ingenieurin,25.0
Berlin,Ingenieur,40.0
Köln,Arzt,35.0
München,Lehrer,30.0
München,Designer,22.0


In [13]:
# Aufgabe 3

df.pivot_table(index='Stadt', columns='Beruf', aggfunc='size')

  df.pivot_table(index='Stadt', columns='Beruf', aggfunc='size')


Beruf,Lehrer,Arzt,Ingenieurin,Ingenieur,Designer
Stadt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Berlin,0,0,1,1,0
Köln,0,1,0,0,0
München,1,0,0,0,1


---

### 5. **Kreuztabellen**:
Verwende den gleichen DataFrame.

**Aufgabe**:
1. Erstelle eine Kreuztabelle, die zeigt, wie viele Personen in jeder **Stadt** einen bestimmten **Beruf** haben.
2. Erstelle eine Kreuztabelle, die die **Häufigkeit** von Kombinationen von **Alter** (in Kategorien z. B. <30, 30-40, >40) und **Stadt** zeigt.
3. Erstelle eine Kreuztabelle, die zeigt, wie viele Personen über und unter 30 in den Städten leben (Tipp: Verwende eine Bedingung, um eine neue Spalte zu erstellen, die das Alter kategorisiert).

In [14]:
# Aufgabe 1

pd.crosstab(df['Stadt'], df['Beruf'])

Beruf,Lehrer,Arzt,Ingenieurin,Ingenieur,Designer
Stadt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Berlin,0,0,1,1,0
Köln,0,1,0,0,0
München,1,0,0,0,1


In [15]:
# Aufgabe 2

df['Alterskategorie'] = pd.cut(df['Alter'], bins=[0,29,41,100], labels=['<30', '30-40', '>40'])
pd.crosstab(df['Alterskategorie'], df['Stadt'])

Stadt,Berlin,Köln,München
Alterskategorie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
<30,1,0,1
30-40,1,1,1


In [16]:
# Aufgabe 3

df['Alterskategorie'] = pd.cut(df['Alter'], bins=[0, 30, 100], labels=['<30', '>=30'], right=False)
pd.crosstab(df['Stadt'], df['Alterskategorie'])

# bins= sind die Grenzwerte der Intervalle
# right=False, damit die rechte Begrenzung des Intervalls (hier 30) inkludiert ist

Alterskategorie,<30,>=30
Stadt,Unnamed: 1_level_1,Unnamed: 2_level_1
Berlin,1,1
Köln,0,1
München,1,1


---

### Bonusaufgabe:
Verwende den DataFrame und setze mehrere Konzepte zusammen.

**Aufgabe**:
1. Wähle alle Zeilen aus, in denen das Alter größer als 30 ist, und sortiere das Ergebnis nach Stadt.
2. Finde heraus, welches die häufigsten Berufe in jeder Stadt sind, und zeige dies in einer Kreuztabelle.
3. Erstelle eine Pivot-Tabelle, die das **Durchschnittsalter** nach Stadt und Beruf zeigt, und filtere sie auf Berufe mit mindestens zwei Personen pro Stadt.


In [17]:
import pandas as pd


data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hannah'],
    'Alter': [25, 30, 35, 40, 22, 28, 32, 29],
    'Stadt': ['Berlin', 'Berlin', 'München', 'München', 'Köln', 'Berlin', 'München', 'Köln'],
    'Beruf': ['Ingenieur', 'Ingenieur', 'Lehrer', 'Lehrer', 'Ingenieur', 'Ingenieur', 'Lehrer', 'Ingenieur']
}

df = pd.DataFrame(data)

df


Unnamed: 0,Name,Alter,Stadt,Beruf
0,Alice,25,Berlin,Ingenieur
1,Bob,30,Berlin,Ingenieur
2,Charlie,35,München,Lehrer
3,David,40,München,Lehrer
4,Eva,22,Köln,Ingenieur
5,Frank,28,Berlin,Ingenieur
6,Grace,32,München,Lehrer
7,Hannah,29,Köln,Ingenieur


In [18]:
# Aufgabe 1

df[df['Alter'] >30].sort_values(by='Stadt')

Unnamed: 0,Name,Alter,Stadt,Beruf
2,Charlie,35,München,Lehrer
3,David,40,München,Lehrer
6,Grace,32,München,Lehrer


In [19]:
# Aufgabe 2

pd.crosstab(df['Beruf'], df['Stadt'])

Stadt,Berlin,Köln,München
Beruf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ingenieur,3,2,0
Lehrer,0,0,3


In [24]:
# Aufgabe 3

df_piv = df.pivot_table(index=['Stadt'], columns=['Beruf'], values='Alter', aggfunc='mean')

personenzahl = df.pivot_table(index=['Stadt'], columns=['Beruf'], values='Alter', aggfunc='count')

df_piv.where(cond=personenzahl >1)

Beruf,Ingenieur,Lehrer
Stadt,Unnamed: 1_level_1,Unnamed: 2_level_1
Berlin,27.666667,
Köln,25.5,
München,,35.666667
