# Syllabus

# Subsetting (Teilmenge von Daten auswählen)

- Auswahl/Filtern bestimmter **Zeilen**, **Spalten** oder einer Kombination daraus
- z.B. über Bedingungen, Indexierung oder Spaltennamen

<br>

- **Spaltenauswahl**:

```python
    # Eine Spalte auswählen
  df['Spalte1']
  
  # Mehrere Spalten auswählen
  df[['Spalte1', 'Spalte2']]
```
<br>

- **Zeilen mit Bedingungen filtern**:
  
  ```python
  # Alle Zeilen, bei denen der Wert in 'Spalte1' größer als 10 ist
  df[df['Spalte1'] > 10]
  
  # Mehrere Bedingungen kombinieren
  df[(df['Spalte1'] > 10) & (df['Spalte2'] == 'Kategorie')]
  ```
<br>

- **Zeilen und Spalten mit `loc` und `iloc` auswählen**:
  - `loc` verwendet die Bezeichner (Labels) von Zeilen und Spalten.
  - `iloc` verwendet die Positionen (numerische Indizes) von Zeilen und Spalten.
<br><br>
  


  ```python
  # Zeilen und Spalten mit loc auswählen (Label-basiert)
  df.loc[0:5, ['Spalte1', 'Spalte2']]
  
  # Zeilen und Spalten mit iloc auswählen (Index-basiert)
  df.iloc[0:5, [0, 1]]
  ```
<br>

Beispiel:

In [6]:
import pandas as pd

# Beispiel-Datensatz
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Alter': [23, 35, 45, 28, 22],
        'Gehalt': [70000, 120000, 90000, 80000, 60000],
        'Abteilung': ['HR', 'IT', 'IT', 'Marketing', 'HR']}

df = pd.DataFrame(data)

# Subsetting: Nur bestimmte Spalten anzeigen
df_subset = df[['Name', 'Gehalt']]
print(df_subset, end='\n\n')

# Subsetting: basierend auf einer Bedingung
df_subset = df[df['Gehalt'] >= 90000]
print(df_subset)

      Name  Gehalt
0    Alice   70000
1      Bob  120000
2  Charlie   90000
3    David   80000
4      Eva   60000

      Name  Alter  Gehalt Abteilung
1      Bob     35  120000        IT
2  Charlie     45   90000        IT


# Sortieren von Daten

Pandas bietet die Methode `sort_values()`, um Daten nach Werten in einer oder mehreren Spalten zu sortieren.

- Zeilen basierend auf den Werten in einer oder mehreren Spalten anordnen
- aufsteigend oder absteigend<br><br>

- **Nach einer Spalte sortieren**:
  
```python
  df.sort_values(by='Spalte1')
```
<br>

- **Nach mehreren Spalten sortieren**:
  
```python
  df.sort_values(by=['Spalte1', 'Spalte2'], ascending=[True, False])
```

<br>

- **Index sortieren**:
  
```python
  df.sort_index()
```

Beispiel:

In [7]:
# Sortieren nach 'Gehalt' in absteigender Reihenfolge
df_sorted = df.sort_values(by='Gehalt', ascending=False)
df_sorted

Unnamed: 0,Name,Alter,Gehalt,Abteilung
1,Bob,35,120000,IT
2,Charlie,45,90000,IT
3,David,28,80000,Marketing
0,Alice,23,70000,HR
4,Eva,22,60000,HR


# Reshaping (Umformen von Daten)

Pandas bietet auch Methoden zum Umformen von DataFrames, z.B. das Pivotieren oder das Schmelzen von Daten.<br><br>

- **Pivot**: Du kannst einen DataFrame "pivotieren", um eine neue tabellarische Struktur zu erhalten.

```python
  df.pivot(index='Zeilen-Spalte', columns='Spalten-Spalte', values='Wert-Spalte')
 ```

<br>

- **Melt (Schmelzen)**: Diese Methode ist nützlich, wenn du eine "Wide"-Format-Datenstruktur in eine "Long"-Format-Datenstruktur umwandeln möchtest.
  
```python
  df.melt(id_vars=['Spalte1'], value_vars=['Spalte2', 'Spalte3'])
```

# Beispielcode zur Anwendung

In [5]:
import pandas as pd

# Beispiel-Daten
data = {
    'Name': ['Anna', 'Ben', 'Clara', 'David'],
    'Alter': [23, 45, 31, 22],
    'Punkte': [88, 92, 85, 95]
}

df = pd.DataFrame(data)

# Subsetting: Zeilen auswählen, bei denen das Alter > 30 ist
subset = df[df['Alter'] > 30]

# Sortieren nach der Spalte 'Punkte'
sorted_df = df.sort_values(by='Punkte', ascending=False)

# Daten pivotieren (angenommen wir hätten ein geeignetes Format)
# pivot_df = df.pivot(index='Name', columns='Punkte', values='Alter')

# Schmelzen
melted_df = df.melt(id_vars=['Name'], value_vars=['Alter', 'Punkte'])

print("\nSubset:", subset)
print("\nSortiertes DataFrame:", sorted_df)
print("\nGeschmolzenes DataFrame:", melted_df)


Subset:     Name  Alter  Punkte
1    Ben     45      92
2  Clara     31      85

Sortiertes DataFrame:     Name  Alter  Punkte
3  David     22      95
1    Ben     45      92
0   Anna     23      88
2  Clara     31      85

Geschmolzenes DataFrame:     Name variable  value
0   Anna    Alter     23
1    Ben    Alter     45
2  Clara    Alter     31
3  David    Alter     22
4   Anna   Punkte     88
5    Ben   Punkte     92
6  Clara   Punkte     85
7  David   Punkte     95
