# Arbeiten mit Pandas DataFrame (Indexing, Slicing)
Wir erstellen uns einen Test-Dataframe mit 4 Spalten

In [2]:
import numpy as np
import pandas as pd
np.random.seed(42)

# Test-Dataframe erstellen mit fortlaufendem alphabetischen Index (A, B, C ...)

In [3]:
columns = ["AK", "BE", "CO", "DI"]
values = np.random.uniform(low=2, high=4, size=(10, len(columns)))

## DataFrame Info
Um allgemeine Informationen wie Speicherbedarf über einen DataFrame zu erhalten, gibt es die Methode info

In [4]:
# info

## Dataframe kopieren
Wenn wir einen Dataframe kopieren wollen, reicht es nicht, ihn einer neuen Variable zuzuweisen. Dieses Verhalten entspricht den veränderbaren Datentypen in Python wie Liste oder Dictionary. Zum Kopieren nutzen wir die Methode `copy`

In [5]:
# Dataframe kopieren und neuer Variablen zuweisen

In [35]:
# unveränderter Dataframe df
df

Unnamed: 0,AK,BE,CO,DI
A,4.488153,14.951769,28.962879,110.740583
B,5.03512,16.625223,36.72791,88.163945
C,6.186841,11.848545,55.14837,102.957704
D,7.757996,18.948274,44.741199,111.468706
E,4.35397,11.959829,29.266364,76.869159
F,5.554709,12.71349,51.20465,78.691693
G,5.123738,15.426961,31.945878,104.527425
H,4.298203,19.868869,49.622854,69.52551
I,4.022088,18.154614,47.792006,100.282416
J,7.085081,10.740447,38.03704,64.720405


# Spalten eines Dataframes

## Spaltennamen umbenennen
Wir können die Spaltennamen entweder beim Erstellen des DataFrames oder später umbenennen

In [6]:
d = {
    "a": [2, 3],
    "b": [33, 123],
    "c": [0.3, 0.234]
}
# DataFrame erstellen und via rename die Spalten umbenennen

## Spaltenamen umbennen mit lambda

In [7]:
# rename: wir wollen das "_1" in den Spaltennamen löschen. Dazu können wir auch mit Lambda-Funktionen arbeiten
d = {
    "a_1": [2, 3],
    "b_1": [33, 123],
    "c_1": [0.3, 0.234]
}


## Spaltennamen umbennen mit list comprehensions

In [8]:
# rename: wir wollen das nur den ersten Teil des Dictionary-Keys als Spaltenname haben. 
# Und diesen normalisiert als lowercase
d = {
    "a 32": [2, 3],
    "B 3": [33, 123],
    "c 232": [0.3, 0.234]
}

## eine Spalte adressieren
Eine Spalte eines DataFrames ist eine Pandas Series

In [9]:
# Zugriff aus Spalte AK

## zwei Spalten adressieren und Wertzuweisung
Werden zwei oder mehr Spalten adressiert, ergibt sich wieder ein Dataframe. Die gewählten Spalten müssen natürlich nicht nebeneinanderliegen.

In [11]:
# zwei Spalten selektieren und Werte zuweisen

### Spalte zu neuem Index machen

In [12]:
d = {
    "a": [2, 33],
    "b": [2, 123],
    "c": [2, 0.234]
}
x = pd.DataFrame(d)
x

Unnamed: 0,a,b,c
0,2,2,2.0
1,33,123,0.234


### Spalte zu Index machen 
die Spalte a soll nun zum neuen Index werden. Damit hat das Dataframe 
nur noch zwei Spalten

In [13]:
# Spalte a soll der neue Index sein

In [14]:
# Shape von x ausgeben

## Zeilen und Spalten slicen mit iloc (Index-Slicen)
Mit der Methode iloc lassen sich Dataframes nach Zeilen und Spalten slicen bzw. indizieren. Dafür übergibt man für die Zeilen und Spalten jeweils Indizies bzw. Slicing-Operationen. .iloc ist eine positionsbasierte Indexierungsmethode in Pandas, mit der Sie Daten anhand ihrer numerischen Position (ähnlich wie in Listen oder Arrays) ansprechen können.

### Was ist `.iloc` in Pandas?

`.iloc` ist eine **positionsbasierte Indexierungsmethode** in Pandas, mit der Sie Daten anhand ihrer **numerischen Position** (ähnlich wie in Listen oder Arrays) ansprechen können.

---

### **Eigenschaften von `.iloc`**
1. **Positionsbasiert:** `.iloc` verwendet **numerische Indizes**, die bei 0 beginnen.
2. **Zugriff auf Zeilen und Spalten:** Sie können Zeilen, Spalten oder bestimmte Werte basierend auf ihrer Position auswählen.
3. **Flexibel:** Unterstützt verschiedene Zugriffsarten wie einzelne Werte, Bereiche, Listen von Indizes und sogar Bedingungen.

---

### **Grundlegender Syntax**

```python
# Allgemeine Syntax
df.iloc[row_index, column_index]
```

- `row_index`: Position der Zeile, die Sie ansprechen wollen.
- `column_index`: Position der Spalte, die Sie ansprechen wollen.
- Beides beginnt bei 0.

---

### **Beispiele für `.iloc`**

#### **1. Zugriff auf eine bestimmte Zeile oder Spalte**
```python
import pandas as pd

# Beispiel-DataFrame
data = {'A': [10, 20, 30], 'B': [40, 50, 60]}
df = pd.DataFrame(data)

# Zugriff auf die 2. Zeile (Index 1)
print(df.iloc[1])  # Ausgabe: Zeile 1 (20, 50)

# Zugriff auf die 1. Spalte (Index 0)
print(df.iloc[:, 0])  # Ausgabe: Spalte A
```

#### **2. Zugriff auf ein bestimmtes Element**
```python
# Zugriff auf die Zelle in Zeile 2, Spalte 1
print(df.iloc[1, 0])  # Ausgabe: 20
```

#### **3. Zugriff auf mehrere Zeilen oder Spalten (mit Listen oder Bereichen)**
```python
# Zugriff auf Zeilen 1 bis 2 (ausschließlich 3)
print(df.iloc[1:3])

# Zugriff auf die Spalten 0 und 1
print(df.iloc[:, [0, 1]])
```

#### **4. Zugriff mit negativen Indizes**
```python
# Zugriff auf die letzte Zeile
print(df.iloc[-1])  # Ausgabe: (30, 60)
```

---



In [15]:
# iloc -Beispiele


## Aufgabe: 

- Extrahiere die 1-2 Zeile und die 3-4 Spalte des Dataframes.
- Konvertiere alle Spalten zu float32.

In [16]:
d = {
    "a": [2, 3, 3, 2, 1, 33],
    "b": [33, 123, 23, 23, 12, 99],
    "c": [0.3, 0.234, 0.2, 0.1, 0.2, 0.99],
    "d": [0.13, 0.1234, 1.2, 0.1, 0.2, 0.99],
    "e": [1.3, 1.234, 0.2, 0.9, 0.2, 0.99],
}
# Erstelle DataFrame und extrahiere 1-2 Zeile (index 0 - 1) und 4-5 Spalte (index 3 - 4)
# Das Ergebnis sollte so aussehen:
# 0.1300  1.300
# 0.1234  1.234

# Happy Coding! 5 Minuten Zeit


## Zeilen und Spalten slicen mit loc (Label-Slicen)
Mit loc lässt sich über die Spaltennamen und Indexnamen slicen

### **Vergleich `.iloc` vs. `.loc`**


| Feature               | `.iloc`                        | `.loc`                       |
|-----------------------|---------------------------------|------------------------------|
| **Indexart**          | Positionsbasiert (numerisch)   | Labelbasiert (z. B. Namen)   |
| **Syntax**            | `iloc[row, col]`               | `loc[row_label, col_label]`  |
| **Beispiele**         | `iloc[0, 1]`                   | `loc['Zeile1', 'SpalteB']`   |
| **Negative Indizes**  | Unterstützt                    | Nicht unterstützt            |


In [17]:
print(df)
print("-----")

NameError: name 'df' is not defined

## Slicing und neue Zuweisung
Wir können den Slicing-Operator im Zusammenhang mit `loc` auch nutzen, um neue Zuweisungen zu machen.

In [18]:
# wir setzen in den Zeilen mit index A und C den Spaltenwert AK auf 99 
df.loc[["A", "C"], ["AK"]] = 99

# wir setzen in den Zeilen mit Indizies [A, B] die Spaltenwerte BE und CO auf 123
df.loc[["A", "B"], ["BE", "CO"]] = 123
df

# wir setzen in den Zeilen mit Indizies A und B den Spaltenwert BE auf die Summe von DI und AK
df.loc[["A", "B"], ["BE"]] = df.loc[["A", "B"], "DI"] + df.loc[["A", "B"], "AK"]
df

NameError: name 'df' is not defined

## Alle Zeilen, die den Index B, E oder H haben

In [19]:
df.loc[["B", "E", "H"]]

NameError: name 'df' is not defined