# Arbeiten mit Pandas DataFrame (Indexing, Slicing)
Wir erstellen uns einen Test-Dataframe mit 4 Spalten

In [3]:
import numpy as np
import pandas as pd
np.random.seed(42)

# Test-Dataframe erstellen mit fortlaufendem alphabetischen Index (A, B, C ...)

In [4]:
columns = ["AK", "BE", "CO", "DI"]
values = np.random.uniform(low=2, high=4, size=(10, len(columns)))
index = [chr(i) for i in range(65, 65 + values.shape[0])]
df = pd.DataFrame(values, columns=columns, index=index)
df = df * [2, 5, 14, 29]
df, "\n", df.dtypes

(         AK         BE         CO          DI
 A  5.498160  19.507143  48.495830   92.722192
 B  4.624075  11.559945  29.626341  108.238216
 C  6.404460  17.080726  28.576366  114.254771
 D  7.329771  12.123391  33.091099   68.637462
 E  5.216969  15.247564  40.094461   74.891290
 F  6.447412  11.394939  36.180050   79.248987
 G  5.824280  17.851760  33.590866   87.825597
 H  6.369658  10.464504  45.011256   67.890399
 I  4.260206  19.488855  55.037697  104.887046
 J  5.218455  10.976721  47.158525   83.528845,
 '\n',
 AK    float64
 BE    float64
 CO    float64
 DI    float64
 dtype: object)

In [18]:
# alle types ändern
df = df.astype("float32")
df.dtypes

AK    float32
BE    float32
CO    float32
DI    float32
dtype: object

## DataFrame Info
Um allgemeine Informationen wie Speicherbedarf über einen DataFrame zu erhalten, gibt es die Methode info

In [19]:
# info
df.info(), "\n", df.describe() # describe bietet statistische übersicht wie std, max


<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, A to J
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   AK      10 non-null     float32
 1   BE      10 non-null     float32
 2   CO      10 non-null     float32
 3   DI      10 non-null     float32
dtypes: float32(4)
memory usage: 240.0+ bytes


(None,
 '\n',
               AK         BE         CO          DI
 count  10.000000  10.000000  10.000000   10.000000
 mean    5.720313  14.569531  39.685936   88.206253
 std     0.936902   3.665275   8.911879   16.517826
 min     4.261719  10.460938  28.578125   67.875000
 25%     5.218750  11.439453  33.218750   75.968750
 50%     5.662109  13.687500  38.140625   85.656250
 75%     6.397461  17.664062  46.617188  101.843750
 max     7.328125  19.500000  55.031250  114.250000)

## Dataframe kopieren
Wenn wir einen Dataframe kopieren wollen, reicht es nicht, ihn einer neuen Variable zuzuweisen. Dieses Verhalten entspricht den veränderbaren Datentypen in Python wie Liste oder Dictionary. Zum Kopieren nutzen wir die Methode `copy`

In [20]:
# Dataframe kopieren und neuer Variablen zuweisen
df_copy = df.copy()   #deep=True ist deep copy(default)
df_copy.AK = 1
df_copy

Unnamed: 0,AK,BE,CO,DI
A,1,19.5,48.5,92.75
B,1,11.5625,29.625,108.25
C,1,17.078125,28.578125,114.25
D,1,12.125,33.09375,68.625
E,1,15.25,40.09375,74.875
F,1,11.398438,36.1875,79.25
G,1,17.859375,33.59375,87.8125
H,1,10.460938,45.0,67.875
I,1,19.484375,55.03125,104.875
J,1,10.976562,47.15625,83.5


In [5]:
# unveränderter Dataframe df
df

Unnamed: 0,AK,BE,CO,DI
A,5.49816,19.507143,48.49583,92.722192
B,4.624075,11.559945,29.626341,108.238216
C,6.40446,17.080726,28.576366,114.254771
D,7.329771,12.123391,33.091099,68.637462
E,5.216969,15.247564,40.094461,74.89129
F,6.447412,11.394939,36.18005,79.248987
G,5.82428,17.85176,33.590866,87.825597
H,6.369658,10.464504,45.011256,67.890399
I,4.260206,19.488855,55.037697,104.887046
J,5.218455,10.976721,47.158525,83.528845


# Spalten eines Dataframes

## Spaltennamen umbenennen
Wir können die Spaltennamen entweder beim Erstellen des DataFrames oder später umbenennen

In [6]:
d = {
    "a": [2, 3],
    "b": [33, 123],
    "c": [0.3, 0.234]
}
# DataFrame erstellen und via rename die Spalten umbenennen
x = pd.DataFrame(d)
x.rename(columns={"a": "ID", "b": "VALUE"}, inplace=True)
x

Unnamed: 0,ID,VALUE,c
0,2,33,0.3
1,3,123,0.234


## Spaltenamen umbennen mit lambda

In [7]:
# rename: wir wollen das "_1" in den Spaltennamen löschen. Dazu können wir auch mit Lambda-Funktionen arbeiten
d = {
    "a_1": [2, 3],
    "b_1": [33, 123],
    "c_1": [0.3, 0.234]
}
df_2 = pd.DataFrame(d)
df_2.rename(columns=lambda colname: colname.rstrip("_1"), inplace=True)
df_2

Unnamed: 0,a,b,c
0,2,33,0.3
1,3,123,0.234


## Spaltennamen umbennen mit list comprehensions

In [8]:
# rename: wir wollen das nur den ersten Teil des Dictionary-Keys als Spaltenname haben. 
# Und diesen normalisiert als lowercase
d = {
    "a 32": [2, 3],
    "B 3": [33, 123],
    "c 232": [0.3, 0.234]
}
df_3 = pd.DataFrame(d)
df_3.columns = [column.split()[0].lower() for column in df_3.columns]

# Alternative with Lambda
df_4 = pd.DataFrame(d)
df_4.rename(columns=lambda colname: colname.split()[0].lower(), inplace=True)
df_4

# Index umbenennen
df_4.index=[11, 12]
df_4

Unnamed: 0,a,b,c
11,2,33,0.3
12,3,123,0.234


## eine Spalte adressieren
Eine Spalte eines DataFrames ist eine Pandas Series

In [9]:
ak_series = df.AK
ak_series

A    5.498160
B    4.624075
C    6.404460
D    7.329771
E    5.216969
F    6.447412
G    5.824280
H    6.369658
I    4.260206
J    5.218455
Name: AK, dtype: float64

## zwei Spalten adressieren und Wertzuweisung
Werden zwei oder mehr Spalten adressiert, ergibt sich wieder ein Dataframe. Die gewählten Spalten müssen natürlich nicht nebeneinanderliegen.

In [10]:
df_sub = df[["AK", "DI"]]
# df_sub.AK = 12 erzeugt SettingWithCopyWarning, da 
df_sub.loc[:, "AK"] = 12  # diese Änderung verändert df_sub, da explizieter
df_sub

Unnamed: 0,AK,DI
A,12.0,92.722192
B,12.0,108.238216
C,12.0,114.254771
D,12.0,68.637462
E,12.0,74.89129
F,12.0,79.248987
G,12.0,87.825597
H,12.0,67.890399
I,12.0,104.887046
J,12.0,83.528845


In [11]:
# df bleibt underändert (nur Dozent)
df

Unnamed: 0,AK,BE,CO,DI
A,5.49816,19.507143,48.49583,92.722192
B,4.624075,11.559945,29.626341,108.238216
C,6.40446,17.080726,28.576366,114.254771
D,7.329771,12.123391,33.091099,68.637462
E,5.216969,15.247564,40.094461,74.89129
F,6.447412,11.394939,36.18005,79.248987
G,5.82428,17.85176,33.590866,87.825597
H,6.369658,10.464504,45.011256,67.890399
I,4.260206,19.488855,55.037697,104.887046
J,5.218455,10.976721,47.158525,83.528845


In [12]:
d = {
    "a": [2, 33, 34],
    "b": [2, 123, 2423],
    "c": [2, 0.234, 232]
}
df = pd.DataFrame(d, index=[0,0, 0])
df, df.loc[0]

(    a     b        c
 0   2     2    2.000
 0  33   123    0.234
 0  34  2423  232.000,
     a     b        c
 0   2     2    2.000
 0  33   123    0.234
 0  34  2423  232.000)

### Spalte zu neuem Index machen

In [12]:
d = {
    "a": [2, 33],
    "b": [2, 123],
    "c": [2, 0.234]
}
x = pd.DataFrame(d)
x

Unnamed: 0,a,b,c
0,2,2,2.0
1,33,123,0.234


### Spalte zu Index machen 
die Spalte a soll nun zum neuen Index werden. Damit hat das Dataframe 
nur noch zwei Spalten

In [13]:
# Spalte a soll der neue Index sein
x.set_index("a", inplace=True)

# Zugriff auf numerischen, sprechenden Index
x.loc[2] 

b    2.0
c    2.0
Name: 2, dtype: float64

In [14]:
# Shape von x ausgeben
x.shape, x

((2, 2),
       b      c
 a             
 2     2  2.000
 33  123  0.234)

## Zeilen und Spalten slicen mit iloc (Index-Slicen)
Mit der Methode iloc lassen sich Dataframes nach Zeilen und Spalten slicen bzw. indizieren. Dafür übergibt man für die Zeilen und Spalten jeweils Indizies bzw. Slicing-Operationen. .iloc ist eine positionsbasierte Indexierungsmethode in Pandas, mit der Sie Daten anhand ihrer numerischen Position (ähnlich wie in Listen oder Arrays) ansprechen können.

### Was ist `.iloc` in Pandas?

`.iloc` ist eine **positionsbasierte Indexierungsmethode** in Pandas, mit der Sie Daten anhand ihrer **numerischen Position** (ähnlich wie in Listen oder Arrays) ansprechen können.

---

### **Eigenschaften von `.iloc`**
1. **Positionsbasiert:** `.iloc` verwendet **numerische Indizes**, die bei 0 beginnen.
2. **Zugriff auf Zeilen und Spalten:** Sie können Zeilen, Spalten oder bestimmte Werte basierend auf ihrer Position auswählen.
3. **Flexibel:** Unterstützt verschiedene Zugriffsarten wie einzelne Werte, Bereiche, Listen von Indizes und sogar Bedingungen.

---

### **Grundlegender Syntax**

```python
# Allgemeine Syntax
df.iloc[row_index, column_index]
```

- `row_index`: Position der Zeile, die Sie ansprechen wollen.
- `column_index`: Position der Spalte, die Sie ansprechen wollen.
- Beides beginnt bei 0.

---

### **Beispiele für `.iloc`**

#### **1. Zugriff auf eine bestimmte Zeile oder Spalte**
```python
import pandas as pd

# Beispiel-DataFrame
data = {'A': [10, 20, 30], 'B': [40, 50, 60]}
df = pd.DataFrame(data)

# Zugriff auf die 2. Zeile (Index 1)
print(df.iloc[1])  # Ausgabe: Zeile 1 (20, 50)

# Zugriff auf die 1. Spalte (Index 0)
print(df.iloc[:, 0])  # Ausgabe: Spalte A
```

#### **2. Zugriff auf ein bestimmtes Element**
```python
# Zugriff auf die Zelle in Zeile 2, Spalte 1
print(df.iloc[1, 0])  # Ausgabe: 20
```

#### **3. Zugriff auf mehrere Zeilen oder Spalten (mit Listen oder Bereichen)**
```python
# Zugriff auf Zeilen 1 bis 2 (ausschließlich 3)
print(df.iloc[1:3])

# Zugriff auf die Spalten 0 und 1
print(df.iloc[:, [0, 1]])
```

#### **4. Zugriff mit negativen Indizes**
```python
# Zugriff auf die letzte Zeile
print(df.iloc[-1])  # Ausgabe: (30, 60)
```

---



In [15]:
# Zeile 2
print("Zeile 2\n", df.iloc[2])  # Series Zeile 2
print("--------")
print("Zeile 1 - 3:\n", df.iloc[:3])  # Dataframe
print("--------")
print("Zeile 1 - 3, Spalte 1:\n", df.iloc[:3, 0]) ## Series AK
print("--------")
print("Zeile 1 - 3, Spalte 2-3:\n", df.iloc[:3, 1:3])

Zeile 2
 AK      6.404460
BE     17.080726
CO     28.576366
DI    114.254771
Name: C, dtype: float64
--------
Zeile 1 - 3:
          AK         BE         CO          DI
A  5.498160  19.507143  48.495830   92.722192
B  4.624075  11.559945  29.626341  108.238216
C  6.404460  17.080726  28.576366  114.254771
--------
Zeile 1 - 3, Spalte 1:
 A    5.498160
B    4.624075
C    6.404460
Name: AK, dtype: float64
--------
Zeile 1 - 3, Spalte 2-3:
           BE         CO
A  19.507143  48.495830
B  11.559945  29.626341
C  17.080726  28.576366


## Aufgabe: 

- Extrahiere die 1-2 Zeile und die 3-4 Spalte des Dataframes.
- Konvertiere alle Spalten zu float32.

In [16]:
d = {
    "a": [2, 3, 3, 2, 1, 33],
    "b": [33, 123, 23, 23, 12, 99],
    "c": [0.3, 0.234, 0.2, 0.1, 0.2, 0.99],
    "d": [0.13, 0.1234, 1.2, 0.1, 0.2, 0.99],
    "e": [1.3, 1.234, 0.2, 0.9, 0.2, 0.99],
}
# Erstelle DataFrame und extrahiere 1-2 Zeile (index 0 - 1) und 4-5 Spalte (index 3 - 4)
# Das Ergebnis sollte so aussehen:
# 0.1300  1.300
# 0.1234  1.234

# Happy Coding! 5 Minuten Zeit

y = pd.DataFrame(d)
y = y.astype("float32")
print("\n1-2 Zeile und 4-5 Spalte:\n\n", y.iloc[0:2, 3:5])
print(y)



1-2 Zeile und 4-5 Spalte:

         d      e
0  0.1300  1.300
1  0.1234  1.234
      a      b      c       d      e
0   2.0   33.0  0.300  0.1300  1.300
1   3.0  123.0  0.234  0.1234  1.234
2   3.0   23.0  0.200  1.2000  0.200
3   2.0   23.0  0.100  0.1000  0.900
4   1.0   12.0  0.200  0.2000  0.200
5  33.0   99.0  0.990  0.9900  0.990


## Zeilen und Spalten slicen mit loc (Label-Slicen)
Mit loc lässt sich über die Spaltennamen und Indexnamen slicen

### **Vergleich `.iloc` vs. `.loc`**


| Feature               | `.iloc`                        | `.loc`                       |
|-----------------------|---------------------------------|------------------------------|
| **Indexart**          | Positionsbasiert (numerisch)   | Labelbasiert (z. B. Namen)   |
| **Syntax**            | `iloc[row, col]`               | `loc[row_label, col_label]`  |
| **Beispiele**         | `iloc[0, 1]`                   | `loc['Zeile1', 'SpalteB']`   |
| **Negative Indizes**  | Unterstützt                    | Nicht unterstützt            |


In [17]:
print(df)
print("-----")
print("Zeilen mit Index A und C und Spalten AK und DI:\n", df.loc[["A", "C"], ["AK", "DI"]])
print("Zeilen mit Index A bis C und Spalten AK und DI:\n", df.loc["A":"C", ["AK", "DI"]])
print("Zeilen mit Index A bis C und Spalten AK bis CO :\n", df.loc["A":"C", "AK":"CO"])

         AK         BE         CO          DI
A  5.498160  19.507143  48.495830   92.722192
B  4.624075  11.559945  29.626341  108.238216
C  6.404460  17.080726  28.576366  114.254771
D  7.329771  12.123391  33.091099   68.637462
E  5.216969  15.247564  40.094461   74.891290
F  6.447412  11.394939  36.180050   79.248987
G  5.824280  17.851760  33.590866   87.825597
H  6.369658  10.464504  45.011256   67.890399
I  4.260206  19.488855  55.037697  104.887046
J  5.218455  10.976721  47.158525   83.528845
-----
Zeilen mit Index A und C und Spalten AK und DI:
         AK          DI
A  5.49816   92.722192
C  6.40446  114.254771
Zeilen mit Index A bis C und Spalten AK und DI:
          AK          DI
A  5.498160   92.722192
B  4.624075  108.238216
C  6.404460  114.254771
Zeilen mit Index A bis C und Spalten AK bis CO :
          AK         BE         CO
A  5.498160  19.507143  48.495830
B  4.624075  11.559945  29.626341
C  6.404460  17.080726  28.576366


## Slicing und neue Zuweisung
Wir können den Slicing-Operator im Zusammenhang mit `loc` auch nutzen, um neue Zuweisungen zu machen.

In [28]:
# wir setzen in den Zeilen mit index A und C den Spaltenwert AK auf 99 
df.loc[["A", "C"], ["AK"]] = 99

# wir setzen in den Zeilen mit Indizies [A, B] die Spaltenwerte BE und CO auf 123
df.loc[["A", "B"], ["BE", "CO"]] = 123
df

# wir setzen in den Zeilen mit Indizies A und B den Spaltenwert BE auf die Summe von DI und AK
df.loc[["A", "B"], ["BE"]] = (df.loc[["A", "B"], "DI"] 
                              + df.loc[["A", "B"], "AK"])


Unnamed: 0,AK,BE,CO,DI
A,99.0,106.0,123.0,7.0
B,4.624075,13.872224,123.0,9.248149
C,99.0,17.080726,28.576366,198.0
D,7.329771,12.123391,33.091099,14.659541
E,5.216969,15.247564,40.094461,10.433938
F,6.447412,11.394939,36.18005,12.894823
G,5.82428,17.85176,33.590866,11.64856
H,6.369658,10.464504,45.011256,12.739317
I,4.260206,19.488855,55.037697,8.520413
J,5.218455,10.976721,47.158525,10.43691


## Alle Zeilen, die den Index B, E oder H haben

In [19]:
df.loc[["B", "E", "H"]]

Unnamed: 0,AK,BE,CO,DI
B,4.624075,112.862291,123.0,108.238216
E,5.216969,15.247564,40.094461,74.89129
H,6.369658,10.464504,45.011256,67.890399


## Zeilen hinzufügen zum Dataframe

In [26]:
df.loc["Z"] = [3.5, 2.8, 3.2, 3.9]
df


Unnamed: 0,AK,BE,CO,DI
A,3.5,2.8,3.2,7.0
B,4.624075,112.862291,123.0,9.248149
C,99.0,17.080726,28.576366,198.0
D,7.329771,12.123391,33.091099,14.659541
E,5.216969,15.247564,40.094461,10.433938
F,6.447412,11.394939,36.18005,12.894823
G,5.82428,17.85176,33.590866,11.64856
H,6.369658,10.464504,45.011256,12.739317
I,4.260206,19.488855,55.037697,8.520413
J,5.218455,10.976721,47.158525,10.43691
