# Spalten im Dataframe
Wir erstellen uns einen Test-Dataframe mit 4 Spalten

In [1]:
import numpy as np
import pandas as pd
np.random.seed(42)

columns = ["AK", "BE", "CO", "DI"]
values = np.random.uniform(low=2, high=4, size=(10, 4))
index = [chr(i) for i in range(65, 65 + values.shape[0])]
df = pd.DataFrame(values, columns=columns, index=index)
df = df * [2, 5, 14, 29]
df

Unnamed: 0,AK,BE,CO,DI
A,5.49816,19.507143,48.49583,92.722192
B,4.624075,11.559945,29.626341,108.238216
C,6.40446,17.080726,28.576366,114.254771
D,7.329771,12.123391,33.091099,68.637462
E,5.216969,15.247564,40.094461,74.89129
F,6.447412,11.394939,36.18005,79.248987
G,5.82428,17.85176,33.590866,87.825597
H,6.369658,10.464504,45.011256,67.890399
I,4.260206,19.488855,55.037697,104.887046
J,5.218455,10.976721,47.158525,83.528845


## Die Anzahl an Elementen einer Spalte (Länge)
Für diese Aufgabe kann die Python-Funktion len genommen werden. Besser ist aber das Ermitteln der Dimension mit `shape`. Das erste Element von shape ist immer die Anzahl der Zeilen und damit der Einträge der Spalte (Spaltenlänge).

In [2]:
# via len Die Anzahl der Elemente einer Spalte ausgeben

10

In [1]:
# via shape den Shape der Spalte (Series) ausgeben

## Eindeutige Werte in einer Spalte
mit `unique` lassen sich eindeutige Werte in einer Spalte identifizieren.

In [14]:
# unique

array([5.49816048, 4.62407456, 6.40446005, 7.32977056, 5.21696897,
       6.44741158, 5.82427994, 6.36965828, 4.26020637, 5.21845508])

## numerische Spalte in Numpy Array umformen
Wir können mit der Methode to_numpy() eine Spalte in einen Numpy Array umformen. Der Index geht dabei natürlich verloren.

In [2]:
# Spalte in Numpy Array konvertieren

## alle Spalten eines Dataframes in Numpy Array umformen

In [3]:
# neuen Dataframe mit iloc erstellen und nach Numpy umformen. Ergibt zweidimensionale Datenstruktur

## Iteration über Dataframe und Spalten
Das Iterieren über Dataframe und Series ist möglich, aber in Pandas nicht sonderlich üblich, da unperformant. Vektorisierung ist ein sehr viel besseres Verfahren, um (parallel) Werte in einer Datenstruktur zu verändern. Moderne CPUs unterstüzten Vektorisierung. Mehr dazu in den weiteren Kapiteln.

### Iteration über einen Dataframe. Jede Row is ein String mit dem Spaltennamen

In [6]:
for column_name in df:
    print(column_name)

AK
BE
CO
DI


### Iteration über alle Zeilen eines Dataframes

In [7]:
for columnname, series in df.iterrows():
    print(columnname, series.AK)

A 5.49816047538945
B 4.624074561769746
C 6.404460046972835
D 7.329770563201687
E 5.216968971838151
F 6.447411578889518
G 5.824279936868144
H 6.36965827544817
I 4.260206371941118
J 5.218455076693482


### Iteration über die Werte einer Spalte (Pandas Series)

In [8]:
for row in df.AK:
    print(row)

5.49816047538945
4.624074561769746
6.404460046972835
7.329770563201687
5.216968971838151
6.447411578889518
5.824279936868144
6.36965827544817
4.260206371941118
5.218455076693482


### Iteration über die Spalte mit iteritems
mit der Methode iteritems bekommen wir einen Tupel aus Spaltenname, Wert pro Spaltenwert

In [9]:
for x in df.AK.iteritems():
    print(x)

('A', 5.49816047538945)
('B', 4.624074561769746)
('C', 6.404460046972835)
('D', 7.329770563201687)
('E', 5.216968971838151)
('F', 6.447411578889518)
('G', 5.824279936868144)
('H', 6.36965827544817)
('I', 4.260206371941118)
('J', 5.218455076693482)


In [10]:
# Iteration über die Spalten der Zeile 0
for cols in df.iloc[0]:
    print(cols)

5.49816047538945
19.50714306409916
48.49583037071934
92.72219208342813


In [11]:
for x in df.AK.iteritems():
    print(x)

('A', 5.49816047538945)
('B', 4.624074561769746)
('C', 6.404460046972835)
('D', 7.329770563201687)
('E', 5.216968971838151)
('F', 6.447411578889518)
('G', 5.824279936868144)
('H', 6.36965827544817)
('I', 4.260206371941118)
('J', 5.218455076693482)


## Spalten löschen

In [12]:
df_new = df.drop(columns=["AK", "DI"])
df_new

Unnamed: 0,BE,CO
A,19.507143,48.49583
B,11.559945,29.626341
C,17.080726,28.576366
D,12.123391,33.091099
E,15.247564,40.094461
F,11.394939,36.18005
G,17.85176,33.590866
H,10.464504,45.011256
I,19.488855,55.037697
J,10.976721,47.158525
