# Spalten im Dataframe
Wir erstellen uns einen Test-Dataframe mit 4 Spalten

In [7]:
import numpy as np
import pandas as pd
np.random.seed(42)

# Spaltennamen passend zur Ölindustrie
columns = ["Förderrate (bbl/d)", "Druck (psi)", "Viskosität (cP)", "Wassertiefe (m)"]

# Zufällige Werte zwischen 2 und 4 erzeugen
values = np.random.uniform(low=2, high=4, size=(10, 4))

# Index als Buchstaben A-J
index = [chr(i) for i in range(65, 65 + values.shape[0])]

# DataFrame erstellen
df = pd.DataFrame(values, columns=columns, index=index)

# Werte skalieren, um realistischere Größenordnungen für die Ölindustrie zu erhalten
df = df * [1000, 5000, 14, 200]

# Neue Spalte mit doppelten/dreifachen Werten hinzufügen
df["Bohrloch-ID"] = ["A1", "A1", "B2", "B2", "B2", "C3", "C3", "D4", "E5", "E5"]

# df = df.drop_duplicates(subset=["Bohrloch-ID", "Wassertiefe (m)"]) 

df

Unnamed: 0,Förderrate (bbl/d),Druck (psi),Viskosität (cP),Wassertiefe (m),Bohrloch-ID
A,2749.080238,19507.143064,48.49583,639.463394,A1
B,2312.037281,11559.945203,29.626341,746.470458,A1
C,3202.230023,17080.725778,28.576366,787.963941,B2
D,3664.885282,12123.391107,33.091099,473.361804,B2
E,2608.484486,15247.564316,40.094461,516.491656,B2
F,3223.705789,11394.938607,36.18005,546.544737,C3
G,2912.139968,17851.759614,33.590866,605.693775,C3
H,3184.829138,10464.504127,45.011256,468.209649,D4
I,2130.103186,19488.855373,55.037697,723.358939,E5
J,2609.227538,10976.72114,47.158525,576.060997,E5


The history saving thread hit an unexpected error (OperationalError('attempt to write a readonly database')).History will not be written to the database.


## Die Anzahl an Elementen einer Spalte (Länge)
Für diese Aufgabe kann die Python-Funktion len genommen werden. Besser ist aber das Ermitteln der Dimension mit `shape`. Das erste Element von shape ist immer die Anzahl der Zeilen und damit der Einträge der Spalte (Spaltenlänge).

In [2]:
# via len Die Anzahl der Elemente einer Spalte ausgeben

10

In [1]:
# via shape den Shape der Spalte (Series) ausgeben

## Eindeutige Werte in einer Spalte
mit `unique` lassen sich eindeutige Werte in einer Spalte identifizieren.

In [14]:
# unique

array([5.49816048, 4.62407456, 6.40446005, 7.32977056, 5.21696897,
       6.44741158, 5.82427994, 6.36965828, 4.26020637, 5.21845508])

## numerische Spalte in Numpy Array umformen
Wir können mit der Methode to_numpy() eine Spalte in einen Numpy Array umformen. Der Index geht dabei natürlich verloren.

In [2]:
# Spalte in Numpy Array konvertieren

## alle Spalten eines Dataframes in Numpy Array umformen

In [3]:
# neuen Dataframe mit iloc erstellen und nach Numpy umformen. Ergibt zweidimensionale Datenstruktur

## Iteration über Dataframe und Spalten
Das Iterieren über Dataframe und Series ist möglich, aber in Pandas nicht sonderlich üblich, da unperformant. Vektorisierung ist ein sehr viel besseres Verfahren, um (parallel) Werte in einer Datenstruktur zu verändern. Moderne CPUs unterstüzten Vektorisierung. Mehr dazu in den weiteren Kapiteln.

### Iteration über einen Dataframe. Jede Row is ein String mit dem Spaltennamen

In [10]:
for column_name in df:
    print(column_name)

Förderrate (bbl/d)
Druck (psi)
Viskosität (cP)
Wassertiefe (m)
Bohrloch-ID


### Iteration über alle Zeilen eines Dataframes

In [8]:
for columnname, series in df.iterrows():
    print(columnname)

A
B
C
D
E
F
G
H
I
J


### Iteration über die Werte einer Spalte (Pandas Series)

In [9]:
for row in df["Bohrloch-ID"]:
    print(row)

A1
A1
B2
B2
B2
C3
C3
D4
E5
E5


### Iteration über die Spalte mit iteritems
mit der Methode iteritems bekommen wir einen Tupel aus Spaltenname, Wert pro Spaltenwert

In [14]:
for x in df["Bohrloch-ID"].items():
    print(x)

('A', 'A1')
('B', 'A1')
('C', 'B2')
('D', 'B2')
('E', 'B2')
('F', 'C3')
('G', 'C3')
('H', 'D4')
('I', 'E5')
('J', 'E5')


In [10]:
# Iteration über die Spalten der Zeile 0
for cols in df.iloc[0]:
    print(cols)

5.49816047538945
19.50714306409916
48.49583037071934
92.72219208342813


In [15]:
for index, bohrloch_id in df["Bohrloch-ID"].items():
    print(index, bohrloch_id)

A A1
B A1
C B2
D B2
E B2
F C3
G C3
H D4
I E5
J E5


## Spalten löschen

In [16]:
## drop

Unnamed: 0,Viskosität (cP),Wassertiefe (m),Bohrloch-ID
A,48.49583,639.463394,A1
B,29.626341,746.470458,A1
C,28.576366,787.963941,B2
D,33.091099,473.361804,B2
E,40.094461,516.491656,B2
F,36.18005,546.544737,C3
G,33.590866,605.693775,C3
H,45.011256,468.209649,D4
I,55.037697,723.358939,E5
J,47.158525,576.060997,E5


## Zeilen löschen

In [None]:
## via index drop

## Duplikate löschen

mit drop_duplicates lassen sich zeilenweise Duplikate löschen. 

In [34]:
# drop dublicates