# Spalten im Dataframe
Wir erstellen uns einen Test-Dataframe mit 4 Spalten

In [14]:
import numpy as np
import pandas as pd
np.random.seed(42)

# Spaltennamen passend zur Ölindustrie
columns = ["Förderrate (bbl/d)", "Druck (psi)", "Viskosität (cP)", "Wassertiefe (m)"]

# Zufällige Werte zwischen 2 und 4 erzeugen
values = np.random.uniform(low=2, high=4, size=(10, 4))

# Index als Buchstaben A-J
index = [chr(i) for i in range(65, 65 + values.shape[0])]

# DataFrame erstellen
df = pd.DataFrame(values, columns=columns, index=index)

# Werte skalieren, um realistischere Größenordnungen für die Ölindustrie zu erhalten
df = df * [1000, 5000, 14, 200]

# Neue Spalte mit doppelten/dreifachen Werten hinzufügen
df["Bohrloch-ID"] = ["A1", "A1", "B2", "B2", "B2", "C3", "C3", "D4", "E5", "E5"]

# df = df.drop_duplicates(subset=["Bohrloch-ID", "Wassertiefe (m)"]) 

df

Unnamed: 0,Förderrate (bbl/d),Druck (psi),Viskosität (cP),Wassertiefe (m),Bohrloch-ID
A,2749.080238,19507.143064,48.49583,639.463394,A1
B,2312.037281,11559.945203,29.626341,746.470458,A1
C,3202.230023,17080.725778,28.576366,787.963941,B2
D,3664.885282,12123.391107,33.091099,473.361804,B2
E,2608.484486,15247.564316,40.094461,516.491656,B2
F,3223.705789,11394.938607,36.18005,546.544737,C3
G,2912.139968,17851.759614,33.590866,605.693775,C3
H,3184.829138,10464.504127,45.011256,468.209649,D4
I,2130.103186,19488.855373,55.037697,723.358939,E5
J,2609.227538,10976.72114,47.158525,576.060997,E5


## Die Anzahl an Elementen einer Spalte (Länge)
Für diese Aufgabe kann die Python-Funktion len genommen werden. Besser ist aber das Ermitteln der Dimension mit `shape`. Das erste Element von shape ist immer die Anzahl der Zeilen und damit der Einträge der Spalte (Spaltenlänge).

In [3]:
len(df["Bohrloch-ID"])

10

In [4]:
df.shape

(10, 5)

## Eindeutige Werte in einer Spalte
mit `unique` lassen sich eindeutige Werte in einer Spalte identifizieren.

In [5]:
df["Bohrloch-ID"].unique()

array(['A1', 'B2', 'C3', 'D4', 'E5'], dtype=object)

## Value Count

df.value_counts() zählt die eindeutigen Zeilen im DataFrame und gibt die Häufigkeit jeder Zeile zurück. Es wird genutzt, um doppelte Einträge zu analysieren oder die Verteilung von vollständigen Zeilen zu untersuchen.

In [6]:
df.value_counts()

Förderrate (bbl/d)  Druck (psi)   Viskosität (cP)  Wassertiefe (m)  Bohrloch-ID
2130.103186         19488.855373  55.037697        723.358939       E5             1
2312.037281         11559.945203  29.626341        746.470458       A1             1
2608.484486         15247.564316  40.094461        516.491656       B2             1
2609.227538         10976.721140  47.158525        576.060997       E5             1
2749.080238         19507.143064  48.495830        639.463394       A1             1
2912.139968         17851.759614  33.590866        605.693775       C3             1
3184.829138         10464.504127  45.011256        468.209649       D4             1
3202.230023         17080.725778  28.576366        787.963941       B2             1
3223.705789         11394.938607  36.180050        546.544737       C3             1
3664.885282         12123.391107  33.091099        473.361804       B2             1
Name: count, dtype: int64

## numerische Spalte in Numpy Array umformen
Wir können mit der Methode to_numpy() eine Spalte in einen Numpy Array umformen. Der Index geht dabei natürlich verloren.

In [17]:
ak = df["Wassertiefe (m)"].to_numpy()
ak, ak.shape, ak.ndim

(array([639.46339368, 746.47045831, 787.96394086, 473.36180394,
        516.49165608, 546.54473732, 605.69377537, 468.20964947,
        723.35893925, 576.0609975 ]),
 (10,),
 1)

## alle Spalten eines Dataframes in Numpy Array umformen

In [23]:
# neuen Dataframe mit iloc erstellen und nach Numpy umformen. Ergibt zweidimensionale Datenstruktur
df
array = df.iloc[0:2, 0:-1].to_numpy()
# array, array.shape, array.ndim

df, array

(   Förderrate (bbl/d)   Druck (psi)  Viskosität (cP)  Wassertiefe (m)  \
 A         2749.080238  19507.143064        48.495830       639.463394   
 B         2312.037281  11559.945203        29.626341       746.470458   
 C         3202.230023  17080.725778        28.576366       787.963941   
 D         3664.885282  12123.391107        33.091099       473.361804   
 E         2608.484486  15247.564316        40.094461       516.491656   
 F         3223.705789  11394.938607        36.180050       546.544737   
 G         2912.139968  17851.759614        33.590866       605.693775   
 H         3184.829138  10464.504127        45.011256       468.209649   
 I         2130.103186  19488.855373        55.037697       723.358939   
 J         2609.227538  10976.721140        47.158525       576.060997   
 
   Bohrloch-ID  
 A          A1  
 B          A1  
 C          B2  
 D          B2  
 E          B2  
 F          C3  
 G          C3  
 H          D4  
 I          E5  
 J          E5

## Iteration über Dataframe und Spalten
Das Iterieren über Dataframe und Series ist möglich, aber in Pandas nicht sonderlich üblich, da unperformant. Vektorisierung ist ein sehr viel besseres Verfahren, um (parallel) Werte in einer Datenstruktur zu verändern. Moderne CPUs unterstüzten Vektorisierung. Mehr dazu in den weiteren Kapiteln.

### Iteration über einen Dataframe. Jede Row is ein String mit dem Spaltennamen

In [24]:
for column_name in df:
    print(column_name)

Förderrate (bbl/d)
Druck (psi)
Viskosität (cP)
Wassertiefe (m)
Bohrloch-ID


### Iteration über alle Zeilen eines Dataframes

In [26]:
for columnname, series in df.iterrows():
    print(columnname)

A
B
C
D
E
F
G
H
I
J


### Iteration über die Werte einer Spalte (Pandas Series)

In [27]:
for row in df["Bohrloch-ID"]:
    print(row)

A1
A1
B2
B2
B2
C3
C3
D4
E5
E5


### Iteration über die Spalte mit iteritems
mit der Methode iteritems bekommen wir einen Tupel aus Spaltenname, Wert pro Spaltenwert

In [32]:
for x in df["Bohrloch-ID"].items():
    print(x)

('A', 'A1')
('B', 'A1')
('C', 'B2')
('D', 'B2')
('E', 'B2')
('F', 'C3')
('G', 'C3')
('H', 'D4')
('I', 'E5')
('J', 'E5')
The history saving thread hit an unexpected error (OperationalError('attempt to write a readonly database')).History will not be written to the database.


In [10]:
# Iteration über die Spalten der Zeile 0
for cols in df.iloc[0]:
    print(cols)

5.49816047538945
19.50714306409916
48.49583037071934
92.72219208342813


In [35]:
for index, bohrloch_id in df["Bohrloch-ID"].items():
    print(index, bohrloch_id)

A A1
B A1
C B2
D B2
E B2
F C3
G C3
H D4
I E5
J E5


## Spalten löschen

In [34]:
df_new = df.drop(columns=["Förderrate (bbl/d)", "Druck (psi)"])
df_new

Unnamed: 0,Viskosität (cP),Wassertiefe (m),Bohrloch-ID
A,48.49583,639.463394,A1
B,29.626341,746.470458,A1
C,28.576366,787.963941,B2
D,33.091099,473.361804,B2
E,40.094461,516.491656,B2
F,36.18005,546.544737,C3
G,33.590866,605.693775,C3
H,45.011256,468.209649,D4
I,55.037697,723.358939,E5
J,47.158525,576.060997,E5


## Zeilen löschen

In [38]:
df_x = df_new.drop(index="A")  # A rausgelöscht

df_y = df.drop(df.index[2])  # C rausgelöcht

df_z = df.drop(index=["A", "B"]) 
df_z

Unnamed: 0,Förderrate (bbl/d),Druck (psi),Viskosität (cP),Wassertiefe (m),Bohrloch-ID
C,3202.230023,17080.725778,28.576366,787.963941,B2
D,3664.885282,12123.391107,33.091099,473.361804,B2
E,2608.484486,15247.564316,40.094461,516.491656,B2
F,3223.705789,11394.938607,36.18005,546.544737,C3
G,2912.139968,17851.759614,33.590866,605.693775,C3
H,3184.829138,10464.504127,45.011256,468.209649,D4
I,2130.103186,19488.855373,55.037697,723.358939,E5
J,2609.227538,10976.72114,47.158525,576.060997,E5


## Dublikate löschen zeilenweise

In [40]:
np.random.seed(3)
df.loc[:, "field"] = np.random.randint(1, 3, df.shape[0])
df = df.drop_duplicates(subset=["Bohrloch-ID", "field"]) 
df

Unnamed: 0,Förderrate (bbl/d),Druck (psi),Viskosität (cP),Wassertiefe (m),Bohrloch-ID,field
A,2749.080238,19507.143064,48.49583,639.463394,A1,1
C,3202.230023,17080.725778,28.576366,787.963941,B2,2
F,3223.705789,11394.938607,36.18005,546.544737,C3,1
H,3184.829138,10464.504127,45.011256,468.209649,D4,1
I,2130.103186,19488.855373,55.037697,723.358939,E5,2
