# Hinzufügen, Ändern und Löschen von Daten

Bei vielen Datensätzen möchtet ihr vielleicht eine Transformation basierend auf den Werten in einem Array, einer Serie oder einer Spalte in einem DataFrame durchführen. Hierfür betrachten wir die ersten Unicode-Zeichen:

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({'Code': ['U+0000', 'U+0001', 'U+0002', 'U+0003', 'U+0004', 'U+0005'],
        'Decimal': [0, 1, 2, 3, 4, 5],
        'Octal': ['001', '002', '003', '004', '004', '005'],
        'Key': ['NUL', 'Ctrl-A', 'Ctrl-B', 'Ctrl-C', 'Ctrl-D', 'Ctrl-E']})

df

Unnamed: 0,Code,Decimal,Octal,Key
0,U+0000,0,1,NUL
1,U+0001,1,2,Ctrl-A
2,U+0002,2,3,Ctrl-B
3,U+0003,3,4,Ctrl-C
4,U+0004,4,4,Ctrl-D
5,U+0005,5,5,Ctrl-E


## Daten hinzufügen

Angenommen, ihr möchtet eine Spalte hinzufügen, in der die Zeichen dem `C0`- oder `C1`-Steuercode zugewiesen werden:

In [3]:
control_code = {
  'u+0000': 'C0',
  'u+0001': 'C0',
  'u+0002': 'C0',
  'u+0003': 'C0',
  'u+0004': 'C0',
  'u+0005': 'C0'
}

Die `map`-Methode für eine Serie akzeptiert eine Funktion oder ein diktatähnliches Objekt, das eine Zuordnung enthält, aber hier haben wir ein kleines Problem, da einige die Codes in `control_code` kleingeschrieben sind, nicht jedoch in unserem DataFrame. Daher müssen wir jeden Wert mit der Methode `str.lower` in Kleinbuchstaben umwandeln:

In [4]:
lowercased = df['Code'].str.lower()

lowercased

0    u+0000
1    u+0001
2    u+0002
3    u+0003
4    u+0004
5    u+0005
Name: Code, dtype: object

In [5]:
df['Control code'] = lowercased.map(control_code)

df

Unnamed: 0,Code,Decimal,Octal,Key,Control code
0,U+0000,0,1,NUL,C0
1,U+0001,1,2,Ctrl-A,C0
2,U+0002,2,3,Ctrl-B,C0
3,U+0003,3,4,Ctrl-C,C0
4,U+0004,4,4,Ctrl-D,C0
5,U+0005,5,5,Ctrl-E,C0


Wir hätten auch eine Funktion übergeben können, die die ganze Arbeit erledigt:

In [6]:
df['Code'].map(lambda x: control_code[x.lower()])

0    C0
1    C0
2    C0
3    C0
4    C0
5    C0
Name: Code, dtype: object

Die Verwendung von `map` ist ein bequemer Weg, um elementweise Transformationen und andere Datenbereinigungsoperationen durchzuführen.

## Daten ändern

<div class="alert alert-block alert-info">

**Hinweis:**

Das Ersetzen fehlender Werte wird in [Verwalten fehlender Daten mit pandas](../../clean-prep/nulls.ipynb) beschrieben.
</div>

In [7]:
pd.Series(['Manpower', 'man-made']).str.replace('Man', 'Personal', regex=False)

0    Personalpower
1         man-made
dtype: object

In [8]:
pd.Series(['Man-Power', 'man-made']).str.replace('[Mm]an', 'Personal', regex=True)

0    Personal-Power
1     Personal-made
dtype: object

<div class="alert alert-block alert-info">

**Hinweis:**

Die Methode `replace` unterscheidet sich von `str.replace`, dadurch, dass diese elementweise Zeichenketten ersetzt.
</div>

## Daten löschen

Einen oder mehrere Einträge aus einer Achse zu löschen ist einfach, wenn ihr bereits ein Index-Array oder eine Liste ohne diese Einträge habt.

Zum Löschen von Duplikaten siehe [Daten deduplizieren](../../clean-prep/deduplicate.ipynb).

Da dies ein wenig Mengenlehre erfordern kann, geben wir die Drop-Methode als neues Objekt ohne den oder die gelöschten Werten zurück:

In [9]:
rng = np.random.default_rng()
s = pd.Series(rng.normal(size=7))

s

0   -1.015453
1   -0.060386
2    0.160050
3   -0.719240
4   -0.968030
5    0.718969
6   -0.363767
dtype: float64

In [10]:
new = s.drop(2)

new

0   -1.015453
1   -0.060386
3   -0.719240
4   -0.968030
5    0.718969
6   -0.363767
dtype: float64

In [11]:
new = s.drop([2, 3])

new

0   -1.015453
1   -0.060386
4   -0.968030
5    0.718969
6   -0.363767
dtype: float64

Bei DataFrames können Indexwerte auf beiden Achsen gelöscht werden. Um dies zu veranschaulichen, erstellen wir zunächst einen Beispiel-DataFrame:

In [12]:
data = {'Code': ['U+0000', 'U+0001', 'U+0002', 'U+0003', 'U+0004', 'U+0005'],
        'Decimal': [0, 1, 2, 3, 4, 5],
        'Octal': ['001', '002', '003', '004', '004', '005'],
        'Key': ['NUL', 'Ctrl-A', 'Ctrl-B', 'Ctrl-C', 'Ctrl-D', 'Ctrl-E']}

df = pd.DataFrame(data)

df

Unnamed: 0,Code,Decimal,Octal,Key
0,U+0000,0,1,NUL
1,U+0001,1,2,Ctrl-A
2,U+0002,2,3,Ctrl-B
3,U+0003,3,4,Ctrl-C
4,U+0004,4,4,Ctrl-D
5,U+0005,5,5,Ctrl-E


In [13]:
df.drop([0, 1])

Unnamed: 0,Code,Decimal,Octal,Key
2,U+0002,2,3,Ctrl-B
3,U+0003,3,4,Ctrl-C
4,U+0004,4,4,Ctrl-D
5,U+0005,5,5,Ctrl-E


Ihr könnt auch Werte aus den Spalten entfernen, indem ihr `axis=1` oder `axis='columns'` übergebt:

In [14]:
df.drop('Decimal', axis=1)

Unnamed: 0,Code,Octal,Key
0,U+0000,1,NUL
1,U+0001,2,Ctrl-A
2,U+0002,3,Ctrl-B
3,U+0003,4,Ctrl-C
4,U+0004,4,Ctrl-D
5,U+0005,5,Ctrl-E


Viele Funktionen wie `drop`, die die Größe oder Form einer Reihe oder eines DataFrame ändern, können ein Objekt an Ort und Stelle manipulieren, ohne ein neues Objekt zurückzugeben:

In [15]:
df.drop(0, inplace=True)

df

Unnamed: 0,Code,Decimal,Octal,Key
1,U+0001,1,2,Ctrl-A
2,U+0002,2,3,Ctrl-B
3,U+0003,3,4,Ctrl-C
4,U+0004,4,4,Ctrl-D
5,U+0005,5,5,Ctrl-E


<div class="alert alert-block alert-warning">

**Warnung:**

Seid  vorsichtig mit der `inplace`-Funktion, da die Daten unwiderbringlich gelöscht werden.