# Manipulation von Zeichenketten

pandas bietet die Möglichkeit, String- und reguläre Ausdrücke prägnant auf ganze Arrays von Daten anzuwenden.

## String-Objekt-Methoden

In vielen String-Munging- und Skripting-Anwendungen sind die eingebauten String-Methoden ausreichend. Zum Beispiel kann eine durch Komma getrennte Zeichenkette mit [split](https://docs.python.org/3/library/stdtypes.html#str.split) in Teile zerlegt werden:

In [1]:
str = """Jupyter tutorial, PyViz tutorial, Python basics,
Jupyter tutorial, Python basics"""

chunks = str.split(',')

print(chunks)

['Jupyter tutorial', ' PyViz tutorial', ' Python basics', '\nJupyter tutorial', ' Python basics']


`split` wird oft mit [str.strip](https://docs.python.org/3/library/stdtypes.html#str.strip) kombiniert, um Leerzeichen und Zeilenumbrüche zu entfernen:

In [2]:
chunks = [x.strip() for x in str.split(',')]

chunks

['Jupyter tutorial',
 'PyViz tutorial',
 'Python basics',
 'Jupyter tutorial',
 'Python basics']

Eine schnelle Methode zur Übergabe einer Liste oder eines Tupels an eine Zeichenkette ist die [str.join](https://docs.python.org/3/library/stdtypes.html#str.join)-Methode:

In [3]:
';'.join(chunks)

'Jupyter tutorial;PyViz tutorial;Python basics;Jupyter tutorial;Python basics'

Mit der Verwendung des Python-Schlüsselworts `in` kann einfach überprüft werden, ob eine bestimmte Zeichenkette vorhanden ist:

In [4]:
'Python basics' in chunks

True

Mit [str.count](https://docs.python.org/3/library/stdtypes.html#str.count) lässt sich die Anzahl der Zeichenketten ermitteln:

In [5]:
str.count('Python basics')

2

Mit der [str.replace](https://docs.python.org/3/library/stdtypes.html#str.replace)-Methode lässt sich das Vorkommen eines Musters durch ein anderes ersetzen. Sie wird häufig auch zum Löschen von Mustern verwendet, indem eine leere Zeichenkette übergeben wird:

In [6]:
str.replace(', ', ';')

'Jupyter tutorial;PyViz tutorial;Python basics,\nJupyter tutorial;Python basics'

In [7]:
str.replace('\n', '')

'Jupyter tutorial, PyViz tutorial, Python basics,Jupyter tutorial, Python basics'

In Python eingebaute String-Methoden:

Methode | Beschreibung
:------ | :-----------
`count` | gibt die Anzahl der sich nicht überschneidenden Vorkommen der Zeichenkette zurück.
`endswith` | gibt `True` zurück, wenn die Zeichenkette mit dem Suffix endet
`startswith` | gibt `True` zurück, wenn die Zeichenkette mit dem Präfix beginnt
`join` | verwendet die Zeichenkette als Begrenzer für die Verkettung einer Folge anderer Zeichenketten
`index` | gibt die Position des ersten Zeichens in der Zeichenkette zurück, wenn es in der Zeichenkette gefunden wurde; löst einen `ValueError` aus, wenn es nicht gefunden wurde
`find` | gibt die Position des ersten Zeichens des ersten Vorkommens der Teilzeichenkette in der Zeichenkette zurück; wie `index`, gibt aber `-1` zurück, wenn nichts gefunden wurde
`rfind` | Rückgabe der Position des ersten Zeichens des letzten Vorkommens der Teilzeichenkette in der Zeichenkette; gibt `-1` zurück, wenn nichts gefunden wurde
`replace` | ersetzt Vorkommen einer Zeichenkette durch eine andere Zeichenkette
`strip`, `rstrip`, `lstrip` | schneiden Leerzeichen ab, einschließlich Zeilenumbrüchen
`split ` |zerlegt eine Zeichenkette in eine Liste von Teilzeichenketten unter Verwendung des übergebenen Trennzeichens
`lower` | konvertiert alphabetische Zeichen in Kleinbuchstaben
`upper` | konvertiert alphabetische Zeichen in Großbuchstaben
`casefold` | konvertiert Zeichen in Kleinbuchstaben und konvertiert alle regionsspezifischen variablen Zeichenkombinationen in eine gemeinsame vergleichbare Form
`ljust`, `rjust` | linksbündig bzw. rechtsbündig; füllt die gegenüberliegende Seite der Zeichenkette mit Leerzeichen (oder einem anderen Füllzeichen) auf, um eine Zeichenkette mit einer Mindestbreite zu erhalten

## Reguläre Ausdrücke

Reguläre Ausdrücke, auch *regex* genannt, bieten eine flexible Möglichkeit, (oft komplexere) Zeichenkettenmuster im Text zu suchen oder abzugleichen. Das in Python eingebaute Modul [re](https://docs.python.org/3/library/re.html) ist für die Anwendung regulärer Ausdrücke auf Zeichenketten zuständig; ich werde hier einige Beispiele für seine Verwendung geben.

Die Funktionen des `re`-Moduls lassen sich in drei Kategorien einteilen: Mustervergleich, Ersetzung und Aufteilung. Diese sind natürlich alle miteinander verwandt; ein Regex beschreibt ein Muster, das im Text gefunden werden soll und das dann für viele Zwecke verwendet werden kann. Betrachten wir ein einfaches Beispiel: Angenommen, wir wollen eine Zeichenkette mit einer variablen Anzahl von Leerzeichen (Tabulatoren, Leerzeichen und Zeilenumbrüche) aufteilen. Die Regex, die ein oder mehrere Leerzeichen beschreibt, lautet `\s+`:

In [8]:
import re

re.split('\s+', str)

['Jupyter',
 'tutorial,',
 'PyViz',
 'tutorial,',
 'Python',
 'basics,',
 'Jupyter',
 'tutorial,',
 'Python',
 'basics']

Wenn ihr `re.split('\s+', str)` aufruft, wird der reguläre Ausdruck zunächst kompiliert und dann seine Split-Methode für den übergebenen Text aufgerufen. Ihr könnt den Regex selbst mit `re.compile` kompilieren und so ein wiederverwendbares Regex-Objekt bilden:

In [9]:
regex = re.compile('\s+')

regex.split(str)

['Jupyter',
 'tutorial,',
 'PyViz',
 'tutorial,',
 'Python',
 'basics,',
 'Jupyter',
 'tutorial,',
 'Python',
 'basics']

Wenn ihr stattdessen eine Liste aller Muster erhalten möchtet, die der Regex entsprechen, könnt ihr die [re.findall](https://docs.python.org/3/library/re.html#re.findall)-Methode verwenden:

In [10]:
regex.findall(str)

[' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ']

> **Hinweis:**
> 
> Um unerwünschtes Escaping mit `\` in einem regulären Ausdruck zu vermeiden, verwendet rohe String-Literale wie `r'C:\PATH\TO\FILE'` anstelle des entsprechenden `'C:\\PATH\\TO\\FILE'`.

Das Erstellen eines Regex-Objekts mit `re.compile` ist sehr empfehlenswert, wenn ihr beabsichtigt, denselben Ausdruck auf viele Zeichenketten anzuwenden; dies spart auch CPU-Zyklen.

`match` und `search` sind eng mit `findall` verwandt. Während `findall` alle Übereinstimmungen in einer Zeichenkette zurückgibt, gibt `search` nur die erste Übereinstimmung und `match` nur Übereinstimmungen am Anfang der Zeichenkette zurück. Als weniger triviales Beispiel betrachten wir einen Textblock und einen regulären Ausdruck, der die meisten E-Mail-Adressen identifizieren kann:

In [11]:
addresses = """Veit <veit@cusy.io>
Veit Schiele <veit.schiele@cusy.io>
cusy GmbH <info@cusy.io>
"""

In [12]:
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'
regex = re.compile(pattern, flags=re.IGNORECASE)

`re.IGNORECASE` ignoriert die Groß- und Kleinschreibung im Regex.

Die Verwendung von `findall` für den Text ergibt eine Liste der E-Mail-Adressen:

In [13]:
regex.findall(addresses)

['veit@cusy.io', 'veit.schiele@cusy.io', 'info@cusy.io']

`search` gibt ein spezielles `match`-Objekt für die erste E-Mail-Adresse im Text zurück. Für die vorangehende Regex kann das `match`-Objekt nur die Anfangs- und Endposition des Musters in der Zeichenfolge angeben:

In [14]:
first = regex.search(addresses)

first

<re.Match object; span=(6, 18), match='veit@cusy.io'>

In [15]:
addresses[first.start():first.end()]

'veit@cusy.io'

`regex.match` gibt `None` zurück, da das Muster nur dann passt, wenn es am Anfang der Zeichenkette steht:

In [16]:
print(regex.match(addresses))

None


Entsprechend gibt `sub` eine neue Zeichenkette zurück, in der alle Vorkommen des Musters durch die neue Zeichenkette ersetzt sind:

In [17]:
print(regex.sub('…', addresses))

Veit <…>
Veit Schiele <…>
cusy GmbH <…>



Angenommen, ihr möchtet E-Mail-Adressen finden und gleichzeitig jede Adresse in ihre drei Komponenten aufteilen: Personenname, Domänenname und Domänensuffix. Dazu setzt ihr Klammern um die zu segmentierenden Teile des Musters:

In [18]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

In [19]:
match = regex.match('veit@cusy.io')

match.groups()

('veit', 'cusy', 'io')

`findall` gibt eine Liste von Tupeln zurück, wenn das Muster Gruppen enthält:

In [20]:
regex.findall(addresses)

[('veit', 'cusy', 'io'),
 ('veit.schiele', 'cusy', 'io'),
 ('info', 'cusy', 'io')]

`sub` hat auch Zugang zu den Gruppen in jeder Übereinstimmung mit speziellen Symbolen. So steht `\1` für die erste übereinstimmende Gruppe, `\2` für die zweite und so weiter:

In [21]:
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', addresses))

Veit <Username: veit, Domain: cusy, Suffix: io>
Veit Schiele <Username: veit.schiele, Domain: cusy, Suffix: io>
cusy GmbH <Username: info, Domain: cusy, Suffix: io>



Die folgende Tabelle enthält einen kurzen Überblick über Methoden für reguläre Ausdrücke:

Methode | Beschreibung
:------ | :-----------
`findall` | gibt alle sich nicht überschneidenden übereinstimmenden Muster in einer Zeichenkette als Liste zurück
`finditer` | wie `findall`, gibt aber einen Iterator zurück
`match` | entspricht dem Muster am Anfang der Zeichenkette und segmentiert optional die Musterkomponenten in Gruppen; wenn das Muster übereinstimmt, wird ein `match`-Objekt zurückgegeben, andernfalls keines
`search` | durchsucht die Zeichenkette nach Übereinstimmungen mit dem Muster; gibt in diesem Fall ein `match`-Objekt zurück; im Gegensatz zu `match` kann die Übereinstimmung an einer beliebigen Stelle der Zeichenkette und nicht nur am Anfang stehen
`split` | zerlegt die Zeichenkette bei jedem Auftreten des Musters in Teile
`sub`, `subn` | ersetzt alle (`sub`) oder die ersten `n` Vorkommen (`subn`) des Musters in der Zeichenkette durch einen Ersetzungsausdruck; verwendet die Symbole `\1`, `\2`, …, um auf die Elemente der Übereinstimmungsgruppe in der Ersetzungszeichenkette zu verweisen