_Einführung in Python, Clemens Brunner, 19.4.2021_

# 6 &ndash; Strings

## Wiederholung
Datentypen in Python können grob vereinfacht in folgende Kategorien unterteilt werden:

- Logische Datentypen (`bool`)
- Numerische Datentypen (`int`, `float`)
- Sequenzen (können aus einem oder mehreren Elementen bestehen) (`str`, `list`, `tuple`)
- Mengen (`set`)
- Mappings (`dict`)

Mit der Funktion `type` kann man sich den Typ eines beliebigen Objektes (Name oder Wert) anzeigen lassen. Logische und numerische Datentypen sind im Prinzip sehr einfach, und wir haben bereits gesehen, wie wir diese Typen verwenden können. In den folgenden beiden Einheiten werden etwas komplexere Datentypen vorgestellt, welche in Python sehr häufig verwendet werden: die Sequenzdatentypen `str`, `list` und `tuple` sowie der Mapping-Datentyp `dict`.

Bevor wir diese Typen im Detail besprechen, sehen wir uns aber eine weitere wichtige Eigenschaft von Datentypen in Python an.

## Mutable und immutable Datentypen
In Python unterscheidet man zwei Arten an Datentypen:

- Mutable (veränderbar)
- Immutable (nicht veränderbar)

*Mutable* Objekte können auch *nach* deren Erstellung *verändert* werden. Im Gegensatz dazu können *immutable* Objekte nach deren Erstellung *nicht* mehr verändert werden.

Für uns relevante mutable Datentypen sind:

- Liste `list`
- Dictionary `dict`

Für uns relevante immutable Datentypen sind:

- Ganzzahl `int`, Kommazahl `float`
- String `str`, Tupel `tuple`

### Immutable Typen
Befassen wir uns zunächst mit den nicht veränderbaren immutable Typen. Als Beispiel betrachten wir das Objekt `2` vom Typ `int`. Dieses Objekt ist nicht veränderbar (`2` kann also nicht verändert werden). Im folgenden Beispiel wird das Objekt 2, welches den Namen `a` hat, tatsächlich auch nicht verändert. Wenn man nämlich `a = 3` setzt, wird das Objekt `2` nicht geändert, sondern der Name `a` verweist lediglich auf das Objekt `3` (denken Sie an die Analogie mit dem Namensschildchen).

Dies kann man auch mit Hilfe der `id`-Funktion verifizieren; man erkennt, dass die IDs (also die Objekte) tatsächlich unterschiedlich sind.

In [1]:
a = 2

In [2]:
id(a)

4477344336

In [3]:
a = 3

In [4]:
id(a)

4477344368

Auch Strings sind immutable. Wenn man versucht, einen einmal angelegten String zu verändern (z.B. ein Zeichen zu ändern), bekommt man eine Fehlermeldung:

In [5]:
s = "Python"

In [6]:
s[1]  # das 2. Zeichen des Strings (Python beginnt mit 0 zu zählen)

'y'

In [7]:
s[1] = "x"  # kann nicht verändert werden, da Strings immutable sind

TypeError: 'str' object does not support item assignment

Analog zu den Strings sind auch Tupel immutable. Ein Tupel ist eine Sammlung (Sequenz) von verschiedenen Objekten, ähnlich wie eine Liste, z.B.

In [10]:
t = 1, 2, 18.33, "Python", 44

In [11]:
t[0]  # Element 0 des Tuples

1

In [12]:
t[3]  # Element 3 des Tuples

'Python'

In [13]:
t[0] = "X"  # kann nicht verändert werden, da Tuples immutable sind

TypeError: 'tuple' object does not support item assignment

### Mutable Typen
Im Gegensatz zu den oben erwähnten Beispielen kann man mutable Objekte sehr wohl nach der Erstellung verändern. Eine Liste ist genau wie ein Tupel eine Sammlung von verschiedenen Objekten. Der einzige Unterschied ist, dass man eine Liste auch nachträglich ändern kann:

In [14]:
k = [1, 2, 18.33, "Python", 44]

In [15]:
k

[1, 2, 18.33, 'Python', 44]

In [16]:
k[0]

1

In [17]:
k[3]

'Python'

In [18]:
k[0] = "X"  # Änderung möglich!

In [19]:
k

['X', 2, 18.33, 'Python', 44]

Auch Dictionaries sind mutable:

In [20]:
d = {"a": 12, "b": 3.14, 5: "Python", "c": "yes"}

In [21]:
d

{'a': 12, 'b': 3.14, 5: 'Python', 'c': 'yes'}

In [22]:
d["a"]

12

In [23]:
d["a"] = "CHANGED"  # Änderung möglich

In [24]:
d

{'a': 'CHANGED', 'b': 3.14, 5: 'Python', 'c': 'yes'}

## Strings
### Strings erstellen
Der Datentyp `str` ist ein Sequenzdatentyp und stellt Zeichenketten (Strings) dar. Ein String besteht daher aus einer Sequenz an Zeichen (Buchstaben, Zahlen, Sonderzeichen). Strings werden von einfachen oder doppelten Anführungszeichen umschlossen (aber der Inhalt eines Strings selbst besteht nur aus den Zeichen zwischen diesen Anführungszeichen).

In [25]:
s1 = "String"
s1

'String'

In [26]:
s2 = 'Dies ist ebenfalls ein String.'
s2

'Dies ist ebenfalls ein String.'

In [27]:
s3 = 'Auch "das" ist ein String'
s3

'Auch "das" ist ein String'

In [28]:
s4 = "And that's a string too!"
s4

"And that's a string too!"

Lange Strings, die sich auch über mehrere Zeilen erstrecken können, kann man mit drei Anführungszeichen umschließen (die Zeilenumbrüche sind dabei Teil des Strings).

In [29]:
s5 = """Dies ist ein sehr langer Text.
Man kann einfach
in die nächste Zeile gehen
und der String geht immer weiter."""

In [30]:
print(s5)  # der Inhalt des Strings wird schön formatiert ausgegeben

Dies ist ein sehr langer Text.
Man kann einfach
in die nächste Zeile gehen
und der String geht immer weiter.


In [31]:
s5  # Tatsächlicher Wert des Strings, \n steht für Zeilenumbruch

'Dies ist ein sehr langer Text.\nMan kann einfach\nin die nächste Zeile gehen\nund der String geht immer weiter.'

Strings mit drei Anführungszeichen haben wir schon als Docstrings zur kurzen Beschreibung von Funktionen kennengelernt.

### Strings indizieren
Bei Sequenzdatentypen kann man auf einzelne Elemente durch Indizieren zugreifen. Den Index gibt man dabei in eckigen Klamnmern an. Zu beachten ist hier, dass Python stets mit 0 zu zählen beginnt, d.h. das erste Element hat den Index 0. Den Index kann man daher als Unterschied/Abstand zum ersten Element interpretieren.

In [32]:
s1[0]

'S'

In [33]:
s1[1]

't'

Mit negativen Indizes kann man Elemente von hinten nach vorne ansprechen, d.h. -1 ist das letzte Element, -2 das vorletzte, usw.

In [34]:
s1[-1]

'g'

In [35]:
s1[-2]

'n'

### Strings slicen

Man kann auch mehrere Elemente auf einmal herausgreifen. Dazu schreibt man in die eckigen Klammern den Startindex, einen Doppelpunkt, und den Endindex. Achtung: der Endindex zählt _nicht_ mehr zum Bereich dazu!

Gibt man den ersten Index nicht an, wird vom ersten Element (inklusive) gezählt. Gibt man den Endindex nicht an, wird bis zum letzten Element (inklusive) gezählt.

Wenn man auf diese Art mehrere Elemente herausgreift, spricht man von einem Slice.

In [36]:
s1

'String'

In [37]:
s1[0:4]  # 4 Elemente, Index 0, 1, 2, 3, gleichwertig mit s1[:4]

'Stri'

In [38]:
s1[4:6]  # 2 Elemente, Index 4, 5

'ng'

In [39]:
s1[:3]  # 3 Elemente, Index 0, 1, 2

'Str'

In [40]:
s1[2:]  # Index 2 bis zum letzten Element

'ring'

In [41]:
s1[2:-1]  # Index 2 bis zum letzten Element (exklusive)

'rin'

In [42]:
s1[1:-3]  # Index 1 bis zum drittletzten Element (exklusive)

'tr'

Die Tatsache, dass der Startindex immer inklusive ist und der Endindex immer exklusive ist, hat den Vorteil, dass man sich durch die Differenz der beiden Indizes sofort die Anzahl der Elemente im Slice ausrechnen kann. Beispielsweise erkennt man so, dass `x[73:81]` genau $81 - 73 = 8$ Elemente enthält.

Ein weiterer Vorteil dieser Konvention ist, dass man angrenzende Slices intuitiv erstellen kann, z.B.:

In [43]:
s1[:2]  # die ersten 2 Zeichen

'St'

In [44]:
s1[2:]  # die restlichen Zeichen

'ring'

Man kann optional nach dem Endindex noch einen weiteren Doppelpunkt gefolgt von der Schrittweite angeben (standardmäßig ist diese Schrittweite 1). So kann man z.B. jedes zweite Element herausgreifen:

In [45]:
s1[::2]

'Srn'

Wenn man die Reihenfolge der Elemente umdrehen möchte, gibt man als Schrittweite -1 an.

In [46]:
s1[4:1:-1]

'nir'

In [47]:
s1[-1:-4:-1]

'gni'

In [48]:
s1[::-1]  # ganzen String umdrehen

'gnirtS'

Man kann sich die Indizes als Grenzen _zwischen_ den Elementen vorstellen:

![](slicing.png)

### Arbeiten mit Strings
Die Funktion `len` gibt die Länge (d.h. die Anzahl der Elemente) einer Sequenz zurück.

In [49]:
len(s1)

6

In [50]:
len("Das ist ein relativ langer String")

33

Ein String der Länge 0 ist ebenfalls ein regulärer String &ndash; er besitzt nur kein Element.

In [51]:
s = ""

In [52]:
s

''

In [53]:
len(s)

0

In [54]:
type(s)

str

Nachdem Strings immutable sind, kann man sie nachträglich nicht mehr verändern. Man muss stattdessen einen neuen String mit den gewünschten Änderungen erstellen:

In [55]:
s = "Haus"

In [56]:
s[0]

'H'

In [57]:
s[0] = "M"  # funktioniert nicht!

TypeError: 'str' object does not support item assignment

In [58]:
"M" + s[1:]  # neuen String erzeugen

'Maus'

Das obige Beispiel zeigt, dass man Strings mit dem `+`-Operator zusammenfügen kann:

In [59]:
x = "a" + "b" + "c"
x

'abc'

Dementsprechend kann man einen String mit dem `*`-Operator vervielfältigen:

In [60]:
"Hallo" * 4

'HalloHalloHalloHallo'

Für Strings gibt es in Python sehr viele praktische spezielle Funktionen. Diese werden direkt auf ein String-Objekt wie folgt angewandt:

In [61]:
x.upper()

'ABC'

Zuerst gibt man das String-Objekt an (im Beispiel `x`), gefolgt von einem Punkt, gefolgt vom Namen der Funktion, die man aufrufen möchte. Eine solche Funktion nennt man auch *Methode*, da sie direkt auf ein zuvor spezifiziertes Objekt angewendet wird. Im Beispiel oben wird also der String `x` in Großbuchstaben umgewandelt. Diese Schreibweise hat den Vorteil, dass sofort klar wird, dass die Methode zum Objekt gehört; im Prinzip entspricht der Aufruf aber einem klassischen Funktionsaufruf `str.upper(x)`.

In [62]:
"abcdefg".upper()  # Großbuchstaben

'ABCDEFG'

In [63]:
"dsKJsdJKJKK".lower()  # Kleinbuchstaben

'dskjsdjkjkk'

Eine wichtige Tatsache ist, dass alle String-Methoden einen neuen String zurückgeben. Da Strings immutable sind, können diese von den Methoden nicht mehr verändert werden! Dies bedeutet, dass man dem Rückgabewert einen Namen zuweisen muss, wenn man diesen weiterverwenden möchte, also z.B.:

In [64]:
x

'abc'

In [65]:
x = x.upper()  # Namensschildchen x hängt dann um den neuen String (in Großbuchstaben)

In [66]:
x

'ABC'

In IPython kann man einfach herausfinden, welche Methoden man auf ein Objekt anwenden kann. Dazu tippt man den Namen eines Objektes ein, gefolgt von einem Punkt, und dann drückt man die Tabulator-Taste. IPython listet dann alle möglichen Methoden auf. Zu jeder Methode kann man sich dann natürlich die interaktive Hilfe anzeigen lassen.

Beispieleingabe:

```
x = "Test String"
x.<TAB>
```

Nach Eingabe des Punktes drückt man also die Tabulator-Taste und bekommt eine Liste aller möglichen Methoden. Möchte man dann z.B. den Hilfetext der Methode `x.capitalize` aufrufen, gibt man `x.capitalize?` ein.

Im Folgenden werden einige praktische String-Methoden aufgelistet.

Die Methode `strip` entfernt Leerzeichen am Anfang und am Ende eines Strings.

In [67]:
"      Satz mit vielen unnötigen Leerzeichen am Anfang und Ende        ".strip()

'Satz mit vielen unnötigen Leerzeichen am Anfang und Ende'

Mit der Methode `split` kann man einen String in eine Liste von Strings aufteilen (splitten). Als Argument gibt man das Zeichen an, an dem man splitten will (standardmäßig wird dafür Whitespace, also Leerzeichen und Tabulatoren, verwendet).

In [68]:
"Viele Sätze. Getrennt mit Punkt. Wie kann man diese Sätze einzeln erhalten?".split(".")

['Viele Sätze',
 ' Getrennt mit Punkt',
 ' Wie kann man diese Sätze einzeln erhalten?']

In [69]:
"Viele Sätze. Getrennt mit Punkt. Wie kann man die Wörter einzeln erhalten?".split()

['Viele',
 'Sätze.',
 'Getrennt',
 'mit',
 'Punkt.',
 'Wie',
 'kann',
 'man',
 'die',
 'Wörter',
 'einzeln',
 'erhalten?']

Das "Gegenteil" von `split` ist `join`, welches Strings in einer Liste zu einem einzelnen String verbindet. Als Verbindungszeichen wird der angegebene String verwendet.

In [70]:
";".join(["das", "ist", "ein", "Test"])

'das;ist;ein;Test'

Wir werden Listen im Detail erst in der nächsten Einheit kennenlernen. Vorweg aber so viel: die Möglichkeit, Strings in einer Liste mit `join` zu einem einzigen String zu verbinden ist wesentlich effizienter, als die einzelnen Strings mit `+` zu verbinden.

Die Methode `count` zählt, wie oft das als Argument angegebene Zeichen im String vorkommt.

In [71]:
s = "Das ist ein kurzer Satz. Nur zum Testen."
s.count("i")

2

In [72]:
s.count("e")

4

Die Methode `find` gibt den Index im String zurück, an dem das gesuchte Zeichen erstmalig auftritt.

In [73]:
s.find("s")

2

Optional kann man auch einen Startindex angeben:

In [74]:
s.find("s", 3)

5

Mit dem `in`-Operator kann man abfragen, ob ein bestimmtes Zeichen in einem String enthalten ist.

In [75]:
"y" in s

False

In [76]:
"i" in s

True

Ein String ist iterierbar, d.h. man kann mit einer `for`-Schleife über die einzelnen Elemente iterieren:

In [77]:
s = "Computer"

for c in s:
    print(c)

C
o
m
p
u
t
e
r


Möglich wäre auch folgende `for`-Schleife wie sie in vielen anderen Programmiersprachen üblich ist:

In [78]:
s = "Computer"

for i in range(len(s)):  # sollte man in Python nicht machen!
    print(s[i])

C
o
m
p
u
t
e
r


Dies ist aber sehr viel schwieriger zu lesen als die direkte Variante, daher sollte man letztere immer bevorzugen!

Alternativ könnte man auch eine `while`-Schleife verwenden:

In [79]:
s = "Computer"
i = 0

while i < len(s):
    print(s[i])
    i += 1

C
o
m
p
u
t
e
r


In Python würde man aber immer die `for`-Schleife bevorzugen, da diese wesentlich kompakter und einfacher zu lesen ist. Wenn man allerdings im String nach einem bestimmten Zeichen sucht, dann könnte man die `while`-Schleife mit einem `break`-Befehl verlassen sobald man das Zeichen gefunden hat.

Im folgenden Beispiel wollen wir wissen, an welcher Stelle sich das Zeichen "p" im String "Computer" befindet. Dazu könnten (und sollten) wir die bereits verfügbare String-Methode `find` verwenden:

In [80]:
s = "Computer"
c = "p"  # an welcher Stelle befindet sich das Zeichen "p" im String "Computer"?

s.find(c)

3

Wir können aber genau dieselbe Funktionalität selbst mit einer Schleife über den String implementieren. Wir gehen so jedes einzelne Zeichen durch. Falls das aktuelle Zeichen `s[i]` an der Position `i` gleich dem gesuchten Zeichen `c` ist, brechen wir die Schleife ab und der Name `i` enthält die Position des gesuchten Zeichens.

In [81]:
i = 0
while i < len(s):
    if s[i] == c:
        break
    i += 1

i

3

## Übungen
### Übung 1
Schreiben Sie eine Funktion `reverse`, welche einen String in umgekehrter Reihenfolge zurückgibt.

### Übung 2
Gegeben sei folgender String:

```Python
s = "educational neuroscience"
```
Gibt es eine Methode, die aus einem gegebenen String einen neuen String erzeugt, bei dem alle *Wörter* (nicht Buchstaben!) mit einem Großbuchstaben beginnen? Wenn ja, verwenden Sie diese Methode für `s` aus diesem Beispiel!

### Übung 3
Gegeben sei folgender String:
```Python
s = "Edukational Neuroscience"
```
Das Zeichen `k` an der Position 3 soll durch ein `c` ersetzt werden. Wie können Sie aus `s` einen neuen String erzeugen, in welcher diese Ersetzung vorgenommen wurde?

*Hinweis:* Verwenden Sie Slices, um auf die Teile von `s` vor dem `k` bzw. nach dem `k` zuzugreifen.

### Übung 4
Palindrome sind Wörter oder Sätze, welche von vorn und hinten gelesen dasselbe ergeben, z.B. Anna, Lagerregal und Reittier. Palindrome können sogar aus mehreren Wörtern bzw. ganzen Sätzen bestehen, wie z.B. "Dr. Awkward" oder "Was it a cat I saw?" (allerdings nur wenn man Groß-/Kleinschreibung sowie Leerzeichen und Satzzeichen ignoriert).

Schreiben Sie eine Funktion `is_palindrome`, welche einen String entgegennimmt und `True` zurückgibt, falls es sich bei dem String um ein Palindrom handelt. Wenn nicht, soll `False` zurückgegeben werden.

*Hinweis:* Wandeln Sie den String zuerst in Kleinbuchstaben um, denn sonst wird Anna nicht als Palindrom erkannt, da ein A nicht gleich einem a ist. Ihre Funktion muss außerdem nicht mit Sätzen funktionieren, sondern nur mit einzelnen Wörtern!

### Übung 5
Die String-Methode `find` verwendet man, um in einem String einen anderen String bzw. ein Zeichen zu suchen. Im folgenden Beispiel wird der String `"t"` in `s` gesucht:
```Python
s = "Educational Neuroscience"
s.find("t")
```
Die Position der ersten Fundstelle wird zurückgegeben, in diesem Beispiel also 5. Wird der gesuchte String gar nicht gefunden, wird -1 zurückgegeben.

Schreiben Sie eine Funktion `find(s, sub)`, welche diese Funktionalität repliziert (ohne aber die Methode `find` oder andere String-Methoden zu benutzen). Sie können davon ausgehen, dass `sub` immer nur ein einzelnes Zeichen ist! Ihre Funktion sollte also dasselbe Ergebnis liefern wie im obigen Beispiel `s.find("t")`; der Aufruf Ihrer Funktion sieht für dieses Beispiel so aus:

```Python
find(s, "t")
```

*Hinweis:* Verwenden Sie am besten eine `while`-Schleife, um über die einzelnen Buchstaben von `s` zu iterieren. In der Funktion ist eine Variable hilfreich, welche die aktuelle Position in `s` mitzählt (beginnend bei 0). Auch die Funktion `len`, welche die Länge eines Strings zurückgibt, könnte hilfreich sein. Beachten Sie auch, dass `return` die Funktion sofort verlässt und kein weiterer Code in der Funktion ausgeführt wird, und dass `return` an einer beliebigen Stelle in der Funktion und auch mehr als ein Mal vorhanden sein kann.

### Übung 6
Schreiben Sie eine Funktion `count(word, letter)`, welche die Anzahl der Zeichen `letter` im String `word` zurückgibt. Verwenden Sie für Ihre Lösung keine fertigen String-Methoden!

Beispielsweise sollte der Aufruf `count("Werkstatttreppe", "t")` den Wert `4` zurückgeben, analog zur fertigen String-Methode `"Werkstatttreppe".count("t")`.

*Hinweis:* Verwenden Sie eine ähnliche Struktur wie in Übung 5, eventuell ist hier eine `for`-Schleife geeigneter. Zählen Sie in einer Variablen mit, wie oft das gesuchte Zeichen aufgetreten ist und geben Sie diesen Wert dann zum Schluss zurück.

---
[![](cc_license.png)](http://creativecommons.org/licenses/by-nc-sa/4.0/)