_Einführung in Python, Clemens Brunner, 24.11.2016_

# 5 - Strings

## Wiederholung
Datentypen in Python können grob vereinfacht in folgende Kategorien unterteilt werden:

- Logische Datentypen
- Numerische Datentypen
- Sequenzen
- Mengen
- Mappings

Mit der Funktion `type` kann man sich den Typ eines beliebigen Objektes (Name oder Wert) anzeigen lassen. Logische und numerische Datentypen sind im Prinzip sehr einfach, und wir haben bereits gesehen, wie wir diese Typen verwenden können. In den folgenden beiden Einheiten werden etwas komplexere Datentypen vorgestellt, welche in Python sehr häufig verwendet werden: die Sequenzdatentypen `str`, `list` und `tuple` sowie der Mapping-Datentyp `dict`.

Bevor wir diese Typen im Detail besprechen, sehen wir uns aber eine weitere wichtige Eigenschaft von Datentypen in Python an.

## Mutable und immutable Datentypen
In Python unterscheidet man zwei Arten an Datentypen:

- mutable (veränderbar)
- immutable (nicht veränderbar)

Mutable Objekte können auch nach deren Erstellung verändert werden. Im Gegensatz dazu können immutable Objekte nach deren Erstellung nicht mehr verändert werden.

Für uns relevante mutable Datentypen sind:

- Liste `list`
- Dictionary `dict`

Für uns relevante immutable Datentypen sind:

- Ganzzahl `int`, Kommazahl `float`
- String `str`, Tupel `tuple`

### Immutable Typen
Befassen wir uns zunächst mit den nicht veränderbaren immutable Typen. Als Beispiel betrachten wir das Objekt `2` vom Typ `int`. Dieses Objekt ist nicht veränderbar (`2` kann also nicht verändert werden). Im folgenden Beispiel wird das Objekt 2, welches den Namen `a` hat, auch nicht verändert. Wenn man `a = 3` setzt, wird das Objekt `2` nicht geändert, sondern der Name `a` verweist lediglich auf das Objekt `3`. Dies kann man auch mit Hilfe der `id`-Funktion verifizieren; man erkennt, dass die IDs tatsächlich unterschiedlich sind.

In [1]:
a = 2

In [2]:
id(a)

140197645107808

In [3]:
a = 3

In [4]:
id(a)

140197645107840

Auch Strings sind immutable. Wenn man versucht, einen einmal angelegten String zu verändern (z.B. ein Zeichen zu ändern), bekommt man eine Fehlermeldung:

In [5]:
s = "Python"

In [6]:
s[1]  # das 2. Zeichen des Strings (Python beginnt mit 0 zu zählen)

'y'

In [7]:
s[1] = "x"  # kann nicht verändert werden, da Strings immutable sind

TypeError: 'str' object does not support item assignment

Analog zu den Strings sind auch Tupel immutable. Ein Tupel ist eine Sammlung von verschiedenen Objekten, z.B.

In [8]:
t = 1, 2, 18.33, "Python", 44

In [9]:
t[0]  # Element 0 des Tuples

1

In [10]:
t[3]  # Element 3 des Tuples

'Python'

In [11]:
t[0] = "X"  # kann nicht verändert werden, da Tuples immutable sind

TypeError: 'tuple' object does not support item assignment

### Mutable Typen
Im Gegensatz zu den oben erwähnten Beispielen kann man mutable Objekte sehr wohl nach der Erstellung verändern. Eine Liste ist genau wie ein Tupel eine Sammlung von verschiedenen Objekten. Der einzige Unterschied ist, dass man eine Liste auch nachträglich ändern kann:

In [12]:
k = [1, 2, 18.33, "Python", 44]

In [13]:
k

[1, 2, 18.33, 'Python', 44]

In [14]:
k[0]

1

In [15]:
k[3]

'Python'

In [16]:
k[0] = "X"  # Änderung möglich!

In [17]:
k

['X', 2, 18.33, 'Python', 44]

Auch Dictionaries sind mutable:

In [18]:
d = {"a": 12, "b": 3.14, 5: "Python", "c": "yes"}

In [19]:
d

{'c': 'yes', 'a': 12, 'b': 3.14, 5: 'Python'}

In [20]:
d["a"]

12

In [21]:
d["a"] = "CHANGED"  # Änderung möglich

In [22]:
d

{'c': 'yes', 'a': 'CHANGED', 'b': 3.14, 5: 'Python'}

## Strings
### Strings erstellen
Der Datentyp `str` ist ein immutable Sequenzdatentyp und stellt Zeichenketten (Strings) dar. Ein String besteht daher aus einer Sequenz an Zeichen (Buchstaben, Zahlen, Sonderzeichen). Strings werden von einfachen oder doppelten Anführungszeichen umschlossen.

In [23]:
s1 = "String"

In [24]:
s2 = 'Dies ist ebenfalls ein String.'

In [25]:
s3 = 'Auch "das" ist ein String'

Lange Strings, die auch über mehrere Zeilen gehen können, kann man mit drei Anführungszeichen umschließen (die Zeilenumbrüche sind dabei Teil des Strings).

In [26]:
s4 = """Dies ist ein sehr langer Text.
Man kann einfach
in die nächste Zeile gehen
und der String geht immer weiter."""

In [27]:
print(s4)  # der Inhalt des Strings wird schön formatiert ausgegeben

Dies ist ein sehr langer Text.
Man kann einfach
in die nächste Zeile gehen
und der String geht immer weiter.


In [28]:
s4  # Wert des Strings, \n steht für Zeilenumbruch

'Dies ist ein sehr langer Text.\nMan kann einfach\nin die nächste Zeile gehen\nund der String geht immer weiter.'

Strings mit drei Anführungszeichen haben wir schon als Docstrings zur kurzen Beschreibung von Funktionen kennengelernt.

### Strings indizieren
Bei Sequenzdatentypen kann man auf einzelne Elemente durch Indizieren zugreifen. Den Index gibt man dabei in eckigen Klamnmern an. Zu beachten ist hier, dass Python stets mit 0 zu zählen beginnt, d.h. das erste Element hat den Index 0. Den Index kann man daher als Unterschied/Abstand zum ersten Element interpretieren.

In [29]:
s1[0]

'S'

In [30]:
s1[1]

't'

Mit negativen Indizes kann man Elemente von hinten nach vorne ansprechen, d.h. -1 ist das letzte Element, -2 das vorletzte, usw.

In [31]:
s1[-1]

'g'

In [32]:
s1[-2]

'n'

Man kann auch mehr als ein Element indizieren. Dazu schreibt man in die eckigen Klammern den Startindex, einen Doppelpunkt, und den Endindex. Achtung: der Endindex entspricht dem letzten Element, welches _nicht_ mehr zum Bereich zählt!

Gibt man den ersten Index nicht an, wird vom ersten Element (inklusive) gezählt. Gibt man den Endindex nicht an, wird bis zum letzten Element (inklusive) gezählt.

Wenn man auf diese Art mehrere Elemente herausgreift, spricht man von einem Slice.

In [33]:
s1

'String'

In [34]:
s1[0:4]  # 4 Elemente, Index 0, 1, 2, 3

'Stri'

In [35]:
s1[4:6]  # 2 Elemente, Index 4, 5

'ng'

In [36]:
s1[:3]  # 3 Elemente, Index 0, 1, 2

'Str'

In [37]:
s1[2:]  # Index 2 bis zum letzten Element

'ring'

In [38]:
s1[2:-1]  # Index 15 bis zum letzten Element (exklusive)

'rin'

In [39]:
s1[1:-3]

'tr'

Die Tatsache, dass der Startindex immer inklusive ist und der Endindex immer exklusive ist, hat den Vorteil, dass man sich durch die Differenz der beiden Indizes sofort die Anzahl der indizierten Elemente ausrechnen kann. Beispielsweise erkennt man so, dass der Slice `x[73:81]` genau 81 - 73 = 8 Elemente enthält.

Man kann optional nach dem Endindex noch einen weiteren Doppelpunkt gefolgt von der Schrittweite angeben (standardmäßig ist diese Schrittweite 1). So kann man z.B. jedes zweite Element herausgreifen:

In [40]:
s1[::2]

'Srn'

Wenn man die Reihenfolge der Elemente umdrehen möchte, gibt man als Schrittweite -1 an.

In [41]:
s1[4:1:-1]

'nir'

In [42]:
s1[-1:-4:-1]

'gni'

In [43]:
s1[::-1]  # ganzen String umdrehen

'gnirtS'

Man kann sich die Indizes als Grenzen _zwischen_ den Elementen vorstellen:

![](slicing.png)

### Arbeiten mit Strings
Die Funktion `len` gibt die Länge (d.h. die Anzahl der Elemente) einer Sequenz zurück.

In [44]:
len(s1)

6

In [45]:
len("Das ist ein relativ langer String")

33

Ein String der Länge 0 ist ebenfalls ein regulärer String - er besitzt nur kein Element.

In [46]:
s = ""

In [47]:
s

''

In [48]:
len(s)

0

In [49]:
type(s)

str

Nachdem Strings immutable sind, kann man sie nachträglich nicht mehr verändern. Man muss also einen neuen String erstellen, welcher die gewünschten Änderungen beinhält:

In [50]:
s = "Haus"

In [51]:
s[0]

'H'

In [52]:
s[0] = "M"  # funktioniert nicht!

TypeError: 'str' object does not support item assignment

In [53]:
"M" + s[1:]

'Maus'

Das obige Beispiel zeigt, dass man Strings mit dem `+`-Operator zusammenfügen kann:

In [54]:
x = "a" + "b" + "c"
x

'abc'

Man kann einen String mit dem `*`-Operator vervielfältigen.

In [55]:
"Hallo" * 4

'HalloHalloHalloHallo'

Für Strings gibt es in Python sehr viele praktische spezielle Funktionen. Diese werden direkt auf ein String-Objekt wie folgt angewandt:

In [56]:
x.upper()

'ABC'

Zuerst gibt man das String-Objekt an (im Beispiel `x`), gefolgt von einem Punkt, gefolgt vom Namen der Funktion, die man aufrufen möchte. Eine solche Funktion nennt man auch Methode, da sie direkt auf ein zuvor spezifiziertes Objekt angewendet wird. Im Beispiel oben wird also der String `x` in Großbuchstaben umgewandelt.

In [57]:
"abcdefg".upper()  # Großbuchstaben

'ABCDEFG'

In [58]:
"dsKJsdJKJKK".lower()  # Kleinbuchstaben

'dskjsdjkjkk'

In IPython kann man einfach herausfinden, welche Methoden man auf ein Objekt anwenden kann. Dazu tippt man den Namen eines Objektes ein, gefolgt von einem Punkt, und dann drückt man die Tabulator-Taste. IPython listet dann alle möglichen Methoden auf. Zu jeder Methode kann man sich dann natürlich die interaktive Hilfe anzeigen lassen.

Beispieleingabe:

```Python
x = "Test String"
x.
```

Nach Eingabe des Punktes drückt man die Tabulator-Taste und bekommt eine Liste aller möglichen Methoden. Möchte man z.B. den Hilfetext der Methode `x.capitalize` aufrufen, gibt man `x.capitalize?` ein.

Im Folgenden werden einige praktische String-Methoden aufgelistet:

Die Methode `strip` entfernt Leerzeichen am Anfang und am Ende eines Strings.

In [59]:
"      Satz mit vielen unnötigen Leerzeichen am Anfang und Ende        ".strip()

'Satz mit vielen unnötigen Leerzeichen am Anfang und Ende'

Mit der Methode `split` kann man einen String in eine Liste von Strings aufteilen (splitten). Als Argument gibt man das Zeichen an, an dem man splitten will (standardmäßig wird dafür Whitespace, also Leerzeichen und Tabulatoren, verwendet).

In [60]:
"Viele Sätze. Getrennt mit Punkt. Wie kann man diese Sätze einzeln erhalten?".split(".")

['Viele Sätze',
 ' Getrennt mit Punkt',
 ' Wie kann man diese Sätze einzeln erhalten?']

In [61]:
"Viele Sätze. Getrennt mit Punkt. Wie kann man die Wörter einzeln erhalten?".split()

['Viele',
 'Sätze.',
 'Getrennt',
 'mit',
 'Punkt.',
 'Wie',
 'kann',
 'man',
 'die',
 'Wörter',
 'einzeln',
 'erhalten?']

Das "Gegenteil" von `split` ist `join`, welches Strings in einer Liste zu einem einzelnen String verbindet. Als Verbindungszeichen wird der angegebene String verwendet.

In [62]:
";".join(["das", "ist", "ein", "Test"])

'das;ist;ein;Test'

Wir werden Listen im Detail erst in der nächsten Einheit kennenlernen. Vorweg aber so viel: die Möglichkeit, Strings in einer Liste mit `join` zu einem einzigen String zu verbinden ist wesentlich effizienter, als die einzelnen Strings mit `+` zu verbinden.

Die Methode `count` zählt, wie oft das als Argument angegebene Zeichen im String vorkommt.

In [63]:
s = "Das ist ein kurzer Satz. Nur zum Testen."
s.count("i")

2

In [64]:
s.count("e")

4

Die Methode `find` gibt den Index im String zurück, an dem das gesuchte Zeichen erstmalig auftritt.

In [65]:
s.find("s")

2

Optional kann man auch einen Startindex angeben:

In [66]:
s.find("s", 3)

5

Mit dem in-Operator kann man abfragen, ob ein bestimmtes Zeichen in einem String enthalten ist.

In [67]:
"y" in s

False

In [68]:
"i" in s

True

Ein String ist iterierbar, d.h. man kann mit einer `for`-Schleife über die einzelnen Elemente iterieren:

In [69]:
for c in "Computer":
    print(c)

C
o
m
p
u
t
e
r


Alternativ könnte man auch eine `while`-Schleife verwenden:

In [70]:
s = "Computer"
i = 0

while i < len(s):
    print(s[i])
    i += 1

C
o
m
p
u
t
e
r
