_Einführung in Python, Clemens Brunner, 12.5.2016_

# 6 - Strings, Listen, Dictionaries

## Wiederholung
Datentypen in Python können grob vereinfacht in folgende Kategorien unterteilt werden:

- Logische Datentypen
- Numerische Datentypen
- Sequenzen
- Mengen
- Mappings

Mit der Funktion `type` kann man sich den Typ eines beliebigen Objektes (Name oder Wert) anzeigen lassen. Logische und numerische Datentypen sind im Prinzip sehr einfach, und wir haben bereits gesehen, wie wir diese Typen verwenden können. Im Folgenden werden etwas komplexere Datentypen vorgestellt, welche in Python sehr häufig verwendet werden: die Sequenzdatentypen `str`, `list` und `tuple` sowie der Mapping-Datentyp `dict`.

Bevor wir diese Typen im Detail besprechen, sehen wir uns aber eine weitere wichtige Eigenschaft von Datentypen in Python an.

## Mutable und immutable Datentypen
In Python unterscheidet man zwischen zwei Arten an Datentypen:

- mutable (veränderbar)
- immutable (nicht veränderbar)

Mutable Objekte können auch nach deren Erstellung verändert werden. Im Gegensatz dazu können immutable Objekte nach deren Erstellung nicht mehr verändert werden.

Für uns relevante mutable Datentypen sind:

- Liste `list`
- Dictionary `dict`

Für uns relevante immutable Datentypen sind:

- Ganzzahl `int`, Kommazahl `float`
- String `str`, Tupel `tuple`

### Immutable Typen
Befassen wir uns zunächst mit den nicht veränderbaren immutable Typen. Als Beispiel betrachten wir das Objekt `2` vom Typ `int`. Dieses Objekt ist nicht veränderbar (`2` kann also nicht verändert werden). Im folgenden Beispiel wird das Objekt 2, welches den Namen `a` hat, auch nicht verändert. Wenn man `a = 3` setzt, wird das Objekt `2` nicht geändert, sondern der Name `a` verweist lediglich auf das Objekt `3`.

In [1]:
a = 2

In [2]:
a = 3

Auch Strings sind immutable. Wenn man versucht, einen einmal angelegten String zu verändern (z.B. ein Zeichen zu ändern), bekommt man eine Fehlermeldung:

In [3]:
s = "Python"

In [4]:
s[1]  # das 2. Zeichen des Strings (Python beginnt mit 0 zu zählen)

'y'

In [5]:
s[1] = "x"  # kann nicht verändert werden, da Strings immutable sind

TypeError: 'str' object does not support item assignment

Analog zu den Strings sind auch Tupel immutable. Ein Tupel ist eine Sammlung von verschiedenen Objekten, z.B.

In [6]:
t = 1, 2, 18.33, "Python", 44

In [7]:
t[0]  # Element 0 des Tuples

1

In [8]:
t[3]  # Element 3 des Tuples

'Python'

In [9]:
t[0] = "X"  # kann nicht verändert werden, da Tuples immutable sind

TypeError: 'tuple' object does not support item assignment

### Mutable Typen
Im Gegensatz zu den oben erwähnten Beispielen kann man mutable Objekte sehr wohl nach der Erstellung verändern. Eine Liste ist genau wie ein Tupel eine Sammlung verschiedener Objekte. Der einzige Unterschied ist, dass man eine Liste auch nachträglich ändern kann:

In [10]:
k = [1, 2, 18.33, "Python", 44]

In [11]:
k

[1, 2, 18.33, 'Python', 44]

In [12]:
k[0]

1

In [13]:
k[3]

'Python'

In [14]:
k[0] = "X"  # Änderung möglich!

In [15]:
k

['X', 2, 18.33, 'Python', 44]

Auch Dictionaries sind mutable:

In [16]:
d = {"a": 12, "b": 3.14, 5: "Python", "c": "yes"}

In [17]:
d

{'c': 'yes', 5: 'Python', 'b': 3.14, 'a': 12}

In [18]:
d["a"]

12

In [19]:
d["a"] = "CHANGED"  # Änderung möglich

In [20]:
d

{'c': 'yes', 5: 'Python', 'b': 3.14, 'a': 'CHANGED'}

## Strings
### Strings erstellen
Der Datentyp `str` ist ein Sequenzdatentyp und stellt Zeichenketten (Strings) dar. Ein String besteht daher aus einer Sequenz an Zeichen (Buchstaben, Zahlen, Sonderzeichen). Strings werden von einfachen oder doppelten Anführungszeichen umschlossen.

In [21]:
s1 = "String"

In [22]:
s2 = 'Dies ist ebenfalls ein String.'

In [23]:
s3 = 'Auch "das" ist ein String'

Lange Strings, die auch über mehrere Zeilen gehen können, kann man mit drei Anführungszeichen umschließen.

In [24]:
s4 = """Dies ist ein sehr langer Text.
Man kann einfach
in die nächste Zeile gehen
und der String geht immer weiter."""

In [25]:
print(s4)  # der Inhalt des Strings wird schön formatiert ausgegeben

Dies ist ein sehr langer Text.
Man kann einfach
in die nächste Zeile gehen
und der String geht immer weiter.


In [26]:
s4  # Wert des Strings, \n steht für Zeilenumbruch

'Dies ist ein sehr langer Text.\nMan kann einfach\nin die nächste Zeile gehen\nund der String geht immer weiter.'

Strings mit drei Anführungszeichen haben wir schon als Docstrings zur kurzen Beschreibung von Funktionen kennengelernt.

### Strings indizieren
Bei Sequenzdatentypen kann man auf einzelne Elemente durch Indizieren zugreifen. Den Index gibt man dabei in eckigen Klamnmern an. Zu beachten ist hier, dass Python stets mit 0 zu zählen beginnt, d.h. das erste Element hat den Index 0.

In [27]:
s1[0]

'S'

In [28]:
s1[1]

't'

Mit negativen Indizes kann man Elemente von hinten nach vorne ansprechen, d.h. -1 ist das letzte Element, -2 das vorletzte, usw.

In [29]:
s1[-1]

'g'

In [30]:
s1[-2]

'n'

Man kann auch mehr als ein Element indizieren. Dazu schreibt man in die eckigen Klammern den Startindex, einen Doppelpunkt, und den Endindex. Achtung: der Endindex entspricht dem letzten Element, welches nicht mehr zum Bereich zählt!

Gibt man den ersten Index nicht an, wird vom ersten Element (inklusive) gezählt. Gibt man den Endindex nicht an, wird bis zum letzten Element (inklusive) gezählt.

Wenn man mehrere Elemente herausgreift, spricht man von einem Slice.

In [31]:
s1[0:4]  # 4 Elemente, Index 0, 1, 2, 3

'Stri'

In [32]:
s1[4:6]  # 2 Elemente, Index 4, 5

'ng'

In [33]:
s1[:3]  # 3 Elemente, Index 0, 1, 2

'Str'

In [34]:
s1[2:]  # Index 2 bis zum letzten Element

'ring'

In [35]:
s1[2:-1]  # Index 15 bis zum letzten Element (exklusive)

'rin'

In [36]:
s1[1:-3]

'tr'

Die Tatsache, dass der Startindex immer inklusive ist und der Endindex immer exklusive ist, hat den Vorteil, dass man sich durch die Differenz der beiden Indizes sofort die Anzahl der indizierten Elemente ausrechnen kann. Beispielsweise sieht man sofort, dass der Slice `x[73:81]` genau 81 - 73 = 8 Elemente enthält.

Man kann optional nach dem Endindex noch einen weiteren Doppelpunkt gefolgt von der Schrittweite angeben (standardmäßig ist diese Schrittweite 1). So kann man z.B. jedes zweite Element herausgreifen:

In [37]:
s1[::2]

'Srn'

Wenn man die Reihenfolge der Elemente umdrehen möchte, gibt man als Schrittweite -1 an.

In [38]:
s1[4:1:-1]

'nir'

In [39]:
s1[-1:-4:-1]

'gni'

In [40]:
s1[::-1]  # ganzen String umdrehen

'gnirtS'

Man kann sich die Indizierung so vorstellen, dass die Indizes die Grenzen zwischen den Elementen darstellen.

![](slicing.png)

### Arbeiten mit Strings
Die Funktion `len` gibt die Länge (d.h. die Anzahl der Elemente) einer Sequenz zurück.

In [41]:
len(s1)

6

Ein String der Länge 0 ist ein ganz normaler String - er besitzt nur kein Element.

In [42]:
s = ""

In [43]:
s

''

In [44]:
len(s)

0

In [45]:
type(s)

str

Nachdem Strings immutable sind, kann man sie nachträglich nicht mehr verändern. Man muss also einen neuen String erstellen, welcher die gewünschten Änderungen beinhält:

In [46]:
s = "Haus"

In [47]:
s[0]

'H'

In [48]:
s[0] = "M"  # funktioniert nicht!

TypeError: 'str' object does not support item assignment

In [49]:
"M" + s[1:]

'Maus'

Das obige Beispiel zeigt, dass man Strings mit dem `+`-Operator zusammenfügen kann:

In [50]:
x = "a" + "b" + "c"
x

'abc'

Man kann einen String mit dem `*`-Operator vervielfältigen.

In [51]:
"Hallo" * 4

'HalloHalloHalloHallo'

Für Strings gibt es in Python sehr viele praktische spezielle Funktionen. Diese werden direkt auf ein String-Objekt wie folgt angewandt:

In [52]:
x.upper()

'ABC'

Zuerst gibt man das String-Objekt an (im Beispiel `x`), gefolgt von einem Punkt, gefolgt vom Namen der Funktion, die man aufrufen möchte. Eine solche Funktion nennt man auch Methode, da sie direkt auf ein zuvor spezifiziertes Objekt angewendet wird. Im Beispiel oben wird also der String `x` in Großbuchstaben umgewandelt.

In [53]:
"abcdefg".upper()  # Großbuchstaben

'ABCDEFG'

In [54]:
"dsKJsdJKJKK".lower()  # Kleinbuchstaben

'dskjsdjkjkk'

In IPython kann man einfach herausfinden, welche Methoden man auf ein Objekt anwenden kann. Dazu tippt man einfach den Namen eines Objektes ein, gefolgt von einem Punkt, und dann drückt man die Tabulator-Taste. IPython listet dann alle möglichen Methoden auf. Zu jeder Methode kann man sich dann natürlich die interaktive Hilfe anzeigen lassen.

Beispiel:

```Python
x = "Test String"
x.
```

Dann drückt man die Tabulator-Taste und bekommt eine Liste aller möglichen Methoden. Möchte man z.B. den Hilfetext der Methode `x.capitalize` aufrufen, gibt man `x.capitalize?` ein.

Im Folgenden werden einige praktische String-Methoden aufgelistet:

Die Methode `strip` entfernt Leerzeichen am Anfang und am Ende eines Strings.

In [55]:
"      Wort mit vielen Leerzeichen         ".strip()

'Wort mit vielen Leerzeichen'

Mit der Methode `split` kann man einen String in eine Liste von Strings aufteilen (splitten). Als Argument gibt man das Zeichen an, an dem man splitten will (standardmäßig wird dafür Whitespace, also Leerzeichen und Tabulatoren, verwendet).

In [56]:
"Viele Sätze. Getrennt mit Punkt. Wie kann man diese Sätze einzeln erhalten?".split(".")

['Viele Sätze',
 ' Getrennt mit Punkt',
 ' Wie kann man diese Sätze einzeln erhalten?']

Das "Gegenteil" von `split` ist `join`, welches Strings in einer Liste zu einem einzelnen String verbindet. Als Verbindungszeichen wird der angegebene String verwendet.

In [57]:
";".join(["das", "ist", "ein", "Test"])

'das;ist;ein;Test'

Die Methode `count` zählt, wie oft das als Argument angegebene Zeichen im String vorkommt.

In [58]:
s = "Das ist ein kurzer Satz. Nur zum Testen."
s.count("i")

2

In [59]:
s.count("e")

4

Die Methode `find` gibt den Index im String zurück, an dem das gesuchte Zeichen erstmalig auftritt.

In [60]:
s.find("s")

2

Optional kann man auch einen Startindex angeben:

In [61]:
s.find("s", 3)

5

Mit dem in-Operator kann man abfragen, ob ein bestimmtes Zeichen in einem String enthalten ist.

In [62]:
"y" in s

False

In [63]:
"i" in s

True

Ein String ist iterierbar, d.h. man kann mit einer `for`-Schleife über die einzelnen Elemente iterieren:

In [64]:
for c in "Computer":
    print(c)

C
o
m
p
u
t
e
r


## Listen und Tupel

Im Gegensatz zu einem String kann eine Liste Elemente mit unterschiedlichen Datentypen enthalten, z.B. Strings, Zahlen, weitere Listen, und so weiter. Eine Liste erstellt man mit eckigen Klammern, innerhalb derer die einzelnen Elemente durch Kommas getrennt angegeben werden:

In [65]:
x = [23, "Hallo", "test", 1.44, True]

### Indizieren
Der Zugriff auf einzelne (oder mehrere) Elemente funktioniert genau wie bei Strings.

In [66]:
x[0]  # erstes Element

23

In [67]:
x[-2]  # vorletztes Element

1.44

In [68]:
x[1:4]

['Hallo', 'test', 1.44]

In [69]:
x[::-1]

[True, 1.44, 'test', 'Hallo', 23]

### Arbeiten mit Listen
Wie bei Strings gibt die Funktion `len` die Länge der Liste (also die Anzahl der Elemente in der Liste) zurück.

In [70]:
len(x)

5

Selbstverständlich ist eine leere Liste auch eine Liste, nur eben mit der Länge 0:

In [71]:
y = []
len(y)

0

In [72]:
type(y)

list

Nachdem Listen mutable sind, kann man einzelne Elemente auch nach der Erstellung der Liste ändern.

In [73]:
x

[23, 'Hallo', 'test', 1.44, True]

In [74]:
x[1] = 111111
x

[23, 111111, 'test', 1.44, True]

In [75]:
x[0] = None
x

[None, 111111, 'test', 1.44, True]

Zwei Listen kann man mit dem `+`-Operator zusammenfügen.

In [76]:
[1, 2, "drei"] + ["vier", 5, 6.0]

[1, 2, 'drei', 'vier', 5, 6.0]

Der `*`-Operator vervielfältigt eine Liste.

In [77]:
[1, 2.0, "drei"] * 3

[1, 2.0, 'drei', 1, 2.0, 'drei', 1, 2.0, 'drei']

Mit der Methode `append` kann man neue Elemente zum Ende der Liste hinzufügen.

In [78]:
x

[None, 111111, 'test', 1.44, True]

In [79]:
x.append(13)
x

[None, 111111, 'test', 1.44, True, 13]

Möchte man gleich mehrere Elemente hinzufügen, kann man die Methode `extend` benutzen.

In [80]:
x.extend([99, "HH", "zz"])
x

[None, 111111, 'test', 1.44, True, 13, 99, 'HH', 'zz']

Um ein Element an einem gegebenen Index aus der Liste zu entfernen, verwendet man den `del`-Befehl.

In [81]:
x = ["A", "b", 3, 4, "fünf"]
del x[1:3]
x

['A', 4, 'fünf']

Alternativ kann man auch die Methode `pop` zum Löschen eines Elementes an einem bestimmten Index verwenden.

In [82]:
x = ["A", "b", 3, 4, "fünf"]
x.pop(1)
x

['A', 3, 4, 'fünf']

Die Methode `remove` entfernt das erste Element aus der Liste, welches dem gesuchten Wert entspricht. Hier gibt man also nicht den zu entfernenden Index an, sondern den zu löschenden Wert.

In [83]:
x = ["A", "b", 3, 4, "fünf"]
x.remove(3)
x

['A', 'b', 4, 'fünf']

Wenn eine Liste sortierbare Elemente enthält, kann man sie mit der Methode `sort` sortieren.

In [84]:
h = [6, 9, 23, 1, -78, 44]
h.sort()
h

[-78, 1, 6, 9, 23, 44]

Mit dem `in`-Operator kann man abfragen, ob ein bestimmtes Element in einer Liste enthalten ist.

In [85]:
2 in h

False

In [86]:
-78 in h

True

Eine Liste ist iterierbar, d.h. man kann mit einer for-Schleife über die einzelnen Elemente iterieren:

In [87]:
x = [2, "fünf", 3.14, "sieben"]
for k in x:
    print(k)

2
fünf
3.14
sieben


Tupel sind wie Listen, aber immutable. Das bedeutet, dass man einzelne Elemente nicht verändern kann. Tupel erstellt man wie Listen, nur lässt man die eckigen Klammern weg (man benötigt auch keine runden Klammern).

In [88]:
t = "A", "b", 3, 4, "fünf"
t

('A', 'b', 3, 4, 'fünf')

## List Comprehensions
Mit sogenannten List Comprehensions kann man sehr kompakt und elegant Listen erstellen. List Comprehensions sind nichts anderes als Schleifen, die man aber syntaktisch kompakter darstellen kann. Nehmen wir als Beispiel eine Liste der Quadratzahlen von 0 bis 9. Mit einer normalen Schleife würde man diese Liste so erstellen:

In [89]:
squares = []
for x in range(10):
    squares.append(x**2)

squares

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Dasselbe Ergebnis kann mit einer List Comprehension viel kürzer erreicht werden:

In [90]:
squares = [x**2 for x in range(10)]
squares

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Allgemein besteht eine List Comprehension aus zwei eckigen Klammern (die ja eine Liste definieren), einem Ausdruck, einem `for`-Ausdruck und optional weiteren `for`-Ausdrücken und/oder `if`-Ausdrücken. Ein komplexeres Beispiel könnte wie folgt aussehen:

In [91]:
[(x - 1, y - 2) for x in [1, 2, 3] for y in [3, 1, 4] if x != y]

[(0, 1), (0, 2), (1, 1), (1, -1), (1, 2), (2, -1), (2, 2)]

Oder ein weiteres Beispiel:

In [92]:
vec = [-4, -2, 0, 2, 4]

In [93]:
[x * 2 for x in vec]  # neue Liste mit verdoppelten Einträgen

[-8, -4, 0, 4, 8]

In [94]:
[x for x in vec if x >= 0]  # negative Einträge herausfiltern

[0, 2, 4]

In [95]:
[abs(x) for x in vec]  # eine Funktion auf alle Elemente separat anwenden

[4, 2, 0, 2, 4]

Noch ein Beispiel:

In [96]:
freshfruit = ['  banana', '  loganberry ', 'passion fruit  ']

In [97]:
[weapon.strip().upper() + "!" for weapon in freshfruit]

['BANANA!', 'LOGANBERRY!', 'PASSION FRUIT!']