## Zeichenketten

Wir haben bereits mehrfach mit Zeichenketten (Strings, in Python <code>str</code>) gearbeitet.

In [None]:
string = "Ich bin ein String!"
print("type(string) =", type(string))

Um auf einzelne Stellen eines strings zuzugreifen können Indizes verwendet werden. Dabei werden die einzelnen Zeichen eines strings beginnend bei 0 durchnummeriert. Um nun zum Beispiel auf das 3. Zeichen eines strings zuzugreifen, verwendet man den Index <code>[2]</code>.

In [2]:
string = "Ich bin ein String!"

# Zugriff auf einzelne Buchstaben, gibt den dritten Buchstaben des Strings zurück (3. Buchstabe da bei 0 angefangen wird mit zählen)
print(string[2])

h


Ebenso kann auf einen Ausschnitt des strings zugegriffen werden. Mit <code>[i:j]</code> wird der String von Index <code>i</code> bis Index <code>j-1</code> ausgegeben.

In [3]:
print(string[4:10])

bin ei


Ebenso kann jeder zweite Buchstabe eines Teilausschnittes oder der string rückwärts ausgegeben werden:

In [4]:
print(string[0::2]) # Jeden zweiten Buchstaben auslassen
print(string[::-1]) # String rückwärts ausgeben

IhbnenSrn!
!gnirtS nie nib hcI


Auch logische Tests mit Strings funktionieren wie erwartet:

In [6]:
string = "Ich bin ein String!"
print("bin ein" in string)
print("bin kein" in string)

True
False


### Nützliche Funktionen für Strings zur Datenverarbeitung
Es gibt zahlreiche Zeichenkettenfunktionen, die nicht von uns programmiert werden müssen. Im Folgenden finden Sie einige davon.

In [1]:
string = "Eine sinnbefreite Zeichenkette die zudem länger ist als nötig."

print("len(string) =", len(string))
# Zählt wie häufig ein String (oder auch nur ein Buchstabe)
# im String vorkommt:
print("string.count(\"s\") =", string.count("s"))

len(string) = 62
string.count("s") = 3


In [7]:
# Konvertierung einer Liste in einen String:
list_of_strings = ['ein', 'Männlein', 'steht', 'im', 'Walde']
# die elemente der Liste werden zu einem String zusammengefügt. Zwischen den einzelnen Strings wird ein Leerzeichen ' ' eingefügt.
print(' '.join(list_of_strings))

ein Männlein steht im Walde


In [2]:
# Und umgekehrt:
# Hier sehen wir eine Art, wie Zeilen fortgesetzt werden können
my_string = "Zwei Dinge sind unendlich, das Universum" \
    " und die menschliche Dummheit, aber bei dem " \
    "Universum bin ich mir noch nicht ganz sicher."
    
# Der string wird bei jedem Leerzeichen ' ' getrennt. Das ergibt dann eine Liste mit den Elementen zwischen den einzelnen Leerzeichen.    
words = my_string.split(" ")
print(words)
print(len(words))
print(type(words))

['Zwei', 'Dinge', 'sind', 'unendlich,', 'das', 'Universum', 'und', 'die', 'menschliche', 'Dummheit,', 'aber', 'bei', 'dem', 'Universum', 'bin', 'ich', 'mir', 'noch', 'nicht', 'ganz', 'sicher.']
21
<class 'list'>


In [3]:
# Ersetzen einer Zeichenkette durch eine andere:
string = "Ich habe keinen Plan."
new_string = string.replace("keinen", "einen") # :)
print(new_string)

Ich habe einen Plan.


In [4]:
# Schließlich noch eine nützliche Funktion, um
# Whitespaces (Leerzeichen etc.) zu entfernen
string = "   abcde  "
print(string.strip()+'.') # Der Punkt dient dazu, das Zeilenende zu "sehen" in der Ausgabe
print(string.lstrip()+'.')
print(string.rstrip()+'.') 

abcde.
abcde  .
   abcde.


Syntax der <code>strip()</code> Methode: <code>strip([chars])</code>
* <code>chars</code> (optional): Eine Zeichenkette, die die Menge der Schriftzeichen, welche links und rechts von dem String entfernt werden sollen, spezifiziert.
* Ist das <code>chars</code>-Argument leer, dann werden alle Leerzeichen links und rechts vom String entfernt.
* <code>strip()</code> gibt eine Kopie des Strings mit den entsprechend entfernten Zeichen zurück.

In [5]:
string = " Ich liebe Homeoffice! "
ergebnis = string.strip(' !cifoeIh')
print(string)
print(ergebnis)

# Testfrage: Wieso wird das Leerzeichen in der Mitte nicht entfernt?

 Ich liebe Homeoffice! 
liebe Hom


### Eine Besonderheit bei Strings
Von Listen sind wir es gewohnt, einzelne Elemente sehr einfach überschreiben zu können:

In [6]:
my_list = [1,2,3]
my_list[0] = 4
print(my_list)

[4, 2, 3]


Versuchen wir das obige Beispiel mit einem String, schlägt dies fehl:

In [7]:
my_string = "Hallo"
my_string[2] = "!"

TypeError: 'str' object does not support item assignment

<code>str</code> ist ein sogenannter **immutable** (d.h. unveränderbarer) Datentyp: Wenn wir den String ändern wollen, müssen wir stets einen neuen String anlegen. Wir kommen später darauf zurück.

In [8]:
# Lauffähiges Beispiel (Umweg über bekannte Techniken, nämlich String-Konkatenation):
my_string = "Hallo"
my_string = my_string[:2] + "!" + my_string[3:]
print(my_string)

Ha!lo


### Beispiel für Stringoperationen: Aufbereitung von Daten
Wir haben bereits gesehen wie wir in einer Schleife eine Reihe von Zahlen eingeben können. Ein einfacherer und bequemerer Weg kann mit den String-Funktionen erfolgen:

In [9]:
# Die Variable numbers emuliert die Eingabe über input() oder das
# Auslesen aus einer Datei. Kein Mensch würde Zahlen als Strings 
# hartcodiert in ein Python-Programm schreiben...
numbers = "12, 33, 22, -4, 44.21"

# Aufteilen in einzelne Zahlen (immer noch str):
input_numbers = numbers.split(",")
print("input_numbers =", input_numbers)

# Leerzeichen entfernen und zu float umwandeln,
# wir verwenden dazu eine list comprehension:
numbers = [float(value.strip()) for value in input_numbers]
print("numbers =", numbers)
# Aufsummieren mit einer Funktion der Liste
print("Summe =", sum(numbers))

input_numbers = ['12', ' 33', ' 22', ' -4', ' 44.21']
numbers = [12.0, 33.0, 22.0, -4.0, 44.21]
Summe = 107.21000000000001


## Mini-Aufgaben zur Überprüfung des Verständnis: Zeichenketten
Erstellen Sie zunächst einen beliebigen String mit 100 Zeichen Länge. Falls Sie Ihr Lieblingsbuch nicht abtippen wollen, können sie [diesen Lorem ipsum Generator](https://www.loremipsum.de) verwenden. Konvertieren Sie dann den String in Kleinbuchstaben, und zählen Sie, wie oft drei beliebige Buchstaben (inkl. des Leerzeichens) vorkommen.

In [None]:
# ...


In [11]:
# Lösung:

string = 'Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat,\
sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dol\
or sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquy\
am erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem \
ipsum dolor sit amet.'

print(string.count('s'), string.count(' '), string.count('w'))

36 98 0


Verwenden Sie den String von oben, um ihn nach Worten zu sortieren. Zerlegen Sie dazu zuerst den String mittels <code>split()</code> in Worte, und konsultieren Sie die Hilfefunktion der Datenstruktur <code>list</code> bezüglich der Funktion <code>sort()</code>. Fügen Sie das Ergebnis dann wieder in einen String zusammen.

In [None]:
# ...

In [12]:
# Lösung:
word_list = string.split(' ')
word_list.sort()

print(word_list)
print(' '.join(word_list))

['At', 'At', 'Lorem', 'Lorem', 'Lorem', 'Lorem', 'Stet', 'Stet', 'accusam', 'accusam', 'aliquyam', 'aliquyam', 'amet,', 'amet,', 'amet.', 'amet.', 'clita', 'clita', 'consetetur', 'consetetur', 'diam', 'diam', 'diam', 'diam', 'dolor', 'dolor', 'dolor', 'dolor', 'dolore', 'dolore', 'dolores', 'dolores', 'duo', 'duo', 'ea', 'ea', 'eirmod', 'eirmod', 'elitr,', 'elitr,', 'eos', 'eos', 'erat,', 'erat,sed', 'est', 'est', 'et', 'et', 'et', 'et', 'et', 'et', 'et', 'et', 'gubergren,', 'gubergren,', 'invidunt', 'invidunt', 'ipsum', 'ipsum', 'ipsum', 'ipsum', 'justo', 'justo', 'kasd', 'kasd', 'labore', 'labore', 'magna', 'magna', 'no', 'no', 'nonumy', 'nonumy', 'rebum.', 'rebum.', 'sadipscing', 'sadipscing', 'sanctus', 'sanctus', 'sea', 'sea', 'sed', 'sed', 'sed', 'sit', 'sit', 'sit', 'sit', 'takimata', 'takimata', 'tempor', 'tempor', 'ut', 'ut', 'vero', 'vero', 'voluptua.', 'voluptua.']
At At Lorem Lorem Lorem Lorem Stet Stet accusam accusam aliquyam aliquyam amet, amet, amet. amet. clita clita c