# Lektion 05: Strings

----

Ziele der Lektion:

 * [Strings](#strings)
    * Definition (Video: [Python - Strings als Container](https://www.youtube.com/watch?v=JdMIgWLiUrQ&list=PL4XPVfJ_raU-37_-94SHaxTtExPfr3eTw&index=6))
    * [Loops über Elemente](#loops)
    * [Indizierung/Slicing](#slicing) (Video: [Python - Strings und Slicing](https://www.youtube.com/watch?v=v_oJ2YhOT6Y&list=PL4XPVfJ_raU-37_-94SHaxTtExPfr3eTw&index=7))
    * [String-Funktionen](#functions) (Video: [Python - Strings und Funktionen](https://www.youtube.com/watch?v=JD0G_HwjRnA&list=PL4XPVfJ_raU-37_-94SHaxTtExPfr3eTw&index=5))
    * [Tips und Tricks rund um Strings](#tricks)
----

## <a id=strings></a> 1. Strings in Python

Nachdem die skalaren Datentypen in Python ausführlich behandelt wurden, kommen wir nun zu einer neuen Klasse von Datentypen, den Container-Typen, von denen die Strings sich als Beispiel für die ganze Klasse gut benutzen lassen.

### 1.1 Definition

Was sind Strings in Python? Ein String oder Zeichenkette ist eine Folge von keinem oder mehreren Zeichen! 

In [None]:
s = 'Dies ist ein String!'       # oder
t = "Dies ist auch ein String!"  # Mischung beider Quotes ist nicht erlaubt!
c = 'a'                          # ein String mit nur einem Zeichen
l = ''                           # ein leerer String
print(s)
print(t)
print(c)
print(l)

Die Größe eines Strings ist nur vom vorhandenen Arbeitsspeicher begrenzt!

Strings können auch spezielle Zeichen enthalten, die durch eine sog. Escape-Squenze `\` eingeleitet werden:

In [None]:
s = '\"'    # quote "
s = '\''    # quote '
s = '\n'    # einen Zeilenumbruch
s = '\t'    # Tabulator

Mit der Zeit wurden weitere spezielle Strings eingeführt:

In [None]:
s = u'Dies ist ein Unicode-String: \U0001F606'
print(s)

i = 1234

s = f'Dies ist ein formatierter String: {i}'
print(s)

s = r'Dies ist ein String für Labels beim Plotten'
print(s)

### 1.2 Umwandlungen

Strings lassen sich auch umwandeln, z.B. in Zahlen und umgekehrt:

In [None]:
s = '1234'
print(int(s))
i = 5678
print(str(i))  # die Umwandlungsfunktion ist str(...) für die Strings

### 1.3 *Mathematik* mit Strings

Was auf den ersten Blick etwas *komisch* anmutet, ist aber bei näheren Betrachtung logisch und einfach nachzvollziehen. Für die Strings sind in Python tatsächlich die mathematischen Operationen `+` und `*` definiert.

Mit dem Operator `+` lassen sich Strings zusammensetzen:

In [None]:
s = 'Oliver' + ' Cordes'
print(s)

i = 0
s = ''
while i < 10:        # zähl von 0 bis 9
    s = s + str(i)   # den String um ein Zeichen ergänzen
    i = i + 1
print(s)

Mit dem Operator `*` lässt sich ein String *duplizieren* ... . Die Anzahl sollte mit einer positiven Ganzzahl gegeben werden (negative Zahlen sind kein Fehler, aber machen keinen Sinn!):

In [None]:
s = 'Oliver' * 2
print(s)
s = 'Hallo' * -2
print(s)

### 1.4 Container

Unter Container-Typen kann man sich folgendes vorstellen, eine endliche Ansammlung von einzelnen *Teilen*, die man durchnummerieren kann. 

Bei den Strings ist das die Sammlung von einzelnen Zeichen. Eine erste wichtige Operation, die man auf Container anwenden kann, ist die Bestimmung der Anzahl der Teile oder Elemente. Dazu nutzt man die Funktion `len(...)`:

In [None]:
s = 'Hallo'
print(len(s))   # gibt die Anzahl der Zeichen im String zurück

Auf einzelne Elemente kann man mit dem `[...]`-Operator zugreifen:

In [None]:
s = 'Hallo'
print(s[0])      # das erste Element
print(s[4])      # das 5. Element
print(s[-1])     # das letzte Element
print(s[-6])     # ausserhalb des Bereiches

Der Index bestimmt die Nummer des Elementes und gehen von `0` bis `len(...)-1` für positive Indices.  Negative Indices zählen mit `-1` für das letzte Element bis `-len(...)` für das erste Element. 

Einfacher kann man die Umrechnung von negative Indices in positive Indices mittels des Restoperators vornehmen:

In [None]:
s = 'Hallo'

i = -1
print(s[i])
j = i % len(s)    # Restoperator! 
print(j)
print(s[j])

### <a id=loops></a> 1.5 Loops über Container

Eine wichtige Eigenschaft von Containern ist, dass man einfach alle Elemente eines Container durchgehen kann. Dazu gibt es die sog. `for`-Loop, die Sie auch von der bash her kennen. Dort ist das Prinzip ähnlich, wobei in der Bash zum Beispiel der Container eine Liste von Dateinamen ist. 

Anwendungen sind vielfältig, hier ein Beispiel:

In [None]:
s = 'Oliver Cordes'

for c in s:     # gehe durch alle Zeichen des Strings und speicher das aktuelle Zeichen in c
    print(c)

Der generelle Aufbau einer `for`-Loop ist:

```Python
for <variable> in container:
    Anweisungsblock
```

Natürlich lässt sich diese Schleife in eine `while`-Schleife umwandeln, aber die `for`-Schleife bietet diese Vorteile:
 * keine Schleifenabbruchbedingung
 * keine zusätzliche Zählvariable
 * nicht so Fehleranfällig wie `while`

### 1.6 Änderungen von Strings

In anderen Sprachen lassen sich Strings zeichenweise verändern. Man würde folgendes ausführen:

In [None]:
s = 'hallo'   # das h soll durch ein H ersetzt werden
s[0] = 'H'

Das ist bei anderen Containern möglich, aber Strings gehören zu den sog. `immutable` Typen, d.h. die Elemente des Containers können **nicht** mehr verändert werden. 

Eine Lösung des obigen Problems wäre mit dem sog. Slicing zu erledigen, was Thema des nächsten Videos sein wird.

### 1.7 Vergleiche mit Strings

Im Vergleich mit anderen Programmiersprachen kann man in Python *nativ* Strings miteinander vergleichen:

In [None]:
s = 'Hallo'

print(s == 'Hallo')  # identisch
print(s == 'HALLO')  # muss absolut identisch sein!
print(s == 'Hall')   # muss gleich lang sein!

Spannend werden die Vergleiche mit `<` und `>`:

In [None]:
s = 'Hallo'

print(s > 'Hall')      
print(s < 'Hall')  
print(s < 'Halloo')
print(s < 'hallo')
print(s > '1')

Zum Verständnis muss man die alphabetische Sortierung im Computer verstehen. Dazu muss man die sog. ASCII-Tabellen nehmen, die noch aus den Anfängen der Computer stammen. 

Wenn man einzelne Zeichen miteinander vergleicht, so kommen grob erst die Zahlen, dann die großen und dann die kleinen Buchstaben. Darstellen kann man das, wenn man ein Zeichen mit der `ord`-Funktion in eine ASCII-Nummer konvertiert:

In [None]:
print(ord('5'))
print(ord('A'))
print(ord('a'))

Damit sieht man, wie im Prinzip ein Vergleich durchgeführt wird. 

Verglichen werden die Zeichen vom Anfang der Strings und bei Gleichheit dann weiter zu den nächsten Strings.
Kürzere Strings sind immer **kleiner** als die längeren Strings, wenn man an die kürzeren Strings Zeichen anfügt!

----

## 2. <a id=slicing></a> String - Slicing

### 2.1 Slicing

Einmal noch zur Wiederholung. Man kann auf einzelne Elemente eines Container mit dem sog. Index zugreifen. Bei den Strings sieht das so aus:

In [None]:
s = 'Hallo'
print(s[0])      # das erste Element
print(s[4])      # das 5. Element
print(s[-1])     # das letzte Element
#print(s[5])     # ausserhalb des Bereiches

Bei positiven Indices wird von vorne ab `0` gezählt und bei negativen Indices von hinten, wobei `-1` das letzte Element ist. Die Umrechnung von negativen in positiven Indices lässt sich mit dem Restoperator und die Länge des Containers machen:

```Python
pos_index = neg_index % len(container)
```

Auf einzelne Elemente zuzugreifen ist schon mal gut, aber bei verschiedenen Projekten möchte man auch auf mehrere Elemente gleichzeitig zugreifen. Dazu wurde das Slicing implementiert. Statt dem einfachen Index wird dem `[...]`-Operator ein komplexer Ausdruck (Slicing-Index) übergeben. Ein paar Beispiele:

In [None]:
s = 'Hallo'

print(s[1:3])     # gebe das 2. bis zum 3. Zeichen
print(s[1:10])    # gebe das 2. bis zum 10. Zeichen aus, da der String nur 5 Zeichen hat, bricht es ab
print(s[1:-1])    # gebe das 2. bis zum vorletzen Zeichen aus

Der Slicing-Index hat immer einen Anfang und ein Ende, welcher durch ein `:` getrennt wird. Beide bilden ein halboffenes Intervall, wobei vom Anfang bis zum Ende vorwärts durchgezählt wird. Das Ende ist nicht mehr im Intervall enthalten. 

Wird der Anfang weggelassen, so ist immer der Index `0` gemeint und lässt man das Ende weg, so wird `-1` angenommen. Liegt das Ende außerhalb der möglichen Indices, werden nur die möglichen Elemente adressiert, liegt auch der Anfang außerhalb, gibt es bei den Strings einen leeren String zurück.

In [None]:
s = 'Hallo'

print(s[:3])   # die ersten 3 Zeichen
print(s[2:])   # ab dem 3. Zeichen
print(s[:])    # alle Zeichen
print(s[2:20]) 
print(s[10:20])

In den ersten Beispielen wurden die Elemente *vorwärts* ausgeschnitten. Man kann natürlich auch die Elemente *rückwärts* ausschneiden:

In [None]:
s = 'Hallo'
print(s[3:0:-1])    # das 4.Zeichen bis zum 1. Zeichen
print(s[3::-1])     # das 4.Zeichen bis zum Anfang
print(s[::-1])      # alles rückwärts
print(s[10::-1])

Es gelten hier die Gleichen Regeln wie beim vorwärts ausschneiden, das der Startindex größer als der Endindex sein muss, damit man rückwärts zählen kann.

Neben vorwärts und Rückwärts kann man natürlich auch jedes x-te Element addressieren:

In [None]:
s = 'Oliver'
print(s[::2])   # jedes 2. Element vorwärts
print(s[::-2])  # jedes 2. Element rückwärts

Für bestimmte Anwendungen müssen das Ausschneiden, die Richtung und x-te Element gleichzeitig ausgeführt werden.

### 2.2 Strings verändern (2) 

An dieser Stelle soll nochmal das Beispiel aufgegriffen werden, wie man einen String verändern kann:

In [None]:
s = 'hallo'   # das h soll durch ein H ersetzt werden
s[0] = 'H'

geht bekanntlicherweise schief. Mit Hilfe des Slicings lässt sich eine gute Lösung definieren:

In [None]:
s = 'hallo'
s = 'H' + s[1:]   # das H plus den Rest-String nach dem 'h'!
print(s)

### 2.3 Zusammenfassung

Anhand der Strings kann man das Slicing gut zeigen, aber die Regeln gelten auch allgemein für Container:

 * der Slicing-Index lässt sich wie folgt schreiben:

   ```Python
start:end:step
   ```
   
   wobei `start`, `end`, `step` jeweils optional sind.
 * die ausgeschnittenen Elemente entsprechen einem Sub-Container und haben den gleichen Typ wie der Original -Container
 
---

## <a id=functions></a> 3. String - Funktionen

Aufbauend auf dem Container-Charakter von Strings ergeben sich weitere Möglichkeiten mit Strings zu arbeiten. Wenn Sie schon mal in anderen Programmiersprachen mit Strings Erfahrungen gemacht haben, werden Sie einige Funktionen kennen, die neue modifizierte Strings erstellen können, z.B. alle Zeichen eines Strings in Großbuchstaben umwandeln!

Python hat diese Funktionen auch implementiert. Dazu wurde allerdings keine spezielle Bibliothek oder Modul entwickelt, sondern man hat diese Funktionen an die Strings angeheftet:

In [None]:
s = 'hallo'

print(s.upper())   # ein String hat auch eine Funktion!

Ähnlich wie bei den Funktionen des `numpy`-Moduls werden die Funktionen eines Strings mit `.` an den Strings aufgerufen. Dabei ist es egal, ob man eine String-Variable oder Konstante hat:

In [None]:
print('Hallo'.lower())

Da wie schon vorher gesagt, Strings nicht veränderbar sind, wird beim Aufruf von `upper` oder `lower` immer eine neuer String gebildet, der dann weiter verwendet werden kann.

### 3.1 Suchen in Strings

Eine wichtige Funktion ist das Suchen von Strings oder Zeichen in vorhandenen Strings:

In [None]:
s = 'Hallo'

print(s.find('allo'))   # gibt den Index wieder, ab dem der Sub-String zu finden ist
print(s[1:])
print(s.find('hall'))   # -1 sagt, der Substring existiert nicht

In [None]:
print(s.index('hallo'))  # index arbeitet wie find, allerdings gibt es einen Fehler, wenn nicht vorhanden

In allen Fällen wird immer das erste Auftreten des Substring zurückgeliefert.

### 3.2 Weitere Funktionen

Es gibt noch viele andere Funktionen, die man mit den Strings aufrufen kann. Die Vorstellung aller Funktionen würde jedes Tutorial sprengen. 

In [None]:
s = 'Hallo'
s.

Schreiben Sie in einer Zelle den Variablen-Namen, fügen einen `.` hinzu und drücken Sie `[tab]`!

Um eine Übersicht über definierte Funktionen zu bekommen kann man in einer Notebook-Zelle auch folgendes machen:

In [None]:
help(str)

----

## <a id=tricks></a> 4. Tips und Tricks rund um Strings

### 4.1 Der **in**-Operator

Als sehr nützlich hat sich der sog. `in`-Operator für alle container-ähnlichen Typen in Python erwiesen. Dieser stellt einen eleganten Test da, ob ein Element in einem Container ist oder nicht. Bei den Strings ist er allerdings etwas erweitert, wenn man Strings als Container für einzelne Zeichen versteht:

In [3]:
s = 'Dies ist ein Test!'

print('D' in s)  # ergibt True
print('E' in s)  # ergibt False
print('e' in s)  # ergibt True, egal wieviele 'e's in s sind!

True
False
True


Man kann an dieser Stelle testen, ob ein bestimmtes Zeichen in dem String vorhanden ist oder nicht. Im Gegensatz zu `.index(...)` oder `.find(...)` gibt diese Operation nur einen **Status** wieder und keine Position!

Die Erweiterung bei Strings ist, dass der `in`-Test mit Strings unbegrenzter Länge auf Strings anwendbar ist:

In [5]:
s = 'Dies ist ein Test!'

print('ist' in s)   # ergibt True
print('eine' in s)  # ergibt False, da zwar 'ein' aber nicht 'eine' in s ist!

True
False


Eine schöne Anwendung kann man mit diesem Test konstruieren, in dem man einen Text nach Buchstaben, Zahlen und Satzzeichen sortieren kann:

In [6]:
s = 'Es gibt die Möglichkeit, in einen Text mit mind. 3 verschiedenen Verfahren Texte zu suchen. Das gab es 1970 noch nicht!'

# some statistic variables
chars = 0
digits = 0
puncts = 0
spaces = 0

# loop over all characters
for c in s:
    if c in '!?,.:;':
        puncts += 1
    elif c in '0123456789':
        digits += 1
    elif c == ' ':
        spaces += 1
    else:
        chars += 1
        
print(f'{chars:3} Buchstaben')
print(f'{digits:3} Zahlen')
print(f'{puncts:3} Satzzeichen')
print(f'{spaces:3} Leerzeichen')

 90 Buchstaben
  5 Zahlen
  4 Satzzeichen
 20 Leerzeichen


----