<img src="img/python-logo-notext.svg"
     style="display:block;margin:auto;width:10%"/>
<h1 style="text-align:center;">Vertiefung zu Strings</h1>
<br/>
<div style="text-align:center;">Dr. Matthias Hölzl</div>

# Vergleich von Strings

In [None]:
"a" == "a"

In [None]:
"A" == "a"

In [None]:
"A" < "B"

In [None]:
"A" < "a"

In [None]:
"a" < "A"

Strings sind wie im Wörterbuch (lexikographisch) geordnet

In [None]:
"ab" < "abc"

In [None]:
"ab" < "ac"

In [None]:
"ab" != "ac"

## Einschub: Sortieren von Listen/Iterables

Mit der Funktion `sorted()` können iterables sortiert werden. Mit dem
benannten Argument `key` kann eine Funktion angegeben werden, die bestimmt,
wie die Sortierung erfolgt:

In [None]:
numbers = [3, 8, -7, 1, 0, 2, -3, 3]

In [None]:
sorted(numbers)

In [None]:
sorted(numbers, key=abs)

In [None]:
strings = ["a", "ABC", "xy", "Asdfgh", "foo", "bar", "quux"]

In [None]:
sorted(strings)

In [None]:
def lower(my_string):
    return my_string.lower()

In [None]:
sorted(strings, key=lower)

In [None]:
sorted(strings, key=len)


## Vergleich von Unicode Strings

Die eingebauten Vergleichsfunktionen sind nur für einfache (ASCII) Strings
sinnvoll. Für Strings, die Unicode-Zeichen enthalten ist Sortieren/Vergleichen
schwieriger.

Das Standard Modul in Python ist `locale`; das auf die Locale-Settings des
Betriebssystems zurückgreift:

In [None]:
import locale

locale.getlocale()

In [None]:
my_strings = ["o", "oa", "oe", "ö", "oz", "sa", "s", "ß", "ss", "sz"]

In [None]:
sorted(my_strings)

In [None]:
sorted(my_strings, key=locale.strxfrm)

In [None]:
locale.setlocale(locale.LC_COLLATE, "de_DE.UTF-8")

In [None]:
sorted(my_strings, key=locale.strxfrm)

In [None]:
locale.setlocale(locale.LC_COLLATE, "C")

In [None]:
sorted(my_strings, key=locale.strxfrm)


Die Locale Settings sind global pro Prozess und deshalb hauptsächlich geeignet
um mit dem Benutzer zu interagieren. 

Wenn man mit Strings in verschiedenen Sprachen umgehen muss empfiehlt sich die
Verwendung von Bibliotheken wie `PyUCA` (in Python geschrieben und daher
leichter zu installieren) oder `PyICU` (vollständigere Implementierung der
Unicode Spezifikation, basierend auf einer C++ Bibliothek).

## Umwandeln eines Strings in Groß-/Kleinbuchstaben

In [None]:
text = "Das ist ein Text"
print(text.lower())
print(text)

In [None]:
"Das ist ein Text".upper()


Die `lower()` Methode führt nicht immer die gewünschten Umwandlungen durch.
Die `casefold` Methode is dafür manchmal nützlich:

In [None]:
s1 = "daß er sehe"
s1.upper()

In [None]:
s1.lower()

In [None]:
s1.casefold()

## Mini-Workshop

- Notebook `workshop_070_more_strings_and_sorting`
- Abschnitt "Shout"

# Nochmal String Literale

- String-Literale werden in einfache oder doppelte Anführungszeichen
  eingeschlossen
    - `"Hello, world!"`
    - `'Hallo Welt!'`
    - Welche Form man wählt spielt keine Rolle, außer man will
      Anführungszeichen im String haben
    - `"Er sagt 'Huh?'"`
    - `'Sie antwortet: "Genau."'`

- String-Literale, können Unicode Zeichen enthalten:
    - `"おはようございます"`
    - `"😠🙃🙄"`

In [None]:
print("Er sagt 'Huh?'")
print('Sie antwortet: "Genau."')
print("おはようございます")
print("😠🙃🙄")

- Sonderzeichen können mit *Escape-Notation* angegeben werden:
    - `\n`, `\t`, `\\`, `\"`, `\'`, ...
    - `\u`, `\U` für Unicode code points (16 bzw. 32 bit)
    - `\N{...}` für Unicode

In [None]:
print("a\tbc\td\n123\t4\t5")

In [None]:
print('"Let\'s go crazy", she said')

In [None]:
print("C:\\Users\\John")

In [None]:
print("\u0394 \u03b1 \t\U000003b2 \U000003b3")
print("\U0001F62E \U0001f61a \U0001f630")

In [None]:
print("\N{GREEK CAPITAL LETTER DELTA} \N{GREEK SMALL LETTER ALPHA}")
print("\N{smiling face with open mouth and smiling eyes} \N{winking face}")

- String Literale können auch in 3-fache Anführungszeichen eingeschlossen
  werden
- Diese Art von Literalen kann über mehrere Zeilen gehen

In [None]:
"""Das ist
ein String-Literal,
das über mehrere
Zeilen geht."""

In [None]:
print(
    """Mit Backslash am Ende der Zeile \
kann der Zeilenvorschub unterdrückt werden."""
)

## Konkatenation von Strings

Mit `+` können Strings aneinandergehängt (konkateniert) werden:

In [None]:
"Ein" + " " + "String"

Mit der `join()` Methode können mehrere Strings mit einem Trennzeichen (oder Trenn-String) zusammengefügt werden:

In [None]:
" ".join(["das", "sind", "mehrere", "strings"])

In [None]:
", ".join(["Pferd", "Katze", "Hund"])

In [None]:
"".join(["ab", "cde", "f"])

## Mini-Workshop

- Notebook `workshop_070_more_strings_and_sorting`
- Abschnitt "Begrüßung 1"


## Nochmal Vergleich von Strings

Um Strings mit Unicode-Zeichen zu vergleichen ist es zweckmäßig sie in
Unicode-Normalform zu bringen.

In [None]:
s1 = "café"
s2 = "cafe\u0301"

In [None]:
print(s1, s2)
s1 == s2

In [None]:
import unicodedata
unicodedata.normalize("NFC", s1) == s1

In [None]:
unicodedata.normalize("NFC", s2) == s1

In [None]:
unicodedata.normalize("NFD", s1) == s2

# String Interpolation: F-Strings

Python bietet die Möglichkeit, Werte von Variablen in Strings einzusetzen:

In [None]:
name = "Hans"
zahl = 12
f"Hallo, {name}, die Zahl ist {zahl + 1}"

In [None]:
spieler_name = "Hans"
anzahl_spiele = 10
anzahl_gewinne = 2

ausgabe = f"Hallo {spieler_name}!\nSie haben {anzahl_spiele}-mal gespielt und dabei {anzahl_gewinne}-mal gewonnen."
print(ausgabe)

In [None]:
ausgabe = f"""\
Hallo {spieler_name}!
Sie haben {anzahl_spiele}-mal gespielt \
und dabei {anzahl_gewinne}-mal gewonnen.\
"""
print(ausgabe)

In [None]:
ausgabe = (
    f"Hallo {spieler_name}!\n"
    f"Sie haben {anzahl_spiele}-mal gespielt "
    f"und dabei {anzahl_gewinne}-mal gewonnen."
)
print(ausgabe)

## Mini-Workshop

- Notebook `workshop_070_more_strings_and_sorting`
- Abschnitt "Begrüßung 2"

## Mini-Workshop

- Notebook `workshop_070_more_strings_and_sorting`
- Abschnitt "Piraten 4"

## Finden in Strings

Der `in` Operator funktioniert auch mit Strings als Argument. Um den Index
eines Substrings in einem String zu finden kann man die `index()`-Methode
verwenden.

In [None]:
"a" in "abc"

In [None]:
"x" not in "abc"

In [None]:
"bc" in "abc"

In [None]:
"cb" in "abc"

In [None]:
"Halloween".index("Hallo")

In [None]:
"Halloween".index("we")

In [None]:
# "Team".index("I")

## Workshop

- Notebook `lecture_920x_Workshop_Cäsar_Verschlüsselung`