# Kapitel 5 - Zeichenktten

## Grundregeln

- Zeichenketten, die über mehrere Zeilen reichen, werden in dreifachen Apostrophen gestellt

In [2]:
s = """Das
ist eine
lange Zeichenkette."""
print(s)

Das
ist eine
lange Zeichenkette.


- Mit dem Operator + fügt man Zeichenketten aneinander, mit * verfielfacht man Zeichenketten.

In [3]:
s1 = "abc"; s2 = "efg"
print(s1 + s2, s1 * 2)

abcefg abcabc


- In Zeichenketten können mit \ markierte Sonderzeichen eingebettet werden (sog. Escape-Sequenzen).
- \', \", \\

- Wenn jedes \ als solches gewertet werden soll, stellt man der gesamten Zeichenkette den Buchstaben r voran (Raw-Strings):

In [8]:
print(r"Ha\llo \n")

Ha\llo \n


- Die Funktion chr liefert ein Zeichen, das dem übergegenen ASCII-Code bzw. Unicode entspricht

In [9]:
print(chr(65))

A


- Die Umkehrfunktion ord liefert den ASCII-Code bzw. Unicode zu einem einzelnen Zeichen:

In [10]:
print(ord("A"))

65


In [3]:
if "Informatik" in "Bachelor Informatik":
    print("Enthalten")
print("HI"<"Bye")        # Alphabetische Sortierung wird zugrund gelegt

Enthalten
False


## Zugriff auf Teilzeichenketten

- s[n] liefert das n-te Zeichen zurück.
- s[start:ende] liefert die Zeichen von start (inklusive) bis ende (exklusive).
- Mit negativen Werten gibt man den Offset vom Ende der Zeichenkette an.

In [11]:
a = "hallo"
print(a[-4:])

allo


- Durch einen dritten Parameter (Stride-Parameter) kann eine Schrittweite angegeben werden.

In [12]:
a = "abcdefghijklmnop"
print(a[::2])            # Jedes zweite Zeichen

acegikmo


- Mit einer negativen Schrittweite kehrt man die Reihenfolge einer Zeichenkette um.

In [14]:
print(a[::-2])

pnljhfdb


## Zeichenkettenfunktionen

- len(s): Länge der Zeichenkette
- str(s): Wandelt s in einer Zeichenkette um
- sub in s: Testet, ob sub in s vorkommt
- s.count(sub): Wie oft kommt sub in s vor
- s.endswith(sub): Testet, ob s mit sub endet
- s.startswith(sub): Testet, ob s mit sub beginnt
- s.expandtabs(): Ersetzt Tabulatorzeichen durch Leerzeichen
- s.find(sub): Sucht sub in s und liefert die Startposition des ersten Treffers oder -1 zurück
- s.islower(): Testet, ob s lowercase ist
- s.isdigit(): Testet, ob s nur aus Zahlen besteht
- s.join(x): Verbindet die Zeichenketten in x (durch s getrennt)
- s.lower(): Liefert s mit lauter Kleinbuchstaben zurück
- s.upper(): Liefert s mit lauter Großbuchstaben zurück
- s.partition(sub): Trennt s bei sub auf und liefert drei Teile als Tupel zurück
- s.replace(old, new): Liefert s zurück, wobei old jeweils durch new ersetzt wird
- s.rfind(sub): Wie find, beginnt die Suche aber am Ende der Zeichenkette
- s.split(sub): Zerlegt s bei jedem Vorkommen von sub, liefert eine Liste
- s.splitlines(): Zerlegt s zeilenweise, liefert eine Liste
- s.strip(): Enternt Whitespaces von Beginn und Ende
- s.title(): Wandelt die Zeichen in s so um, dass jedes Wort groß geschrieben ist

In [13]:
print("ababc".find("ab"))
print("a".join(["1", "2", "3"]))
print("I like bananas".partition("like"))
print("abac".replace("a", "1"))
print("abacada".split("a"), "Das ist ein Test".split("i"), "Hallo Welt".split(" "))
print("I\nlike\nbananas".splitlines())
print("hallo welt".title())

0
1a2a3
('I ', 'like', ' bananas')
1b1c
['', 'b', 'c', 'd', ''] ['Das ', 'st e', 'n Test'] ['Hallo', 'Welt']
['I', 'like', 'bananas']
Hallo Welt


### Eigenschaften von Zeichenketten ermitteln

- str.isalpha(s): Besteht s nur aus Buchstaben?
- str.isdigit(s): Besteht s nur aus Ziffern?
- str.isalnum(s): Besteht s nur aus Ziffern oder Buchstaben
- str.isascii(s): Besteht s nur aus ASCII-Zeichen
- str.islower(s): Besteht s nur aus Kleinbuchstaben
- str.isupper(s): Besteht s nur aus Großbuchstaben
- str.isnumeric(s): Erkennt auch Spezialzeichen
- str.isdecimal(s): Erkennt auch Spezialzeichen

In [11]:
print("123".isdigit(), "123.1".isdigit())
print("123".isdecimal(), "123.1".isdecimal())
print("123".isnumeric(), "123.1".isnumeric())

True False
True False
True False


### Suchen und ersetzen

- Mit einem optionalen Parameter kann der Startpunkt der Suche angegeben werden.

In [30]:
s = "abcdefghijkl"
print(s.find("bcd"), s.find("bcd", 1), s.find("bcd", 2))

1 1 -1


- Anstelle von find kann man auch die Methode index verwenden. Sollte das gesuchte Element nicht vorhanden sein, wird aber eine Fehlermeldung ausgelöst.

In [32]:
"abcdecaa".index("c")

2

- replace ersetzt alle Vorkommen einer Suchzeichenkette durch eine andere Zeichenkette.

In [33]:
"abac".replace("a", "1")

'1b1c'

## Zeichenketten formatieren und konvertieren

- Mit der format Methode können Strings formatiert werden.

In [49]:
name = "Gregor"
print(f"Mein Name ist {name}.")

Mein Name ist Gregor.


In [47]:
zahl = 123.456789
print('{:.2f}'.format(zahl))

123.46


In [50]:
print(f"{1/7:.2}")            # 1/7 mit zwei Nachkommastellen

0.14


- Zahl durch Kommas aufteilen:

In [54]:
print(f"{1000000:,}")

1,000,000


- Zahl durch Punkte aufteilen:

In [58]:
print(f'{1000000:,}'.replace(",", "."))

1.000.000


## Reguläre Ausdrücke

- Alle Funktionen sind im Modul re gebündelt.
- match(pattern, s): Testet, ob s dem Muster pattern entspricht
- search(pattern, s): Liefert die Position, an der das Muster vorkommt
- split(pattern, s): Zerlegt s bei jedem Vorkommen des Suchmusters
- sub(pattern, r, s): Ersetzt das erste gefundene Muster in s durch r

In [60]:
import re
pattern = r"^[A-Za-z0-9\.\+_-]+@[A-Za-z0-9\._-]+\.[a-zA-Z]+$"
 
email = "porschgregor@gmail.com"

if re.match(pattern, email):
    print("Email Adresse ist ok.")
else:
    print("Email Adresse nicht ok.")

Email Adresse ist ok.


- ^: Beginn der Zeichenkette
- \$: Ende der Zeichenkette
- .: ein beliebiges Zeichen
- [a.z]: ein Kleinbuchstabe zwischen a un dz
- [a,b,f-h]: ein Buchstabe aus a, b, f, g und h
- [^0-9]: ein beliebiges Zeichen außer 0 bis 9
- muster*: das Muster darf beliebig oft vorkommen (0 inklusive)
- muster+: das Muster darf beliebig oft vorkommen (mindestens einmal)
- \x: Spezialzeichen angeben (\\. steht für .)