# Strings

Strings, also Zeichenketten, sind einer der am häufigsten benötigten Datentypen. Sie unterscheiden sich von den Datentypen, die wir bisher kennengelernt haben insbesondere dadurch, dass sie nicht atomar sind, sondern aus Einzelelementen, den einzelnen Buchstaben, bestehen.

Ein String-Objekt (was auch immer das genau ist, siehe später) stellt eine Zeichenkette praktisch beliebiger Länge dar. Konstante Zeichenketten werden durch Anführungszeichen terminiert.

Ein neues String-Objekt wird am einfachsten durch Initialisierung mit einer Konstanten erzeugt: s = "Hallo";
Klasse String stellt eine Vielzahl von Methoden zur Verfügung, siehe <a href="https://docs.python.org/3.5/library/string.html">hier</a>

(oder einfach nach python strings googeln ;-)

Die Funktion len(s) liefert etwa die Länge eines Strings zurück, die Methode s.upper() wandelt s in Großbuchstaben um usw.

In [19]:
s = "Hello world"

print(len(s))

print(s.upper())

11
HELLO WORLD


Schauen Sie sich die Dokumentation python strings an und probieren Sie einige (für Sie) interessante Funktionen aus

Der Zugriff auf einzelne Buchstaben und/oder Teile eines Strings erfolgt über den [] Operator. Ein einzelnes Zeichen erhält man durch Angabe eines Indixes, einen Teilstring durch einen Bereich:

In [20]:
s = "Hello world"
print(s[0])
print(s[1:3])
print(s[0:len(s)])

H
el
Hello world


Der Index des ersten Buchstabens ist dabei 0 (das hat i.w. historische Gründe). Insbesondere die Angabe von Bereichen ist sehr flexibel. Der Bereich [m:n] liefert einen Ausschnitt des Strings zurück, der beim m-ten Buchstaben beginnt und bis vor den n-ten Buchstaben geht. Läßt man den ersten Index weg, begint der Ausschnitt am Anfang des Strings. Läßt man den zweiten Index weg, geht der Ausschnitt bis zum Ende des Strings:

In [21]:
print(s[:3])
print(s[3:])

Hel
lo world


Erstellen Sie ein Programm, das einen String "rückwärts" ausgibt, also den letzten Buchstaben zuerst, dann den zweitletzten usw.

In [105]:
def backwards(s):
    backw = []
    for i in range(len(s)-1,-1,-1):
        backw.append(s[i])
    return "".join(backw)

def backwards2(s):
    return s[::-1]

In [106]:
s = "Hello world"
print(backwards2(s))

dlrow olleH


Erweitern Sie das Programm so, dass geprüft wird, ob ein Wort ein Palindrom ist. Ein Palindrom ist ein Wort, das von vorne und von hinten gelesen gleich ist, z.B. "OTTO". Implementieren Sie dazu die Funktion is_palindrom(s), die True oder False zurücklifert, je nachdem, ob s ein Palindrom ist.

In [24]:
def is_palindrom(s):
    length = len(s) // 2
    p = True
    for i in range(length):
        if s[i] !=  s[(i+1)*-1]:
            p = False
        #print(s[i],  s[(i+1)*-1])
    return p

def is_palindrom2(s):
    return backwards2(s)== s

In [110]:
print("radar: ", is_palindrom('radar'), "\nhallo:", is_palindrom('hallo'), '\n')
print("radar: ", is_palindrom2('radar'), "\nhallo:", is_palindrom2('hallo'))


radar:  True 
hallo: False 

radar:  True 
hallo: False


Schreiben Sie ein Programm, das bestimmt, wie oft ein bestimmter String in einem anderen vorkommt, beispielsweise kommt "ei" 2x in "Kleingeist" vor.

In [31]:
s = "Kleingeist"
pattern = "ei"

counter = 0
for i in range(len(s)-1):
    if s[i] == "e":
        if s[i+1] == "i":
            #print("found")
            counter += 1
print(counter)


2


In [112]:
s = "Kleingeist"
pattern = "ei"

"""
str.count(sub[, start[, end]])
Return the number of non-overlapping occurrences of substring sub in the range [start, end]. 
Optional arguments start and end are interpreted as in slice notation.
"""

s.count(pattern)

2

In dieser Aufgabe geht es darum, einen String (etwa einen Satz) in einzelne Wörter zu zerlegen. Gehen Sie davon aus, dass sich zwischen zwei Wörtern immer ein Leerzeichen befindet. Als Beispiel nehmen wir String s = „Das ist ein kurzer aber schöner Satz“;

Schreiben Sie eine Funktion  count_words(s), die die Anzahl der Wörter im übergebenen String zurückliefert (im Beispiel 7) und testen Sie diese.

Erweitern Sie Ihr Programm so, dass die einzelnen Wörter jeweils in einer Zeile ausgegeben werden, im Beispiel also:

Das

ist

ein

kurzer

aber

schöner

Satz

Erstellen Sie dazu eine Funktion tokenize(s), die genau das tut.

Hinweis: Das war vor einigen Jahren eine Klausuraufgabe, das ist in etwa der Schwierigkeitsgrad, den SIe in der Prüfung erwarten können.

In [113]:
s = "Das ist ein kurzer aber schöner Satz"

def count_words(s):
    return len(s.split())

print("wc:", count_words(s))
    
def tokenize(s):
    s = s.split()
    for element in s:
        print(element)
        print()

print(tokenize(s))

wc: 7
Das

ist

ein

kurzer

aber

schöner

Satz

None


Run Length Encoding ist ein weit verbreitetes Kompressionsverfahren, dass etwa beim JPEG-Algorithmus eingesetzt wird. Es funktioniert so, dass n Wiederholungen eines Symbols durch eine Angabe der Form nxSymbol ersetzt werden.

So wird etwa aus dem String AAAAAAAAAABBBBBCCCCCCCCCC 10A5B10C.

Schreiben Sie eine Funktion encode(s), die einen String (der der Einfachheit halber nur aus Großbuchstaben besteht) mit RLE komprimiert.

Schreiben Sie eine Funktion decode(s), die einen RLE-komprimierten String wieder in die ursprüngliche Darstelluung umwandelt.

In [8]:
def encode(s):
    result = ""
    last = None
    counter = 1
    for char in s:
        if char == last:
            counter += 1
        elif last is None:
            last = char
        else:
            result += str(counter)+str(last)
            last = char
            counter = 1
    result += str(counter)+str(last)
    return result
            
            
import string        
    
def decode(e):
    last = ""
    result = ""
    for char in e:
        last += char
        if char in string.ascii_uppercase:
            number = int(last[:-1])
            result += char * number
            last = ""
    return result

In [9]:
s = "AAAAAAAAAABBBBBCCCCCCCCCC"
s_encoded = "10A5B10C"


if encode(s) == s_encoded:
    print("Test OK")
else:
    print("Test failed")
    
encode(s)

Test OK


'10A5B10C'

In [3]:
if decode(s_encoded) == s:
    print("Test OK")
else:
    print("Test failed")
    
decode(s_encoded)

Test OK


'AAAAAAAAAABBBBBCCCCCCCCCC'

Warnung: Die folgenden beiden Aufgaben sind zwar recht interessant, aber nicht ganz einfach. Also nur für die Mutigen ;-)

Schreiben Sie ein Programm, das die ersten zehn Look And Say Zahlen berechnet

(siehe <a href="http://mathworld.wolfram.com/LookandSaySequence.html">hier</a>).

Starten Sie dazu mit der Zahl 1. Die nächste Zahl ist 11 (eine eins). Die nächste ist 21 (zwei mal eins). Die nächste ist 1211 (eine zwei, eine eins). Die nächste 111221 (eine eins, eine zwei zwei mal eins) usw.

Stellen Sie dazu die Zahl als String dar, aus dem Sie dann den nächsten berechnen. Die Funktion say(s) erzeugt aus einer Zahl die nächste, beide als String.

In [10]:
def say(s):
    val = s[0]
    count = 1
    look = ""
    for c in s[1:]:
        if (c == val):
            count = count + 1
        else:
            look = look + str(count) + val
            count = 1
            val = c
    return look + str(count) + val


In [11]:
s = "1"
for i in range(10):
    print(s)
    s = say(s)

1
11
21
1211
111221
312211
13112221
1113213211
31131211131221
13211311123113112211


Schreiben Sie eine Funktion read_term(term) , die einen als String übergebenen arithmetischen Ausdruck "vorliest", also aus 1*2/3-5 den String "eins mal zwei durch drei minus fünf" macht. Beschränken Sie sich zunächst auf einstellige Zahlen, also die von 0 bis 9.

Erweitern Sie die Funktion so, dass auch Zahlen größer als 9 richtig umgewandelt werden.

In [14]:
def read_term(term):
    result = ""
    operands = {"*":"mal","/":"durch","+":"plus","-":"minus"}
    numbers = ["Null","Eins","Zwei","Drei","Vier","Fünf","Sechs","Sieben","Acht","Neun"]
    for c in term:
        if (c in string.digits):
            result += numbers[int(c)] + " "
        else:
            result += operands[c] + " "

    return result

In [15]:
t = "1*2/3-5"
print(read_term(t))

Eins mal Zwei durch Drei minus Fünf 
