## String-Interna

<img width=400 height=175 class="imgright" src="../images/strings_in_action.webp" srcset="../images/strings_in_action_500w.webp 500w,../images/strings_in_action_400w.webp 400w,../images/strings_in_action_350w.webp 350w,../images/strings_in_action_300w.webp 300w" alt="Strings in Action" /> 


Die Aufgabe der Computer der ersten Generation in den Vierziger- und Fünfzigerjahren des vorigen Jahrhunderts bestand - wegen technischer Restriktionen - im Wesentlichen in der Lösung numerischer Probleme. Textverarbeitung war zu dieser Zeit im Wesentlichen nur ein Traum. Heutzutage beschäftigen sich Computer in einem großen Umfang mit Textverarbeitung; die bedeutendsten Anwendungen stellen wohl die Suchmaschinen, allen voran Google, dar. Um mit Texten umzugehen, benötigen Programmiersprachen geeignete Datentypen. So werden Strings in nahezu allen modernen Programmiersprachen genutzt, um textuelle Informationen zu verarbeiten. Logisch gesehen ist ein String - wie Text - eine Folge von Zeichen. Die Frage bleibt, was ein Zeichen (englisch character) darstellt. In einem Buch oder auch einem Text, wie beispielsweise dem, den Sie gerade lesen, werden die Zeichen grafisch dargestellt, sogenannte Grapheme, die aus Linien und Kurven bestehen, die in bestimmten Verhältnissen angeordnet sind, sich überschneiden und so weiter.

<img width=200 height=105 class="imgright" src="../images/character_A.webp" alt="Der Buchstabe A in verschiedenen Fonts / Graphemen" />
 
In der Computertechnik stellt ein Character eine Informationseinheit dar. Die Zeichen (englisch characters) entsprechen Graphemen, den zugrundeliegenden Einheiten der geschriebenen und gedruckten Sprache. Vor Unicode gab es nur eine Eins-zu-eins-Beziehung zwischen Zeichen und Bytes, d.h., jedes einzelne Zeichen wurde durch ein Byte im Computer repräsentiert. Ein solches Byte repräsentiert dann das logische Konzept des Zeichens und steht für die gesamte Klasse der Grapheme dieses Zeichens. In dem Bild auf der rechten Seite zeigen wir verschiedene grafische Repräsentationen des Buchstabens "A", also "A" in verschiedenen Fonts. Wir sehen, dass es im Druck verschiedene grafische Darstellungen des abstrakten Konzeptes "A" gibt. (Übrigens geht unser heutiges A auf eine ägyptische Hieroglyphe zurück, die einen Ochsenkopf symbolisiert)
Alle grafischen Darstellungen haben bestimmte Eigenschaften gemeinsam. Ein großes "A" wird in ASCII mit dem Byte-Wert 65 kodiert.
Die meisten auf ASCII beruhenden Zeichenkodierungen, wie beispielsweise ISO-8859, sind allerdings auf 256 Bytes oder Zeichen beschränkt. ASCII selbst ist sogar auf 128 Zeichen beschränkt. Das ist natürlich genug für Sprachen wie Englisch, Deutsch oder Französisch, aber bei weitem nicht genug für Schriftsysteme, wie sie das Chinesische oder das Japanische erfordern. Wegen dieser Probleme wurde Unicode ins Leben gerufen. Unicode ist ein Standard, der entworfen worden ist, um jedes beliebige Zeichen von jeder Schrift darstellen zu können. Verschiedene Schriftsysteme können damit auch gleichzeitig verwendet werden, so kann ein Text in lateinischer Schrift beispielsweise mit kyrillischem, arabischen oder sogar chinesischem Text gemischt werden.

Jeder Buchstabe bzw. Zeichen wird in Unicode als eine 4-Byte große Zahl dargestellt, so entspricht beispielsweise das große "A" dem Wert U+0041. Während der erweiterte ASCII-Code auf 256 Zeichen pro Zeichensatz beschränkt ist, gibt es bei Unicode praktisch gesehen keinerlei Einschränkungen, denn mit 4 Bytes kann man 2hoch32 Zeichen (also mehr als 4,29 Milliarden) abbilden. (Wegen der gewählten Zuordnung gibt es allerdings "nur" 1.112.064 mögliche Zeichen)
Nur wenig mehr als 100.000 Zeichen also weniger als 1% des theoretisch möglichen Zeichenraumes sind in Unicode belegt. Aber die Frage bleibt, wie man Unicode implementiert. Wir könnten natürlich 4 Bytes pro Zeichen verwenden und damit den Standard Eins-zu-eins umsetzen. Aber das wäre eine Speichervergeudung. Ein Textdokument würde dann viermal so viel Speicherplatz benötigen wie bisher unter ASCII.

Es gibt verschiedene Zeichencodierungen für Unicode:

<table style="height: 233px; width: 720px;">
<tbody>
<tr style="height: 27px;">
<td style="width: 80px; height: 27px; ">Name</td>
<td style="width: 720px; height: 27px;">Beschreibung</td>
</tr>
<tr style="height: 100px;">
<td style="width: 80px; height: 100px;">UTF-32</td>
<td style="width: 720px; height: 100px;">Hierbei handelt es sich um eine Eins-zu-eins Abbildung, d.h. jedes Unicode-Zeichen, was ja einer 4-Byte großen Zahl entspricht, wird auch in 4 Bytes abgespeichert. Ein Vorteil dieser Kodierung besteht darin, dass das n-te Zeichen in einem String in linearer Zeit berechnet (gefunden) werden kann, weil das n-te Zeichen immer an der Position 4×N vom Stringanfang aus gesehen beginnt. Der hohe Speicherverbrauch dieser Kodierung ist allerdings ein Problem. </td>
</tr>
<tr style="height: 27px;">
<td style="width: 80px; height: 76.3px;">UTF-16</td>
<td style="width: 720px; height: 76.3px;">Kaum jemand benötigt mehr als 65535, daher ist UTF-16, welches nur 2 Bytes benötigt, eine effizientere Alternative zu UTF-32.
Ein Problem, dass sowohl UTF-32 und UTF-16 betrifft besteht darin, dass die Byte-Reihenfolge eines Zeichens vom Betriebssystem abhängt. </td>
</tr>
<tr style="height: 27px;">
<td style="width: 80px; height: 27px;">UTF-8</td>
<td style="width: 720px; height: 27px;">UTF8 ist eine Kodierung für Unicode mit variabler Länge, d.h. verschiedene Zeichen können verschiedene Kodierungslängen haben. So benötigen ASCII-Zeichen nur ein Byte pro Zeichen, die sogar dem original ASCII-Zeichensatz für die ersten 128 Zeichen entsprechen. Das bedeutet, dass diese Zeichen zwischen UTF-8 und ASCII ununterscheidbar sind. Aber die sogenannten "Erweiterten Lateinischen" Zeichen, denen beispielsweise die Umlaute wie ä, ö, ü angehören, benötigen zwei Bytes. Chinesische Zeichen benötigen drei und nur ganz spezielle extrem selten benutzte Spezialzeichen benötigen 4 Bytes in UTF-8.
Ein Nachteil dieser Methode besteht darin, das n-te Zeichen eines Strings zu bestimmen. Die Berechnungszeit ist dann nicht mehr linear.</td>
</tr>
</tbody>
</table>

In [7]:
print('\u0420\u043e\u0441\u0441\u0438\u044f') #wenn man es braucht

Россия


In [18]:
x = "Hallöchen и я"
u = x.encode("UTF-8") #Anzeigen im utf Format
print(u)

b'Hall\xc3\xb6chen \xd0\xb8 \xd1\x8f'


### Benutzung von Strings

Ein String, oder Zeichenkette, kann man als eine Sequenz von einzelnen Zeichen sehen.

<img width=200 height=105 src="../images/string_indices.webp" srcset="../images/string_indices_400w.webp 400w,../images/string_indices_350w.webp 350w,../images/string_indices_300w.webp 300w" alt="String Indizierung" /> 

Jedes einzelne Zeichen eines Strings, kann über einen Index angesprochen werden. Im folgenden Beispiel sehen wir, wie der im Bild dargestellte String in Python definiert wird und wie wir auf ihn zugreifen können:

<img width=500 height=300 class="imgright" src="../images/string_aufbau.webp" alt="String Aufbau Indizes" />

In [1]:
a="text" # String-aufbau.gif
a


'text'

In [2]:
print(a) # bei print in der Ausgabe keine Anführungszeichen

text


In [3]:
a='text'
a


'text'

In [4]:
type(a)

str

In [5]:
isinstance(a,str)

True

In [6]:
zahl=7.0
isinstance(zahl,float)

True

In [7]:
a="Conny's Cafe"
a

"Conny's Cafe"

In [1]:
a='Conny\'s Cafe'  #Schutzzeichen escape character
a


"Conny's Cafe"

In [9]:
print(a)

Conny's Cafe


In [10]:
b="Hello World:"
b[1] # 0 basierter Index

'e'

In [11]:
b[-2] #auch negativ vom Ende her

'd'

In [12]:
c="Earth"
b+c  # Operator Überladung 

'Hello World:Earth'

In [13]:
4*"bla"

'blablablabla'

Ausschneiden / Slicing

In [14]:
b[0:5]

'Hello'

In [15]:
b[:5]

'Hello'

In [16]:
b[6:]

'World:'

In [17]:
b[6:-1]

'World'

In [18]:
b[:]

'Hello World:'

In [19]:
b[0:5:2] #dritter Parameter Schrittweite

'Hlo'

In [20]:
b[::-2] #dasselbe vom Ende her

':lo le'

In [21]:
b[1]="w" #unveränderbar,immutable , Teil eines strings darf nicht rechts stehen bei Zuweisung 

TypeError: 'str' object does not support item assignment

In [None]:
neuer_string=b[0]+"o"
neuer_string

In [None]:
neuer_string+=b[3:]
neuer_string

In [None]:
neuer_string=neuer_string[:3]+"a"+neuer_string[4:]
neuer_string

Im Folgenden eine kleine Aufgabe:
Zerlege den String "a1b2c3d4e5" in einen mit den Buchstaben und einen mit den Zahlen

In [2]:
s="a1b2c3d4e5" 
abc=s[::2]
print(abc)
zahl=s[1::2]
print(zahl)

abcde
12345


In [4]:
s=input("Was der User sieht ") #immer string
print(type(s))
print(s)

Was der User sieht 123
<class 'str'>
123


Für Strings gibt es alle Methoden wie bei Listen, darüber hinaus aber noch viel mehr.
https://docs.python.org/3/library/stdtypes.html#string-methods


Testen, ob ein String in eine Float umgewandelt werden kann. (Nicht die beste Methode)

In [10]:
s="-2.34"
s.replace('.','',1).replace("+","",1).replace("-","",1).isdigit() 


True

In [11]:
s=".3-"
s.replace('.','',1).replace("+","",1).replace("-","",1).isdigit() #also nicht fehlerfrei


True

### Besonderheiten bei Strings
Einen besonderen Effekt können wir bei Strings feststellen. Im folgenden Beispiel wollen wir dies veranschaulichen. Dazu benötigen wir noch den "is"-Operator. Sind a und b zwei Strings, dann prüft "a is b", ob a und b die gleiche Identität (Speicherort) haben. Wenn "a is b" gilt, dann gilt auch "a == b". Aber wenn "a == b" gilt, dann gilt natürlich nicht notwendigerweise auch "a is b"!
Nun wollen wir untersuchen, wie Strings in Python abgespeichert werden. Im folgenden Beispiel, erkennen wir, dass a und b sich den gleichen Speicherort teilen, obwohl wir diesmal keine Zuweisung der Art "b = a" verwendet haben:

In [8]:
a = "Linux"
b = "Linux"
a is b

True

Wie sieht es jedoch aus, wenn der verwendete String länger ist? Im folgenden verwenden wir als String den längsten Ortsnamen der Welt. Eine Gemeinde mit etwas mehr als 3000 Einwohnern im Süden der Insel Anglesey in der gleichnamigen Grafschaft im Nordwesten von Wales:

In [9]:
a = "Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch"
b = "Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch"
a is b

True

Aber Vorsicht ist geboten, denn was für eine Gemeinde in Wales funktioniert, schlägt beispielsweise für Baden-Württemberg fehl:

In [10]:
a = "Baden-Württemberg"
b = "Baden-Württemberg"
a is b

False

In [11]:
a==b

True

Also an der geographischen Lage kann es nicht liegen, wie man im folgenden Beispiel sieht. Es sieht vielmehr so aus, als dürften keine Sonderzeichen oder Blanks im String vorkommen.


In [12]:
a = "Baden1"
b = "Baden1"
a is b

True

### Escape- oder Fluchtzeichen

Es gibt Zeichenfolgen, die den Textfluss steuern, wie zum Beispiel ein Newline (Zeilenvorschub) oder Tabulator. Sie lassen sich nicht auf dem Bildschirm als einzelne Zeichen darstellen. Die Darstellung solcher Zeichen innerhalb von String-Literalen erfolgt mittels spezieller Zeichenfolgen, sogenannter Escape-Sequenzen. Eine Escape-Sequenz wird von einem Backslash \ eingeleitet, gefolgt von der Kennung des gewünschten Sonderzeichens. Übersicht der Escape-Zeichen:

- \ Zeilenfortsetzung
- \\ Rückwärtsschrägstrich
- \' Einzelnes Anführungszeichen
- \" Doppeltes Anführungszeichen
- \a Glocke
- \b Rückschritt
- \e Ausmaskieren
- \0 Null
- \n Zeilenvorschub (linefeed, LF)
- \v Vertikaler Tabulator
- \t Horizontaler Tabulator
- \r Wagenrücklauf (carriage return, CR)
- \f Seitenvorschub
- \0XX Oktaler Wert
- \xXX Hexadezimaler Wert 

Die Auswertung von Escape-Zeichen kann man verhindern, indem man einem String ein r oder R unmittelbar voranstellt.

Beispiel:
r"\n bewirkt einen Zeilenvorschub"



In [15]:
print("Zeile1 \nZeile2")
print("________________________")
print(r"Zeile1\nZeile2")

Zeile1 
Zeile2
________________________
Zeile1\nZeile2


In [16]:
x = "Hallöchen и я"
t = str(x)
u = t.encode("UTF-8") #Anzeigen im utf Format
print(u)

b'Hall\xc3\xb6chen \xd0\xb8 \xd1\x8f'


### Typumwandlung - casting Funktionen<br>
str()<br>int()<br>float()

In [None]:
zahl=float(input("Bitte geben Sie eine Zahl ein: "))
print("Die Zahl ist: ",zahl)  #print mit mehreren Argumenten


In [22]:
s="iufjhwierufhwiurhföW"
len(s)

20

In [23]:
#ASCII American Standard Code for Information Interchange
zeichen=input("Welches Zeichen? ")
print("ASCII Code für ",zeichen," ist: ",ord(zeichen))
chr(ord(zeichen))

Welches Zeichen? r
ASCII Code für  r  ist:  114


'r'

In [24]:
chr(114)

'r'

In [29]:
print("Joe\'s") #\' einfaches Anführungszeichen
print()
print("erste Zeile\nzweite Zeile") #\n neue Zeile
print()
print("erster Tab\tzweiter Tab") #\t verschiebt um einen Tabulator
print("eins\tzwei")

Joe's

erste Zeile
zweite Zeile

erster Tab	zweiter Tab
eins	zwei
