# Sequentielle Datentypen <br><br><img width= 400 src="Images/sequenz.png" />

Nachdem wir uns bisher mit einfachen Datentypen beschäftigt haben, die nur einen Wert speichern, kommen wir jetzt zu kombinierten Datentypen. Diese lassen das Speichern multipler Werte zu, sie sind Container für Werte. Sie lassen sich auf verschiedene Weise einteilen. 
Es gibt einige Datentypen, bei denen die einzelnen Werte in einer bestimmten Reihenfolge abgerufen werden können. Diese nennt man sequentielle Datentypen. Es gibt davon in Python 6 verschiedene:<br>
- Zeichenketten (Strings) 
- Listen
- Tupel
- Byte-Sequenzen
- Byte-Arrays
- Iteratorobjekte (z.B.: enumerate,...,  dazu später mehr)<br><br>
Ohne die ersten drei Typen dieser Aufzählung kommt kaum ein Pythonprogramm aus, deshalb werden wir sie ausführlich durchgehen. Byte-Sequenzen (und -arrays) sind eher für ganz bestimmte seltenere Aufgaben nötig, wir sprechen sie nur kurz an. Über diese Objekte kann man iterieren, sie also der Reihe nach durchfahren und bearbeiten. Iteratoren, die dieses tun, besprechen wir später, weil uns noch die Programmkonstruktionen fehlen, die damit arbeiten. Neben diesen geordneten Datentypen gibt es noch andere, die mehrere Werte enthalten können, deren Reihenfolge aber nicht definiert ist:
- Dictionaries (Wörterbücher)
- Mengen<br>
Diese sind jeweils Inhalt von eigenen Kapiteln.

<b>Strings sind Zeichenketten, sie enthalten Buchstaben.<br> Listen sind Allzweckbehälter, sie können alle Datentypen als Elemente enthalten.</b><br> Während Strings nach ihrer Erzeugung nicht mehr veränderbar sind, kann man Listenelemente jederzeit verändern. Man bezeichnet Strings daher als "immutable" (unveränderbar) und Listen als "mutable". Dies ist neben der Eigenschaft sequentiell, also geordnet zu sein oder nicht, eine weitere Einteilung der kombinierten Datentypen. Tupel sind wie Listen, können aber nicht verändert werden. Da die sequentiellen Datentypen viele Gemeinsamkeiten haben, wollen wir sie zunächst zusammen besprechen. Hier einige Beispiele, die zeigen, wie man einen sequentiellen Datentyp erstellen kann:

In [1]:
mein_string = "Hallo Welt" #string hat vorne und hinten Anführungszeichen "" oder ''
print(mein_string,type(mein_string))
meine_liste = [3,"hallo",3.14]
print(meine_liste,type(meine_liste))
mein_tupel = (3,"hallo",3.14,5 + 6j)
print(mein_tupel,type(mein_tupel))
meine_Byte_Sequenz = b"Hallo Welt"
print(meine_Byte_Sequenz,type(meine_Byte_Sequenz))


Hallo Welt <class 'str'>
[3, 'hallo', 3.14] <class 'list'>
(3, 'hallo', 3.14, (5+6j)) <class 'tuple'>
b'Hallo Welt' <class 'bytes'>


Python erkennt die Typen wieder selbstständig, Strings müssen von " " oder ' ' begrenzt sein, Listen von [ ] und Tupel von ( ). Eine Byte-Sequenz mit b und dann in Hochkommata " " oder ' '. (Darüber später mehr) Bei den Listen und Tupel trennt man die einzelnen Werte (Elemente) mit Kommata.

Alle Elemente diese Sequenzen sind mit Indizes zu erreichen. Das Bild erklärt die Durchnummerierung, die von vorne oder von hinten erfolgen kann. Man beachte, daß die Indizierung von vorne mit 0 beginnt und rückwärts von -1.<br><br><img width=600 src="Images/SequenzenIndizes.png" />

Wollen wir ein bestimmtes Element einer Sequenz (egal ob String, Byte-Sequenz, Liste oder Tupel) erhalten, können wir dies über den Index, wie unten gezeigt. Benutzen wir einen Index außerhalb der Sequenzlänge, entsteht ein Fehler. Die Länge der Sequenz können wir mit der ```len(Sequenz)```-Funktion abfragen.

In [4]:
meine_liste=["w",1,45]
print(f" erstes Element  (an Index 0!!): {meine_liste[0]}")
print(f" zweites Element: {meine_liste[1]}")
print(f" drittes Element: {meine_liste[2]}")
print(f" vorletztes Element: {meine_liste[-2]}")
print(f" Länge von [1,2,3,4]: {len([1,2,3,4])}" ) # oder l=[1,2,3,4,5]    print(len(l))
# print(meine_liste[4]) #macht Fehler : IndexError: list index out of range

 erstes Element (an Index 0!!): w
 zweites Element: 1
 drittes Element: 45
 vorletztes Element: 1
 Länge von [1,2,3,4]: 4


Ein einzelnes Element aus einer Sequenz zu erhalten, ist also einfach. Der Unterschied zwischen mutablen und immutablen Sequenzen ist nun, daß man ein Element nur im ersten Fall, einer mutablen Sequenz, überschreiben kann:

In [7]:
meine_liste = [1,2,3]
meine_liste[1] = "neu" #Liste mutabele, Element 1 überschrieben
print(meine_liste)
mein_tupel = (1,2,3)
#mein_tupel[1] = "neu" # macht Fehler: TypeError: 'tuple' object does not support item assignment
mein_string = "Bla"
# mein_string[1] = "U" # macht Fehler: TypeError: 'str' object does not support item assignment

[1, 'neu', 3]


Nur die Liste als mutabler Typ erlaubt hier das Überschreiben von einzelnen Elementen. Wie verändert man dann z.B. einen Tupel oder String?

In [None]:
tup = (1,2,3)
neuer_tup = (tup[0],5,6) #erstes Element des Originaltupel, dazu 5 und 6  -> Alles in einen neuen Tupel
print(neuer_tup)

Wir können ja ein Element ausschneiden und damit einen neuen Tupel aufbauen.<br><br> Wir hatten im Abschnitt über arithmetische Operatoren bereits über Typumwandlungen gesprochen z.B. float(3). Das geht auch mit den Sequenzen.

In [8]:
tup = (1,2,3)
meine_liste = list (tup)
print(f"Tupel (1,2,3) in Liste umgewandelt: {meine_liste},{type(meine_liste)}")
mein_string = str (meine_liste)
print(f"Liste [1,2,3] in String umgewandelt: \"{mein_string}\",{type(mein_string)}")
my_str="Hello World"
m_liste=list(my_str)
print(f"\"Hello World\" in Liste umgewandelt: {m_liste},{type(m_liste)}")
print(f"\"Hello World\" in Byte_Sequenz gewandelt: {bytes(my_str.encode('utf-8'))}") 

Tupel (1,2,3) in Liste umgewandelt: [1, 2, 3],<class 'list'>
Liste [1,2,3] in String umgewandelt: "[1, 2, 3]",<class 'str'>
"Hello World" in Liste umgewandelt: ['H', 'e', 'l', 'l', 'o', ' ', 'W', 'o', 'r', 'l', 'd'],<class 'list'>
"Hello World" in Byte_Sequenz gewandelt: b'Hello World'


Bei Byte-Objekten muß man allerdings noch angeben, in welcher Weise sie kodiert sein sollen. Die einzelnen Zeichen im Programm wie Buchstaben, Ziffern und Sonderzeichen sind als Zahlen kodiert. Zunächst war jedes mögliche Zeichen <b>mit einem Byte also acht Bitwerten bezeichnet.</b> Mit 8 bits kann man 256 Zeichen kodieren. Die Zuordnung erfolgte nach einer Tabelle, die ASCII - Tabelle (American Standard Code for Information Interchange) genannt wird. Mit ord() und chr() kann man sich den Code für den entsprechenden Buchstaben ausgeben lassen, bzw. den Code wieder in einen Buchstaben verwandeln.

In [9]:
gruss = "Hallo World"
print(ord(gruss[4])) #Zeichen o mit dem Zahlencode 111
print(chr(111)) #Zahlencode 111 steht für 0


111
o


Mit 256 Zeichen konnte man sehr gut die Lateinischen Groß- und Kleinbuchstaben sowie Ziffern und Sonderzeichen ausdrücken, was aber, wenn man chinesische Zeichen, kyrillische Zeichen oder nur schon die Umlaute ä,ö und ü kodieren will? Man mußte die Möglichkeit schaffen, auch diese Zeichen numerisch zu kodieren und hierfür wurde das Unicode-System entwickelt. Es erlaubt, Zeichen mit bis zu 4 Bytes zu kodieren, also hat man theoretisch 4’294’967’296 Möglichkeiten. Man hat allerdings das Ganze auf 1.112.064 Zeichen beschränkt. https://www.webmaster-seo.com/de/unicode/ranges verweist auf die zugehörige Tabelle mit ihren Abschnitten. Wenn man jedes Zeichen mit 4 Bytes darstellen würde, bräuchte man 4 mal soviel Speicherplatz wie im ASCII-System imt 256 Zeichen. Es gibt daher die Möglichkeit festzulegen, ob man ein Byte, zwei oder 4 Bytes für seine Zeichen verwenden möchte. Diese Möglichkeiten heißen UTF-8, UTF-16 und UTF-32 und werden in der Tabelle beschrieben. <br><table style=" width:80%; background-color: rgb(220, 220, 80); font-size: 14px">
<tbody>
<tr style="height: 27px;">
<td style="width: 80px;text-align: center;"><FONT FACE="Courier 14 Pitch">Name</FONT></td>
<td style="width: 850px;text-align: center;"><FONT FACE="Courier 14 Pitch">Eigenschaften</FONT></td>

</tr>
<tr>
<td style="text-align: center;width: 80px;"><FONT FACE="Courier 14 Pitch">UTF-32</FONT></td>
<td style="text-align: center;width: 850px;"><FONT FACE="Courier 14 Pitch">4 Bytes pro Zeichen, damit hoher Speicherbedarf, da allerdings jedes Zeichen die gleiche Länge hat, ist ein schnelles Zuordnen und Suchen möglich</FONT></td>
    </tr>
<tr>
<td style="text-align: center;width: 80px;"><FONT FACE="Courier 14 Pitch">UTF-16</FONT></td>
<td style="text-align: center;width: 850px;"><FONT FACE="Courier 14 Pitch">2 Bytes pro Zeichen, damit 65536 Zeichen möglich, weniger Speicherbedarf. Je nach Betriebssystem unterschiedliche Reihenfolge der einzelnen Bytes eines Zeichens (auch bei UTF-32)
</FONT></td></tr>

<tr>
<td style="text-align: center;width: 80px;"><FONT FACE="Courier 14 Pitch">UTF-8</FONT></td>
<td style="text-align: center;width: 850px;"><FONT FACE="Courier 14 Pitch">Variable Länge der Kodierung, z.B. ASCII Zeichen benötigen nur ein Byte. Besondere Zeichen der westlichen Alphabete, wie z.B. deutsche Umlaute, benötigen zwei Bytes. Chinesische Zeichen benötigen drei, einige extrem selten benutzte Spezialzeichen benötigen 4 Bytes. Da die Zeichen unterschiedlich lang kodiert sind, ist die Suche und Zuordnung langsamer.
</FONT></td></tr>
    </tbody>
    </table>
    <br><br>
Kodieren wir also z.B. deutsche Umlaute in UTF-8 und geben uns ein Byte-Objekt aus, sehen wir die unterschiedliche Kodierungslänge. Buchstaben mit mehr als einem Byte werden dann hexadezimal mit x... angegeben.

In [1]:
the_string="Hallöchen, ärgerlich wenn man UTF nicht versteht"
print(f'UTF-8:\n {bytes(the_string.encode("utf-8"))}') 
print(100*"-")
print(f'UTF-16:\n {bytes(the_string.encode("utf-16"))}') 
print(100*"-")
print(f'UTF-32:\n {bytes(the_string.encode("utf-32"))}') 
print(100*"-")
print(" und umgekehrt UTF-8 Byte Sequenz zu String: ",b'Hall\xc3\xb6chen'.decode('utf-8'))

UTF-8:
 b'Hall\xc3\xb6chen, \xc3\xa4rgerlich wenn man UTF nicht versteht'
----------------------------------------------------------------------------------------------------
UTF-16:
 b'\xff\xfeH\x00a\x00l\x00l\x00\xf6\x00c\x00h\x00e\x00n\x00,\x00 \x00\xe4\x00r\x00g\x00e\x00r\x00l\x00i\x00c\x00h\x00 \x00w\x00e\x00n\x00n\x00 \x00m\x00a\x00n\x00 \x00U\x00T\x00F\x00 \x00n\x00i\x00c\x00h\x00t\x00 \x00v\x00e\x00r\x00s\x00t\x00e\x00h\x00t\x00'
----------------------------------------------------------------------------------------------------
UTF-32:
 b'\xff\xfe\x00\x00H\x00\x00\x00a\x00\x00\x00l\x00\x00\x00l\x00\x00\x00\xf6\x00\x00\x00c\x00\x00\x00h\x00\x00\x00e\x00\x00\x00n\x00\x00\x00,\x00\x00\x00 \x00\x00\x00\xe4\x00\x00\x00r\x00\x00\x00g\x00\x00\x00e\x00\x00\x00r\x00\x00\x00l\x00\x00\x00i\x00\x00\x00c\x00\x00\x00h\x00\x00\x00 \x00\x00\x00w\x00\x00\x00e\x00\x00\x00n\x00\x00\x00n\x00\x00\x00 \x00\x00\x00m\x00\x00\x00a\x00\x00\x00n\x00\x00\x00 \x00\x00\x00U\x00\x00\x00T\x00\x00\x00F\x00\x0

Byte-Sequenzen sind immutabel und erlauben im Programm die schnelle und effektive Manipulation von binären Daten. Sie werden vor allem bei Programnmen verwendet, wo große Datenmengen mit gleichbleibender Größe der Werte (z.B. ein oder mehrere Bytes Größe) manipuliert werden müssen. Durch die Organisation in Bytes ist ein besonders schneller Speicherzugriff möglich. Dies kann zum Beispiel sehr hilfreich sein bei der Bildverarbeitung, wo jedem Bildschirmpunkt eine bestimmte gleichbleibende Menge Bytes entsprechen.

Könnten wir aus einer Sequenz nur jeweils einen einzelnen Wert auswählen, wäre dies sehr mühsam. Python bietet aber auch die Möglichkeit, aus Sequenzen ganze Bereiche auszuwählen. (Slicing) Hierfür gibt es den Slicing Operator, der aus maximal 3 verschiedenen Werte besteht.<br>
Er ist so aufgebaut:<br>```[Start:Ende:Schrittweite]```.<br>
Start ist dabei der Index bei dem der Ausschnitt beginnt.<br>
Ende der Index <b>vor dem</b> der Ausschnitt endet.


Wird einer der 3 Argumente nicht eingesetzt, nimmt Python Standardwerte an. Für Start ist dies 0, für Ende die gesamte Länge der Sequenz und für Schrittweite 1. Es kann allerdings nur ein Ende-Wert oder ein Schrittweite-Wert eingesetzt werden, wenn jeweils alle vorherigen Parameter angegeben wurden. Auch negative Werte sind erlaubt. Nun einige Beispiele, die das Konzept leichter verständlich machen:

In [10]:
mlist = [0,1,2,3,4,5,6,7,8,9,10]
print(f"mlist[2:4]     {mlist[2:4]}") 
print("Start Index 2, Ende vor!!! Index 4, also Index 3, Schrittweite Standard = 1,da Angabe fehlt")
print()
print(f"mlist[:4]      {mlist[:4]}")
print("Start Standard = 0, da Angabe fehlt, Ende vor!!! Index 4, also Index 3, Schrittweite Standard = 1,da Angabe fehlt")
print()
print(f"mlist[2:]      {mlist[2:]}")
print("Start Index 2, Ende fehlt, Standard bis Ende der Sequenz, Schrittweite Standard = 1, da Angabe fehlt")
print()
print(f"mlist[2: :2]   {mlist[2: :2]}")
print("Start Index 2, Ende fehlt, Standard bis Ende der Sequenz, Schrittweite = 2 (jeder zweite)")
print("Die beiden Einträge getrennt durch Doppelpunkte vor der Schrittweite sind nötig, auch wenn einer davon leer ist")
print()
print(f"mlist[2:-3]    {mlist[2:-3]}")
print("Index von hinten gerechnet geht auch (s. Bild oben am Anfang des Kapitels) -3 entspricht 8")
print()
print(f"mlist[7:3:-1]  {mlist[7:3:-1]}")
print("Fange bei 7 an gehe bis vor!! 3 zurück (also von hinten gesehen 4), Schrittweite negativ")
print()
print(f"mlist[2:14]    {mlist[2:14]}")
print("keine Fehlermeldung, obwohl Index 14 nicht existiert!")
print()
print(f"mlist[14:]     {mlist[14:]}") 
print("leere Liste, da Start mit 14 nach dem Ende der Liste, keine Fehlermeldung, obwohl Index 14 nicht existiert!")

mlist[2:4]     [2, 3]
Start Index 2, Ende vor!!! Index 4, also Index 3, Schrittweite Standard = 1,da Angabe fehlt

mlist[:4]      [0, 1, 2, 3]
Start Standard = 0, da Angabe fehlt, Ende vor!!! Index 4, also Index 3, Schrittweite Standard = 1,da Angabe fehlt

mlist[2:]      [2, 3, 4, 5, 6, 7, 8, 9, 10]
Start Index 2, Ende fehlt, Standard bis Ende der Sequenz, Schrittweite Standard = 1, da Angabe fehlt

mlist[2: :2]   [2, 4, 6, 8, 10]
Start Index 2, Ende fehlt, Standard bis Ende der Sequenz, Schrittweite = 2 (jeder zweite)
Die beiden Einträge getrennt durch Doppelpunkte vor der Schrittweite sind nötig, auch wenn einer davon leer ist

mlist[2:-3]    [2, 3, 4, 5, 6, 7]
Index von hinten gerechnet geht auch (s. Bild oben am Anfang des Kapitels) -3 entspricht 8

mlist[7:3:-1]  [7, 6, 5, 4]
Fange bei 7 an gehe bis vor!! 3 zurück (also von hinten gesehen 4), Schrittweite negativ

mlist[2:14]    [2, 3, 4, 5, 6, 7, 8, 9, 10]
keine Fehlermeldung, obwohl Index 14 nicht existiert!

mlist[14:]     []


### Aufgabe
Hier eine kleine Aufgabe:
Zerlege den String:<br> "B,cemeihniins t  tk Bwaoeyebditleinecnee-h rmOeot brd.Bj e yeWrFtke retiCü eshhaneael  rrsmsa ouicw ßetaa  ercmkr hao jtndie  imdBae eilrPrtltr we omersgördergtiialennming mc ss hb oseenli zolnBeceduihn cc .ahha lsnnDstegi ateeZb.b ae eBh  nul" (nicht abschreiben!, mit Str+C und Str+V kopieren :))<br> in 5 Einzelstrings und hänge diese mit ```+``` aneinander, sodaß sie einen Sinn ergeben. <b>Hinweis: Die Ergebnisstrings enthalten nur jeden 5. Buchstaben des zu zerlegenden Strings und beginnen jeweils bei Index 0, 1 , 2 , 3 und 4.

In [23]:
#LÖSUNG
s = "B,cemeihniins t  tk Bwaoeyebditleinecnee-h rmOeot brd.Bj e yeWrFtke retiCü eshhaneael  rrsmsa ouicw ßetaa  ercmkr hao jtndie  imdBae eilrPrtltr we omersgördergtiialennming mc ss hb oseenli zolnBeceduihn cc .ahha lsnnDstegi ateeZb.b ae eBh  nul"

























,in welcher Weise sie kodiert sein sollen. Die Bu


In [18]:
#LÖSUNG
s = "B,cemeihniins t  tk Bwaoeyebditleinecnee-h rmOeot brd.Bj e yeWrFtke retiCü eshhaneael  rrsmsa ouicw ßetaa  ercmkr hao jtndie  imdBae eilrPrtltr we omersgördergtiialennming mc ss hb oseenli zolnBeceduihn cc .ahha lsnnDstegi ateeZb.b ae eBh  nul"
s0 = s[::5]
s1 = s[1::5]
s2 = s[2::5]
s3 = s[3::5]
s4 = s[4::5]
print(s0)
print(s0+s1+s2+s3+s4)

Bei Byte-Objekten muß man allerdings noch angeben
Bei Byte-Objekten muß man allerdings noch angeben,in welcher Weise sie kodiert sein sollen. Die Buchstaben oder Character im Programm sind als Zahlen kodiert. Früher war jeder mögliche Buchstabe mit einem Byte also acht Bitwerten bezeichnet.  


Wie in der Lösung gezeigt, kann man Sequenzen mit dem ```+``` Operator aneinander heften. Man nennt dies <b>Konkatenation.</b> Außerdem sehen wir wieder, wie ein Operator in Python je nach Datentyp, mit dem er arbeitetet, für unterschiedliche Aufgaben verwendet wird. Man nennt dies <b>"Operatoren Überladung" (operator overloading)</b>. Auch die erweiterte Operation ```+=``` ist möglich.

In [24]:
l = [3,4,5]
l1 = [6,7]
print(f" l und l1 mit + aneinandergehängt {l+l1}")
l += [8,9]
print(f" an l [8,9 ] angehängt mit += {l}")

 l und l1 mit + aneinandergehängt [3, 4, 5, 6, 7]
 an l [8,9 ] angehängt mit += [3, 4, 5, 8, 9]


Auch ist es mit dem ```in``` resp. ```not in``` Operator einfach zu prüfen, ob sich ein Element in der Sequenz befindet.

In [None]:
text= "Hallo World"
print("B" in text)
print("b" not in text)
print("H" in text)

Auch der ```*``` Operator ist für Sequenzen überladen. Er hängt entsprechend oft die Sequenz aneinander.

In [None]:
print(5 * "Hallo") # Reihenfolge egal, also ("Hallo"*5) mit identischem Ergebnis
print("Hallo" * 4)
print([1,2,3] * 4) #alles in eine neue Liste

Die bisher gezeigten Operationen sind auf alle Sequenz-Typen anwendbar. Wir wollen uns jetzt im einzelnen mit den jeweiligen Typen Liste, String und Tupel beschäftigen, die mit zahlreichen weiteren Funktionen zu bearbeiten sind, die z.T. spezifisch für den jeweiligen Typ sind.