# Ein paar Grundlagen zu Daten (Auffrischung)

*Der Inhalt dieses Notebooks ist nicht prüfungsrelevant, verbessert aber das Verständnis der Materie.*

## Bit

Das Bit (Binary Unit), ist die kleinste Informationseinheit. Ein einzelnes Bit kennt nur einen von zwei Zuständen (stellen Sie sich etwas vor wie *wahr/falsch* oder *0/1*.

Ein einzelnes Bit kann also nicht viel speichern. Wir können aber mehrere Bits zu einer *Bitfolge* kombinieren und damit mehr als diese zwei Zustände festhalten.
Verwenden wir statt einem Bit zwei Bits, können wir bereits einen von vier Zuständen festhalten, bei drei Bits einen von acht Zuständen usw. Exerzieren wir das einmal durch:

Mit einem Bit kann man also nur einen von zwei Zuständen festhalten: 

```
0
1
```

Kombiniert man 2 Bits können wir einen von vier Zuständen festhalten:

```
00    10
01    11 
```

Fügen wir ein drittes Bit hinzu, haben wir bereits 8 mögliche Zustände:

```
000    100
001    101
010    110
011    111
```

Die Zahl der möglichen Zustände berechnet sich also mit dieser Formel: $2^n$, wobei n die Zahl der Bytes ist.


## Byte

Unter einem *Byte* wird normalerweise eine Menge von 8 Bits verstanden. Mit einem Byte kann also einer von $2^8 = 256$ Zuständen kodiert werden.


## Repräsentation von Daten

### Zahlen

Da Daten in einem Computer als (grundsätzlich kontextlose) Bitfolgen repräsentiert werden, stellt sich die Frage, wie man Zahlen auf solche Bitfolgen abbilden kann, also wie man z.B. die Zahl 150 als Bitfolge darstellen kann. Hier bietet sich das Dualsystem an, also das Zahlensystem zur Basis 2, weil dieses ebefalls nur zwei Ziffern (0 und 1) benutzt. Man kann also einfach jedes Bit als Ziffer im Dualsystem verwenden. Hat man also zum Beispiel eine Bitfolge von acht Bits (1 Byte) wie `10010110` lässt sich diese direkt als Zahl im Dualsystem interpretieren: `10010110`. Dieser Wert entspricht der Zahl `150` im für uns normalen Dezimalsystem,  `226` im Oktalsystem (zur Basis 8) oder `96` in dem in der Informatik häufig verwendeten Hexadezimalsystem (zur Basis 16). Weiter unten finden Sie, falls es Sie interessiert, beschrieben, wie man diese Umrechnungen zwischen den einzelnen Stellenwertsystemen vornehmen kann.

### Texte

Die Abbildung von Texten auf Bitfolgen und vice versa folgt immer einer (von mehreren möglichen) Übereinkünften. Diese Festlegungen nennt man *Zeichenkodierungen* oder *Codetabellen*. Im Lauf der letzten Jahrzehnte wurden zahlreiche solche Zeichentabellen festgelegt.

#### ASCII

Eine frühe (1963) solche Festlegung
ist *ASCII* (American Standard Code for Information Interchange). Diese Norm definiert, wie 128 festgelegte Zeichen als Folge von 7 Bits kodiert werden. Dabei sind die ersten 32 Zeichen
für so genannte nicht druckbare Steuerzeichen reserviert, die beispielsweise für Fernschreiber genutzt wurden. Die für uns relevanten "druckbaren" Zeichen beginnen mit Zeichen Nummer (dezimal) 32 (was `0010 0000` in dual entspricht).

| Dez | Hex  | Dual      | Zeichen      |
|----:| ----:| --------- | -------------|
|0    | 00   |0000 0000  | Null charakter |
|1    | 01   |0000 0001  | Start of heading|
|2    | 02   |0000 0010  | Start of Text|
|3    | 03   |0000 0011  | End of Text|
|... ||||
|32   | 20   | 0010 0000 | Leerzeichen|
|33   | 21   | 0010 0001 | !|
|34   | 22   | 0010 0010 | " |
|... ||||
|48  |30|0011 0000|0|
|49  |31|0011 0001|1|
|50  |32|0011 0010|2|
|... ||||
|65  |41|0100 0001|A|
|66  |42|0100 0010|B|
|67  |43|0100 0011|C|
|... ||||
|97  |61|0110 0001|a|
|98  |62|0110 0010|b|
|99  |63|0110 0011|c|
|... ||||
|122  |7A|0111 1010|z|
|123  |7B|0111 1011|{|
|124  |7C|0111 1100|\||
|125  |7D|0111 1101|}|
|126  |7E|0111 1110|~|
|127  |7F|0111 1111|DEL|




#### Die ISO-8859 Zeichensätze

ASCII begnügt sich mit sieben Bits, weil nur 128 Zeichen definiert sind. Das bedeute aber auch, dass sich damit keine Sonderzeichen wie etwa die deutschen Umlaute kodieren lassen. Eine frühe Lösung für dieses Problem waren Zeichensätze, die acht Bits verwenden, also damit 128 zusätzliche Zustände und damit 128 zusätzliche Zeichen ermöglichen (für die ersten sieben Bits wurde meist ASCII übernommen). Es entstanden einige solche Zeichensätze, viele davon wurden auch standardisiert. Eine wichtige Rolle spielen hier die so genannten ISO (Latin) Zeichensätze, die als ISO-Standard mit der Nummer 8859 festgelegt wurden. Damit ausreichend Zeichen für verschiedene Sprach- und Schriftsysteme zur Verfügung stehen, wurde hier nicht ein einzelner Zeichensatz festgelegt, sondern derer 15:

|Codetabelle | Name|  Anmerkung |
|----------- | --------| ---------------|
| ISO 8859-1 | Latin-1 | Westeuropäisch |
| ISO 8859-2 | Latin-2 | Mitteuropäisch | 
| ISO 8859-3 | Latin-3 | Mitteuropäisch | 
| ISO 8859-4 | Latin-4 | Mitteuropäisch | 
| ISO 8859-5 | Kyrillisch |  | 
| ISO 8859-6 | Arabisch |  | 
| ISO 8859-7 | Griechisch | | 
| ISO 8859-8 | Hebräisch |  | 
| ISO 8859-9 | Latin-5 | Türkisch | 
| ISO 8859-10 | Latin-6 | Nordisch | 
| ISO 8859-11 | Thai |  | 
| ISO 8859-12 |  | existiert nicht | 
| ISO 8859-13 | Latin-7 | Baltisch | 
| ISO 8859-14 | Latin-8 | Ketlisch | 
| ISO 8859-15 | Latin-9 | Westeuropäisch | 
| ISO 8859-16 | Latin-10| Südeuropäisch | 


In jedem diese Zeichensätze ist jede Bitfolge, die einem Dezimalwert zwischen 128 und 255 entspricht, potentenzell anders belegt. Nehmen wir als Beispiel die Bitfolge `1011 1001` (dezimal 185). Diese steht in den verschiedenen ISO 8859 Codetabellen für dieses Zeichen:

| Codetabelle | Zeichen | Anmerkung |
|-------------|---------|-----------|
| ISO 8859-1 | ¹ ||
| ISO 8859-2 | š ||
| ISO 8859-3 | ı ||
| ISO 8859-4 | š ||
| ISO 8859-5 | Й ||
| ISO 8859-6 || Nicht belegt
| ISO 8859-7 | Ή ||
| ISO 8859-8 | ¹ ||
| ISO 8859-9 | ¹ ||
| ISO 8859-10 | đ ||
| ISO 8859-11 | น ||
| ISO 8859-13 | ¹ ||
| ISO 8859-14 | ṗ ||
| ISO 8859-15 | ¹ ||
| ISO 8859-16 | č ||


### Unicode

Codetabellen sind also eine effiziente und speichersparende Methode, Zeichen aus verschiedenen Zeichensystemen als Bitfolgen abzubilden. Sie haben aber gravierende Nachteile: Wenn die verwendete Codetabelle nicht bekannt ist, kann man nur raten, für welches Zeichen diejeweilige Bitfolge steht. Außerdem ist es (zumindest in reinen Texten) nicht möglich, mehrere Codetabellen im selben Text zu verwenden. Um also etwa arabische Zitate in einen westeuropäischen Text einzustreuen, braucht es spezielle Formate, die im Text zwischen verschiedenen Codetabellen hin- und herschalten können und damit spezielle Programme, die diese Formate unterstützen.

Spätestens mit dem häufiger werdenden Austausch von Texten über das Internet wurde dies zunehmend zum Problem. Deshalb hat man in den 1990er-Jahren damit begonnen, einen neuen Zeichensatz zu entwickeln, der jedes Zeichen eindeutig festlegt: **Unicode**.  Die Unicode-Codepoints für bestimmte Zeichen lassen sich im WWW einfach finden. Die offizielle Ressource sind die [Unicode Character Code Charts](https://www.unicode.org/charts/).

Die Kernidee von Unicode ist, jedem Zeichen einen sogenannten **Codepoint** zuzuweisen. Oder einfacher gesagt: Jedem definierten Zeichen wird eine eindeutige Zahl (sprich: Bitfolge) zugewiesen. Die ersten 256 "Zahlen" entsprechen der Codetabelle ISO 8859-1. Danach wurde einfach weitergezählt. Dabei wurden so gut wie alle existierenden Schriftsysteme, darunter auch historische wie etwa *Linear A* oder Keilschrift (Cuneiform), aber beispielsweise auch Musiknoten oder Emoticons berücksichtigt. Aktuell sind mehr als 150 000 Zeichen defininiert. Das balinesicher Zeichen ᭒ etwa hat den Codepoint `6994` (`00011011 01010010`),
das Smiley Emoticon (&#128578;) den Codepoint `128578` (`0001 11110110 01000010`).

Python stellt die `ord()` Funktion bereit, mit der wir uns den Codepoint für ein Zeichen ausgeben lassen können:

In [9]:
ord('ä')

228

Umgekehrt können wir dir `chr()` Funktion verwenden, um das Zeichen mit einem bestimmten Codepoint zu ermitteln:

In [10]:
chr(228)

'ä'

Man kann einen Codepoint auch direkt in einen String einfügen. Allerdngs muss man hier den Hexadezimalwert (der ohnehin in den meisten Unicode-Tabellen verwendet wird) angeben:

In [33]:
# Get the Hex value of decimal 27433
f"{27433:x}"

'6b29'

In [32]:
'\u6B29'

'欩'

#### UTF Kodierungen

Um eine Zahl wie 150 000 als Bitfolge auszudrücken (`10 01001001 11110000`),
braucht es 18 Bits d.h. 3 Bytes. Damit beim Einlesen eines Textes die einzelnen Zeichen aus den Bitfolgen extrahiert d.h. von einander unterschieden werden können, wäre es am einfachsten, für alle Zeichen gleich viele Bytes (z.B. 3, d.h. 24 Bit) zu verwenden. Dann wüssten wir, dass bei jedem 25. Bit ein neues Zeichen beginnt. 

Diese Lösung hat aber einen gravierenden Nachteil. Das Zeichen mit dem Codepoint 150 000 (ein Zeichen aus der Han-Schrift) würde mit 3 Bytes so aussehen: `00000010 01001001 11110000`. Ein kleines `a` hingegen (Codepoint 97) würde in einer solchen 3-Byte-Codierung (24 Bits pro Zeichen) so aussehen:  `00000000 00000000 01100001`. Obwohl die Zahl mit nur 7 Bits (`110 0001`) ausgedrückt werden könnte, würden trotzdem 24 Bits pro Zeichen benötigt. Da dies (vor allem wenn ein Text hauptsächlich aus lateinischen Buchstaben besteht) eine erhebliche Verschwendung von Speicherplatz wäre, haben findige Köpfe die so genannten **UTF-Kodierungen** (UCS Transformation Format) für Unicode Codepoints erfunden (UCS ist der ISO-standardisierte Name für die Unicode Code Tabelle: ISO 10646. Das Akronym steht für *Universal Coded Character Set').

Die populäste UTF-Codierung ist **UTF-8**. Vor allem in Asien ist **UTF-16** verbreitet, weil diese für Zeichen mit hohen Codepoints etwas wenige Platz benötigt. Es gibt noch weitere UTF-Kodierungen, die aber kaum eine Rolle spielen. Im Prinzip ist die Art der UTF-Kodierung aber austauschbar.


##### Wie funktioniert nun die Kodierung von Codepoints in UTF-8?

Die Kernidee ist, dass erste Bit eines Bytes signalisiert, ob wir es mit einem ASCII-Zeichen zu tun haben oder nicht. Steht das erste Bit auf `0`, dann signaisiert das dem Decoder, dass das Zeichen nur aus diesem einen Bit besteht. Steht das Bit hingegen auf `1`, haben wir es mit einem mehrbytigem Zeichen zu tun: Beginnt das Byte mit `11` bedeutet das, dass hier ein mehrbytiges Zeichen beginnt. Beginnt das Byte mit `10` ist es ein Folgebyte, das mit dem oder den zurvor gelesen Bytes zusammengeführt werden muss. Ein mehrbytiges Zeichen könnte also so kodiert sein:

```
1101 0101
1011 1101 
```

Die beiden ersten Bits des ersten Bytes (`11`) bedeuten 'hier beginnt ein mehrbytiges Zeichen'.
Die beiden ersten Bits des darauf folgenden Bytes (`10`) bedeuten 'ich bin ein Folgebyte'.
Der UTF-Decoder macht daraus ein Zeichen mit diese Bitfolge: `0101 01111101`, was dem Codepoint 
`1405` entspricht. Es wurden also jeweils die beiden ersten Bits abgestreift und der Rest aneinander gefügt.

## Anhang

### Umwandlung von Zahlensystemen

#### Von dual nach dezimal

Eine Dualzahl wie `10010110` lässt sich in ihren Dezimalwert umwandeln, indem man den Wert jeder auf 1 stehenden Stelle als 2 mit der Position (beginnend bei 0) potenziert:


$$10010110 = 2^7 + 2^4 + 2^2 + 2^1 = 128 + 16 +4 + 2 = 150$$


Das achte Bit (Position 7) steht auf 1, daher $2^7$. Das siebte und sechste Bit stehen auf 0, können also ignoriert werden. Das fünfte Bit (Position 4) steht wieder auf 1, daher wird $2^4$ addiert usw.

Wir können die Umwandlung natürlich auch Python überlassen:

In [3]:
int('10010110', 2)

150

#### Von dezimal nach dual

Hier müssen wir ein wenig mehr rechnen: Es geht darum, die Zahl 2 zu dividieren. Das Ergebnis der Division wird erneut durch 2 dividiert und so weiter. Wir merken uns den Rest jeder Division.

```
150 / 2 = 75; Rest: 0
75 / 2 = 37;  Rest: 1
37 % 2 = 18;  Rest: 1
18 / 2 = 9;   Rest: 0
9 / 2 = 4;    Rest: 1
4 / 2 = 2;    Rest: 0
2 / 2 = 1;    Rest: 0
1 / 2 = 0;    Rest: 1
```
Die Rest-Werte von unten nach oben gelesen ergeben nun die Binärzahl: `10010110`. 

Wir können uns dabei aber auch von Python helfen lassen:

In [8]:
f'{150:b}'

'10010110'

#### Von dezimal nach oktal

Das Oktalsystem funktioniert zur Basis 8. Dadurch lassen sich jeweils 3 Bit an einer Stelle darstellen. Dabei entsprechen folgende Bitfolgen diesen Oktalwerten:

| dual | oktal |   | dual | oktal |
| ---- | ----- | - | ---- | ----- |
|  000  |  0   |   | 100  | 4 |
|  001  |  1   |   | 101  | 5 |
|  010  |  2   |   | 110  | 6 |
|  011  |  3   |   | 111  | 7 |

Um nun eine Dezimalzahl nach oktal umzuwandeln, wandeln wir diese zuerst, wie oben beschrieben, in eine Dualzahl: 150 wird zu `10010110`. Diesen Wert zerlegen wir nun, rechts beginnend in jeweils dreistellige Einheiten:

```
10 | 010 | 110
```

Jede Stelle wird dann durch den entsprechenden Oktalwert (aus der Tabelle oben) ersetzt:

```
226
```

Der Oktalwert von 150 ist somit `226`. 



Oder wir verwenden Python, um die Umwandlung durchzuführen:

In [41]:
f'{150:o}'

'226'

#### Von oktal nach dezimal

Der einfachste Weg besteht in der Umkehrung des eben beschriebenen Schrittes. Wir ersetzen jeden Oktalwert durch den ensprechende Dualwert und wandeln dann den Dualwert in den Dezimalwert.

`2 2 6` wird zu `010 010 110` und daraus wird  `150`.

Wir können diese Umwandlung natürlich auch Python überlassen:

In [47]:
int('226', 8)

150

#### Von dezimal nach hexadezimal

Das Hexadezimalsystem funktioniert zur Basis 16. Damit lassen sich jeweils 4 Bits an einer Stelle darstellen. Dabei entsprechen folgende Bitfolgen diesen Hexadezimalwerten:

| dual | hex |   | dual | hex |
| ---- | --- | - | ---- | --- |
| 0000 | 0 | | 1000 | 8 |
| 0001 | 1 | | 1001 | 9 |
| 0010 | 2 | | 1010 | A |
| 0011 | 3 | | 1011 | B |
| 0100 | 4 | | 1100 | C |
| 0101 | 5 | | 1101 | D |
| 0110 | 6 | | 1110 | E |
| 0111 | 7 | | 1111 | F |

Die Umwandlung von dezimal nach hexadezimal ähnelt der Umwandlung nach oktal: Wir wandeln die Zahl zuerst in eine Dualzahlund segmentieren diese an jeder vierten Stellen:

```
1001 | 0110
```

und ersetzen jedes Segment durch den entsprechenden Hexadezimalwert: `96`.

Oder wir überlassen die Arbeit Python:

In [43]:
f'{150:x}'

'96'

#### Von hexadezimal nach dezimal

Der einfachste Weg besteht in der Umkehrung des eben beschriebenen Schrittes. Wir ersetzen jeden Hexadezimalwert durch den ensprechende Dualwert und wandeln dann den Dualwert in den Dezimalwert.

`9 6` wird zu `1001 0110` und daraus wird 150.

Einfacher funktioniert dies natürlich mit Python:

In [46]:
int('96', 16)

150

## Lizenz

This notebook ist part of the course [Grundlagen der Programmierung](https://github.com/gvasold/gdp) held by [Gunter Vasold](https://online.uni-graz.at/kfu_online/wbForschungsportal.cbShowPortal?pPersonNr=51488) at Graz University 2017&thinsp;ff. 

<p>
    It is licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0</a>
</p>

<table>
    <tr>
    <td>
        <img style="height:22px" 
             src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"/></li>
    </td>
    <td>
    <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
             src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" /></li>
    </td>
</tr>
</table>

---

<div style="text-align: center; margin-top:20pt;">  
  <a href="Pfad/zum/vorherigen_Notebook.ipynb">← Vorheriges Notebook</a>  
  <span style="width: 100px;display: inline-block;"> </span>
    <a href="Pfad/zum/inhalt">↑ Inhaltsübersicht</a>
    <span style="width: 100px;display: inline-block;"> </span>
  <a href="Pfad/zum/nächsten_Notebook.ipynb">Nächstes Notebook →</a>  
</div>  