
# Elementare Datentypen

*Zeitaufwand: ca. 4 Stunden + 45 Minuten Präsenzzeit.*

<!-- markdown-toc start - Don't edit this section. Run M-x markdown-toc-generate-toc again -->
Inhalt:

- [Lernziele](#Lernziele)
- [Material](#Material)
    - [8 Bits = 1 Byte](#8-Bits-=-1-Byte)
    - [Folgen von Bits (bzw. Bytes)](#Folgen-von-Bits-(bzw.-Bytes))
    - [Zahldarstellung](#Zahldarstellung)
    - [Zeichenketten](#Zeichenketten)
    - [Weitere Interpretationen aus der Abbildung](#Weitere-Interpretationen-aus-der-Abbildung)
- [Aufgaben](#Aufgaben)
    - [Probleme bei der Zahlverarbeitung](#Probleme-bei-der-Zahlverarbeitung)
    - [Vorbereitung Datenumformung](#Vorbereitung-Datenumformung)
    - [Bits selbst interpretieren](#Bits-selbst-interpretieren)

<!-- markdown-toc end -->


<div class="alert alert-info">

## Lernziele

- Eigenschaften von und Unterschiede zwischen elementaren Datentypen
  (Ganzzahl, Gleitkommazahl, Zeichenkette) kennen
- Probleme bei der Verarbeitung von Zahlen (Überlauf, Abschneiden)
  kennen 

</div>


## Material
*Zeitaufwand: ca. 60 Minuten*

### 8 Bits = 1 Byte

Acht Bits können in einem *Byte* zusammengefasst werden. Ein Byte kann
damit $2^8$ verschiedene Werte annehmen – von 00000000 bis 11111111.
Statt der vielen Nullen und Einsen stellt man beim Programmieren ein
Byte üblicherweise mittels des Hexadezimalsystems dar. Dazu wandelt
man den Zahlenwert des als Binärzahl aufgefassten Bytes in eine
[Hexadezimalzahl](https://de.wikipedia.org/wiki/Hexadezimalsystem) mit
zwei Ziffern um. Das bietet sich deshalb an, weil $2^8$ gerade die
größte mit zwei Hexadezimalziffern darstellbare Zahl ist. Dann
entspricht 00000000 dem Wert 00 und 11111111 dem Wert FF. *(Für eine
schnelle manuelle Umrechnung kann man die ersten und letzten vier Bits
eines Bytes jeweils separat in eine Hexadezimalziffer umwandeln. Das
Ergebnis ist das gleiche.)*

### Folgen von Bits (bzw. Bytes)

Welche Bedeutung hat nun eine Folge von mehreren Bits? Das hängt davon
ab, wie wir sie interpretieren! Die nachfolgende Abbildung
veranschaulicht, was eine Folge von vier Bytes (32 Bits) bedeuten
kann, je nachdem wie sie interpretiert werden:

<a title="Rjaeschke / CC BY (https://creativecommons.org/licenses/by/4.0)" href="https://commons.wikimedia.org/wiki/File:Unterschiedliche_Interpretationen_von_4_Bytes.svg"><img alt="Unterschiedliche Interpretationen von 4 Bytes" src="https://upload.wikimedia.org/wikipedia/commons/9/94/Unterschiedliche_Interpretationen_von_4_Bytes.svg"></a>


Die Abbildung zeigt für die Folge `46c3b66e` von vier Bytes aus der
Fülle an möglichen Interpretationen neun verschiedene Varianten. Im
folgenden wollen wir auf Zahlen und (kurz) auf Textzeichen
eingehen. In der nachfolgenden Lerneinheit schauen wir uns Text, Bild
und Ton genauer an.

### Zahldarstellung

Die Darstellung von Zahlen und die damit verbundenen Herausforderungen
sind ein komplexes Thema, welches beispielsweise der Umfang der
[Wikipedia-Seite zu
Gleitkommazahlen](https://de.wikipedia.org/wiki/Gleitkommazahl)
verdeutlicht. Dieser Abschnitt behandelt daher nur einige grundlegende
Aspekte, für eine tiefergehende Beschäftigung sei auf die
entsprechenden Wikipedia-Seiten und die dort jeweils referenzierte
Literatur verwiesen.

Berechnungen im Computer finden in der *ALU* (*Arithmetic and Logic
Unit*) statt, die sich in der *CPU* (*Central Processing Unit*) – dem
Hauptprozessor – befindet.

Grundsätzlich gibt es zwei Arten von Zahlen: *Ganzzahlen*
("integers"), also Zahlen ohne Nachkommaanteil, und *Gleitkommazahlen*
("floating point numbers"), also Zahlen mit Nachkommaanteil.  Diese
werden im Computer sehr unterschiedlich dargestellt und behandelt,
daher gibt es in der ALU typischerweise separate Baugruppen für die
Verarbeitung von Ganzzahlen und Gleitkommazahlen. Insbesondere gibt es
Funktionen zur Umwandlung zwischen den beiden Zahlenformaten.

Allen Zahlformaten gemein ist, dass sie feste *Bytelängen*
haben. Während die kleinsten Formate lediglich ein Byte (8 Bit)
umfassen, unterstützen aktuelle CPUs typischerweise Formate bis zu 8
Byte (64 Bit).

#### Ganzzahlen

Bei den ganzen Zahlen ist relevant, ob das Vorzeichen relevant ist
oder nicht, ob also nur positive Zahlen dargestellt werden sollen oder
auch negative.

Ist das Vorzeichen nicht von Interesse ("unsigned integer"), so
entspricht die Binärdarstellung exakt der Umrechnung vom Dezimalsystem
ins [Binärsystem](https://de.wikipedia.org/wiki/Dualsystem). Die Zahl
23 im Dezimalsystem könnte also durch die Bitfolge 10111 dargestellt
werden und würde in einem Zahlformat von einem Byte Länge dann
00010111 als Bitfolge bzw. 17 in Hexadezimaldarstellung ergeben.

In Python ermöglicht die Funktion `int` eine Umrechnung von einem
beliebigen Zahlsystem ins Dezimalsystem. Dazu übergibt man die
Zeichenfolge (als Zeichenkette) und die Basis des Ursprungszahlsystems
(2 für das Binärsystem und 16 für das Hexadezimalsystem):

In [None]:
int("46c3b66e", 16)

Überzeugen Sie sich davon, dass die Bitfolge 00010111 wirklich die
Zahl 23 im Dezimalsystem darstellt, indem Sie die beiden Parameter von
`int` entsprechend ändern. 

*Übrigens: Wenn Sie die Bytefolge `46c3b66e` aus der Abbildung damit umrechnen,
erhalten Sie ein anderes Ergebnis als in der Abbildung, denn Python interpretiert
die Bytes in der 
[Reihenfolge](https://de.wikipedia.org/wiki/Byte-Reihenfolge) "big
endian" und
nicht umgekehrt ("little endian"). Durch Vertauschen der
Reihenfolge können Sie das Ergebnis aus der Abbildung nachvollziehen:*

In [None]:
int("".join("46 c3 b6 6e".split()[::-1]), 16)


Die Anzahl der Zahlen, die mit Hilfe einer festen Länge von Bytes $b$
dargestellt werden können, lässt sich durch $2^b$ berechnen. Die
[Tabelle auf
Wikipedia](https://de.wikipedia.org/wiki/Integer_(Datentyp)#Maximaler_Wertebereich)
gibt einen Überblick über die typischen Formate. Beispielweise können
mit einem Byte (8 Bit) $2^8 = 256$ verschiedene Zahlwerte dargestellt
werden: die Werte 0 bis 255.

Für vorzeichenbehaftete Zahlen ("signed integer") sind zwei
Darstellungsformate relevant: im Wesentlichen verwenden moderne CPUs
dafür das
[Zweierkomplement](https://de.wikipedia.org/wiki/Zweierkomplement).
Für die Darstellung des Exponenten von Gleitkommazahlen wird jedoch
auch eine Variante des
[Exzesscodes](https://de.wikipedia.org/wiki/Exzesscode) verwendet.

Der Vorteil des Zweierkomplements ist, dass die Subtraktion auf die
Addition
[zurückgeführt](https://en.wikipedia.org/wiki/Method_of_complements)
werden kann und daher nur ein Schaltkreis für diese beiden
Rechenoperationen implementiert werden muss. Statt $x + y$ berechnet
die ALU $x + (-y)$ und muss dafür lediglich $y$ zu $-y$
umrechnen. Dafür werden alle Bits invertiert (0 zu 1 und umgekehrt)
und eine 1 addiert. Dies lässt sich sehr einfach implementieren.

Da für eine vorgegebene Anzahl von Bytes der verfügbare Zahlbereich
auf positive und negative Zahlen aufgeteilt wird, ist die größte
darstellbare Zahl nur halb so groß wie bei Darstellungsformaten ohne
Vorzeichen. Mit 2 Byte (16 Bit) können beispielsweise die Werte
$-2^{16 - 1} = -32768$ bis $2^{16 - 1} - 1 = 32767$ dargestellt werden
(durch die Null gibt es stets eine positive Zahl weniger als es
negative Zahlen gibt).

Der Python-Interpreter unterstützt Ganzzahl-Berechnungen mit beliebig
vielen Stellen, ist also nicht auf die vorgegebenen
Darstellungsformate mit festen Anzahlen von Bytes beschränkt.
Wir können uns jedoch die größte von der CPU unterstützte Ganzzahl für
das Darstellungsformat mit Vorzeichen ("signed integer") ausgeben
lassen: 

In [None]:
import sys

sys.maxsize

Für ein Darstellungsformat mit $b$ Bits ist die größte Ganzzahl
$2^{b-1} - 1$. Prüfen Sie, für welchen der typischen Werte von $b$ (8,
16, 32, 64) Sie den Wert von `sys.maxsize` erhalten:

In [None]:
b = # Setzen Sie hier verschiedene Werte für b ein (8, 16, 32 oder 64)
if sys.maxsize == 2**(b-1) - 1:
    print("Ihre CPU rechnet mit", b, "Bit.")
    print("Die größte darstellbare Ganzzahl ist", 2**(b-1) - 1)
    print("Die kleinste darstellbare Ganzzahl ist", -2**(b-1))
else:
    print("Probieren Sie einen anderen Wert für b.")

Die Beschränkung auf eine feste Anzahl von Bytes zur Darstellung von
Zahlen kann zu Problemen führen. Denn wenn das gewählte
Darstellungsformat zu klein für die durchzuführenden Berechnunge ist,
kann es zum *Überlauf* kommen: das Ergebnis einer Berechnung ist dann
nicht mehr mit der vorhanden Anzahl an Bits darstellbar. 


#### Gleitkommazahlen

Grundlage der Darstellung von reellen Zahlen (Zahlen mit
Nachkommaanteil) ist die Darstellung der Zahlen als
[Gleitkommazahlen](https://de.wikipedia.org/wiki/Gleitkommazahl).  In
der ALU steht nur eine begrenzte (feste) Anzahl von Bits für
Berechnungen zur Verfügung. Die Darstellung durch Gleitkommazahlen
ermöglicht einen sehr großen Zahlbereich abzudecken (von sehr kleinen
Zahlen nahe Null zu sehr großen Zahlen). 

Grundidee ist, dass wir jede reelle Zahl durch zwei Werte — *Mantisse*
und *Exponent* – darstellen und die Mantisse durch "Verschieben" des
Kommas so *normalisieren* können, dass sie in einem festgelegten
Bereich (z.B. zwischen 0 und 10) liegt. Beispielsweise sind die
folgenden Darstellungen der Lichtgeschwindigkeit äquivalent:

$\begin{aligned}
c
&=299\,792\,458\;{\text{m/s}}\\
&=299\,792{,}458\cdot 10^{3}{\text{m/s}}\\
&=0{,}299\,792\,458\cdot 10^{9}{\text{m/s}}\\
&=2{,}997\,924\,58\cdot 10^{8}{\text{m/s}}
\end{aligned}$

Wenn wir das Komma "verschieben" müssen wir den Exponenten an der $10$
entsprechend anpassen. Dieses Prinzip funktioniert analog auch mit
reellen Zahlen in Binärschreibweise und ist Grundlage für die
Darstellung reeller Zahlen im Computer: *Vorzeichen*, *Exponent* und
*Mantisse* der normalisierten Zahl werden gespeichert.

Die Repräsentation von Gleitkommazahlen wurde im [IEEE-Standard
754](https://de.wikipedia.org/wiki/IEEE_754) standardisiert. Aktuelle
Prozessoren halten sich ganz überwiegend an diesen Standard. Darin ist
festgelegt, wie viele Bits für die Darstellung verwendet werden
(z.B. 32 Bit oder 64 Bit) und wieviele der Bits für das Vorzeichen,
den Exponenten und die Mantisse verwendet werden.

Ein typisches Format ist die sogenannte "single precision" mit 4 Byte
(32 bit). Die 32 Bits werden dabei folgendermaßen auf Vorzeichen,
Exponent und Mantisse verteilt:

![IEEE 754 Single Precision](https://upload.wikimedia.org/wikipedia/commons/5/56/IEEE-754-single.svg)

*(Genaugenommen wird die "Charakteristik" gespeichert, eine Art
normalisierter Exponent.)*

Die Anzahl der Bits für die Mantisse legt die (relative) Genauigkeit
der Zahlen fest, die Anzahl der Bits für den Exponenten die Größe der
Zahlen. In diesem Fall stehen 8 Bit für den Exponenten zur Verfügung,
so dass dieser Werte zwischen -126 und 127 annehmen kann. Die 23 Bits
der Mantisse entsprechen ca. 7 Dezimalstellen Genauigkeit.

Für die Beispielfolge `46c3b66e` (`1000110 11000011 10110110 1101110`)
aus der Abbildung können Sie sehr schön auf der Seite
https://gregstoll.com/~gregstoll/floattohex/ die Interpretation als
Gleitkommazahl nachvollziehen. Geben Sie dazu den Wert `46c3b66e` im
Feld "Hex value" neben dem Button "Convert to float" ein und drücken
Sie dann den Button. Sie erhalten als Ergebnis eien graphische
Darstellung sowie die folgende Tabelle zur Berechnung:

| Vorzeichen | Exponent              | Mantisse                            |
|------------|-----------------------|-------------------------------------|
| 0 (binär)  | 10001101 (binär)      | 10000111011011001101110 (binär)     |
| $+1$       | $141$                 | $1,10000111011011001101110$ (binär) |
| $+1 \cdot$ | $2^{141 - 127} \cdot$ | $1,5290048122406006$                |
| $+1 \cdot$ | $16384,0000 \cdot$    | $1,5290048122406006$                |

= $25051,2$

In Python gibt uns die Funktion `sys.float_info` Informationen zum
verwendeten Format für Gleitkommazahlen zurück:

In [None]:
import sys

sys.float_info


Ein typisches Ergebis ist
``` sys.float_info(max=1.7976931348623157e+308, max_exp=1024,
max_10_exp=308, min=2.2250738585072014e-308, min_exp=-1021,
min_10_exp=-307, dig=15, mant_dig=53, epsilon=2.220446049250313e-16,
radix=2, rounds=1) ```

Dies bedeutet (u.A.), dass 53 Bits für die Mantisse (und 11 Bits für
den Exponenten) verwendet werden. Damit können Zahlen im Bereich
$2,2250738585072014 \cdot 10^{-308}$ bis $1,7976931348623157 \cdot
10^{308}$ mit einer Genauigkeit von 15 Dezimalstellen dargestellt
    werden.

Ein Nachteil von Gleitkommazahlen ist, dass ihre "Dichte" zu den
(betragsmäßig) großen Zahlen hin abnimmt. Während der Abstand zwischen
der 0 und der nächstgrößten Gleitkommazahl im obigen Beispiel in der
Größenordnung $10^{-308}$ liegt, liegen zwischen den Zahlen
$10000000000000000$ und $10000000000000010$ nur fünf weitere
Gleitkommazahlen:

In [None]:
# Quelle: https://stackoverflow.com/questions/3587880/number-of-floats-between-two-floats
import struct
a = struct.pack("dd", 10000000000000000.0, 10000000000000010.0)
b = struct.unpack("ll", a)
b[1] - b[0]


Ein weiteres Problem ist, dass sich nicht jede reelle Zahl exakt als
eine solche Gleitkommazahl darstellen lässt. Ebenso wie es rationale
Zahlen mit unendlich vielen Nachkommastellen im Dezimalsystem gibt
(z.B. $\frac{1}{3} = 0.333\dots$) gibt es auch rationale Zahlen mit
unendlichen vielen Nachkommastellen im Binärsystem, z.B. $\frac{1}{10}
= 0,0001100110011\dots$ (die rechte Seite ist die
Binärdarstellung). Zahlen, die mehr als die zur Verfügung stehenden
Bits für die Mantisse benötigen, werden *abgeschnitten*. Im Fall von
1/10 können wir den Effekt mit Python beim wiederholten Aufaddieren
beobachten:


In [None]:
a = 0.1
sum = 0
for i in range(0,100):
    sum += a

print(sum)



Statt $100 \cdot 0,1 = 10$ erhalten wir nur einen nahe bei 10
liegenden Wert. Verändern Sie die Anzahl der Additionen (z.B. auf 1000
oder 10000) und beobachten Sie den sich ergebenden Fehler.
### Zeichenketten

Die Darstellung von Texten werden wir in der nächsten Lerneinheit noch
ausführlicher betrachten. Die Grundidee ist, dass jedem
darzustellenden Zeichen ein festes Bitmuster zugeordnet wird.
Beispielsweise können wir mit den 256 verschiedenen Bitmustern eines
Bytes 256 verschiedene Zeichen repräsentieren.

In Python können wir mit Hilfe der Funktionen `chr` und `ord` zwischen
den Bitmustern (interpretiert als Ganzzahl) und der Interpretation als
Zeichen wechseln. Nehmen wir beispielsweise das erste Byte aus der
Abbildung in Dezimalschreibweise (`70`), so können wir mit `chr` das
dazugehörige Zeichen ermitteln:

In [None]:
chr(70)

Wollen wir die Hexadezimalschreibweise (`46`) verwenden, so müssen wir
ein `0x` voranstellen (damit erkennt Python Hexadezimalzahlen):

In [None]:
chr(0x46)

Umgekehrt können wir mit `ord` für ein Zeichen den zugehörigen
Zahlwert (im Dezimalsystem) bestimmen:

In [None]:
ord("n")

Und ihn ggf. mittels `hex` in einen Hexadezimalwert umwandeln:

In [None]:
hex(ord("n"))

(Auch hier verwendet Python das Präfix `0x`, um den Wert als
Hexadezimalwert zu kennzeichnen.)

Es gibt mehrere Varianten, wie Zeichen Bitmustern zugeordnet werden –
sogenannte *Zeichencodierungen*.  Die obige Abbildungen zeigt dies
beispielhaft anhand der (mittlerweile) sehr üblichen Codierung *UTF-8*
und einer früheren Codierung für osteuropäische Sprachen.


### Weitere Interpretationen aus der Abbildung

Für die Decodierung der vier Bytes als *Maschinencode* kann man einen
Disassembler nutzen, so etwas gibt es mittlerweile auch [online als
Webseite](http://shell-storm.org/online/Online-Assembler-and-Disassembler/?opcodes=46c3b66e&arch=x86-64&endianness=little&dis_with_addr=True&dis_with_raw=True&dis_with_ins=True#disassembly). 

Für die Interpretation als *Farbinformation* (für ein Pixel) kann ein
Malprogramm nutzen oder eine der zahlreichen Seiten, die einen "RGBA
Color Picker" anbieten, z.B. von der [Mozilla
Foundation](https://developer.mozilla.org/de/docs/Web/CSS/CSS_Colors/farbauswahl_werkzeug). Meistens
werden jedoch nur die ersten drei Bytes interpretiert.

Für die Interpretation als *Audio* existiert vermutlich kein passendes
Werkzeug, da vier Bytes einfach viel zu wenig sinnvolle Information
darstellen. 

Vier Bytes werden im Internet-Protokoll der Version 4 zur weltweit
eindeutigen *Adressierung* von Rechnern genutzt. IPv4-Adressen werden
üblicherweise mittels der in der Abbildung gezeigten [Dotted Decimal
Notation](https://en.wikipedia.org/wiki/Dot-decimal_notation)
dargestellt. Der Besitzer der IP-Adresse 70.195.182.110 kann mittels
des Dienstes [Whois](https://www.whois.com/whois/70.195.182.110)
ermittelt werden.


## Aufgaben
<div class="alert alert-success">

### Probleme bei der Zahlverarbeitung

*Zeitaufwand: ca. 90 Minuten*

Recherchieren Sie zu Problemen bei der Zahlverarbeitung im
Rechner. Insbesondere sollten Sie die Begriffe *Überlauf* ("overflow",
nicht "stack overflow"!)  und *Abschneiden* ("truncation") verstehen.
Ein Beispiel für eine vergleichsweise kurze (und auch dadurch)
technischere Erklärung zu *truncation* finden Sie auf [dieser
Seite](https://www.tf.uni-kiel.de/matwis/amat/comp_math/kap_1/backbone/r_se8.html).

Überlauf und Abschneiden können zu weiteren Problemen führen,
beispielsweise kann Abschneiden zu *Auslöschung* führen, wenn Zahlen
unterschiedlicher Größenordnung addiert werden.

Ein Beispiel dafür ist der folgende Python-Code zur Berechnung des
Flächeninhalts eines Dreiecks mit Hilfe des [Satzes von
Heron](https://de.wikipedia.org/wiki/Satz_des_Heron): Seien die Längen
der drei Seiten des Dreiecks als $a$, $b$ und $c$ gegeben, so
berechnet sich der Flächeninhalt $A$ des Dreiecks als:

$A = \sqrt{s\cdot(s-a)\cdot(s-b)\cdot(s-c)}$

mit $s = \frac{a + b + c}{2}$. Die folgende Python-Funktion
implementiert diese Formel:

</div>


In [None]:
import math
def flaeche(a, b, c):
    """Die Fläche eines Dreiecks mit den Seitenlängen a, b und c.
    """
    # halber Umfang
    s = (a + b + c) / 2

    # Fläche nach Satz von Heron
    A = math.sqrt(s*(s - a)*(s - b)*(s - c))

    return A


<div class="alert alert-success">

Das (sehr schmale) Dreieck mit den Seitenlängen $a = 10^{-10}, b =
10^{10}, c = 10^{10}$ hat einen Flächeninhalt von $A = 0.5$. Berechnen
wir den Flächeninhalt mit dem Satz von Heron erhalten wir jedoch:

</div>


In [None]:
print(flaeche(10**-10, 10**10, 10**10))


<div class="alert alert-success">

Statt 0.5 erhalten wir also 0 – durch die Addition des großen Wertes
$10^{10}$ mit dem sehr kleinen Wert $10^{-10}$ fand eine Auslöschung
statt.

Der Teilbereich *Computerarithmetik* der Mathematik (bzw. Informatik)
befasst sich mit der Implementierung von Algorithmen, die derartige
Probleme umgehen. Beispielsweise können wir den [Algorithmus zur
Berechnung des Flächeninhalts von William
Kahan](https://people.eecs.berkeley.edu/~wkahan/Triangle.pdf)
verwenden, der ein korrektes Ergebnis liefert:

</div>


In [None]:
def flaeche_kahan(a, b, c):
    """Die Fläche eines Dreiecks mit den Seitenlängen a, b und c
    berechnen, so dass sich die Werte nicht auslöschen. 

    Quelle: William Kahan, https://people.eecs.berkeley.edu/~wkahan/Triangle.pdf
    """
    
    # absteigend der Größe nach sortieren
    a, b, c = reversed(sorted((a, b, c)))

    # Fläche nach William Kahan 
    A = math.sqrt((a + (b + c)) * (c - (a - b)) * (c + (a - b)) * (a + (b - c)))/4

    return A

print(flaeche_kahan(10**-10, 10**10, 10**10))


<div class="alert alert-success">

Durch die Sortierung der Werte und eine alternative Formel kann das
Problem der Auslöschung umgangen werden.

Recherchieren Sie einen Fall, wo Probleme bei der Zahlverarbeitung (!)
in einem Computer Auswirkungen in der realen Welt hatten. Arbeiten Sie
möglichst detailliert heraus, welches konkrete Problem aufgetreten
ist. Achten Sie darauf, dass die Ursache für Ihr Beispiel wirklich in
der Zahlverarbeitung bzw. -darstellung zu suchen ist. Der "klassische"
Programmierfehler eines Stapelüberlaus ("stack overflow") zählt (hier)
nicht dazu.

**Abschluss:** Beschreiben Sie Ihr Beispiel in einem Post im passenden
Thread im Forum und antworten Sie auf mindestens einen anderen Post.

</div>



<div class="alert alert-success">

### Vorbereitung Datenumformung

*Zeitaufwand: ca. 45 Minuten*

Diese Aufgabe ist eine Vorbereitung für das Ende des Semesters: Welche
*technischen Herausforderungen* sind Ihnen bei der Bearbeitung oder
Integration digitaler Daten bereits begegnet? Gibt es eventuell
*konkrete Verfahren*, die Sie gerne erlernen würden oder
*Datenstrukturen* zu denen Sie gerne mehr erfahren würden?

**Abschluss:** Wir wollen Ihre Herausforderungen, Verfahren und
Datenstrukturen auf einer Wikiseite sammeln. Erweitern Sie daher die
Wikiseite zur Datenumformung: ergänzen und strukturieren Sie die
Inhalte und fassen Sie diese zusammen.

</div>



<div class="alert alert-success">

### Bits selbst interpretieren

*Zeitaufwand: ca. 45 Minuten*

Diese Aufgabe ist eine Vorbereitung auf die nächste Lerneinheit. 

Zur Bearbeitung benötigen Sie einen *Hexeditor* – ein Programm,
welches die Bytes, aus denen Dateien bestehen, in
Hexadezimalschreibweise darstellen kann. *(Beispielsweise können Sie
unter Windows die freie Software
[HexEdit](https://sourceforge.net/projects/hexedit/) oder
[Frhed](http://frhed.sourceforge.net/en/) nutzen.)*

*Falls Sie keinen Hexeditor nutzen können oder möchten, können Sie den
nachfolgenden Text gern bis zur Tabelle überspringen.*

Speichern Sie die beiden Dateien
[beispiel1.bmp](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/beispiel1.bmp)
und
[beispiel2.org](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/beispiel2.org)
und öffnen Sie diese im Hexeditor Ihrer Wahl. Für `beispiel2.org`
sollte das ungefähr so aussehen:

![GHex beispiel2.org](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/ghex_beispiel2.png)

Die linke Spalte mit den achtstelligen Hexadezimalwerten von 00000000
bis 000000C0 zeigt die Byte-Positionen innerhalb der Datei an. Die
mittlere Spalte zeigt den Inhalt der Datei an, dabei wird jedes Byte
als zweistellige Hexadezimalzahl dargestellt. Die Datei beginnt mit
dem Byte `44` in Hexadezimalschreibweise, also der Folge `01000100`
von acht Bits in Binärschreibweise. Viele Hexeditoren zeigen neben den
Hexadezimalwerten auch noch die Interpretation als Textzeichen an – so
auch dieser Editor (GHex) in der rechten Spalte. Diese habe ich im
Screenshot weichgezeichnet, um die Auflösung nicht zu verraten. (Bitte
seien Sie nicht neugierung: öffnen Sie die Dateien noch nicht mit
einem anderen Programm.)

Suchen Sie in den beiden Dateien *Folgen von jeweils drei Bytes* in
Hexadezimalschreibweise heraus und notieren Sie diese in der zweiten
Spalte der folgenden Tabelle. Suchen Sie insbesondere nach "typischen"
Byte-Folgen bzw. Folgen, die Sie in beiden Dateien finden. *(Die
Tabelle enthält schon Beispiele, Sie können gern mit diesen
weiterarbeiten oder sie ergänzen.)*

| Datei         | Byte-Folge | als Textzeichen | als Farbwerte  |
|---------------|------------|-----------------|----------------|
| beispiel1.bmp | `42 4D 0A` | BM'\n'          | dunkelgrün     |
| beispiel1.bmp | `00 00 00` |                 |                |
| beispiel1.bmp | `FF FF FF` |                 |                |
| beispiel1.bmp | `49 42 49` |                 |                |
| beispiel1.bmp | `73 6F 21` |                 | olivgrün       |
| beispiel1.bmp |            |                 |                |
|---------------|------------|-----------------|----------------|
| beispiel2.org | `44 61 73` | Das             | dunkelgraublau |
| beispiel2.org | `49 42 49` |                 |                |
| beispiel2.org |            |                 |                |
    
Interpretieren Sie jetzt diese Bytefolgen als *Textzeichen* und als
*Farbwerte*. Nutzen Sie dafür die folgenden beiden Hilfsmittel:

#### Textzeichen

In Python können wir Hexadezimalzahlen mit Hilfe des Präfixes `0x`
notieren. Ein Textzeichen wird im Allgemeinen (mehr dazu in der
nächsten Lerneinheit) mit Hilfe eines Bytes dargestellt. Die Funktion
`chr` gibt uns für eine Hexadezimalzahl das zugehörige Zeichen zurück:

</div>


In [None]:
help(chr)


<div class="alert alert-success">

Nutzen Sie die Funktion `chr`, um jedes Byte in ein Zeichen zu
konvertieren und notieren Sie das Ergebnis in der dritten Spalte der
Tabelle (analog zur Vorgabe). 

</div>


In [None]:
chr(0x42)


<div class="alert alert-success">

*Nicht alle Bytewerte ergeben "sichtbare" Zeichen. Beispielsweise
stellt `0x0A` einen
[Zeilenvorschub](https://de.wikipedia.org/wiki/Zeilenvorschub) dar,
welcher in Python mit Hilfe der Zeichenkette `\n` repräsentiert
wird. Ignorieren Sie solche Sonderzeichen bzw. notieren Sie die von
`chr` zurückgegebene Darstellung.*

#### Farbwerte

Im RGB-Farbmodell werden Farben durch Mischen der drei Grundfarben
Rot, Grün und Blau dargestellt. Eine standardisierte Schreibweise (die
z.B. im Web bei HTML-Dateien genutzt wird) ist `#rrggbb`, wobei `rr`,
`gg` und `bb` jeweils für zwei Hexadezimalziffern stehen, die den
Farbanteil von Rot, Grün bzw. Blau angeben (und einem Byte
entsprechen).

Führen Sie den folgenden Python-Code aus. Geben Sie dann im
Eingabefeld die Hexadezimalfolge Ihrer Wahl (ohne Leerzeichen) ein und
drücken Sie die Return-Taste. *(Sie können auch direkt im Python-Code
die Zeichenkette ersetzen und den Code ausführen.)* Die zugehörige
Farbe wird dann rechts neben dem Eingabefeld angezeigt. Fügen Sie in
der Tabelle in der vierten Spalte eine textliche Beschreibung der
Farbe ein.

</div>


In [None]:
import ipywidgets as widgets

widgets.ColorPicker(
    concise=False,
    description='Geben Sie hier die Hexadezimalfolge im Format #rrggbb ein:',
    value='#a3004e',
    disabled=False
)


<div class="alert alert-success">

<video
src="https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/beispiel1_bmp_erklaert.mp4"
width="100%" controls alt="Kurze Erklärung, was es mit der Datei beispiel1.bmp auf sich hat"> Your browser does not support the video
tag.  </video>

*(Hinweis: Im Video wird in Minute 4:36 die Reihenfolge "Blau, Rot,
Grün" genannt, es müsste aber "Blau, Grün, Rot" heißen.)*

**Abschluss:** Dokumentieren Sie Ihre Ergebnisse und Erkenntnisse in
Ihrem Portfolio.

</div>
