# Repr√§sentation von Text, Bild, Ton

*erwarteter Zeitaufwand: ca. 5 Stunden*

## Inhalt
<!-- markdown-toc start - Don't edit this section. Run M-x markdown-toc-generate-toc again -->

- [Lernziele](#Lernziele)
- [Material](#Material)
    - [Text](#Text)
        - [ASCII](#ASCII)
        - [Unicode](#Unicode)
    - [Bild](#Bild)
        - [Rastergrafik](#Rastergrafik)
        - [Vektorgrafik](#Vektorgrafik)
    - [Ton](#Ton)
- [Aufgaben](#Aufgaben)
    - [Datenkompression](#Datenkompression)
    - [Textkonvertierung](#Textkonvertierung)
    - [Eine Bin√§rdatei selbst erzeugen](#Eine-Bin√§rdatei-selbst-erzeugen)

<!-- markdown-toc end -->


<div class="alert alert-info">

## Lernziele

- Prinzip der bin√§ren Datenrepr√§sentation verstehen
- Grundlagen der Repr√§sentation von Text, Bild und Ton verstehen
- einfache Bin√§rdateien selbst erzeugen k√∂nnen

</div>


## Material

*erwarteter Zeitaufwand: ca. 2 Stunden*

<div class="alert alert-warning">

In dieser Lerneinheit befassen wir uns mit der Repr√§sentation dreier sehr grundlegender Formen von Daten: *Text*, *Bild* und *Ton*. Dies ist einerseits eine Vervollst√§ndigung dessen, was wir bereits in der [vorherigen Lerneinheit](2_Elementare_Datentypen.ipynb) angeschnitten haben (vor allem *Text* betreffend). Andererseits befassen wir uns mit Strukturen, die bereits eine Ebene h√∂her angesiedelt sind: die Repr√§sentation von *Bildern* und *T√∂nen* baut ganz wesentlich auf den Verfahren zur Repr√§sentation von Zahlen und Texten auf. Beispielsweise werden Vektorgraphiken in den Formaten SVG und PostScript mit Hilfe von Zeichenketten dargestellt und Rastergraphiken nutzen im Allgemeinen ganze Zahlen zur Beschreibung der Farbwerte einzelner Bildpunkte. Mit diesen Strukturen bietet diese Lerneinheit auch einen Vorgeschmack auf die n√§chste Lerneinheit zu [abstrakten Datentypen](4_Abstrakte_Datentypen.ipynb), in der wir weiter abstrahieren und generische Strukturen zur Repr√§sentation nahezu beliebiger Daten kennenlernen werden.
    
</div>

Alle Daten im Rechner werden als Bitfolgen dargestellt. Wie wir im
Abschnitt [Elementare Datentypen](2_Elementare_Datentypen.ipynb)
gesehen haben, h√§ngt die Bedeutung einer Bitfolge von der
Interpretation ab. In der Praxis interpretieren wir Bitfolgen mit
Hilfe geeigneter Anwendungsprogramme. Daten auf dem Massenspeicher
werden typischerweise in Form von *Dateien* und *Verzeichnissen* in
einem [Dateisystem](https://de.wikipedia.org/wiki/Dateisystem)
organisiert. F√ºr verschiedene Arten von Daten gibt es (mehr oder
weniger) standardisierte *Dateiformate* (z.B. [Scalable Vector
Graphics](https://de.wikipedia.org/wiki/Scalable_Vector_Graphics) oder
[OpenDocument](https://de.wikipedia.org/wiki/OpenDocument)), in denen
Daten nach einem bestimmten Schema abgelegt werden. Neben den Daten
enthalten Dateien oft auch Metadaten, beispielsweise den Namen der
Autorin oder die Aufl√∂sung der Grafik.  Unterschiedliche Dateiformate
werden typischerweise mit Hilfe von *Dateiendungen* (z.B. `.svg` f√ºr
Scalable Vector Graphics oder `.odt` f√ºr OpenDocument Text) markiert,
die dem Dateimanager dabei helfen, eine passende Anwendung zu √∂ffnen
(z.B. Inkscape f√ºr Scalable Vector Graphics oder LibreOffice Writer
f√ºr OpenDocument Text). √ñffnen wir eine Datei mit der "falschen"
Anwendung, erhalten wir meist eine Fehlermeldung oder keinen
sinnvollen Inhalt.


### Text
Grundidee der Darstellung von Text ist die Verwendung einer
[Zeichenkodierung](https://de.wikipedia.org/wiki/Zeichenkodierung):
Dabei wird jedem darzustellenden Zeichen (sowie ggf. Steuerzeichen)
ein festes Bitmuster zugeordnet. Ein Text als Folge von Zeichen ist
dementsprechend eine Folge der zugeh√∂rigen Bitmuster. Im Laufe der
Jahrzehnte wurden einige Zeichenkodierungen entwickelt und auch
(z.B. von der ISO) standardisiert. Dies hat zu einer Vielzahl von
Problemen gef√ºhrt (z.B. bei mehrsprachigen Texten), so dass der
*Unicode* entwickelt wurde: eine Zeichenkodierung f√ºr alle Zeichen der
Welt. Bevor wir uns damit befassen, beginnen wir mit einer historisch
und teilweise immer noch relevanten Kodierung:

#### ASCII

Der *American Standard Code for Information Interchange*
([ASCII](https://en.wikipedia.org/wiki/ASCII)) ist eine der ersten
verbreiteten Zeichenkodierungen. Darin werden die (jeweils) 26 Gro√ü-
und Kleinbuchstaben des englischen Alphabets, die Ziffern 0 bis 9
sowie Interpunktions- und Steuerzeichen den 128 m√∂glichen Bitmustern
der L√§nge 7 zugeordnet.

![USASCII code chart](https://upload.wikimedia.org/wikipedia/commons/thumb/c/cf/USASCII_code_chart.png/640px-USASCII_code_chart.png)

Dieser Tabelle (die einem alten Handbuch eines Druckers entstammt)
k√∂nnen wir die Bitfolge entnehmen, die ASCII beispielsweise dem
Buchstaben 'A' zuordnet: `1000001` (`41` in Hexadezimaldarstellung).

<div class="alert alert-success">

Welche Beziehung gibt es in ASCII zwischen den Bitmustern f√ºr Gro√ü-
und Kleinbuchstaben? 
    
*Tipp: Bestimmen Sie f√ºr eine handvoll
Buchstaben das jeweilige Bitmuster f√ºr Gro√ü- und Kleinbuchstabe und
schauen Sie, worin sich diese jeweils unterscheiden. Sie k√∂nnen daf√ºr 
auch den folgenden Code verwenden (Achtung: die Python-Funktion `bin` gibt Bin√§rziffern mit `0b` als Pr√§fix aus).*

</div>

In [None]:
buchstaben = ['A', 'b']                                          # hier Buchstaben hinzuf√ºgen
print("Zeichen", "klein bin√§r", "GROSS bin√§r", sep='\t')         # Tabellenkopf
for i in buchstaben:                                             # Buchstaben durchlaufen
    print(i, bin(ord(i.lower())), bin(ord(i.upper())), sep='\t') # Tabellenrumpf

ASCII ben√∂tigt pro Zeichen aus historischen Gr√ºnden nur 7¬†Bits. Da
sich die Zusammenfassung von 8¬†Bits zu einem Byte bew√§hrt hat, bleibt
ein Bit ungenutzt. Das wurde in der Folge genutzt, um sprachspezifische
Erweiterungen zu implementieren, die 128 weiteren Zeichen eine
Zuordnung erm√∂glichen (alle Bitfolgen, bei denen das achte Bit auf '1'
gesetzt ist (bzw. das erste Bit, je nachdem, von wo aus man z√§hlt)). Es gibt viele verschiedene und teilweise auch
standardisierte Erweiterungen.  Der Standard [ISO
8859](https://de.wikipedia.org/wiki/ISO_8859) definiert mehrere
Zeichenkodierungen, die jeweils den ASCII-Zeichenvorrat um
l√§nderspezifische Zeichen erweitern: z.B. [ISO
8859-1](https://de.wikipedia.org/wiki/ISO_8859-1) f√ºr westeurop√§ische
Sprachen oder [ISO 8859-5](https://de.wikipedia.org/wiki/ISO_8859-5)
f√ºr Kyrillisch. 

Diese Kodierungen nutzen ‚Äì au√üer den Bitmustern f√ºr die 128
ASCII-Zeichen ‚Äì die gleichen Bitmuster f√ºr unterschiedliche Zeichen!
Wir k√∂nnen uns das in Python anschauen, indem wir uns f√ºr ein
gegebenes Bitmuster (dargestellt als Hexadezimalzahl) die zugeh√∂rigen
Zeichen der unterschiedlichen Zeichenkodierungen ausgeben lassen. Der
folgende Python-Code gibt mit Hilfe der Funktion [bytes.decode](https://docs.python.org/3/library/stdtypes.html#bytes.decode) f√ºr das Bitmuster `11100000` (`E0`
Hexadezimal) die neun Zeichen aus, die ihm in den Zeichenkodierungen
ISO 8859-1 bis 8859-9 zugeordnet sind:

In [None]:
b = b'\xE0' # Python-Repr√§sentation des Bytes mit der Hexadezimaldarstellung E0

for e in range(1,10):                           # Kodierungen 8859-1 bis 8859-9 durchlaufen
    encoding = "ISO 8859-" + str(e)             # Namen der Kodierung erstellen
    print(encoding, ":", b.decode(encoding))    # Kodierung und jeweiliges Zeichen ausgeben

<div class="alert alert-success"> 
    
Probieren Sie andere Werte und schauen Sie, welche Zeichen sich
ergeben. *(Tipp: Nicht in allen Kodierungen sind alle Bitmuster
belegt. Werte im Bereich `E0` bis `FF` d√ºrften f√ºr die meisten
Kodierungen ein Ergebnis liefern.)*

Etwas einfacher geht es mit dem nachfolgenden Code, bei dem Sie 
nur ein Zeichen in der Texteingabebox eingeben m√ºssen:
    
</div>

In [None]:
from ipywidgets import interact

@interact(zeichen='√§')
def convert(zeichen):
    if len(zeichen) != 1:                        # L√§nge √ºberpr√ºfen
        return "Bitte exakt ein Zeichen eingeben."
    try:
        b = zeichen.encode("ISO 8859-15")        # Bitmuster ermitteln
    except UnicodeEncodeError:                   # nicht in ISO 8859-15!
        return "Zeichen ist nicht im Zeichensatz ISO 8859-15 darstellbar."

    print("Dezimal:",         ord(b),  sep='\t') # Ausgabe des Bitmusters
    print("Hexadezimal:", hex(ord(b)), sep='\t') # in Form verschiedener
    print("Bin√§r:\t",     bin(ord(b)), sep='\t') # Zahldarstellungen
    print()

    print("Kodierung", "Zeichen", sep='\t')      # Tabellenkopf
    for k in range(17):                          # Kodierungen durchlaufen
        kodierung = "ISO 8859-" + str(k)         # Namen der Kodierung erstellen
        try:
            target = b.decode(kodierung)         # Bitmuster in Zeichen umwandeln
        except UnicodeDecodeError:               # nicht belegte Bitmuster
            target = "nicht belegt"              # erkennen und melden
        except LookupError:                      # nicht existierende 
            continue                             # Kodierungen √ºberspringen
        print(kodierung, target, sep='\t')       # Kodierung und zugeh√∂riges Zeichen

<div class="alert alert-success"> 

W√§hrend das Bitmuster f√ºr das Zeichen `√§` in der Kodierung ISO 8859-15 in allen anderen Kodierungen mit einem anderen Zeichen belegt ist, gilt das z.B. f√ºr die Bitmuster f√ºr die Buchstaben `√∂` und `√º` nicht. Finden Sie weitere Zeichen, deren Bitmuster in anderen Kodierungen nicht genutzt werden? 

Falls Sie eine Fehlermeldung erhalten, haben Sie ein Zeichen eingegeben, welches im Zeichensatz Ihres Computers (sehr wahrscheinlich Unicode) vorhanden ist, aber nicht im Zeichensatz ISO 8859-15 enthalten ist. 
    
</div>

Die verschiedenen Zeichenkodierungen haben zur Folge, dass man beim
√ñffnen einer Textdatei wissen muss, mit welcher Zeichenkodierung der
Text verfasst wurde. F√ºr den Computer ist es eher schwierig,
automatisch die richtige Zeichenkodierung zu raten (daf√ºr m√ºsste er
den Text der Datei "verstehen"). Die meisten Texteditoren bieten daher
eine Option zur Auswahl der Zeichenkodierung an:

![Dialog zur Auswahl von Zeichenkodierungen beim √ñffnen einer Datei](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/zeichenkodierungen.png)

W√§hlt man die falsche Kodierung aus, werden nicht-ASCII-Zeichen mit
hoher Wahrscheinlichkeit nicht korrekt dargestellt und der Text wird
damit schwer bis gar nicht lesbar.

<div class="alert alert-success">

Haben Sie noch alte Textdateien auf Ihrem Rechner? Versuchen Sie diese
mit einem Texteditor (z.B. Notepad) zu √∂ffnen. Was passiert, wenn Sie
eine andere Zeichenkodierung nutzen?

Falls Sie keine Textdateien in unterschiedlichen Kodierungen auf Ihrem
Rechner haben, k√∂nnen Sie mit dem folgenden Python-Code solche Dateien
erzeugen:

</div>

In [None]:
s = "Die hei√üe Zypernsonne qu√§lte Max und Victoria ja b√∂se auf dem Weg bis zur K√ºste."

with open("beispiel.txt", "wb") as f: # Datei zum Schreiben √∂ffnen
    f.write(s.encode("ISO 8859-1"))   


<div class="alert alert-success">

Sie k√∂nnen die Datei [beispiel.txt](beispiel.txt) mit einem Texteditor
√∂ffnen und schauen, mit welcher Zeichenkodierung der Inhalt korrekt
dargestellt wird ("ISO 8859-1" oder "Latin 1" sollte es sein, "ISO
8859-15" sollte auch gehen).

Sie k√∂nnen auch im Python-Beispiel oben den Wert f√ºr "ISO 8859-1"
√§ndern und somit testen, in welchen Zeichenkodierungen der Satz
darstellbar ist. Oder andersherum: Sie k√∂nnen den Satz ersetzen und
schauen, ob er in der Kodierung ISO 8859-1 darstellbar ist:

</div>


In [None]:
s = "–°—ä–µ—à—å –µ—â—ë —ç—Ç–∏—Ö –º—è–≥–∫–∏—Ö —Ñ—Ä–∞–Ω—Ü—É–∑—Å–∫–∏—Ö –±—É–ª–æ–∫, –¥–∞ –≤—ã–ø–µ–π —á–∞—é"

with open("beispiel.txt", "wb") as f: # Datei zum Schreiben √∂ffnen
    f.write(s.encode("ISO 8859-1"))   # Text in Kodierung ISO 8859-1 schreiben


<div class="alert alert-success">

Hier sollten Sie eine Fehlermeldung erhalten. Testen Sie, mit welcher
der zahlreichen ISO-standardisierten Textkodierungen Sie kyrillische
Zeichen abspeichern k√∂nnen. √ñffnen Sie die entstehende Datei
[beispiel.txt](beispiel.txt) mit einem Texteditor und testen Sie,
welche Zeichen dargestellt werden, je nachdem welche Kodierung sie
w√§hlen.

*(Tipp: Sie k√∂nnen auch in Ihrem Webbrowser auf den Link
[beispiel.txt](beispiel.txt) klicken. Falls Sie nicht gerade als
Kodierung "UTF-8" ausgew√§hlt haben, m√ºssen Sie die richtige Kodierung
manuell ausw√§hlen, um den korrekten Text zu sehen. Im Firefox geht
dies im Men√ºpunkt "Sonstiges".)*

</div>

Ein weiteres Problem stellen mehrsprachige Texte dar, f√ºr die der
Zeichenvorrat einer Zeichenkodierung nicht ausreicht (z.B. ein Text
der gleichzeitig westeurop√§ische und hebr√§ische Zeichen enth√§lt). Da
alle Zeichenkodierungen letztlich auf dem gleichen Vorrat an $2^8 =
256$ verschiedenen Bitmustern f√ºr ein Byte beruhen, w√§re bei den nicht
zu ASCII geh√∂renden Bitmustern nicht klar, mit welcher
Zeichenkodierung sie interpretiert werden m√ºssten.


#### Unicode

Abhilfe schafft [Unicode](https://de.wikipedia.org/wiki/Unicode): Das
Ziel ist, damit alle bekannten Schriftsymbole und Zeichen abzubilden.
Unicode ist mittlerweile auf vielen Systemen und in vielen Programmen
der Standard. Unicode ist in 17 Ebenen zu jeweils $2^{16} = 65536$
Zeichen organisiert, wodurch theoretisch 1114112 verschiedene Zeichen
dargestellt werden k√∂nnen. Bisher werden sechs der Ebenen verwendet,
die erste und wichtigste Ebene ist die *Basic Multilingual Plane*.
Deren Aufteilung ist in der folgenden Abbildung dargestellt:

![Unicode Basic Multilingual
Plane](https://upload.wikimedia.org/wikipedia/commons/0/05/Roadmap_to_Unicode_BMP_multilingual.svg)

Jedes kleine Quadrat entspricht $2^8 = 256$ verschiedenen Zeichen. Die
Abbildung enth√§lt genau $16 \cdot 16 = 2^4 \cdot 2^4 = 2^8 = 256$
Quadrate und deckt damit die $2^{16} = 65536$ m√∂glichen Zeichen der
Ebene ab.

Eine weitere Ebene (die *Supplementary Multilingual Plane*) enth√§lt
beispielsweise Mah-Jonggsteine (üÄô, üÄÑ, üÄó) und Emoji (üôÇ, üòé, üôà).

Unicode weist zun√§chst jedem Zeichen einen sogenannten *Codepunkt* in
Form einer Zahl zwischen 0 und 1114112 zu. F√ºr die eigentliche
Kodierung (und Speicherung) als Bitmuster existieren unterschiedliche
Zeichenkodierungen. Die beiden √ºblichsten sind
[UTF-8](https://de.wikipedia.org/wiki/UTF-8) und
[UTF-16](https://de.wikipedia.org/wiki/UTF-16).

In UTF-16 werden alle Zeichen der Basic Multilingual Plane durch zwei
Bytes (16 Bits) kodiert. Zeichen anderer Ebenen ben√∂tigen vier Bytes
(32 Bits). In UTF-8 sind die Bitl√§ngen variabler. Alle in ASCII
enthaltenen Zeichen werden auf das gleiche Bitmuster wie in ASCII
abgebildet und ben√∂tigen damit nur ein Byte. Jeder reine ASCII-Text
ist damit auch ein g√ºltiger UTF-8-Text. Zeichen ausserhalb des
ASCII-Vorrats ben√∂tigen zwei oder mehr Bytes. Die folgende Tabelle
zeigt wo beide Kodierungen √ºblicherweise im Einsatz sind und Beispiele
f√ºr die Kodierung unterschiedlicher Zeichen:

|         | Codepunkt | UTF-8                                 | UTF-16                                |
|---------|-----------|---------------------------------------|---------------------------------------|
| Einsatz |           | GNU/Linux, E-Mail, WWW                | Windows, OS X, Java, .NET             |
| y =     | 121       | `01111001`                            | `00000000 01111001`                   |
|         |           | `79`                                  | `00 79`                               |
| √§ =     | 228       | `11000011 10100100`                   | `00000000 11100100`                   |
|         |           | `C3 A4`                               | `00 E4`                               |
| ‚Ç¨ =     | 8364      | `11100010 10000010 10101100`          | `00100000 10101100`                   |
|         |           | `E2 82 AC`                            | `20 AC`                               |
| ùÑû =     | 119070    | `11110000 10011101 10000100 10011110` | `11011000 00110100 11011101 00011110` |
|         |           | `F0 9D 84 9E`                         | `D8 34 DD 1E`                         |

In Python liefert die Funktion `ord` den Unicode-Codepunkt eines
Zeichens als Dezimalzahl zur√ºck:

In [None]:
ord('‚Ç¨')

Das zugeh√∂rige Bitmuster der Kodierung UTF-8 erhalten wir mit Hilfe der `encode()`-Funktion:

In [None]:
bin(int.from_bytes('‚Ç¨'.encode("utf8"), byteorder="big"))


<div class="alert alert-success">

Bestimmen Sie die Codepunkte f√ºr eine Auswahl von Sonderzeichen.

Dazu kann Ihnen die Diskussion [Why isn't there a "Medium Small Black Circle" in Unicode](https://stackoverflow.com/questions/56540160/why-isnt-there-a-medium-small-black-circle-in-unicode)  auf StackOverflow als Inspiration dienen.
   
</div>


Viel mehr als Sie zu Unicode und Zeichenkodierungen vermutlich jemals wissen wollen, ist im frei verf√ºgbaren Buch [Fonts & Encodings](https://www.bibsonomy.org/bibtex/28549af683624a831070ca5b7fc2ec8e5/jaeschke) von Y. Haralambous zu finden.

<p style="text-align:center; font-weight: bold;">The History of Unicode</p>

<a title="2048: &quot;Great news for Maine‚Äîwe&#39;re once again an independent state!!! Thanks, @unicode, for ruling in our favor and sending troops to end New Hampshire&#39;s annexation. üôèüöÅüéñÔ∏è&quot;" href="https://xkcd.com/1953/">
  <img alt="XKCD Comic: The History of Unicode" src="https://imgs.xkcd.com/comics/the_history_of_unicode.png">
</a>

¬© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)


### Bild
#### Rastergrafik
Bei der auch *Pixelgrafik* oder *Bitmapgrafik* genannten
*Rastergrafik* ist jedes Bild rechteckig und besteht aus einer festen
Anzahl an Zeilen und Spalten. Jede Zelle des Bildes (genannt *Pixel*
vom englischen *picture element*) hat entweder einen bestimmten
Helligkeitswert (bei Graustufenbildern) oder eine bestimmte Farbe. Bei
Graustufenbildern werden typischerweise 8¬†Bits pro Pixel verwendet,
das hei√üt es k√∂nnen $2^8 = 256$ verschiedene Abstufungen zwischen wei√ü
und schwarz dargestellt werden. Bei Farbbildern ist heutzutage eine
*Farbtiefe* von 24¬†Bits (drei Byte) √ºblich, wobei jeweils 8¬†Bits f√ºr
die Kodierung der Helligkeitsinformation der drei Farben Rot, Gr√ºn und
Blau verwendet werden:

![RGB Rastergrafik mit einem Smiley](https://upload.wikimedia.org/wikipedia/commons/3/3b/Rgb-raster-image.svg)

Durch additive Farbmischung ergibt sich daraus die Farbe des
Pixels. Mit den 24¬†Bits lassen sich $2^{24} = 16777216$ verschiedene
Farben darstellen. (Es gibt auch andere sogenannte
[Farbr√§ume](https://de.wikipedia.org/wiki/Farbraum), in denen die
Farbinformationen anders dargestellt werden,
z.B. [CMYK](https://de.wikipedia.org/wiki/CMYK) oder
[HSV](https://de.wikipedia.org/wiki/HSV-Farbraum).) Rastergrafiken
sind sehr verbreiten, da viele Ger√§te wie z.B. Monitore, Drucker und
Kameras nach diesem Prinzip arbeiten.

Um ein zweidimensionales Bild als (eindimensionale) Bitfolge zu
speichern, wird es *serialisiert*, das hei√üt jede Zeile wird als
*Folge von Pixeln* aufgefasst und das gesamte Bild als *Folge von
Zeilen*. Mit diesem Prinzip werden wir uns in der n√§chsten Lerneinheit [ausf√ºhrlicher befassen](4_Abstrakte_Datentypen.ipynb#Felder), wir haben es aber bereits in der Aufgabe [Bits selbst
interpretieren](2_Elementare_Datentypen.ipynb#Bits-selbst-interpretieren)
im Abschnitt [Elementare Datentypen](2_Elementare_Datentypen.ipynb)
kennengelernt: die jeweils 3 Bytes der 8 Pixel mal 6 Pixel gro√üen Abbildung
[beispiel1.bmp](https://scm.cms.hu-berlin.de/ibi/aud/-/blob/master/material/beispiel1.bmp)
werden als Folge von $3 * 8 * 6 = 144$ Bytes gespeichert. Die Datei
ist dennoch etwas gr√∂√üer (198 Bytes), da vor den eigentlichen
Bilddaten Metadaten gespeichert sind. Diese umfassen beispielsweise
die Aufl√∂sung (8 Pixel mal 6 Pixel) des Bildes, ohne die ein Grafikprogramm
das Bild nicht sinnvoll darstellen k√∂nnte (denn beispielsweise w√ºrde
auch ein Bild mit 4 Pixeln mal 12 Pixeln 144 Bytes ben√∂tigen).

Die folgende Abbildung zeigt die 198 Bytes des Beispielbildes:

![Beispiel-Bitmap](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/beispiel1_bytes.svg)

*(Es wurden Zeilenumbr√ºche hinzugef√ºgt, da einerseits nicht alle
Zeichen in eine Zeile passen w√ºrden und dadurch andererseits die
Struktur der Datei besser erkennbar ist.)*

In den *Bilddaten* sind jeweils drei Bytes (ein Pixel!) mit der Farbe
hinterlegt, die sie repr√§sentieren. In den *Metadaten* sind die
folgenden Bereiche durch farbige Rahmen hervorgehoben:


| Rahmenfarbe                       | Bytes (Hexadezimal) | Interpretiert als                 | Wert | Bedeutung               |
|-----------------------------------|---------------------|-----------------------------------|------|-------------------------|
| <font color="#f00">rot</font>     | `424D`              | ASCII                             | BM   | Dateityp                |
| <font color="#0f0">gr√ºn</font>    | `C6000000`          | Ganzzahl (32 Bits, little endian) | 198  | Dateigr√∂√üe in Bytes     |
| <font color="#00f">blau</font>    | `36000000`          | Ganzzahl (32 Bits, little endian) | 54   | Metadatengr√∂√üe in Bytes |
| <font color="#ff0">gelb</font>    | `08000000`          | Ganzzahl (32 Bits, little endian) | 8    | Bildbreite in Pixel     |
| <font color="#f0f">magenta</font> | `06000000`          | Ganzzahl (32 Bits, little endian) | 6    | Bildh√∂he in Pixel               |
| <font color="#0ff">cyan</font>    | `1800`              | Ganzzahl (16 Bits, little endian) | 24   | Farbtiefe in Bits       |

Wir sehen, dass darin die <font color="#0f0">Dateigr√∂√üe</font> und die
<font color="#00f">Gr√∂√üe der Metadaten</font> (jeweils die Anzahl an
Bytes) kodiert sind. Damit kann ein Programm berechnen, ab welcher
Byte-Position die Bilddaten beginnen. Au√üerdem ist das Bildformat
(<font color="#ff0">Breite</font> und <font color="#f0f">H√∂he</font>)
sowie die <font color="#0ff">Farbtiefe</font> (Bits pro Pixel)
angegeben, so dass die Bilddaten korrekt interpretiert werden
k√∂nnen. Wir k√∂nnen ebenfalls erkennen, dass das Bild zeilenweise
gespeichert ist, allerdings "r√ºckw√§rts": die Bilddaten beginnen mit
der untersten Zeile und enden mit der obersten Zeile. Die ersten
beiden Bytes der Datei k√∂nnen einem Programm helfen, die Datei als
[(Windows-)Bitmap](https://de.wikipedia.org/wiki/Windows_Bitmap) zu
erkennen *(mehr dazu im Abschnitt [Dateiformate](5_Dateiformate.ipynb))*. 
Die komplette Struktur einer Bitmap-Datei ist in [dieser detaillierten √úbersicht](https://commons.wikimedia.org/wiki/File:BMPfileFormat.png) dargestellt.

Windows-Bitmap ist ein relativ altes Dateiformat f√ºr Rastergrafik und
bietet kaum Unterst√ºtzung f√ºr Datenkompression. Daher wird es kaum
noch verwendet. Aktuell sind vor allem drei Formate gebr√§uchlich:

- [Portable Network
  Graphics](https://de.wikipedia.org/wiki/Portable_Network_Graphics)
  (PNG) bietet verlustfreie Kompression und ist daf√ºr vor allem f√ºr
  Grafiken (z.B. Screenshots oder Icons) pr√§destiniert ‚Äì falls diese
  nicht als Vektorgrafik repr√§sentiert werden k√∂nnen oder sollen.
- Das [JPEG File Interchange
  Format](https://de.wikipedia.org/wiki/JPEG_File_Interchange_Format)
  (JPG) bietet die M√∂glichkeit, Bilder mit Hilfe eines der
  [JPEG-Verfahren](https://de.wikipedia.org/wiki/JPEG) zu
  komprimieren. Diese sind typischerweise verlustbehaftet und auf die
  Kompression fotografischer Abbildungen optimiert. Daher ist dieses
  Format vor allem f√ºr Fotos (z.B. aus Digitalkameras) geeignet.
- Das [Graphics Interchange
  Format](https://de.wikipedia.org/wiki/Graphics_Interchange_Format)
  (GIF) erm√∂glicht eine verlustfreie, allerdings auf 256 Farben
  beschr√§nkte Speicherung von Bildern. Da mehrere Bilder in einer
  Datei gespeichert werden k√∂nnen und diese von vielen Programmen (vor
  allem Webbrowsern) als Animation wiedergegeben werden k√∂nnen, ist es
  mittlerweile (wieder) beliebt, z.B. zur Darstellung von Memes auf
  Twitter. *(Animierte GIFs waren auch in den 90er Jahren schon mal
  [sehr beliebt](https://gifcities.org/).)*

Die **Vorteile** von Rastergrafiken sind ihre Einfachheit und weite
Verbreitung sowie die Unterst√ºtzung durch bzw. Nutzung in vielen
Ger√§ten. In der Digitalfotografie sind sie das Mittel der Wahl. Von
**Nachteil** ist beispielsweise, dass sie sich nicht verlustfrei
verkleinern oder ohne Artefakte vergr√∂√üern lassen und dass darin
gespeicherte Grafiken sich danach nur noch pixelweise bearbeiten
lassen.

<p style="text-align:center; font-weight: bold;">The History of Unicode</p>

<a title="√¢‚Ç¨≈ìIf you can read this, congratulations√¢‚Ç¨‚Äùthe archive you√¢‚Ç¨‚Ñ¢re using still knows about the mouseover text√¢‚Ç¨¬ù!" href="https://xkcd.com/1683/">
  <img alt="XKCD Comic: Digital Data" src="https://imgs.xkcd.com/comics/digital_data.png">
</a>

¬© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)



#### Vektorgrafik

[Vektorgrafiken](https://de.wikipedia.org/wiki/Vektorgrafik) bestehen
aus geometrischen Figuren (Strecken, Kreisen, Fl√§chen, etc.) die durch
eine spezielle Sprache (√§hnlich einer Programmiersprache) beschrieben
werden. Die Vektorgrafiken k√∂nnen daher oft als Textdatei
(z.B. mittels ASCII oder UTF-8) gespeichert werden. Eine Beispiel f√ºr
eine solche Sprache ist
[PostScript](https://de.wikipedia.org/wiki/PostScript), welches auch
die Grundlage f√ºr for das [Portable Document
Format](https://de.wikipedia.org/wiki/Portable_Document_Format) (PDF)
ist. Die folgenden sieben Zeilen PostScript zeichnen ein [Dreieck](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/triangle.ps):

```postscript
newpath
100 100 moveto
200 100 lineto
150 200 lineto
closepath
stroke
showpage
```

Python bietet mit der
[Turtle-Grafik](https://docs.python.org/3.3/library/turtle.html?highlight=turtle)
eine √§hnliche M√∂glichkeit, Grafiken zu erstellen und als PostScript zu
speichern. Das folgende Beispiel zeichnet ebenfalls ein Dreieck und
speichert es als Datei "dreieck.ps" auf Ihrem Rechner:

In [None]:
from turtle import *

setup(300,300) # Gr√∂√üe der Zeichnung
forward(100)   # 100 Einheiten geradeaus
left(120)      # um 120¬∞ nach links drehen
forward(100)   # 100 Einheiten geradeaus
home()         # zum Ausgangspunkt zur√ºck

getscreen().getcanvas().postscript(file="dreieck.ps")

mainloop()
bye()

Falls Sie ein Programm zur Anzeige von PostScript-Dateien installiert
haben, sollte ein Klick auf [dreieck.ps](dreieck.ps) die Datei √∂ffnen
und anzeigen. Wenn Sie die Datei mit einem Texteditor √∂ffnen sehen Sie
die PostScript-Befehle, die die Zeichnung erstellen. *(Diese sind
umfangreicher als das Beispiel oben, da beispielsweise noch eine
Pfeilspitze gezeichnet wird.)*

*(Sollten Sie nach diesem Beispiel Probleme bei der Ausf√ºhrung von
Python-Code in diesem Notebook haben, hilft meist ein Neustart des
Kernels mit Hilfe des Eintrags "Restart" im Men√º "Kernel".)*

Ein Vorteil von Vektorgrafik ist, dass die Grafik komplett geometrisch
beschrieben ist und der Computer sie in jeder gew√ºnschten Gr√∂√üe in
optimaler Qualit√§t darstellen kann. Da die meisten Ausgabeger√§te
(Bildschirm, Drucker) letztlich Rastergrafiken erzeugen, wird f√ºr die
Ausgabe eine Rastergrafik in einer f√ºr das Ger√§t passenden Aufl√∂sung
erzeugt und dadurch die bestm√∂gliche Ausgabequalit√§t erreicht. Im Fall
von PostScript √ºbernehmen h√§ufig sogar die Drucker selbst die
Erzeugung der Rastergrafik, d.h. die Drucker verstehen
PostScript-Dateien.

Ein im Web verbreitetes Format f√ºr Vektorgrafiken ist [Scalable Vector
Graphics](https://de.wikipedia.org/wiki/Scalable_Vector_Graphics)
(SVG). Es ist ebenfalls textbasiert und nutzt die [Extensible Markup
Language](https://de.wikipedia.org/wiki/Extensible_Markup_Language). Viele
der Abbildungen in diesem Kurs sind SVG-Dateien. Die nachfolgenden
Zeilen stellen eine vollst√§ndige SVG-Datei dar:

```svg
  <?xml version="1.0" standalone="no"?>
  <svg width="5cm" height="5cm" version="1.1" 
       xmlns="http://www.w3.org/2000/svg">
    <desc>Two groups, each of two rectangles</desc>
    <g id="group1" fill="red" >
      <rect x="1cm" y="1cm" width="1cm" height="1cm" />
      <rect x="3cm" y="1cm" width="1cm" height="1cm" />
    </g>
    <g id="group2" fill="blue" >
      <rect x="1cm" y="3cm" width="1cm" height="1cm" />
      <rect x="3cm" y="3cm" width="1cm" height="1cm" />
    </g>
    <circle cx="2.5cm" cy="2.5cm" r="1cm" fill="red" stroke="blue" stroke-width="10" />
    <!-- Show outline of canvas using 'rect' element -->
    <rect x=".01cm" y=".01cm" width="4.98cm" height="4.98cm" fill="none" stroke="blue" stroke-width=".02cm" />
  </svg>
```

Die Extensible Markup Language wird Ihnen sp√§ter im Kurs und auch in
anderen Kursen nochmals begegnen. Aber auch ohne viel Wissen zu XML
l√§sst sich schon erschlie√üen, welche Art von geometrischen Objekten
beschrieben wird, wie gro√ü diese sind und wo sie positioniert
werden. Wie so oft gilt aber insbesondere hier: ein Bild sagt mehr als
tausend Worte. Als SVG interpretiert ergibt sich daraus die folgende
Abbildung:

![Beispiel-SVG](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/example.svg)


<div class="alert alert-success"> 

Laden Sie die Datei
[example.svg](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/example.svg)
herunter und √∂ffnen Sie sie in einem Texteditor. √Ñndern Sie einige der
Werte (z.B. die Positionen oder Gr√∂√üen der geometrischen Objekte) und
betrachten Sie das Ergebnis, indem Sie die Datei mit Ihrem Webbrowser
√∂ffnen.

</div>



Vektorgrafiken werden zum Beispiel im Grafikdesign, im Computer Aided
Design (CAD) und f√ºr
[Schriften](https://de.wikipedia.org/wiki/Vektorfont)
verwendet. Typische Programme zum Erstellen von Vektorgrafiken sind
Inkscape, Adobe Illustrator, LaTeX, Scribus, CorelDRAW, u.a. Eine
bekannte Vektorgrafik ist der
[Ghostscript-Tiger](https://upload.wikimedia.org/wikipedia/commons/f/fd/Ghostscript_Tiger.svg).


### Ton
Ton- bzw. Audiosignale k√∂nnen im Wesentlichen als Schallwelle
aufgefasst werden, physikalisch gesehen zeitlich und √∂rtlich abh√§ngige
Druck√§nderungen. Eine Schallwelle kann graphisch in einem Diagramm
dargestellt werden, welches auf der horizontalen Achse die Zeit
und auf der vertikalen Achse die Amplitude auftr√§gt. Auf einer
Schallplatte ist der Kurvenverlauf des Tons in die Flanke der Rille
eingepr√§gt ‚Äì mit kontinuierlichen Zwischenwerten (= analog). 

Bei der *Digitalisierung* eines Tonsignals wird dieses diskretisiert:
- Einerseits wird die *Zeit* diskretisiert ‚Äì es gibt eine feste Anzahl
  an Messungen pro Zeiteinheit (die sogenannte
  [Abtastrate](https://de.wikipedia.org/wiki/Abtastrate)).
- Andererseits muss jeder *Messwert* als Zahl mit einer endlichen
  Genauigkeit
  ([Aufl√∂sung](https://de.wikipedia.org/wiki/Aufl%C3%B6sung_(Digitaltechnik))
  genannt) dargestellt werden ‚Äì daher werden auch die Messwerte
  diskretisiert.

In der folgenden Abbildung wird ein analoges Signal an 13¬†Messpunkten
gemessen und die Messwerte einem Vorrat aus 8¬†verschiedenen Messwerten
(entsprechend einer Aufl√∂sung von $2^3 = 8$ Bit) zugewiesen:

![Diskretisierung eines analogen Signals](https://upload.wikimedia.org/wikipedia/commons/0/04/Digital.signal.discret.svg)

Die Messwerte $x[t]$ ergeben sich dementsprechend zu:

| $t$    | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
|--------|---|---|---|---|---|---|---|---|---|----|----|----|----|
| $x[t]$ | 4 | 5 | 4 | 3 | 5 | 6 | 7 | 5 | 3 | 3  | 4  | 4  | 3  |

Dabei gehen einerseits Informationen √ºber den Verlauf der Kurve
zwischen den Messpunkten verloren und andererseits ist die
Messaufl√∂sung begrenzt ‚Äì der diskretisierte Messwert weicht vom
tats√§chlichen Verlauf der Kurve ab.

Um das Signal mit einer hinreichend guten Qualit√§t f√ºr die Wiedergabe
zu erfassen, muss es sehr h√§ufig gemessen und die einzelnen Messwerte
mit einer hohen Genauigkeit gespeichert werden. Typische Werte (die
z.B. bei einer Audio-CD verwendet werden) sind eine Abtastrate von
44100¬†Hertz (also 44100 Messungen pro Sekunde) bei einer Aufl√∂sung von
16¬†Bit pro Kanal (also 32¬†Bit bei Stereowiedergabe).

In Python k√∂nnen wir schnell berechnen, wie viel Speicherplatz f√ºr
eine Stereoaufnahme in CD-Qualit√§t ben√∂tigt wird:


In [None]:
t = 60 * 5 # Dauer der Aufnahme in Sekunden
#   Stereo Aufl√∂sung Abtastrate Dauer
s = 2 *    16 *      44100 *    t
print("Eine Stereoaufnahme in CD-Qualit√§t von", t, "Sekunden L√§nge ben√∂tigt", s, "Bits")
print("(entsprechend", s/8, "Bytes bzw.", "{:.2f}".format(s/8/1024/1024), "Mebibytes).")


√úblicherweise werden solche unkomprimierten Tonsignale als
[WAV](https://en.wikipedia.org/wiki/WAV)-Datei gespeichert. Eine
genauere Beschreibung dieses Dateiformats geht √ºber den Rahmen dieser
Lerneinheit hinaus.

Durch (verlustbehaftete) Kompression l√§sst sich der notwendige
Speicherplatz etwa um den Faktor 10 reduzieren. Daf√ºr wird das
menschliche Geh√∂r modelliert und aus dem Signal diejenigen
Informationen entfernt, die das menschliche Geh√∂r (typischerweise)
nicht wahrnehmen kann. Bekannte Verfahren sind
[MP3](https://de.wikipedia.org/wiki/MP3) und
(Ogg-)[Vorbis](https://de.wikipedia.org/wiki/Vorbis).


## Aufgaben
<div class="alert alert-success">

### Datenkompression

*erwarteter Zeitaufwand: ca. 90 Minuten*

Recherchieren Sie die Funktionsweise eines konkreten
Datenkompressionsverfahrens (z.B. ZIP, MP3, JPEG) und erstellen Sie
ein Video von ca. 2¬†Minuten L√§nge, in dem Sie das Verfahren
(bzw. zumindest die Grundidee) erkl√§ren.

**Abschluss:** Posten Sie Ihr Video im Forum.
    
</div>


<div class="alert alert-success">

### Textkonvertierung

*erwarteter Zeitaufwand: ca. 90 Minuten*
    
Ziel dieser Aufgabe ist, dass Sie sich mit den Herausforderungen und Problemen bei der Konvertierung bzw. Umstellung/Migration von Textkodierungen befassen. Dazu k√∂nnen Sie eigene Texte recherchieren oder auf eines der nachfolgenden alphabetisch sortierten Dokumente zur√ºckgreifen:

- [Anleitung des World Wide Web Consortiums zur Unicode-Migration](https://www.w3.org/International/articles/unicode-migration/) (9000 W√∂rter, 150 Minuten) Vor allem der Abschnitt [Migrating Data](https://www.w3.org/International/articles/unicode-migration/#migrating) ist relevant.
- [Data Cleaning Challenge: Character Encodings](https://www.kaggle.com/rtatman/data-cleaning-challenge-character-encodings) (3500 W√∂rter incl. Quellcode, 60 Minuten) Fokussiert auf (programmier)technische Herausforderungen bei der Verarbeitung von Daten (z.B. im Rahmen der Datenanalyse), enth√§lt Python-Beispielcode.
- [Migrating to Unicode, Part I](http://bcbjournal.org/special_issue/bcbj_vol14_num5.pdf#page=12) (3600 W√∂rter, 60 Minuten) Der Zeitschriftenartikel beschreibt die Herausforderungen, die sich bei der Migration einer C++-Entwicklungsumgebung ergeben haben, auch anhand zahlreicher Codebeispiele in C++.
- [SAP-Migrationen auf Unicode](https://www.doag.org/formes/pubfiles/49353/Buhlinger.pdf) (6000 W√∂rter, 100 Minuten) Folien zu Herausforderungen bei der Migration von SAP-Systemen zu Unicode.
- [The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)](https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/) (3600 W√∂rter, 60 Minuten) Dieser Blogpost beschreibt sehr anschaulich die Geschichte und Grundlagen von Unicode und geht auf einige Herausforderungen bei der Umstellung bzw. beim Programmieren ein.
- [Unicode-Migration eines komplexen Software-Systems: Entwurf eines modulisierbaren Umstellungsprozesses und Anwendung als Fallstudie am Dokumenten-Management-System PROXESS](https://kola.opus.hbz-nrw.de/frontdoor/index/index/year/2013/docId/706) (47000 W√∂rter, 13 Stunden) Eine Diplomarbeit mit einer sehr ausf√ºhrlichen Fallstudie f√ºr ein konkretes System.
- [Unicode, UTF-8, ASCII, and SNOMED CT](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1480066/) (800 W√∂rter, 13 Minuten) Das Poster wurde auf einer wissenschaftlichen Tagung vorgestellt und untersucht Kodierungsaspekte der [Systematisierten Nomenklatur der Medizin](https://de.wikipedia.org/wiki/Systematisierte_Nomenklatur_der_Medizin).
    
*Es ist nicht notwendig, dass Sie die Dokumente vollst√§ndig lesen. Die Wortanzahlen sind grobe Sch√§tzungen; die Angaben zur Lesedauer gehen von einer moderaten Lesegeschwindigkeit von 60 W√∂rtern pro Minute aus.*
    
Identifizieren Sie mindestens zwei Probleme bzw. Herausforderungen und beschreiben Sie diese in eigenen Worten. Welche Probleme im Zusammenhang mit Textkodierungen sind Ihnen selbst schon begegnet? 
    
**Abschluss:** Ihre Notizen dienen als Grundlage f√ºr eine Gruppenarbeit w√§hrend der Pr√§senzzeit.
   
</div>


<div class="alert alert-success">

### Eine Bin√§rdatei selbst erzeugen

*erwarteter Zeitaufwand: ca. 60 Minuten; Erg√§nzungsaufgabe*

Ziel dieser Aufgabe ist, dass Sie selbst√§ndig eine Bin√§rdatei ‚Äì
sozusagen "Byteweise" ‚Äì mit Python erzeugen und sich dann mit einem
passenden Programm das Ergebnis anschauen.

Im Prinzip geht das mit jedem Dateiformat, nachfolgend wird es anhand
einer Bitmap-Datei gezeigt:

</div>

In [None]:
# Bild-Dimensionen festlegen
breite = 120 # nur Vielfache von 4!
hoehe  = 100

# Bild als zweidimensionales Feld von Farbwerten (RGB-Tripel)
testbild = []

# Drei verschiedene Farbverl√§ufe (jeweils in der Breite des Bildes)
r = [(int(255/breite * spalte), 0, 0) for spalte in range(breite)] # rot
g = [(0, int(255/breite * spalte), 0) for spalte in range(breite)] # gr√ºn
b = [(0, 0, int(255/breite * spalte)) for spalte in range(breite)] # blau

# Bild zeilenweise erstellen
for zeile in range(hoehe):
    if zeile < 1/3 * hoehe:                                # erstes Drittel rot
        testbild.append(r)
    elif zeile < 2/3 * hoehe:                              # zweites Drittel gr√ºn
        testbild.append(g)
    else:                                                  # drittes Drittel blau
        testbild.append(b)

# Datei im Bin√§rmodus zum Schreiben √∂ffnen
with open("testbild.bmp", "wb") as f:
    # Kopfdaten schreiben
    f.write("BM".encode("ASCII"))                           # "BM"
    f.write(int.to_bytes(3*breite*hoehe + 54, 4, "little")) # Dateigr√∂√üe in Bytes (54 Bytes Kopfdaten)
    f.write(4*b'\x00')                                      # ungenutzt (vier Bytes Nullen)
    f.write(int.to_bytes(54,                  4, "little")) # Gr√∂√üe der Kopfdaten (54 Bytes)
    f.write(int.to_bytes(40,                  4, "little")) # Gr√∂√üe der Bildinfos (40 Bytes)
    f.write(int.to_bytes(breite,              4, "little")) # Breite des Bildes
    f.write(int.to_bytes(hoehe,               4, "little")) # H√∂he des Bildes
    f.write(int.to_bytes(1,                   2, "little")) # ungenutzt (1)
    f.write(int.to_bytes(24,                  2, "little")) # Farbtiefe (24 Bits)
    f.write(int.to_bytes(0,                   4, "little")) # 0 = unkomprimierte Daten
    f.write(int.to_bytes(3*breite*hoehe,      4, "little")) # Gr√∂√üe der Bilddaten in Bytes
    f.write(4*4*b'\x00')                                    # f√ºr unser Beispiel nicht relevant (alles Nullen)
    # Bilddaten schreiben
    for zeile in reversed(testbild):                        # letzte Zeile zuerst!
        for spalte in zeile:
            for farbe in reversed(spalte):                  # Blau, Rot, Gr√ºn statt Rot, Gr√ºn, Blau!
                f.write(farbe.to_bytes(1, "little"))

# Bild im Notebook anzeigen (mit Hack: https://stackoverflow.com/questions/37023166/)
import random
from IPython.display import HTML, display
display(HTML('<img src="testbild.bmp?{0}">'.format(random.randint(0,2e9))))


<div class="alert alert-success">
    
Im Code wird zuerst ein Bild mit drei Farbverl√§ufen als
zweidimensionales Feld `testbild` erzeugt. Danach wird dieses
gespeichert: zuerst die Kopfdaten (feste Werte bzw. Beschreibung des
Bildformats) und dann zeilenweise die Bilddaten.

Oberhalb des Codes zum Schreiben der Datei k√∂nnen Sie kreativ sein und
das Feld mit eigenen Werten bef√ºllen. Jeder Eintrag des Feldes muss
ein Tripel aus Werten im Bereich 0 (dunkel) bis 255 (hell) sein, die
jeweils f√ºr die Farben Rot, Gr√ºn und Blau stehen.

In der Praxis wird man recht selten auf diese Weise Bin√§rdaten lesen
oder schreiben, denn es gibt spezielle Python-Bibliotheken, um diese
zu verarbeiten.  Beispielsweise
[Pillow](https://pypi.org/project/Pillow/) f√ºr Bitmapgrafiken oder
[wave](https://docs.python.org/3/library/wave.html) f√ºr Tondaten im
WAV-Format. Dar√ºberhinaus erleichtern einem Bibliotheken wie
[construct](https://construct.readthedocs.io/en/latest/intro.html) die
Arbeit, indem Sie aus einer Beschreibung eines Dateiformats
selbst√§ndig Programmcode zum Lesen bzw. Schreiben des Dateiformats
generieren.

Es reicht aus, wenn Sie im vorgegebenen Python-Code den Code und vor
allem die Kommentare durchgehen und mit etwas kreativem Mut z.B. den
Inhalt der Variable `testbild` ver√§ndern, so dass ihre eigene
einmalige Rastergrafik entsteht.


**Abschluss:** Posten Sie Ihr Ergebnis (z.B. Bild) im Forum.

</div>
