## ASCII, Unicode, UTF-8

### ASCII

Ein Computer speichert binäre Daten. Um mit Zeichen umgehen zu können, wird über
eine Zeichensatztabelle (Codepage) jedem Zeichen eine binäre Codierung zugeordnet.
Der **ASCII-Code** (American Standard Code for Information Interchange) sieht in seiner ursprünglichen Version 7 Bits zur Codierung von Zeichen vor. Damit lassen sich $2^7 = 128$ Zeichen darstellen.  

<img src='bild3.png' width='600'>

In [None]:
ord('t')

In [None]:
hex(ord('t'))

**ISO-8859-1** ist eine Erweiterung des ASCII-Codes auf 8 bit und reicht für die meisten westeuropäischen Sprachen aus. Es fehlt aber das Eurozeichen und einige französische Zeichen. Gebräuchliche Namen für ähnliche Varianten sind *Windows-1252*, *Latin-1*, *Westeuropäisch* oder *ANSI*. 

<img src='bild1.png' width='550'>

In [None]:
 hex(ord('ü'))

Codierung der Buchstaben a-z, A-Z:

    A, B, C, ...  = 01000001, 01000010, 01000011, ...
    a, b, c, ...  = 01100001, 01100010, 01100011, ...


### Unicode und UTF-8

**Unicode** ist ein internationaler Standard, der jedem Schriftzeichen aller bekannter Sprachen einen eindeutige Zahl zuordnet (Code Point). [Unicode Charts](https://www.unicode.org/charts/). 


```
A     65 
a     97 
ß    223 
€   8364
```

In [None]:
ord('€')

In [None]:
chr(8364)

**UTF-8** (1992) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen. [Numberphile](https://www.youtube.com/watch?v=MijmeoH9LT4). <br>
Unicode-Zeichen größer als 127 werden in der UTF-8 Kodierung zu Byte-Ketten der Länge 2 bis 4 kodiert.

<img src='utf8.png'>


Beispiel: Die UTF-8 Codierung von € 

![](unicode.png)


In [None]:
c = '€'             # Zeichen
c.encode('utf-8')   # utf-8 Codierung 

In [None]:
x = b'\xe2\x82\xac'     # utf-8 Codierung
x.decode("utf-8")        # zeichen 

##### Einen Speicherbereich analysieren

Ein Texteditor soll folgenden Speicherbereich darstellen:

<img src='bild4.png' width='1000'>

Derselbe Speicherbereich hexadezimal:

<img src='bild5.png'>

Die Bytefolge EF BB BF heißt **Byte Order Mark (BOM)** und gibt den Editor einen Hinweis darauf, dass
eine UTF-8 Kodierung vorliegt.  
0A ist die ASCII (und UTF-8) Codierung für den Zeilenvorschub.

![](unicode2.png)

In [5]:
chr(0x2654)

'♔'

In [6]:
x = b"\xe2\x99\x94"    # byte-Folge
c = x.decode("utf8")
print(c)

♔
