## ASCII, Unicode, UTF-8

### ASCII

Ein Computer speichert Zahlen. Um mit Zeichen umgehen zu können, wird über
eine Zeichensatztabelle (Codepage) jedem Zeichen eine Zahl zugeordnet.
Der **ASCII-Code** (American Standard Code for Information Interchange) sieht in seiner ursprünglichen Version 7 Bits zur Codierung von Zeichen vor. Damit lassen sich $2^7 = 128$ Zeichen darstellen.  

<img src='bild3.png' width='600'>

In [1]:
ord('a')
 

97

**ISO-8859-1** ist eine Erweiterung des ASCII-Codes auf 8 bit und reicht für die meisten westeuropäischen Sprachen aus. Es fehlt aber das Eurozeichen und einige französische Zeichen.

<img src='bild1.png' width='550'>

In [7]:
 ord('ü')

'0xfc'

### Unicode und UTF-8

**Unicode** ist ein internationaler Standard, der jedem Schriftzeichen aller bekannter Sprachen einen eindeutige Zahl zuordnet (Code Point). [Unicode Charts](https://www.unicode.org/charts/). 


```
A     65 
a     97 
ß    223 
€   8364
```

In [4]:
ord('€'),chr(int('1F631',16))

(8364, '😱')

**UTF-8** (1992) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen. [Numberphile](https://www.youtube.com/watch?v=MijmeoH9LT4). <br>
Unicode-Zeichen größer als 127 werden in der UTF-8 Kodierung zu Byte-Ketten der Länge 2 bis 4 kodiert.

<img src='utf8.png'>


Beispiel: Die UTF-8 Codierung von € 
```
Code Point (dezimal) = 8364  
Code Point (hex) =  20AC  (zur Codierung werden 3 Bytes benötigt) 
Code Point (binär) =  0010 0000 1010 1100 
Aufteilung der bits in die 3 Bytes  
1110xxxx 10xxxxxx 10xxxxxx
11100010 10000010 10101100
E2 82 AC   ist die Codierung des Eurozeichens.
```

In [10]:
c = 'a'             # Zeichen
c.encode('utf-8')   # utf-8 Codierung 

b'a'

In [37]:
x = b'\xe2\x82\xac'     # utf-8 Codierung
x.decode("utf-8")        # zeichen
 

'€'

##### Einen Speicherbereich analysieren

Ein Texteditor soll folgenden Speicherbereich darstellen:

<img src='bild4.png'>

Derselbe Speicherbereich hexadezimal:

<img src='bild5.png'>

Die Bytefolge EF BB BF heißt **Byte Order Mark (BOM)** und gibt den Editor einen Hinweis darauf, dass
eine UTF-8 Kodierung vorliegt.  
0A ist die ASCII (und UTF-8) Codierung für den Zeilenvorschub.

In [18]:
x = b"\xe2\x99\x94"    # byte-Folge
c = x.decode("utf8")
print(c)

♔
