# Ãœbungsaufgaben 3.2: Encoding



## 1. Aufgabe `count_glyphs`
Schreiben Sie ein Programm (awk, Shell-Skript oder Python), das die
Anzahl der Buchstaben in einem Text zÃ¤hlt, wobei kombinierende Zeichen
nicht berÃ¼cksichtigt werden. Das Programm soll von `stdin` lesen und
die Anzahl der Zeichen nach `stdout` schreiben (wie z.B. `wc`).

```bash
$ echo -n "Hallo aus MÃ¼nchen!" | uconv -f utf8 -t utf8 -x nfd | ./count_glyphs.py
18
$
```


#### ErlÃ¤uterung

Der String `Hallo aus MÃ¼nchen!` enthÃ¤lt 18 Zeichen/Buchstaben, 17 davon ASCII-Zeichen. Der Umlaut `Ã¼` kann entweder Ã¼ber ein Unicode-Zeichen reprÃ¤sentiert werden (dann mit 2 Byte kodiert), oder als Kombination aus zweien (`u`+combining-character).

Wenn mit `nfd` diese zweite, dekomponierte ReprÃ¤sentationsform erzwungen wird, zÃ¤hlt `wc` also insgesamt 19 Zeichen:

In [200]:
%%bash
echo -n "Hallo aus MÃ¼nchen!" | uconv -f utf8 -t utf8 -x nfd | wc -m

      19


Das  `counts_glyphs`-Programm soll diese MitzÃ¤hlen kombinierender Zeichen verhindern.

### LÃ¶sung 1a: count_glyphs.bash mit uconv und nfc

- Verwendung von uconv zur Herstellung der komponierten Normalform (nfc) aus dem erzwungenen (nfd) dekomponierten Input, anschlieÃŸend wc zur ZeichenzÃ¤hlung:

#### count_glyphs.bash:

In [None]:
%%bash
#!/bin/bash
uconv -f utf8 -t utf8 -x nfc | wc -m

In [None]:
# nfd: decomposition 
# nfc: composition

#### Usage:

In [189]:
%%bash
echo -n "Hallo aus MÃ¼nchen!" | uconv -f utf8 -t utf8 -x nfd | ./count_glyphs.py

18


### LÃ¶sung 1b: count_glyphs_mac.bash mit iconv und utf8-mac-Kodierung (nur Mac OS X, aber veraltet)

Einige Versionen von iconv unter Mac OS X haben einen entsprechende Herstellung der komponierten Normalform (nfc) unterstÃ¼tzt (utf8-mac).

In [207]:
%%bash
#UTF-8-MAC Kodierung nicht mehr im aktuellen iconv unter Mac OS X enthalten:
iconv -l | sed 5q

ANSI_X3.4-1968 ANSI_X3.4-1986 ASCII CP367 IBM367 ISO-IR-6 ISO646-US ISO_646.IRV:1991 US US-ASCII CSASCII
UTF-8
ISO-10646-UCS-2 UCS-2 CSUNICODE
UCS-2BE UNICODE-1-1 UNICODEBIG CSUNICODE11
UCS-2LE UNICODELITTLE



#### count_glyphs_mac.bash:

In [None]:
%%bash
#!/bin/bash
iconv -f utf8-mac -t utf8 | wc -m

In [None]:
# utf8-mac: decomposed
# utf8: composed

#### Usage:

In [189]:
%%bash
echo -n "Hallo aus MÃ¼nchen!" | iconv -f utf8 -t utf8-mac | ./count_glyphs_mac.bash

18


### LÃ¶sung 2a: count_glyphs_nfc.py mit unicodedata.normalize

Diese LÃ¶sung mit Python transformiert (genau wie die bash-LÃ¶sungen zuvor), das Input in die komponierte Normalform und berechnet anschlieÃŸend die LÃ¤nge des UTF-8-kodierten Strings:


#### count_glyphs_nfc.py:

In [None]:
#!/usr/bin/env python
import sys
import unicodedata

print(len(unicodedata.normalize('NFC', sys.stdin.read())))

In [None]:
# NFD: decomposed
# NFC: composed


Verwendung eines Hilfprogramms `decompose.py` (`'NFD` statt `'NFC'`), um die Dekomponierung zu erzwingen (analog zur Verwendung von `nfd` mit uconv oben):

#### decompose.py:

In [None]:
#!/usr/bin/env python
import sys
import unicodedata

print(unicodedata.normalize('NFD', sys.stdin.read()), end='')

In [197]:
%%bash
echo -n "Hallo aus MÃ¼nchen!" | ./decompose.py | wc -m

      19


In [196]:
%%bash
#kÃ¶nnte auch als Python One-Liner geschrieben werden:
echo -n "Hallo aus MÃ¼nchen!" | 
python -c "import sys, unicodedata; print(unicodedata.normalize('NFD', sys.stdin.read()), end='')" | 
wc -m

      19


#### Usage:

In [198]:
%%bash
echo -n "Hallo aus MÃ¼nchen!" | ./decompose.py | ./count_glyphs_nfc.py

18


### ErlÃ¤uterung:

#### composed (Default Encoding):

In [138]:
%%bash
echo -n "Ã¼" | hexdump -C

00000000  c3 bc                                             |Ã¼|
00000002


In [140]:
%%bash
#count chars
echo -n "Ã¼" | wc -m 

       1


In [141]:
%%bash
#count bytes
echo -n "Ã¼" | wc -c

       2


#### decomposed:

In [142]:
%%bash
# u = 75 (ASCII-Zeichen)
echo -n "Ã¼" | ./decompose.py | hexdump -C

00000000  75 cc 88                                          |u?.|
00000003


In [143]:
%%bash
#count chars (u + combining character)
echo -n "Ã¼" | ./decompose.py | wc -m 

       2


In [145]:
%%bash
#count bytes
echo -n "Ã¼" | ./decompose.py | wc -c 

       3


### LÃ¶sung 2b: count_glyphs.py mit unicodedata.combining

Diese LÃ¶sung zÃ¤hlt nur nicht kombinierende Zeichen:

#### count_glyphs.py:

In [None]:
#!/usr/bin/env python3
import unicodedata
import sys

count = 0
other = 0
for chr in sys.stdin.read():
    x = unicodedata.combining(chr)
    if x == 0:
        count += 1
    else: 
        other += 1
print("Buchstaben: ", count)
print("kombinierende Zeichen: ", other)

#### Usage:

In [164]:
%%bash
echo -n "Ã¼" | ./decompose.py | ./count_glyphs.py

Buchstaben:  1
kombinierende Zeichen:  1


#### nicht alle kombinierenden Unicode-Characters werden erkannt:

In [165]:
%%bash
#Flagge Andorra = LÃ¤nderkennzeichen AD (2 kombinierende Unicodecharacters, werden durch 1 Glyphe dargestellt)
echo -n "ðŸ‡¦ðŸ‡©" | ./decompose.py | ./count_glyphs.py

Buchstaben:  2
kombinierende Zeichen:  0


In [166]:
import unicodedata
nfc = unicodedata.normalize('NFC', "ðŸ‡¦ðŸ‡©")
print(len(nfc))

2


In [210]:
%%bash
echo -n "ðŸ‡¦ðŸ‡©" | hexdump -C

00000000  f0 9f 87 a6 f0 9f 87 a9                           |?..??..?|                    
0000008


In [168]:
"ðŸ‡¦ðŸ‡©".encode() #A-LÃ¤ndercode D-LÃ¤ndercode (combining character)

b'\xf0\x9f\x87\xa6\xf0\x9f\x87\xa9'

## 2. Aufgabe `pchars`
Schreiben Sie ein Programm (awk, Shell-Skript oder Python), das fÃ¼r
jedes Zeichen in einem Text zeilenweise, das Zeichen, seine
Unicodenummer und seine Darstellung als UTF-8 kodiertes Zeichen
(hexadezimal) ausgibt. Das Programm soll von `stdin` lesen und die
Anzahl der Zeichen nach `stdout` schreiben.

```bash
$ echo 'AÃ¼' | ./pchars.py
A U+0041 0x41
Ã¼ U+00FC 0xc3bc
$
```

#### pchars.py:

In [212]:
#!/usr/bin/env python3
import sys

for c in sys.stdin.read():
    print(f"{c} U+{ord(c):04X}", end=" ") #Integer-Wert von c (ord()) in hexadezimal umwandeln (mit format-String)
    bs = c.encode(encoding='UTF-8') #umwandeln UTF-8-Kodierung in Byte-Array
    print("0x", end="")
    for b in bs:
        print(f"{b:02x}", end="") # Ausgabe hexadezimale UTF-8-Kodierung
    print()

#### Usage:

In [213]:
%%bash
echo -n "MÃ¼" | ./pchars.py

M U+004D 0x4d
Ã¼ U+00FC 0xc3bc


In [214]:
%%bash
echo -n "MÃ¼" | ./decompose.py | ./pchars.py

M U+004D 0x4d
u U+0075 0x75
Ìˆ U+0308 0xcc88


In [215]:
%%bash
echo -n "ðŸ‡¦ðŸ‡©" | ./pchars.py

ðŸ‡¦ U+1F1E6 0xf09f87a6
ðŸ‡© U+1F1E9 0xf09f87a9


In [216]:
%%bash
echo -n "ðŸ‡¦ðŸ‡©" | ./decompose.py | ./pchars.py

ðŸ‡¦ U+1F1E6 0xf09f87a6
ðŸ‡© U+1F1E9 0xf09f87a9
