# 2. Karakterkódolás

>Számítógépes nyelvészet, 2018 tavasz

>Simon Eszter, Mittelholcz Iván

>MTA, Nyelvtudományi Intézet

## Tartalom

* [1. Szöveges fájlok](#1.-Sz%C3%B6veges-f%C3%A1jlok)
    + [1.1. POSIX definíció](#1.1.-POSIX-definíció)
    + [1.2. Magyarázatok](#1.2.-Magyarázatok)
* [2. Karakterkódolások](#2.-Karakterk%C3%B3dol%C3%A1sok)
    + [2.1. ASCII](#2.1.-ASCII)
    + [2.2. Kiterjesztett ASCII](#2.2.-Kiterjesztett-ASCII)
    + [2.3. Unicode](#2.3.-Unicode)
* [3. Parancssor](#3.-Parancssor)
* [4. Python](#4.-Python)
    * [4.1. Built-ins](#4.1.-Built-ins)
    * [4.2. Csomagok](#4.2.-Csomagok)
* [5. Irodalom](#5.-Irodalom)

## 1. Szöveges fájlok

### 1.1. [POSIX definíció](http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_403)
> A file that contains characters organized into zero or more lines.
The lines do not contain NUL characters and none can exceed {LINE\_MAX} bytes in length,
including the \<newline\> character. Although POSIX.1-2008 does not distinguish between text files and binary files (see the ISO C standard), many utilities only produce predictable or meaningful output when operating on text files.

### 1.2. Magyarázatok

__POSIX__: Portable Operating System Interface for uniX

__karakter__: betűk, számok, írásjelek, nem nyomtatható (vezérlő)jelek

__sor__
* line feed (LF); carriage return (CR) (Na de milyen karakterkódolásban?)
* oprendszer függő
    * Windows: CR+LF
    * *nix: LF
    * classic MacOS: CR

In [None]:
%%bash
# Hány sor van egy szövegben?
echo -n 'alma' | wc -l
echo 'alma' | wc -l
echo -e 'alma\n' | wc -l

__NUL-karakter__: C-stringek záró eleme; null-bájt (00000000)

__LINE_MAX__: A _limits.h_ header-ben definiált érték egy sor
maximális hosszára, bájtban (C)

#### Miért van különbség szöveges és bináris fájlok között?

In [None]:
src = r'''#include<stdio.h>

int main()
{
    printf("Hello World\n");
    return 0;
}
'''
print(src, file=open('hello.c', 'w'))

In [None]:
%%bash
cat hello.c

In [None]:
%%bash
gcc hello.c
cat -A a.out

#### Miért nincs különbség szöveges és bináris fájlok között?

In [None]:
%%bash
xxd -b hello.c

In [None]:
%%bash
xxd -b a.out

## 2. Karakterkódolások

Karakterkódolás: a karakterkészlet („ábécé”) és a bitek közti
kapcsolat leírása.

* nem minden számít külön karakternek
  _<br/>A dőlt, félkövér, ligatúrák, alsó/felső index,
  stb karakterek sokszor csak a fontkészletekben vannak._
* nem kell minden lehetséges bitsorozathoz karaktert rendelni
  _<br/>Pl. az ASCII nem rendel karaktert az 1-el kezdődő bájtokhoz (a $11111111$ nem jelent semmit)_
* nem kell minden lehetséges karakterhez bitsorozatot rendelni
  _<br/>Pl. az ASCII nem kódolja a cirill karaktereket._

__encoding__: $\{String\} \to \{Bitsorozat\}$

Példa: $\ ABC \to 01000001\ 01000010\ 01000011$

Alkalmazás: pl. szövegbevitel

__decoding__: $\{Bitsorozat\} \to \{String\}$

Példa: $\ 01000001\ 01000010\ 01000011 \to ABC$

Alkalmazás: pl. szövegmegjelenítés

### 2.1. ASCII

* 1963, USA: ékezet nélküli, angol karakterek
* távírókhoz: vezérlőkarakterek, pl. [CR](https://youtu.be/Pp2IJIk5qvc), LF, ESC, BELL
* 128 karakter – 7 bit (0-tól 127-ig számozva)
* ahol 1 bájt = 8 bit: ’0’ prefix minden ASCII-kód elé

<img src='https://upload.wikimedia.org/wikipedia/commons/c/cf/USASCII_code_chart.png' title='ASCII karaktertábla' />

#### 2.1.1. Bitenkénti operátorok, letter case

In [None]:
bin(0b1000001 | 0b0100000)

In [None]:
bin(0b1100001 ^ 0b0100000)

In [None]:
chr(65 | 32)

In [None]:
ord('a')

##### Feladat

A fentiek segítségével írjunk olyan python függvényt,
* ami kisbetűsíti az ascii nagybetűket, minden mást érintetlenül hagy (ascii_lower),
* ami nagybetűsíti az ascii kisbetűket, minden mást érintetlenül hagy (ascii_upper).

Használat:

```python
>>> ascii_lower('U')
'u'
>>> ascii_lower('Ű')
'Ű'
>>> ascii_upper('g')
'G'
>>> ascii_upper('!')
'!'
```

Módosítsuk a függvényeinket, hogy ne csak egy-egy karakterre, de hosszabb stringekre is működjenek!

### 2.2. Kiterjesztett ASCII

Van egy maradék bit, használjuk ki!

* [ISO 8859](https://en.wikipedia.org/wiki/ISO/IEC_8859#Table) (1983)
    - ISO 8859-1: nyugat-európai (_latin-1_)
    - ISO 8859-2: közép-európai (_latin-2_)
    - ISO 8859-5/6/7/8: cirill / arab / görög / héber
* [Windows code pages](https://en.wikipedia.org/wiki/Windows_code_page) (1985)
    - Windows-1250: közép- és kelet-európai
    - Windows-1252: nyugat-európai

Summa:

* fix, 1-bájtos kódolások
* több külön lapon lévő nyelv használata egy dokumentumban probléma (többnyelvű lapok)
* minden bájtsorozat érvényes (lehetne) és dekódolható (lehetne) bármelyik kódolással

### 2.3. Unicode

* 1988, egy ideig vele párhuzamosan fut az Universal Character Set (UCS, 1989), ami később beolvad a Unicode-ba
* cél minden írásrendszer karaktereit egy egységes kódolásban kezelni
* két lépcsős felépítés:
    * Unicode: karakter $\to$ kódpont
    * Unicode-kompatibilis karakterkódolás (többféle): kódpont $\to$ bitek     

#### 2.3.1. Kódpontok

* jelölés: U+XXXX (négy-hat jegyű hexakód, pl. 'A' = U+0041)
* 17 lap (0-10FFFF), egyenként $2^{16}$ hellyel (kb. 1.100.000 hely)
    * 0\. lap: [Basic Multilingual Plane](https://upload.wikimedia.org/wikipedia/commons/8/8e/Roadmap_to_Unicode_BMP.svg)
    * 1\. lap: Supplementary Multilingual Plane
    * 2., 3. és 14. lap: kiegészítő lapok
    * 4-13. lapok: nem használtak (még)
    * 15-16. lapok: saját használatra
* Unicode 10.0 (2017): kb. 137.000 foglalt (kb. 12%)
    * [kódtáblák](https://www.unicode.org/charts/)
    * [leírás](http://www.unicode.org/versions/Unicode10.0.0/UnicodeStandard-10.0.pdf)

#### 2.3.2. Főbb tulajdonságok

* univerzális
* karaktereket kódol, nem glifákat

<img src="images/charVSglyph.png">

* szemantika: minden karakternek jelentése van
* plain text: a Unicode-karakterek sima szöveget kódolnak
    * Unicode-karakter + fontkészlet = glifa
* dinamikus komponálás

<img src="images/composition.png">

<img src="images/ordering.png">

* stabilitás: ha egy karakter egyszer egy kódpontra lett definiálva, akkor az ott is van, és nem fog megváltozni vagy eltűnni
* konvertálhatóság: átjárhatóság más karakterkódolások felé

#### 2.3.2. UTF és UCS karakterkódolások

* több lehetséges karakterkódolás, ami a kódpontokat bitekre képezi
    * UCS: _Universal Character Set_, beolvadt a Unicode-ba
    * UTF: _Unicode Transformation Format_
* állandó hosszúságú (tömb, indexelhetőség, string-hossz)
* változó hosszúságú (a fentiek mind nem)

__UCS-4 / UTF-32__

* állandó hosszúságú, 4 bájt
* sok hely: kb 2,1 milliárd ($2^{31}$ -- előjelbit nem használt)
* hátrányok:
    * pazarló
    * NUL-bájtok a szövegben

__UCS-2__

* állandó hosszúságú, 2 bájt
* kevés hely: kb 65 ezer ($2^{16}$)
* egy az egyben kódolja a BMP-t
* szokás keverni a UTF-16-tal, de nem azonos vele (részhalmaz)

__UTF-16__

* változó hosszúságú, 2 vagy 4 bájt
* 2 bájton egy az egyben kódolja a BMP-t
* 4 bájton a Unicode többi részét ([hogyan?](https://en.wikipedia.org/wiki/UTF-16#Description))
* nem minden bájtsorozat jólformált: 
    * 4 bájt esetén: az első két bájt és a második két bájt mindig különbözik 
    * 2 bájt esetén: az önálló 2 bájt mindig különbözik egy 4 bájtos bármelyik darabjától

__UTF-8__

* változó hosszúságú, 1-4 bájt
* 1 bájton egy az egyben kódolja a ASCII-t
* 2-4 bájton a Unicode többi részét ([hogyan?](https://en.wikipedia.org/wiki/UTF-8#Description))
* nem minden bájtsorozat jólformált, a bájtsorozat eleje mindig megkülönböztethető

<img src='https://upload.wikimedia.org/wikipedia/commons/c/c4/Utf8webgrowth.svg'>

### 3. Parancssor

Nincsen _plain text_ kódolás nélkül.

HTML példa: Honnan tudja a böngésző, hogyan dekódolja a HTML header-t?

```html
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
</head>
```

Mi alapján lehet tippelni?

1. ?
2. ?

In [None]:
%%bash

file hello.c
echo
file a.out

In [None]:
%%bash
# -i kapcsoló: MIME típus (Multipurpose Internet Mail Extensions)

file -i hello.c
echo
file -i a.out

In [None]:
%%bash
# Miért működik?

iconv -f utf-8 -t latin1 hello.c

In [None]:
%%bash
# Mi a baj?

echo 'árvíztűrő' | iconv -f utf-8 -t latin1

In [None]:
%%bash
# Mi a jó?
# Mi a baj?

echo 'árvíztûrõ' | iconv -f utf-8 -t latin1
echo 'árvíztűrő' | iconv -f utf-8 -t latin2
echo '�' # U+FFFD REPLACEMENT CHARACTER

In [None]:
%%bash
# A tippelés korlátai.

echo 'árvíztűrő' | iconv -f utf-8 -t iso-8859-2 >latin.txt
file latin.txt
echo
file -i latin.txt

##### További hasznos parancsok, csomagok

* `recode`: hasonló az `iconv`-hoz, konvertál különböző kódolások között
* `ascii`: ASCII karakterekről infó, karaktertábla
* [Unicode Utilities](http://billposer.org/Software/unidesc.html): Unicode karakterekről infók, több parancsot tartalmazó csomag
* vim
    * `:as[cii]`
    * `ga`
    * [vim-characterize](https://github.com/tpope/vim-characterize)

### 4. Python

#### 4.1. Built-ins

##### string

* Unicode kódpontok sorozata (belső reprezentációhoz l. [PEP393](https://www.python.org/dev/peps/pep-0393/))
* nincs külön 'karakter' típus
* immutábilis
* idézőjelek (opcionális `u` prefixszel a python2 kompatibilitás végett)
* `str()`

##### bytes

* bájtok (0-255) sorozata
* immutábilis (mutábilis verziója a _bytearray_)
* idézőjelek `b` prefixszel, pl. `b'alma'`
* `bytes()`

A legtöbb itt fontos függvény számára az opcionális `encoding` paraméterrel megadható a kódolás.

Pythonban haszálható standard kódolások és aliasaik [itt](https://docs.python.org/3/library/codecs.html#standard-encodings).

In [None]:
b'alma'

In [None]:
# Mi a baj?

b'árvíztűrő'

In [None]:
for i in memoryview(b'alma'):
    print(chr(i), bin(i), hex(i), i)

##### Encoding ( $string \to bytes$)

In [None]:
'alma'.encode()

In [None]:
'alma'.encode(encoding='utf_8')

In [None]:
'alma'.encode(encoding='utf_16')

In [None]:
'alma'.encode(encoding='utf_32')

In [None]:
print(
    'alma'.encode(encoding='ascii'),
    'alma'.encode(encoding='latin1'),
    'alma'.encode(encoding='latin2'),
    sep='\n'
)

In [None]:
# Mi a baj?

'árvíztűrő'.encode(encoding='ascii')

In [None]:
'árvíztűrő'.encode(encoding='latin1') # iso8859_2

In [None]:
'árvíztűrő'.encode(encoding='latin2') # iso8859_2

In [None]:
'árvíztûrõ'.encode(encoding='latin1')

##### Decoding ( $bytes \to string$)

In [None]:
print(
    b'alma'.decode(),
    b'alma'.decode(encoding='utf-8'),
    b'alma'.decode(encoding='ascii'),
    sep='\n'
)

In [None]:
b'alma'.decode(encoding='utf-16')

In [None]:
b'alma'.decode(encoding='utf-32')

In [None]:
b'\xe1rv\xedzt\xfbr\xf5'.decode(encoding='latin2')

In [None]:
b'\xe1rv\xedzt\xfbr\xf5'.decode(encoding='latin1')

In [None]:
b'\xe1rv\xedzt\xfbr\xf5'.decode(encoding='iso8859_6') # arab

In [None]:
b'\xe1rv\xedzt\xfbr\xf5'.decode(encoding='iso8859_7') # görög

##### Fájlkezelés

In [None]:
# default: text, utf8

open('hello.c').read()

In [None]:
# bináris

open('hello.c', 'br').read()

In [None]:
# iso8859

print(
    open('latin.txt', encoding='latin1').read(),
    open('latin.txt', encoding='latin2').read(),
    open('latin.txt', encoding='iso8859_7').read(),
    sep=''
)

In [None]:
open('latin.txt', encoding='iso8859_6').read()

In [None]:
open('write-test.txt', 'w').write('árvíztűrő')
open('write-test.txt').read()

In [None]:
open('write-test.txt', 'w', encoding='U16').write('árvíztűrő')
open('write-test.txt', 'rb').read()

In [None]:
open('write-test.txt', 'w', encoding='ascii').write('árvíztűrő')
open('write-test.txt', 'rb').read()

#### 4.2. Csomagok

##### Kódolás detektálása

[chardet](http://chardet.readthedocs.io/en/latest/) csomag

In [None]:
import chardet

chardet.detect(open('hello.c', 'rb').read())

In [None]:
chardet.detect(open('latin.txt', 'rb').read())

##### Unicode tulajdonságok

[unicodedata](https://docs.python.org/3.6/library/unicodedata.html) csomag

[unicode karakterosztályok](http://www.unicode.org/reports/tr44/#General_Category_Values)

In [None]:
import unicodedata as ud

print(ud.name('ő'))
print(ud.category('ő'))

Sok karakter többféleképpen is kifejezhető Unicode-ban.

* NFD: dekomponált normálforma: alap karakter + 0 hosszúságú kiegészítő karakterek (pl. ékezetek)
* NFC: komponált normálforma: egyetlen karakter, mindennel felszerelve -- nem minden karakternek van NFC-je

In [None]:
nf = ud.normalize('NFD', 'ő')
print(nf, len(nf))

In [None]:
nf = ud.normalize('NFD', 'z̈')
print(nf, len(nf))
print(nf[0], '\t', ud.category(nf[0]), ud.name(nf[0]))
print(nf[1], '\t', ud.category(nf[1]), ud.name(nf[1]))

In [None]:
nf = ud.normalize('NFC', 'ő')
print(nf, len(nf))

In [None]:
ud.decomposition('ő')

In [None]:
for x in ud.decomposition('ő').split():
    c = chr(int(x, base=16))
    print(c, '\t', ud.category(c), ud.name(c))

***

### 5. Irodalom

* [Character sets, encodings, and Unicode](http://www.gammon.com.au/unicode/)
* [The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets](https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/)
* [Python: Unicode HOWTO](https://docs.python.org/3/howto/unicode.html)
* [The Unicode® Standard: A Technical Introduction](http://www.unicode.org/standard/principles.html)
* [Latest Version of the Unicode Standard](http://www.unicode.org/versions/latest/)

***

In [None]:
%%bash
# takarítás

rm -f hello.c
rm -f a.out
rm -f latin.txt
rm -f write-test.txt