# 4. Text vs bytes

## 4.1 Character Issues
### 유니코드
#### Code point: 문자의 단위 원소. 0~1,114,111tkdldml 10진수. 유니코드 표준에서는 U+(4~6자리 16진수) 로 표현함 (ex: A --> 'U+0041')
#### Encoding: code point를 byte로 변환하는 알고리즘. (ex: 'A'(U+0041) --> UTF-8: \x41, UTF-16LE: \x41\x00)
#### Decoding: byte를 code point로 변환하는 알고리즘.

In [8]:
a = 'cafe♩'
print(len(a))
b = a.encode('utf8')
print(b) # Bytes literal은 접두사 b로 시작한다
print(len(b))
print(b.decode('utf8'))

5
b'cafe\xe2\x99\xa9'
7
cafe♩


## 4.2 Bytes essentials
### - bytes and byte array
    #### - binary sequence가 실제로 정수형 시퀀스이긴 하지만, 많은 경우 ASCII text가 들어감
        #### 출력형태 1: 화면에 출력 가능한 아스키 문자 --> 그대로 출력
        #### 출력형태 2: 탭, 개행 문자 등 --> \t, \n 등으로 출력
        #### 출력형태 3: 그외의 값 --> 16진수 이스케이프 시퀀스로 출력 (ex: \x00)
#### - str이 제공하는 method를 거의 다 제공

In [49]:
a = bytes('cafe♪', encoding='utf_8')
a_arr = bytearray(a)

print(a)
print(len(a))
for i in range(len(a)):
    print(a[i], a[:i+1])

print(a_arr)
print(len(a_arr))
for i in range(len(a_arr)):
    print(a_arr[i], a_arr[:i+1])

b'cafe\xe2\x99\xaa'
7
99 b'c'
97 b'ca'
102 b'caf'
101 b'cafe'
226 b'cafe\xe2'
153 b'cafe\xe2\x99'
170 b'cafe\xe2\x99\xaa'
bytearray(b'cafe\xe2\x99\xaa')
7
99 bytearray(b'c')
97 bytearray(b'ca')
102 bytearray(b'caf')
101 bytearray(b'cafe')
226 bytearray(b'cafe\xe2')
153 bytearray(b'cafe\xe2\x99')
170 bytearray(b'cafe\xe2\x99\xaa')


In [36]:
bytes.fromhex('4A 4B EC A9')

b'JK\xec\xa9'

In [45]:
import array
numbers = array.array('h', [-3, -2, -1, 0, 1, 2, 3, 4])
octets = bytes(numbers)
print(numbers)
print(octets)

array('h', [-3, -2, -1, 0, 1, 2, 3, 4])
b'\xfd\xff\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00\x03\x00\x04\x00'


In [48]:
import struct
fmt = '3s3sHH'
with open('/home/jehyuk/Download/tw10_scvae_score_11_Confusion1.png', 'rb') as f:
    img = memoryview(f.read())
header = img[:10]
print(bytes(header))
print(struct.unpack(fmt, header))
del header
del img

b'\x89PNG\r\n\x1a\n\x00\x00'
(b'\x89PN', b'G\r\n', 2586, 0)


## 4.3 Basic Encoder/Decoder
    #### - codec은 open(), str.encode(), bytes.decode()등의 함수를 호출할 대, encoding 인수에 전달하여 사용할 수 있음

In [52]:
for codec in ['latin_1','utf_8','utf_16']:
    print(code, 'cafe'.encode(codec), sep='\t')

latin_1	b'cafe'
latin_1	b'cafe'
latin_1	b'\xff\xfec\x00a\x00f\x00e\x00'


## 4.4 Understanding Encoders/Decoders
### 4.4.1 Coping with UnicodeEncodeError
    #### - 텍스트를 바이트로 변환할 때, 문자가 대상 인코딩에 정의안되어 있으면, 별도의 처리기 지정 안하면 UnicodeEncodeError발생

In [62]:
city = 'Sao Paulo♪'
print(city.encode('utf_8'))
print(city.encode('utf_16'))
print(city.encode('iso8859_1', errors='ignore'))
print(city.encode('cp437', errors='ignore'))
print(city.encode('cp437', errors='replace')) # 인코딩할 수 없는 문자를 ?로 치환함 
print(city.encode('cp437', errors='xmlcharrefreplace')) # 인코딩할 수 없는 문자를 XML 개체로 치환함
print(city.encode('cp949'))

b'Sao Paulo\xe2\x99\xaa'
b'\xff\xfeS\x00a\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00j&'
b'Sao Paulo'
b'Sao Paulo'
b'Sao Paulo?'
b'Sao Paulo&#9834;'
b'Sao Paulo\xa2\xdc'


### 4.4.2 Coping with UnicodeDecodeError

In [67]:
octets = b'Montr\xe9al'
print(octets.decode('cp1252'))
print(octets.decode('iso8859_7'))
print(octets.decode('koi8_r'))
# print(octets.decode('utf_8'))
print(octets.decode('utf_8', errors = 'replace'))

Montréal
Montrιal
MontrИal
Montr�al


### 4.4.3 SyntaxError