## 4.1 문자 문제

- 디코딩(decoding) : 해독
- 인코딩(encoding) : 암호화

In [2]:
s = 'café' # 네 개의 유니코드 문자 
len(s)

4

In [3]:
b = s.encode('utf-8') # UTF-8 인코딩을 이용해서 str을 bytes로 인코딩
b # bytes 리터럴은 접두사 b로 시작

b'caf\xc3\xa9'

In [4]:
len(b) # é가 UTF-8에서 두 바이트로 인코딩되어서 b는 다섯 바이트로 구성

5

In [5]:
b.decode('utf-8') # bUTF-8 인코딩을 이용해서 str을 bytes로 디코딩

'café'

## 4.2 바이트에 대한 기본 지식

- 이진 시퀀스를 위해 사용되는 내장 자료형
    - bytes (파이썬 3에서 소개된 불변형 immutable, 튜플과 비슷)
    - bytearray (파이썬 2.6에 추가된 가변형)

In [6]:
cafe = bytes('café', encoding='utf_8') # bytes는 str에 인코딩을 지정해서 만들 수 있다
cafe

b'caf\xc3\xa9'

In [7]:
cafe[0] # 각 항목은 range(256)에 들어가는 정수다

99

In [8]:
cafe[:1] # bytes는 슬라이싱해도 bytes다

b'c'

In [9]:
cafe_arr = bytearray(cafe)
cafe_arr

bytearray(b'caf\xc3\xa9')

In [10]:
cafe_arr[-1:]

bytearray(b'\xa9')

In [11]:
bytes.fromhex('31 4B CE A9')

b'1K\xce\xa9'

In [12]:
import array
numbers = array.array('h', [-2, -1, 0, 1, 2]) # 'h' 타입코드는 short int(16비트) 형의 배열을 생성
octets = bytes(numbers)
octets

b'\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00'

In [38]:
import struct
fmt = '<3s3sHH'
with open('gif/bird-wings-flying-feature.gif', 'rb') as fp:
    img = memoryview(fp.read())

In [41]:
header = img[:10]
bytes(header)

b'GIF89a9\x03\xd1\x01'

In [42]:
struct.unpack(fmt, header)

(b'GIF', b'89a', 825, 465)

In [43]:
del header
del img

## 4.3 기본 인코더/디코더

In [47]:
for codec in ['latin_1', 'utf-8', 'utf-16']:
    print(codec, 'El Niño'.encode(codec), sep='\t')

latin_1	b'El Ni\xf1o'
utf-8	b'El Ni\xc3\xb1o'
utf-16	b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'


## 4.4 인코딩/디코딩 문제 이해하기

In [52]:
city = 'São Paulo'
city.encode('utf-8')

b'S\xc3\xa3o Paulo'

In [53]:
city.encode('utf_16')

b'\xff\xfeS\x00\xe3\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00'

In [54]:
city.encode('cp437')

UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

In [55]:
city.encode('cp437', errors='ignore')

b'So Paulo'

In [56]:
city.encode('cp437', errors='replace')

b'S?o Paulo'

- 왜곡된 문자: gramlin (문자 깨짐)

In [60]:
octets = b'Montr\xe9al'
octets.decode('cp1252')

'Montréal'

In [61]:
octets.decode('iso8859_7')

'Montrιal'

In [62]:
octets.decode('utf-8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 5: invalid continuation byte

- �: 공식 유니코드 치환 문자 (REPLACEMENT CHARACTER)

In [63]:
octets.decode('utf-8', errors='replace')

'Montr�al'

In [65]:
# coding: cp1252

print('Olá Mundo!')

Olá Mundo!


In [66]:
!chardetect 'txt/proverb.txt'

txt/proverb.txt: Windows-1252 with confidence 0.73


In [67]:
u16 = 'El Niño'.encode('utf16')
u16

b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'

In [68]:
list(u16)

[255, 254, 69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111, 0]

In [72]:
"0:x".format(166)

'0:x'

In [77]:
int('45', 16)

69

In [78]:
hex(69)

'0x45'

In [84]:
format(69, '#x')

'0x45'