In [41]:
s = 'café'
len(s)

4

In [42]:
b = s.encode('utf8')
b

b'caf\xc3\xa9'

In [43]:
len(b)

5

In [44]:
b.decode('utf8')

'café'

In [45]:
cafe = bytes('café', encoding = 'utf_8')
cafe

b'caf\xc3\xa9'

In [46]:
cafe[0]

99

In [47]:
cafe[:1]

b'c'

In [48]:
cafe_arr = bytearray(cafe)
cafe_arr

bytearray(b'caf\xc3\xa9')

In [49]:
cafe_arr[-1:]

bytearray(b'\xa9')

In [50]:
bytes.fromhex('31 4B CE A9')

b'1K\xce\xa9'

In [51]:
import array

numbers = array.array('h', [-2,-1,0,1,2])
# 'h' 타입 코드는 short int(16비트) 형의 배열을 생성한다.
numbers

array('h', [-2, -1, 0, 1, 2])

In [52]:
octets = bytes(numbers)
octets

b'\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00'

In [53]:
import struct

# struct 포맷을 지정.
# <는 리틀앤디언, 3s3s는 3바이트 시퀀스
# HH는 16비트 정수 두개를 나타냄
fmt = '<3s3sHH'

with open('./simpsons.gif', 'rb') as fp:
    img = memoryview(fp.read())

header = img[:10]
bytes(header) # 화면 출력을 위해 bytes로 변환

b'GIF89a\xf3\x01k\x01'

In [54]:
struct.unpack(fmt, header) # 종류, 버전, 너비, 높이 튜플로 언패킹

(b'GIF', b'89a', 499, 363)

In [55]:
# memoryview 객체에 연결된 메모리 해제를 위해 참조 삭제
del header
del img

In [56]:
for codec in ['latin_1', 'utf8', 'utf16']:
    print(codec, 'El Niño'.encode(codec), sep='\t')

latin_1	b'El Ni\xf1o'
utf8	b'El Ni\xc3\xb1o'
utf16	b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'


In [57]:
for codec in ['ascii', 'latin_1', 'cp1252', 'cp437', 'utf8', 'utf-16le', 'gb2312']:
        print(codec, 'A'.encode(codec), sep='\t')

ascii	b'A'
latin_1	b'A'
cp1252	b'A'
cp437	b'A'
utf8	b'A'
utf-16le	b'A\x00'
gb2312	b'A'


In [58]:
city = 'São Paulo'
city.encode('utf-8')

b'S\xc3\xa3o Paulo'

In [59]:
# utf-* 계열은 ã 문자 인코딩 가능
city.encode('utf-16')

b'\xff\xfeS\x00\xe3\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00'

In [60]:
# iso8859_1도 인코딩 가능
city.encode('iso8859_1')

b'S\xe3o Paulo'

In [62]:
# cp437은 ã 문자 인코딩 불가능
# strict는 UnicodeEncodeError 발생
city.encode('cp437')    # 인코딩 에러 발생

UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

In [63]:
city.encode('cp437', errors='ignore')    # 인코딩 에러 건너뜀

b'So Paulo'

In [64]:
city.encode('cp437', errors='replace')    # 물음표(?)로 치환

b'S?o Paulo'

In [65]:
city.encode('cp437', errors='xmlcharrefreplace')    # XML 객체로 치환

b'S&#227;o Paulo'

In [66]:
octets = b'Montr\xe9al'    # latin1으로 인코딩됨
octets.decode('cp1252')    # cp1252는 latin1의 슈퍼셋이므로 제대로 디코딩됨

'Montréal'

In [67]:
octets.decode('iso8859_7')  # 그리스 문자를 위한 코덱이므로 엉뚱하게 해석함

'Montrιal'

In [68]:
octets.decode('koi8_r') # 러시아어를 위한 코덱

'MontrИal'

In [70]:
octets.decode('utf8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 5: invalid continuation byte

In [71]:
# �는 알 수 없는 문자를 표현하기 위해 사용하는 유니코드 공식 치환 문자
octets.decode('utf8', errors = 'replace')

'Montr�al'

In [72]:
'é'.encode('utf8')

b'\xc3\xa9'

In [73]:
u16 = 'El Niño'.encode('utf16')
u16

b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'

In [74]:
list(u16)

[255, 254, 69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111, 0]

In [75]:
u16le = 'El Niño'.encode('utf-16le')
list(u16le)

[69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111, 0]

In [76]:
u16be = 'El Niño'.encode('utf-16be')
list(u16be)

[0, 69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111]