## 4.1 문자 문제

- 디코딩(decoding) : 해독
- 인코딩(encoding) : 암호화

In [2]:
s = 'café' # 네 개의 유니코드 문자 
len(s)

4

In [3]:
b = s.encode('utf-8') # UTF-8 인코딩을 이용해서 str을 bytes로 인코딩
b # bytes 리터럴은 접두사 b로 시작

b'caf\xc3\xa9'

In [4]:
len(b) # é가 UTF-8에서 두 바이트로 인코딩되어서 b는 다섯 바이트로 구성

5

In [5]:
b.decode('utf-8') # bUTF-8 인코딩을 이용해서 str을 bytes로 디코딩

'café'

## 4.2 바이트에 대한 기본 지식

- 이진 시퀀스를 위해 사용되는 내장 자료형
    - bytes (파이썬 3에서 소개된 불변형 immutable, 튜플과 비슷)
    - bytearray (파이썬 2.6에 추가된 가변형)

In [6]:
cafe = bytes('café', encoding='utf_8') # bytes는 str에 인코딩을 지정해서 만들 수 있다
cafe

b'caf\xc3\xa9'

In [7]:
cafe[0] # 각 항목은 range(256)에 들어가는 정수다

99

In [8]:
cafe[:1] # bytes는 슬라이싱해도 bytes다

b'c'

In [9]:
cafe_arr = bytearray(cafe)
cafe_arr

bytearray(b'caf\xc3\xa9')

In [10]:
cafe_arr[-1:]

bytearray(b'\xa9')

In [11]:
bytes.fromhex('31 4B CE A9')

b'1K\xce\xa9'

In [12]:
import array
numbers = array.array('h', [-2, -1, 0, 1, 2]) # 'h' 타입코드는 short int(16비트) 형의 배열을 생성
octets = bytes(numbers)
octets

b'\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00'

In [38]:
import struct
fmt = '<3s3sHH'
with open('gif/bird-wings-flying-feature.gif', 'rb') as fp:
    img = memoryview(fp.read())

In [41]:
header = img[:10]
bytes(header)

b'GIF89a9\x03\xd1\x01'

In [42]:
struct.unpack(fmt, header)

(b'GIF', b'89a', 825, 465)

In [43]:
del header
del img

## 4.3 기본 인코더/디코더

In [47]:
for codec in ['latin_1', 'utf-8', 'utf-16']:
    print(codec, 'El Niño'.encode(codec), sep='\t')

latin_1	b'El Ni\xf1o'
utf-8	b'El Ni\xc3\xb1o'
utf-16	b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'


## 4.4 인코딩/디코딩 문제 이해하기

In [52]:
city = 'São Paulo'
city.encode('utf-8')

b'S\xc3\xa3o Paulo'

In [53]:
city.encode('utf_16')

b'\xff\xfeS\x00\xe3\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00'

In [54]:
city.encode('cp437')

UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

In [55]:
city.encode('cp437', errors='ignore')

b'So Paulo'

In [56]:
city.encode('cp437', errors='replace')

b'S?o Paulo'

- 왜곡된 문자: gramlin (문자 깨짐)

In [60]:
octets = b'Montr\xe9al'
octets.decode('cp1252')

'Montréal'

In [61]:
octets.decode('iso8859_7')

'Montrιal'

In [62]:
octets.decode('utf-8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 5: invalid continuation byte

- �: 공식 유니코드 치환 문자 (REPLACEMENT CHARACTER)

In [63]:
octets.decode('utf-8', errors='replace')

'Montr�al'

In [65]:
# coding: cp1252

print('Olá Mundo!')

Olá Mundo!


In [66]:
!chardetect 'txt/proverb.txt'

txt/proverb.txt: Windows-1252 with confidence 0.73


In [67]:
u16 = 'El Niño'.encode('utf16')
u16

b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'

In [68]:
list(u16)

[255, 254, 69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111, 0]

In [110]:
u16le = 'El Niño'.encode('utf_16le')
u16le
list(u16le)

[69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111, 0]

In [111]:
u16be = 'El Niño'.encode('utf_16be')
u16be
list(u16be)

[0, 69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111]

In [114]:
u8le = 'El Niño'.encode('utf_8')
u8le
list(u8le)

[69, 108, 32, 78, 105, 195, 177, 111]

## 4.5 텍스트 파일 다루기

In [117]:
open('txt/cafe.txt', 'w', encoding='utf-8').write('café')

4

In [120]:
open('txt/cafe.txt').read()

'café'

In [121]:
fp = open('cafe.txt', 'w', encoding='utf-8')
fp

<_io.TextIOWrapper name='cafe.txt' mode='w' encoding='utf-8'>

In [122]:
fp.write('café')

4

In [124]:
fp.close()

In [125]:
import os
os.stat('txt/cafe.txt').st_size

5

In [132]:
fp2 = open('txt/cafe.txt', encoding='cp1252')
fp2

<_io.TextIOWrapper name='txt/cafe.txt' mode='r' encoding='cp1252'>

In [133]:
fp2.encoding

'cp1252'

In [134]:
fp2.read()

'cafÃ©'

In [135]:
fp3 = open('txt/cafe.txt', encoding='utf_8')
fp3

<_io.TextIOWrapper name='txt/cafe.txt' mode='r' encoding='utf_8'>

In [136]:
fp3.read()

'café'

In [137]:
fp4 = open('txt/cafe.txt', 'rb')
fp4

<_io.BufferedReader name='txt/cafe.txt'>

In [138]:
fp4.read()

b'caf\xc3\xa9'

인코딩 방식을 알아내기 위해 파일 내용을 분석하는 경우가 아니라면 텍스트 파일을 이진 모드로 열지 않는 것이 좋다. 인코딩 방식을 알아낼 때도 Chardet 모듈을 사용하는 것이 좋다.

In [139]:
import sys, locale

expressions = """
        locale.getpreferredencoding()
        type(my_file)
        my_file.encoding
        sys.stdout.isatty()
        sys.stdout.encoding
        sys.stdin.isatty()
        sys.stdin.encoding
        sys.stderr.isatty()
        sys.stderr.encoding
        sys.getdefaultencoding()
        sys.getfilesystemencoding()
    """

my_file = open('dummy', 'w')

for expression in expressions.split():
    value = eval(expression)
    print(expression.rjust(30), '->', repr(value))

 locale.getpreferredencoding() -> 'UTF-8'
                 type(my_file) -> <class '_io.TextIOWrapper'>
              my_file.encoding -> 'UTF-8'
           sys.stdout.isatty() -> False
           sys.stdout.encoding -> 'UTF-8'
            sys.stdin.isatty() -> False
            sys.stdin.encoding -> 'utf-8'
           sys.stderr.isatty() -> False
           sys.stderr.encoding -> 'UTF-8'
      sys.getdefaultencoding() -> 'utf-8'
   sys.getfilesystemencoding() -> 'utf-8'


In [140]:
eval(locale.getpreferredencoding())

NameError: name 'UTF' is not defined