### 4.1 문자 문제
- 문자를 가장 잘 정의한 것은 유니코드 문자.
- 코드 포인트를 바이크로 변환하는 것을 인코딩, 바이트를 코드 포인트로 변환하는 것을 디코딩이라고 한다.

In [1]:
s = 'cafe'
print(len(s))

4


In [2]:
b = s.encode('utf8')

In [3]:
b

b'cafe'

In [4]:
len(b)

4

In [5]:
b.decode('utf8')

'cafe'

### 4.2 바이트에 대한 기본 지식

In [6]:
cafe = bytes('café', encoding = 'utf_8')
cafe

b'caf\xc3\xa9'

In [7]:
cafe[0]

99

In [8]:
cafe[:1]

b'c'

In [9]:
cafe_arr = bytearray(cafe)

In [10]:
cafe_arr

bytearray(b'caf\xc3\xa9')

In [11]:
cafe_arr[-1:]

bytearray(b'\xa9')

In [13]:
bytes,fromhex('31 4B CE A9')

NameError: name 'fromhex' is not defined

In [14]:
import array
numbers = array.array('h', [-2, -1, 0, 1,2])

In [15]:
octets = bytes(numbers)

In [16]:
octets

b'\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00'

###### 4.2.1 구조체와 메모리뷰
- memoryview 클래스로 바이트 시퀀스를 생성하거나 저장할 수는 없지만, 바이트를 복사하지 않고 다른 이진 시퀀스, 패킹된 배열, 혹은 파이썬 이미지 라이브러리 이미지 등 버퍼 데이터의 슬라이스에 공유 메모리 방식으로 접근할 수 있게 해준다.
- memoryview를 슬라이싱하면 바이트를 복사하지 않고 새로운 memoryview 객체를 반환함에 주의

### 4.3 기본 인코더/디코더
- 파이썬에는 100여개의 코덱(인코더/디코더)이 포함. utf8 등등
- latin1 : cp1252와 같은 다른 이코딩 방식 및 유니코드 자체의 기반이 되는 중요한 이코딩 방식
- cp1252 : 마소에서 둥큰 따옴표및 유로화기능 등을 추가해서 latin1을 확장한 것.
- cp437 : 상자를 그리기 위한 문자를 포함해서 원래 IBM PC에서 사용하는 문자셋.
- utf-8 : 웹에서 8비트 인코딩을 하깅 위해 가장 널리 사용되는 인코딩 방식으로 아스키코드와 하위 호환된다.

### 4.4 인코딩/디코딩 문제 이해하기
- 비UTF 코덱은 유니코드 문자의 일부만 처리할 수 있다.
- 텍스트를 바이트로 변환할 때 문자가 대상 인코딩에 정의되어 있지 않으면 UnicodeEncodeError가 발생한다.

In [1]:
city = 'São Paulo'

In [2]:
city.encode('utf-8')

b'S\xc3\xa3o Paulo'

In [3]:
city.encode('utf-16')

b'\xff\xfeS\x00\xe3\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00'

In [4]:
city.encode('iso8859_1')

b'S\xe3o Paulo'

In [5]:
city.encode('cp437')

UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

In [7]:
print(city.encode('cp437', errors = 'ignore'))
print(city.encode('cp437', errors = 'replace'))
print(city.encode('cp437', errors = 'xmlcharrefreplace'))

b'So Paulo'
b'S?o Paulo'
b'S&#227;o Paulo'


In [9]:
octets = b'Montr\xe9al'
octets.decode('cp1252')

'Montréal'

In [10]:
octets.decode('iso8859_7')

'Montrιal'

In [11]:
octets.decode('koi8_r')

'MontrИal'

In [13]:
octets.decode('utf-8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 5: invalid continuation byte

In [15]:
octets.decode('utf-8', errors = 'replace')

'Montr�al'

In [16]:
u16 = 'El Niño'.encode('utf-16')

In [17]:
u16

b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'

In [18]:
list(u16)

[255, 254, 69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111, 0]

In [19]:
u16le = 'El Niño'.encode('utf-16le')
list(u16le)

[69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111, 0]

In [20]:
u16be = 'El Niño'.encode('utf-16be')
list(u16be)

[0, 69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111]

### 4.5 텍스트 파일 다루기
- 입력시 bytes를 디코딩하여 str로 변환하고 프로그램에서는 str만 다룬다. 출력할 때는 str을 bytes로 인코딩한다.

### 4.6 제대로 비교하기 위해 유니코드 정규화 하기
- 유니코드에는 결합 문자가 있기 때문에 문자열과 비교가 어렵다
- 이 문제를 해결하려면 unicodedata.normalize() 함수가 제공하는 유니코드 정규화를 이용해야 한다.

In [21]:
s1 = 'café'
s2 = 'cafe\u0301'

In [22]:
s1, s2

('café', 'café')

In [23]:
len(s1), len(s2)

(4, 5)

In [24]:
s1 ==s2

False

In [25]:
from unicodedata import normalize

In [26]:
s1 = 'café'
s2 = 'cafe\u0301'
len(s1), len(s2)

(4, 5)

In [27]:
len(normalize('NFC', s1)), len(normalize('NFC', s2))

(4, 4)

In [28]:
len(normalize('NFD', s1)), len(normalize('NFD', s2))

(5, 5)

In [29]:
normalize('NFC', s1) == normalize('NFC', s2)

True

In [30]:
normalize('NFD', s1) == normalize('NFD', s2)

True

- 케이스폴딩 : 모든 텍스트를 소문자로 변환하는 연산.
- str.casefold() 메서드를 통해 수행

### 4.7 유니코드 텍스트 정렬하기
- 비아스키 문자를 사용하는 경우 정렬의 결과가 부적절할 수 있다.
- locale.strxfrm() 함수를 이용해서 변환하는 것이 표준
- 또는 제임스 토버가 구현한 pyuca 패키지를 사용하는 것도 방법

### 4.8 유니코드 데이터베이스
- 유니코드 표준은 수많은 구조화된 텍스트 파일의 형태로 하나의 완전한 데이터베이스를 제공.
- 코드포인트를 문자명으로 매핑하는 테이블뿐만 아니라 각 문자에 대한 메타데이터 및 각 문자의 연관 방법도 포함.

In [31]:
import unicodedata
import re

re_digit = re.compile(r'\d')

sample = '1\xbc\x2\u0969\u136b\u216b\u2466\u2480\u3285'

for char in sample:
    print('U+%04x' % ord(char),
          char.center(6),
          're_dig' if re_digit.match(char) else '-', sep = '\t')


SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 5-7: truncated \xXX escape (<ipython-input-31-f395443eff98>, line 6)

### 4.9 이중 모드 str 및 bytes API
- bytes로 정규 표현식을 만들면 \d와 \w 같은 패턴은 아스키 문자만 매칭되지만, str로 이 패턴을 만들면 아스키 문자 이외에 유니코드 숫자나 문자도 매칭.