# chpt04 - Text and bytes
이번 장에서는 아스키 텍스트를 사용하는 경우에도 문자열(str)과 바이트(bytes)를 구분하고, 전문화된 이진 시퀀스형인 '범용'파이썬2 문자열에 없는 기능을 제공한다.  

## 4.1 문자 문제
- 문자는 '유니코드 문자'다. 유니코드 표준은 `문자 단위 원소(코드포인트)`, `특정 바이트표현` 을 명확하게 구분한다.
- **코드포인트**는 10진수 숫자이며, 유니코드 표준에서는 'U+'접두사를 붙여 4~6자리 사이의 16진수로 표현한다.
- 문자를 표현하는 실제 바이트는 사용하는 **인코딩**에 따라 달라진다. 인코딩은 코드 포인트를 바이트 시퀀스로 변환하는 알고리즘이다. 
- 코드포인트를 바이트로 변환하는 것을 **인코딩**, 바이트를 코드포인트로 변환하는 것을 **디코딩**이라고 한다. 

In [2]:
# 예제4-1 인코딩과 디코딩

# cafe는 4개의 유니코드 문자를 갖고있다.
s = 'cafe'
print(len(s))

# utf-8인코딩을 이용해서 str->bytes로 인코딩
b = s.encode('utf8')
print(b)
print(len(b))

# bytes -> str로 디코딩
print(b.decode('utf8'))

4
b'cafe'
4
cafe


> decode()와 encode()f를 정확히 이해해보자. 바이트시퀀스는 기계언어이며, 유니코드 str은 '사람'이 읽을 수 있는 텍스트라고 보면된다. 바이트시퀀스를 텍스트로 '디코딩(해독)'하고, str을 저장하거나 전송하기 위해 bytes로 '인코딩(암호화)'한다고 보면된다.

## 4.2 바이트에 대한 기본 지식
인코딩, 디코딩 문제로 넘어가기 전에 이진 시퀀스형에 대해 먼저 알아보자.
- 이진 시퀀스를 위해 사용되는 내장 자료형은 bytes(불변), bytearray(가변)
- 0~255 사이의 정수이며, 슬라이싱하면 언제나 동일한 자료형의 이진 시퀀스가 만들어진다ㅏ. 슬라이스 길이가 1일 때도 마찬가지다.

In [3]:
cafe = bytes('cafe',encoding='utf_8')  # bytes는 str에 인코딩을 지정해서 만들 수 있다.
cafe

b'cafe'

In [4]:
cafe[0]  # 각 항목은 range(256)에 들어가는 정수다

99

In [5]:
cafe[:1] # bytes는 슬라이싱해도 bytes이다. 

b'c'

In [6]:
cafe_arr = bytearray(cafe)
cafe_arr

bytearray(b'cafe')

In [7]:
cafe_arr[-1:]

bytearray(b'e')

> 책(p150~)과 다르게 bytes, bytearray의 리터럴 표기법이 아스키텍스트가 아니다.  
> bytes, bytearray 객체를 생성하면 언제나 바이트를 복사한다. 이와 반대로 memoryview는 이진 데이터 구조체 간에 메모리를 공유할 수 있게 해준다. 

### 4.2.1 구조체와 메모리뷰
이진 시퀀스에서 구조화된 정보를 추출하려면 struct모듈을 사용한다. struct모듈은 패킹된 바이트를 다양한 형의 필드로 구성된 튜플로 분석하고, 이와 반대로 튜플을 패킹된 바이트로 변환하는 함수를 제공한다. struct는 `bytes, bytearray, memoryview`객체와 함께 사용된다.
- 메모리뷰는 바이트시퀀스를 생성하거나 저장할 수 없지만, 바이트를 복사하지 않고 다른 이진 시퀀스/패킹된 배열/파이썬 이미지 라이브러리 등 버퍼 데이터의 슬라이스에 공유 메모리 방식으로 접근할 수 있게 해준다.
- 이쯤에서 패스

## 4.3 기본 인코더/디코더
an ISO 8859 codeset는 국가별 언어인코딩 방식을 표로 제공했다. 자세한 표는 [여기](https://docs.python.org/3/library/codecs.html) 참고하자

## 4.4 인코딩/디코딩 에러 이해하기
에러의 유형은 `UnicodeEncodeError`, `UnicodeDecodeError`, `SyntaxError`
### 4.4.1 UnicodeEncodeError 처리하기
- 대부분의 non-uft 코덱은 유니코드문자의 일부만 처리할 수 있다.
- 텍스트를 바이트로 변환할 때 인코딩에 정의되어 있지 않거나 errors인수에 별도 처리기를 지정하지 않으면 발생한다.
- `'ignore'`, 'replace', 'xmlcharrefreplace', 'codecs.register_error()'`

In [12]:
# 예제 4-6 바이트로 인코딩하기

city = 'São Paulo'  # 상파울루 스페인어

print(city.encode('utf8'))    # uft시리즈는 모든 str을 처리할 수 있다.
print(city.encode('utf16'))
print(city.encode('iso8859_1'))
print(city.encode('cp437'))  # error. cp437은 물결표가 있으면 처리할 수 없다.

b'S\xc3\xa3o Paulo'
b'\xff\xfeS\x00\xe3\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00'
b'S\xe3o Paulo'


UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

In [24]:
# errors 처리기로 물결을 처리해보자
print(city.encode('cp437', errors = 'ignore'))   # 인코딩 할 수 없으면 말없이 건너뜀
print(city.encode('cp437', errors = 'replace'))  # 인코딩 할 수 없으면 물음표로 치환
print(city.encode('cp437', errors = 'xmlcharrefreplace'))  # 인코딩 할 수 없으면 xml개체로 치환

# codecs.register_error() : 에러처리기명과 에러처리 함수를 전달해서 에러를 등록할 수 있다. 
import codecs
codecs.register_error('replace_with_space', lambda e: (u' ',e.start + 1))
print(city.encode('cp437', errors = 'replace_with_space'))

b'So Paulo'
b'S?o Paulo'
b'S&#227;o Paulo'
b'S o Paulo'


In [None]:
print('Olá, Mundo!')

## 4.5 텍스트 파일 다루기
## 4.6 유니코드 정규화하기
아스키 세상은 간단했다. 하지만 유니코드 세상에서는 복잡한 문제인 텍스트 정규화(텍스트를 비교하기 위해 통일된 표현으로 변환하는 작업)와 정렬에 대해 설명한다.
- 유니코드에는 결합문자가 있기 때문에 문자열 비교가 간단하지 않다. 
- 앞 문자에 연결되는 **발음 구별 기호(diacritical mark)** 는 인쇄할 때 앞문자와 하나로 결합되어 출력된다. 
- 예를 들어, 'café'는 네 개나 다섯 개의 코드 포인트를 이용해서 두가지 방식으로 표현할 수 있지만 결과는 동일하다.

In [25]:
s1 = 'café'
s2 = 'cafe\u0301'
s1, s2

('café', 'café')

In [26]:
len(s1), len(s2)

(4, 5)

In [27]:
s1 == s2

False

> 코드포인트(u0301)는 'combining acute accent'이다. 'e'다음에 이 코드포인트가 오면 'é'를 만든다.  
- 유니코드 표준에서는 'é'와 'e\u0301' 이 두개의 시퀀스를 규범적으로 동일하다고 한다.  
- 파이썬은 서로 다른 두 개의 코드 포인트 시퀀스를 서로 동일하지 않다고 판단한다. 이 문제를 해결하기 위해서는 `unicodedata.normalize()`함수가 제공하는 유니코드 정규화를 이용하자  
- 파라미터 : NFC, NFD, NFKC, NFKD  
- NFC : 코드포인트를 조합해서 가장 짧은 동일 문자열을 생성한다.  
- NFD : 조합된 문자를 기본 문자와 별도의 결합 문자로 분리한다. 

In [28]:
# 유니코드 정규화 예제 : 어퍼스트로피 é

from unicodedata import normalize
s1 = 'café'
s2 = 'cafe\u0301'
len(s1), len(s2)

print(len(normalize('NFC',s1)), len(normalize('NFC',s2)))
print(len(normalize('NFD',s1)), len(normalize('NFD',s2)))

4 4
5 5


In [29]:
normalize('NFC',s1) == normalize('NFC',s2)

True

In [30]:
normalize('NFD',s1) == normalize('NFD',s2)

True

In [32]:
# 유니코드 정규화 예제 : 전기저항 '옴' vs 그리스어 대문자 '오메가'

from unicodedata import normalize,name
ohm = '\u2126'
name(ohm)

'OHM SIGN'

In [33]:
ohm_c = normalize('NFC', ohm)
name(ohm_c)

'GREEK CAPITAL LETTER OMEGA'

In [34]:
ohm == ohm_c  # 정규화 하기 전과 후는 다르지

False

In [35]:
normalize('NFC',ohm) == normalize('NFC', ohm_c) # 정규화ㅏ하면 같지

True

- NFKC, NFKD에서 k는 호환성(compatibility)을 나타내는데, 정규화의 더 강력한 형태로 소위 말하는 '호환성 문자'에 영향을 미친다.
- 예를 들면 마이크로 기호(뮤) 'μ'는 코드포인트(u+03BC(Greek small letter MU))와 같은 문자이지만, latin1과의 상호 변환을 지원하기 위해 유니코드에 추가되었다.
- 포맷손실이 발생하더라도 '선호하는' 형태의 하나 이상의 문자로 구성된 '호환성 분할'로 치환한다. 
- 예를 들어, 절반을 나타내는 '½'의 호환성 분할은 세 개 문자의 시퀀스인 '1/2'로, 마이크로 기호 'μ'의 호환성 분할은 소문자 뮤인 'μ'로 치환된다.

In [36]:
# NFKC 예 : ½, μ

from unicodedata import normalize,name
half = '½'
normalize('NFKC', half)

'1⁄2'

In [37]:
four_squared = '42'
normalize('NFKC', four_squared)

'42'

In [41]:
micro = 'µ'                         # 마이크로 기호 µ
micro_k = normalize('NFKC', micro)  # 그리스어 소문자 뮤
micro, micro_k

('µ', 'μ')

In [42]:
ord(micro), ord(micro_k)

(181, 956)

In [43]:
name(micro), name(micro_k)

('MICRO SIGN', 'GREEK SMALL LETTER MU')

### 4.6.1 (검색 및 색인 생성을 위해 텍스트 준비할 때 ) 케이스 폴딩
- case folding은 모든 텍스트를 소문자로 변환하는 것.
- 다만 마이크로 기호 'µ'는 그리스 소문자 '뮤(μ)'로 변환되고, 독일어의 에스체트 'ß'는 'ss'로 변환된다. 

In [49]:
# 케이스 폴딩 예제 : µ, ß

micro = 'µ'
print(name(micro))

# 케이스폴딩하면 그리스어로 변환됨
micro_cf = micro.casefold()
print(name(micro_cf))
print(micro, micro_cf)
print('-'*30)

# 에스체트 -> ss
eszett = 'ß'
print(name(eszett))

# 케이스폴딩하면 영어 ss로 변환됨
eszett_cf = eszett.casefold()
print(eszett, eszett_cf)

MICRO SIGN
GREEK SMALL LETTER MU
µ μ
------------------------------
LATIN SMALL LETTER SHARP S
ß ss


### 4.6.2 정규화된 텍스트 매칭을 위한 유틸리티 함수
- NFC, NFD는 유니코드 문자열을 적절히 비교할 수 있게 한다. NFC는 대부분의 어플리케이션에서 사용할 수 있는 최고의 정규화된 형태이며, 
- str.casefold()는 대소문자 구분없이 문자를 비교할 때 가장 좋은 방법이다. 
- 다양한 언어로 구성된 텍스트를 사용하는 경우 nfc_equal(), fold_equal() 처럼 메서드를 도구상자에 추가하는 것이 좋다

In [None]:
"""
Utility functions for normalized Unicode string comparison.
Using Normal Form C, case sensitive:
    >>> s1 = 'café'
    >>> s2 = 'cafe\u0301'
    >>> s1 == s2
    False
    >>> nfc_equal(s1, s2)
    True
    >>> nfc_equal('A', 'a')
    False
Using Normal Form C with case folding:
    >>> s3 = 'Straße'
    >>> s4 = 'strasse'
    >>> s3 == s4
    False
    >>> nfc_equal(s3, s4)
    False
    >>> fold_equal(s3, s4)
    True
    >>> fold_equal(s1, s2)
    True
    >>> fold_equal('A', 'a')
    True
"""

In [50]:
from unicodedata import normalize

def nfc_equal(str1, str2):
    return normalize('NFC', str1) == normalize('NFC', str2)

def fold_equal(str1, str2):
    return (normalize('NFC', str1).casefold() == normalize('NFC', str2).casefold())

In [51]:
nfc_equal(s1, s2)

True

In [53]:
s3 = 'Straße'
s4 = 'strasse'

In [54]:
s3 == s4

False

In [55]:
fold_equal(s3, s4)

True

### 4.6.3. 발음 구별 기호 제거하기
- 문맥에 따라 악센트나 갈고리형 기호 등의 발음 구별 기호를 무시하는 방법이 있다ㅏ.
- 하지만 발음 구별 기호를 제거하는 일은 단어의 뜻을 변경하고 검색 시 오탐이 발생할 수도 있으므로 적절한 정규화 방식은 아니다.
- 철자법 규칙이 시대에 따라 변하기도 하므로 실제 사용되는 언어에서 악센터 용법은 생겻다가 사라지기도 한다.
- 따라서 악센트에 너무 연연할 필요는 없다. 
- 검색 외에도 발음 구별 기호를 제거하면, 특히 라틴어의 경우 URL을 읽기 편해진다.
- https://en.wikipedia.org/wiki/S%C3%A3o_Paulo ==> https://en.wikipedia.org/wiki/Sao_Paulo
- %C3%A3 부분은 URL 이스케이프 처리한 부분으로, 물결표가 있는 'a'인 'ã'를 uft-8로 표기한 것 

In [None]:
# 예제 4-14 : 발음 구별 기호 모두 제거

# tag::SHAVE_MARKS[]
import unicodedata
import string


def shave_marks(txt):
    """Remove all diacritic marks"""
    # <1> : 모든 문자를 기본 문자와 결합 표시로 분해한다.
    norm_txt = unicodedata.normalize('NFD', txt)  # <1>
    
    # <2> : 결합 표시를 모두 걸러낸다. 
    shaved = ''.join(c for c in norm_txt if not unicodedata.combining(c))  # <2>
    
    # <3> : 문자를 모두 재결합시킨다.
    shaved = unicodedata.normalize('NFC', shaved)  # <3> 
    
    return shaved


In [57]:
# Handling a string with `cp1252` symbols:
order = '“Herr Voß: • ½ cup of Œtker™ caffè latte • bowl of açaí.”'
shave_marks(order)

'“Herr Voß: • ½ cup of Œtker™ caffe latte • bowl of acai.”'

> 'è', 'ç', 'í'만 대체되었다.

In [58]:
# Handling a string with Greek and Latin accented characters:

greek = 'Ζέφυρος, Zéfiro'
shave_marks(greek)

'Ζεφυρος, Zefiro'

> 'έ', 'é'가 대체되었다.

shave_marks() 함수는 문제가 있다. 흔히 발음 구별 기호를 제거하는 것은 *라틴 텍스트*를 순수한 아스키코드로 변환하기 위한 것인데, 단지 악센트만 제거해서 아스키문자로 만들 수 없는 그리스문자도 변경한다. 따라서 예제4-16과 같이 모든 기반 문자를 분석해서 기분 문자가 라틴 알파벳인 경우에만 연결된 표시를 제거해보자

In [59]:
# 예제 4-16 : 라틴 문자에서 결합 표시 기호를 제거하는 함수

def shave_marks_latin(txt):
    '''라틴 기반 문자에서 발음 구별 기호를 모두 제거한다.'''
    norm_txt = unicodedata.normalize('NFC', txt)
    latin_base = False
    keepers = []
    for c in norm_txt:
        # 라틴 문자일 때 결합 표시 기호를 건너뛴다.
        if unicodedata.combining(c) and latin_base : 
            # 라틴 기반 문자의 발음 구별 기호를 무시한다. 
            continue
        keepers.append(c)
        
        # 결합 문자가 아니면, 이 문자를 새로운 기반 문자로 간주한다.
        if not unicodedata.combining(c):
            # 새로운 기반 문자를 찾아내고 라틴 문자인지 판단한다.
            latin_base = c in string.ascii_letters
    
    # 문자들을 모두 결합하고 NFC 방식으로 정규화한다.
    shaved = ''.join(keepers)
    shaved = unicodedata.normalize('NFC', shaved)
    
    return shaved

In [60]:
order = '“Herr Voß: • ½ cup of Œtker™ caffè latte • bowl of açaí.”'
shave_marks_latin(order)

'“Herr Voß: • ½ cup of Œtker™ caffè latte • bowl of açaí.”'

In [61]:
greek = 'Ζέφυρος, Zéfiro'
shave_marks_latin(greek)

'Ζέφυρος, Zéfiro'

> 뭐가 대체된거지??

원형 따옴표, 전각 대시, 작은 점 등 서양 텍스트에서 널리 사용되는 기호들도 아스키 문자로 바꿀 수 있다. 

In [64]:
# 예제 4-17 : 서양 활자(타이포그래픽) 기호--> 아스키로 변환하기

# tag::ASCIIZE[]

# <1> : 문자 대 문자 치환을 위한 매핑 테이블을 만든다.
single_map = str.maketrans("""‚ƒ„†ˆ‹‘’“”•–—˜›""",  
                           """'f"*^<''""---~>""")

# <2> : 문자 대 문자열 치환을 위한 매핑 테이블을 만든다. 
multi_map = str.maketrans({  
    '€': '<euro>',
    '…': '...',
    'Œ': 'OE',
    '™': '(TM)',
    'œ': 'oe',
    '‰': '<per mille>',
    '‡': '**',
})

# <3> : 매핑 테이블 병합
multi_map.update(single_map)  


def dewinize(txt):
    """Replace Win1252 symbols with ASCII chars or sequences"""
    return txt.translate(multi_map)  # <4> : 아스키나 latin1 텍스트에 영향을 미치지 않으며,
                                     #       마이크로소프트 cp1252안의 latin1에 추가한 문자만 변경한다.


def asciize(txt):
    no_marks = shave_marks_latin(dewinize(txt))     # <5> : 발음 구별 기호 제거
    no_marks = no_marks.replace('ß', 'ss')          # <6> : 에스체트 치환
    return unicodedata.normalize('NFKC', no_marks)  # <7> : 호환성 코드 포인트로 대체된 문자열을 만든다.
# end::ASCIIZE[]

In [65]:
dewinize(order)  # 둥근 따옴표, 작은점, 상표권 기호(tm)을 대치했다

'"Herr Voß: - ½ cup of OEtker(TM) caffè latte - bowl of açaí."'

In [67]:
asciize(order)   #3 둥금 따옴표, 작음점, 상표권 기호 제거한 후 에스체트를 ss로 대치한다.

'"Herr Voss: - 1⁄2 cup of OEtker(TM) caffè latte - bowl of açaí."'

In [68]:
dewinize(greek)

'Ζέφυρος, Zéfiro'

In [69]:
asciize(greek)

'Ζέφυρος, Zéfiro'

> 독일어의 움라우트 u -> ue로 대체되고, asciize()는 현재는 정교하지 않지만 포루투갈어에 대해는 제법 잘 작동한다.

## 4.7 유니코드 텍스트 정렬하기
- 문자열은 각 단어의 코드포인트를 비교하여 정렬하는데, 불행히도 비아스키(non-asciiki) 문자를 사용하면 결과가 이상하다.
- 브라질에서 재배하는 과일 목록을 정렬해보자.

In [71]:
fruits = ['caju', 'atemoia', 'cajá', 'açaí', 'acerola']
sorted_fruits = sorted(fruits)
print(sorted_fruits)

['acerola', 'atemoia', 'açaí', 'caju', 'cajá']


> 'cajá'보다 'caju'가 먼저 나왔다. 어퍼스트로피 'á'는 'u'보다 뒤로 인식한다.  
정렬 규칙은 현지 언어에 따라 다르다. 포루투갈어 등 라틴 알파벳을 사용하는 언어에서는 **악센트, 갈고리형 기호**가 거의 영향을 미치지 않는다.  
- 따라서 어퍼스트로피가 있는 'cajá'는 'caja'로 처리해서 'caju'보다 먼저 나와야 한다. 

비-아스키 텍스트는 `local.strxfrm()`함수를 이용해서 변환할 수 있다. `strxfrm()`함수는 문자열을 현지어 비교에 사용할 수 있는 문자열로 변환한다.

In [72]:
# 예제 4-19 : locale.strxfrm() 함수를 정렬키로 사용하기

import locale

# <1> : setlocale(LC_COLLATE, <지역_언어>)를 먼저 호출할 것.
my_locale = locale.setlocale(locale.LC_COLLATE, 'pt_BR.UTF-8')
print(my_locale)

fruits = ['caju', 'atemoia', 'cajá', 'açaí', 'acerola']
sorted_fruits_loc = sorted(fruits, key=locale.strxfrm)
print(sorted_fruits_loc)

pt_BR.UTF-8
['acerola', 'atemoia', 'açaí', 'caju', 'cajá']


> <1>번 단계에서 '지역_언어'를 찾기 힘들텐데 다행히 PyPI로 제공되는 `PyUCA 라이브러리`로 간단히 해결가능!!

### 4.7.1 PyUCA 유니코드 대조 알고리즘으로 간편하게 정렬하기 --> 이걸써라

In [74]:
!pip install pyuca

Collecting pyuca
  Downloading pyuca-1.2-py2.py3-none-any.whl (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 260 kB/s eta 0:00:01
[?25hInstalling collected packages: pyuca
Successfully installed pyuca-1.2


In [75]:
# 예제 4-20 : pyuca.Collator.sort_key()

import pyuca
coll = pyuca.Collator()
fruits = ['caju', 'atemoia', 'cajá', 'açaí', 'acerola']
sorted_fruits_coll = sorted(fruits, key=coll.sort_key)
print(sorted_fruits_coll)

['açaí', 'acerola', 'atemoia', 'cajá', 'caju']


## 4.8 유니코드 데이터베이스
문자를 출력할 수 있는지, 문자인지 십진수인지 다른 수치형 기호인지 기록한다.
- `unicodedata` 모듈에는 문자 메타데이터를 반환하는 함수들이 있다. 
- 예를 들어, 표준에 정의된 공식 명칭, 결합 문자인지 여부(결합 물결표 등 발음 구별기호 등), 사람이 인식하는 기호의 숫자값 등을 반환한다.
- `unicodedata.name()`, `unicodedata.numeric()`을 str의 `isdecimal()`, `isnumeric()`메서드와 함께 쓰면 된다.

In [76]:
# tag::NUMERICS_DEMO[]
import unicodedata
import re

re_digit = re.compile(r'\d')

sample = '1\xbc\xb2\u0969\u136b\u216b\u2466\u2480\u3285'

for char in sample:
    print('U+%04x' % ord(char),                       # <1>
          char.center(6),                             # <2> : 길이가 6인 str의 중앙에 놓인 문자
          're_dig' if re_digit.match(char) else '-',  # <3> : 정규표현과 일치하면 re_dig 표시
          'isdig' if char.isdigit() else '-',         # <4> 
          'isnum' if char.isnumeric() else '-',       # <5>
          format(unicodedata.numeric(char), '5.2f'),  # <6> 
          unicodedata.name(char),                     # <7> : 유니코드 문자명
          sep='\t')
# end::NUMERICS_DEMO[]

U+0031	  1   	re_dig	isdig	isnum	 1.00	DIGIT ONE
U+00bc	  ¼   	-	-	isnum	 0.25	VULGAR FRACTION ONE QUARTER
U+00b2	  ²   	-	isdig	isnum	 2.00	SUPERSCRIPT TWO
U+0969	  ३   	re_dig	isdig	isnum	 3.00	DEVANAGARI DIGIT THREE
U+136b	  ፫   	-	isdig	isnum	 3.00	ETHIOPIC DIGIT THREE
U+216b	  Ⅻ   	-	-	isnum	12.00	ROMAN NUMERAL TWELVE
U+2466	  ⑦   	-	isdig	isnum	 7.00	CIRCLED DIGIT SEVEN
U+2480	  ⒀   	-	-	isnum	13.00	PARENTHESIZED NUMBER THIRTEEN
U+3285	  ㊅   	-	-	isnum	 6.00	CIRCLED IDEOGRAPH SIX


## 4.9 이중 모드 str 및 bytes API
- 표준 라이브러리에는 str이나 bytes 인수를 모두 받으며, 인수의 자료형에 따라 다르게 작동하는 함수들이 있다.
- re, os모듈이 대표적인 예다.

### 4.9.1 정규 표현식에서의 str과 bytes
- bytes로 정규 표현식을 만들면 \d, \w같은 패턴은 아스키 문자만 매칭되지만, **str로 이 패턴을 만들면 아스키 문자 이외에 유니코드 숫자나 문자도 매칭**된다.
- 아래예제는 문자, 아스키 숫자, 위첨자, 타밀 숫자가 str과 bytes패턴에 어떻게 매칭되는지 비교한다.

In [77]:
# 예제 4-22 : ramanujan.py : 간단한 str, bytes 정규 표현식 동작 비교

# tag::RE_DEMO[]
import re

re_numbers_str = re.compile(r'\d+')     # <1> : str형 정규표현식
re_words_str = re.compile(r'\w+')
re_numbers_bytes = re.compile(rb'\d+')  # <2> : bytes형 정규표현식
re_words_bytes = re.compile(rb'\w+')

text_str = ("Ramanujan saw \u0be7\u0bed\u0be8\u0bef"  # <3> : 타밀 숫자로 1729를 담고있음.
            " as 1729 = 1³ + 12³ = 9³ + 10³.")        # <4> : 컴파일 시 앞 문자열에 연결됨. 2.4.2.문자열 리터럴의 연결 참조

text_bytes = text_str.encode('utf_8')  # <5> : bytes 정규표현식을 검색하려면 bytes문자열이 필요함

print('Text', repr(text_str), sep='\n  ')
print('Numbers')
print('  str  :', re_numbers_str.findall(text_str))      # <6> : 타밀과 아스키 숫자에 매칭
print('  bytes:', re_numbers_bytes.findall(text_bytes))  # <7> : 아스키 숫자만 매칭
print('Words')
print('  str  :', re_words_str.findall(text_str))        # <8> : 문자, 위첨자, 타밀, 아스키 숫자
print('  bytes:', re_words_bytes.findall(text_bytes))    # <9> : 문자와 숫자에 대한 아스키 바이트 매칭
# end::RE_DEMO[]

Text
  'Ramanujan saw ௧௭௨௯ as 1729 = 1³ + 12³ = 9³ + 10³.'
Numbers
  str  : ['௧௭௨௯', '1729', '1', '12', '9', '10']
  bytes: [b'1729', b'1', b'12', b'9', b'10']
Words
  str  : ['Ramanujan', 'saw', '௧௭௨௯', 'as', '1729', '1³', '12³', '9³', '10³']
  bytes: [b'Ramanujan', b'saw', b'as', b'1729', b'1', b'12', b'9', b'10']


> 정규표현식을 str, bytes에 사용할 수 있지만, bytes에 정규표현식을 사용하면 아스키 범위를 벗어나는 문자들은 숫자나 단어로 처리하지 않는다ㅏ. 

### 4.9.2 os모듈 함수에서 str, bytes
- GNU/리눅스 커널은 유니코드를 모른다ㅏ. 따라서 실제 os의 파일명은 어떠한 인코딩 체계에서도 올바르지 않는 바이트 시퀀스로 구성되어 있으며 str로 디코딩할 수 없다.
- 이 문제를 해결하기 위해 파일명이나 경로명을 받는 모든 os모듈 함수는 str, bytes형의 인수를 받는다.
- `sys.getfilesystemencoding()`함수에 의해 지정된 코덱을 이용해서 자동으로 변환되고 디코딩된다.
- 하지만 이렇게 처리할 수 없으면 bytes인수를 os함수에 전달해서 bytes 반환값을 가져온다.
- 파일명이나 경로명에 얼마나 많은 깨진문자가 있는지에 상관없이 이 방식을 이용하자.  

- 'digits-of-π.txt'를 불러온다고 가정해보자
- 파일이나 경로명인 str혹은 bytes시퀀스를 수작업으로 처리하는 것을 도와주기 위해 os모듈은 다음과 같은 인코딩/디코딩 함수를 제공한다.
    1. fsencode(파일명) : 파일명이 str형이면 `sys.getfilesystemencoding()`이 반환된 코덱명을 이용해서 '파일명'을 bytes형으로 인코딩한다. '파일명'이 bytes형이면 반환하지 않고 그대로 반환
    2. fsdecode(파일명) : 파일명이 bytes형이면 `sys.getfilesystemencoding()`이 파일명을 **str**로 디코딩한다. '파일명'이 str형이면 반환하지 않고 그대로 반환

In [81]:
# 예제 4-23 : str, bytes인수로 호출한 listdir() 메서드와 결과
import os
os.listdir('.')

['chpt01_Data model.ipynb',
 'chpt03_Dictionary_and_Set.ipynb',
 'chpt04_Text_and_byte.ipynb',
 'README.md',
 'chpt02_An array of sequence.ipynb',
 '.ipynb_checkpoints',
 'digits-of-π']

In [82]:
os.listdir(b'.')

[b'chpt01_Data model.ipynb',
 b'chpt03_Dictionary_and_Set.ipynb',
 b'chpt04_Text_and_byte.ipynb',
 b'README.md',
 b'chpt02_An array of sequence.ipynb',
 b'.ipynb_checkpoints',
 b'digits-of-\xcf\x80']

- surrogateescape 에러처리기를 이용해서 깨진 문자 처리하기
    - 예상치 못한 바이트나 모르는 인코딩을 처리할 때 surrogateescape 코덱 에러 처리기를 사용한다.
    - 디코딩 할 수없는 바이트를 유니코드 표준에서 '하위 써로게이트 영역'이라고하는 코드 포인트로 치환한다.
    - 해당 코드포인트에는 문자가 할당된게 아니라 애플리케이션 내부 용도로 사용할 수 있다.
    - 인코딩할 때 이 코드포인트는 치환된 원래 바이트로 다시 변환된다.

In [84]:
# 예제 4-24 : surrogateescape 에러처리

os.listdir(b'.') # <1> : 인코딩 방식을 모른체 하고 파일명을 bytes로 가져오자
pi_name_bytes = os.listdir(b'.')[6]  # b'digits-of-\xcf\x80.txt'
pi_name_str = pi_name_bytes.decode('ascii', 'surrogateescape')  # str형으로 디코딩한다.
pi_name_str

'digits-of-\udccf\udc80'

In [85]:
pi_name_str.encode('ascii','surrogateescape') # 다시 아스키 바이트로 인코딩

b'digits-of-\xcf\x80'

![image.png](attachment:image.png)