In [1]:
# bytes 타입의 인스턴스에는 부호가 없는 8바이트 데이터가 그대로 들어간다
a = b'h\x65llo'
print(list(a))
print(a)

[104, 101, 108, 108, 111]
b'hello'


In [2]:
# str 인스턴스에는 사람이 사용하은 언어의 문자를 표현하는 유니코드 코드 포인트가 들어있다.

a = 'a\u0300 propos'
print(list(a))
print(a)

['a', '̀', ' ', 'p', 'r', 'o', 'p', 'o', 's']
à propos


In [None]:
# str 인스턴스에는 직접 대응하는 이진 인코딩이 없고
# bytes 인스턴스에는 직접 대응하는 텍스트 인코딩이 없다는 점이다.

# 유니코드 데이터를 이진 데이터로 변환하려면 str의 encode 메서드를 호출
# 이진 데이터를 유니코드 데이터로 변환하려면 bytes의 decode 메서드를 호출

# 파이썬 프로그램을 작성할때 유니코드 데이터를 인코딩하거나 디코딩하는 부분을 인터페이스의 가장 먼 경계지점에 위치시켜
# 이러한 방식을 유니코드 샌드위치라고 부름!


In [2]:
# 1.  bytes나 str 인스턴스를 받아서 항상 str를 반환

def to_str(bytes_or_str):
    if isinstance(bytes_or_str, bytes):
        value = bytes_or_str.decode('utf-8')
    else:
        value = bytes_or_str
        
    return value # str instance


print(repr(to_str(b'foo')))
print(repr(to_str('bar')))
print(repr(to_str(b'\xed\x95\x9c'))) # utf-8에서 한글은 3byte

'foo'
'bar'
'한'


In [3]:
# 2. bytes나 str 인스턴스를 받아서 항상 bytes를 반환

def to_bytes(bytes_or_str):
    if isinstance(bytes_or_str, str):
        value = bytes_or_str.encode('utf-8')
    else:
        value = bytes_or_str
        
    return value

print(repr(to_bytes(b'foo')))
print(repr(to_bytes('bar')))
print(repr(to_bytes('한글')))


b'foo'
b'bar'
b'\xed\x95\x9c\xea\xb8\x80'


In [5]:
#이진 8비트 값과 유니코드 문자열 파이썬에서 다룰떄 주의해야할 2가지

# 1. bytes와 str이 똑같이 작동하는 것 처럼 보이지만 각각의 인스턴스는 서로호환되지 않기 때문에
#    전달 중인 문자 시퀀스가 어떤 타입인지를 항상 잘 알고 있어야 한다.

# 2. open()이 기본적으로 유니코드 핸들을 요구하므로 잘 생각해야한다

# with open('data.bin', 'wb') as f:
#     f.write(b'\xf1\xf2\xf3\xf4\xf5') # error 'w' -> 'wb'로 바꿔주어야한다.