# BETTER WAY 3 bytes와 str의 차이를 알아두라

In [1]:
a = b'h\x65llo'
print(list(a))
print(a)

[104, 101, 108, 108, 111]
b'hello'


In [2]:
a = 'a\u0300 propos'
print(list(a))
print(a)

['a', '̀', ' ', 'p', 'r', 'o', 'p', 'o', 's']
à propos


In [3]:
def to_str(bytes_or_str):
    if isinstance(bytes_or_str, bytes):
        value = bytes_or_str.decode('utf-8')
    else:
        value = bytes_or_str
    return value

print(repr(to_str(b'foo')))
print(repr(to_str('bar')))
print(repr(to_str(b'\xed\x95\x9c')))

'foo'
'bar'
'한'


In [4]:
def to_bytes(bytes_or_str):
    if isinstance(bytes_or_str, str):
        value = bytes_or_str.encode('utf-8')
    else:
        value = bytes_or_str
    return value

print(repr(to_bytes(b'foo')))
print(repr(to_bytes('bar')))
print(repr(to_bytes('한글')))

b'foo'
b'bar'
b'\xed\x95\x9c\xea\xb8\x80'


In [5]:
print(b'one' + b'two')
print('one' + 'two')

b'onetwo'
onetwo


In [6]:
b'one' + 'two'

TypeError: can't concat str to bytes

In [7]:
'one' + b'two'

TypeError: can only concatenate str (not "bytes") to str

In [8]:
assert b'red' > b'blue'
assert 'red' > 'blue'

In [9]:
assert 'red' > b'blue'

TypeError: '>' not supported between instances of 'str' and 'bytes'

In [10]:
assert b'blue' < 'red'

TypeError: '<' not supported between instances of 'bytes' and 'str'

In [11]:
print(b'foo' == 'foo')

False


In [13]:
print(b'red %s' % b'blue')
print('red %s' % 'blue')

b'red blue'
red blue


In [14]:
print(b'red %s' % 'blue')

TypeError: %b requires a bytes-like object, or an object that implements __bytes__, not 'str'

In [15]:
print('red %s' % b'blue')

red b'blue'


In [16]:
with open('data.bin', 'w') as f:
    f.write(b'\xf1\xf2\xf3\xf4\xf5')

TypeError: write() argument must be str, not bytes

In [17]:
with open('data.bin', 'wb') as f:
    f.write(b'\xf1\xf2\xf3\xf4\xf5')


In [18]:
with open('data.bin', 'r') as f:
    data = f.read()

UnicodeDecodeError: 'cp949' codec can't decode byte 0xf5 in position 4: incomplete multibyte sequence

In [19]:
with open('data.bin', 'rb') as f:
    data = f.read()

assert data == b'\xf1\xf2\xf3\xf4\xf5'

### 기억해야 할 내용
* bytes에는 8비트 값의 시퀀스가 들어 있고, str에는 유니코드 코드 포인트의 시퀀스가 들어 있다.
* 처리할 입력이 원하는 문자 시퀀스(8비트 값, UTF-8로 인코딩된 문자열, 유니코드 코드 포인트들)인지 확실히 하려면 도우미 함수를 사용하라.
* bytes와 str 인스턴스를 (>, ==, +, %와 같은) 연산자에 섞어서 사용할 수 없다.
* 이진 데이터를 파일에서 읽거나 파일에 쓰고 싶으면 항상 이진 모드('rb'나 'wb')로 파일을 열어라.
* 유니코드 데이터를 파일에서 읽거나 파일에 쓰고 싶을 때는 시스템 디폴트 인코딩에 주의하라. 인코딩 차이로 놀라고 싶지 않으면 open에 encoding 파리미터를 명시적으로 전달하라.