# 1 파이썬답게 생각하기


---

## 1.1 파이썬 버전을 숙지하라

터미널에서 다음 명령어를 입력하면 파이썬 버전이 출력된다.

> $ python --version

현재 Python 3.9.12을 사용하고 있다.

In [3]:
# 내장 모듈 sys 값 검사를 이용한 파이썬 버전 알아내기

import sys

print(sys.version_info)
print(sys.version)

sys.version_info(major=3, minor=9, micro=12, releaselevel='final', serial=0)
3.9.12 (main, Apr  5 2022, 01:52:34) 
[Clang 12.0.0 ]


## 1.2 PEP 8 스타일 가이드를 따르라

파이썬 개선 제안(Python Enhancement Proposal) #8, 또는 PEP 8은 파이썬 코드를 어떤 방식으로 작성할지 알려주는 스타일 가이드다. 

> [PEP 8 온라인 가이드](https://www.python.org/dev/peps/pep-0008)


#### 공백

파이썬에서 공백(whitespace)은 중요한 의미가 있다. 파이썬 코드 의미를 명확하게 하기 위해서는 공백이 미치는 영향에 주의해야 한다. 아래 가이드라인을 따르라

* 탭 대신 **스페이스**를 사용해 들여쓰기한다.

* **문법적으로 중요한 들여쓰기는 4칸 스페이스**를 사용한다.

* **한 문장 길이는 79 문자 이하**로 한다. (참고로 한글 한 글자는 시각적으로 영문 두 글자에 해당된다고 생각하고 계산한다.)

* 긴 식을 다음 줄에 이어서 쓸 경우 **일반적인 들여쓰기보다 4 스페이스**를 더 들여써야 한다.

* **각 함수와 클래스 사이에는 빈 줄을 두 줄** 넣는다.

* **클래스 안 메서드와 메서드 사이에는 빈 줄을 한 줄** 넣는다.

* 딕셔너리(dictionary)에서 **키와 콜론(:) 사이에는 공백을 넣지 않고**, 한 줄 안에 키와 값을 같이 넣는 경우에는 **콜론 뒤 스페이스를 하나** 넣는다.

* 변수 대입에 쓰는 **= 전후에 스페이스를 하나씩**만 넣는다.

* 타입 표기를 덧붙이는 경우, **변수 이름과 콜론 사이 공백을 넣지 않는다.** 또한 콜론과 타입 정보 사이에는 **스페이스를 하나** 넣는다.

<br>

#### 명명 규약

PEP 8은 파이썬 언어 여러 부분에서 사용하는 이름을 어떻게 붙일지 스타일을 제공한다. 아래 가이드라인을 따르라.

* 함수, 변수, 애트리뷰트(attribute)는 lowercase_underscore처럼 소문자와 밑줄을 사용한다.

* 보호해야 하는 인스턴스 애트리뷰트는 일반적인 애트리뷰트 이름 규칙을 따르되, _leading_underscore처럼 밑줄로 시작한다.

* 비공개(private) 인스턴스 애트리뷰트는 일반적인 애트리뷰트 이름 규칙을 따르되, __leading_underscore처럼 밑줄 두 개로 시작한다.

* 클래스(예외도 포함)는 CapitalizedWord처럼 여러 단어를 이어 붙이되, 각 단어의 첫 글자를 대문자로 만든다.

* 모듈 수준의 상수는 ALL_CAPS처럼 모든 글자를 대문자로 하고 단어와 단어 사이를 밑줄로 연결한 형태를 사용한다.

* 클래스 안에 있는 인스턴스 메서드는 호출 대상 객체를 가리키는 첫 번째 인자 이름으로 반드시 self를 사용해야 한다.

* 클래스 메서드는 클래스를 가리키는 첫 번째 인자 이름으로 반드시 cls를 사용해야 한다.

<br>

#### 식과 문

'파이썬의 선'에서는 '문제를 해결할 명백한 방법이 하나 있고, 가급적이면 그것이 유일해야 한다'고 언급한다. PEP 8은 이 말과 같이 식과 문장을 작성하는 스타일을 다음과 같이 정했다.

* 긍정 스타일 식을 부정하기 않고(if not a is b), 대신 부정을 내부에 넣어라(if a is not b).

* 빈 컨테이너(container)나 시퀀스(sequence)([]나 '' 등)를 검사할 때는 길이를 0과 비교(if len(someting) == 0)하지 말라. **빈 컨테이너나 시퀀스 값이 암묵적으로 False로 취급**된다는 사실을 활용해라. 'if not 컨테이너'라는 조건문처럼 사용한다.

* 마찬가지로 비어 있지 않은 컨테이너나 시퀀스([1]이나 'hello' 등)를 검사할 때도 길이가 0보다 큰지 비교하지 말라. 대신 컨테이너가 비어있지 않은 경우 암묵적으로 True로 평가되는 점을 이용해라.

* 한 줄짜리 if 문이나 한 줄짜리 for, while 루프, 한 줄짜리 except 복합문을 사용하지 말라. 명확성을 위해 각 부분을 여러 줄에 나눠 배치하라.

* 식을 한 줄 안에 다 쓸 수 없는 경우, 식을 괄호로 둘러싸고 줄바꿈과 들여쓰기를 추가해서 읽기 쉽게 만들라.

* 여러 줄에 걸쳐 식을 쓸 때는 계속된다는 표시를 하는 \문자보다는 괄호를 사용해라.

<br>

#### 임포트

PEP 8이 제시하는 import 가이드라인이다.

* import 문(from x import y도 포함)을 항상 파일 맨 앞에 위치시켜라.

* 모듈을 import할 때는 절대 이름(absolute name)을 사용하고, 현 모듈 경로에 상대 이름을 사용하지 말라. 예를 들어 bar 패키지에서 foo 모듈을 import한다면 from bar import foo라고 해야 하며, 단지 import foo라고 하면 안 된다.

> 절대 경로: 루트 디렉터리를 포함하는 경로. 컴퓨터 상의 디렉토리 에서는 C:\를 항상 포함하며, URL에서는 항상 http:\//로 시작한다.<br>
> 상대 경로: 루트 디렉터리를 포함하지 않는 경로.  ../파일명(상위 디렉터리), 디렉터리/파일명(하위 디렉터리 파일)과 같은 형태다.

* 반드시 상대 경로로 import 해야 하는 경우라면 from . import foo처럼 명시적인 구문을 사용한다.

* import를 적을 때는 표준 라이브러리 모듈 / 서드 파티 모듈 / 사용자가 만든 모듈 순서로 섹션을 나눈다. 각 섹션은 알파벳 순서로 모듈을 import한다.

<br>

> 추가: 파이린트(Pylint) 도구는 파이썬 소스를 분석하는 유명한 static analyzer다. PEP 8 스타일을 자동으로 실행해주고, 다양한 오류를 감지해 준다.

## 1.3 bytes와 str의 차이를 알아두라

파이썬에서 문자열 데이터 시퀀스를 표현하는 타입은 두 가지가 있다. 바로 bytes와 str이다. <br><br>

bytes 타입 인스턴스는 부호가 없는 8byte 데이터가 그대로 들어간다.

In [5]:
a = b'h\x65llo'
print(list(a))
print(a)

[104, 101, 108, 108, 111]
b'hello'


str 인스턴스에는 사람이 사용하는 언어 문자를 표현하는 유니코드 **코드 포인트(code point)**가 들어간다.

In [6]:
a = 'a\u0300 propos'

print(list(a))
print(a)

['a', '̀', ' ', 'p', 'r', 'o', 'p', 'o', 's']
à propos


중요한 차이는 str 인스턴스는 직접 대응하는 이진 인코딩이 없고, bytes는 직접 대응하는 텍스트 인코딩이 없다는 점이다. 유니코드 데이터를 이진 데이터로 변환하려면 str의 encode 메서드를 호출해야 한다. 두 메서드를 호출할 때 자신이 원하는 인코딩 방식을 명시적으로 지정할 수도 있고, 시스템 디폴트 인코딩을 받아들일 수도 있다.(일반적으로는 UTF-8이 시스템 디폴트 인코딩 방식이다.)

<br/>

파이썬 프로그램을 작성할 때 유니코드 데이터를 인코딩하거나 디코딩하는 부분을 인터페이스의 가장 먼 경계 지점에 위치시켜라. 이런 방식을 **유니코드 샌드위치**라고 한다. 프로그램 핵심 부분은 유니코드 데이터가 든 str을 사용해야 하며, 문자 인코딩에 어떠한 가정도 하면 안 된다. 이런 접근 방식을 사용하면 다양한 텍스트 인코딩(Latin-1이나 Shift JIS, eus-kr, cp949, Big5 등)을 받아들일 수 있고, 출력 텍스트 인코딩은 한 가지(UTF-8이 이상적)로 엄격히 제한할 수 있다.

<br/>

문자를 표현하는 타입이 둘로 나뉘어 있기 때문에 다음과 같은 상황이 자주 발생한다.

* UTF-8(또는 다른 인코딩 방식)로 인코딩된 8비트 시퀀스를 그대로 사용하고 싶다.

* 특정 인코딩을 지정하지 않은 유니코드 문자열을 사용하고 싶다.

<br/>

두 경우를 변환해주고 입력 값이 코드가 원하는 값과 일치하는지 확신하기 위해서는 종종 두 도우미 함수가 필요하다.

첫 번째 함수는 bytes나 str 인스턴스를 받아 항상 str로 반환한다.

> [repr() 함수](https://wikidocs.net/134994)

In [7]:
# bytes나 str 인스턴스를 매개변수로 받는다.
def to_str(bytes_or_str):
    if isinstance(bytes_or_str, bytes):    # bytes 인스턴스라면
        value = bytes_or_str.decode('utf-8')
    else:
        value = bytes_or_str
    return value    # str 인스턴스

In [8]:
# 위 함수를 적용한 예제
print(repr(to_str(b'foo')))    # bytes
print(repr(to_str('bar')))
print(repr(to_str(b'\xed\x95\x9c')))    # bytes. UTF-8에서 한글은 3바이트다.

'foo'
'bar'
'한'


두 번째 함수는 bytes나 str 인스턴스를 받아 항상 bytes를 반환한다.

In [9]:
def to_bytes(bytes_or_str):
    if isinstance(bytes_or_str, str):    # str 인스턴스라면
        value = bytes_or_str.encode('utf-8')
    else:
        value = bytes_or_str
    return value    # bytes 인스턴스

In [10]:
# 두 번째 함수를 적용한 예제
print(repr(to_bytes(b'foo')))    # bytes
print(repr(to_bytes('bar')))     # str
print(repr(to_bytes('한글')))     # str

b'foo'
b'bar'
b'\xed\x95\x9c\xea\xb8\x80'


이진 8비트 값과 유니코드 문자열을 파이썬에서 다룰 때 꼭 기억해야 할 두 가지 문제점이 있다. 

첫 번째 문제점은 bytes와 str이 똑같이 작동하는 것처럼 보이지만, 각각의 인스턴스는 서로 호환되지 않기 때문에 전달되는 문자 시퀀스가 어떤 타입인지 항상 유의해야 한다는 점이다. + 연산자를 사용하면 bytes를 bytes에 더하거나 str을 str에 더할 수 있다.

In [11]:
print(b'one' + b'two')
print('one' + 'two')

b'onetwo'
onetwo


하지만 str 인스턴스를 bytes 인스턴스에 더할 수는 없다.

In [13]:
b'one' + 'two'

TypeError: can't concat str to bytes

마찬가지로 bytes 인스턴스를 str 인스턴스에 더할 수도 없다.

In [14]:
'one' + b'two'

TypeError: can only concatenate str (not "bytes") to str

이항 연산자를 사용하면 bytes를 bytes와 비교하거나, str을 str과 비교할 수 있다.

> [가정 설정문 assert](https://wikidocs.net/21050)

In [15]:
assert b'red' > b'blue'
assert 'red' > 'blue'

반면 str 인스턴스와 bytes 인스턴스를 비교할 수는 없다.

In [16]:
assert 'red' > b'blue'

TypeError: '>' not supported between instances of 'str' and 'bytes'

마찬가지로 bytes 인스턴스와 str 인스턴스를 비교할 수도 없다.

In [17]:
assert b'blue' < 'red'

TypeError: '<' not supported between instances of 'bytes' and 'str'

내부에 똑같은 문자가 있더라도 bytes와 str 인스턴스가 같은지 비교하면 항상 False가 나온다.

In [18]:
print(b'foo' == 'foo')

False


% 연산자는 각 타입의 형식화 문자열(format string)에 대해 작동한다.

In [19]:
print(b'red %s' % b'blue')
print('red %s' % 'blue')

b'red blue'
red blue


하지만 파이썬이 어떤 이진 텍스트 인코딩을 사용할지 알 수 없으므로, str 인스턴스를 bytes 형식화 문자열에 넘길 수는 없다.

In [20]:
print(b'red %s' % 'blue')

TypeError: %b requires a bytes-like object, or an object that implements __bytes__, not 'str'

str 형식화 문자열에 bytes 인스턴스를 넘길 수는 있지만, 이 경우는 예상과 다르게 작동한다.

In [21]:
print('red %s' % b'blue)

SyntaxError: EOL while scanning string literal (3490455269.py, line 1)

바로 위 코드는 bytes 인스턴스의 __repr__ 메서드를 호출한 결과를 내서 %s를 대신한다. 

<br/>

두 번째 문제점은 (내장 함수인 open을 호출해서 얻은) 파일 핸들과 관련된 연산이 디폴트로 유니코드 문자열을 요구하고 이진 바이트 문자열은 요구하지 않는다는 점이다. 이로 인해 코드가 실행되지 않을 수도 있다.


```Python
# 오류 코드 예제
with open('data.bin', 'w') as f:     # data.bin 파일을 텍스트 쓰기 모드로 연다
    f.write(b'\xf1\xf2\xf3\xf4\xf5')
            
            
# >>> Traceback ...
```

이 코드가 에러가 발생하는 이유는 파일을 열 때 이진 쓰기 모드('wb')가 아닌 텍스트 쓰기 모드('w')로 열었기 때문이다. 파일이 텍스트 모드인 경우 write 연산은 이진 데이터가 들어 있는 bytes 인스턴스가 아닌 유니코드 데이터가 든 str 인스턴스를 요구한다. 이 문제는 'wb' 모드를 이용하면 해결된다.

```Python
# 이진 쓰기 모드 
with open('data.bin', 'wb') as f:
    f.write(b'\xf1\xf2\xf3\xf4\xf5')
```

파일에서 데이터를 읽을 때도 비슷한 문제가 발생할 수 있다. 예를 들어 위에서 기록한 이진 파일을 아래와 같이 읽으려고 시도하면 오류가 발생한다.

```Python
with open('data.bin', 'r') as f:
    data = f.read()
    
# >>> Traceback ...
```

파일을 열 때 이진 모드 읽기('rb')가 아닌 텍스트 읽기 모드('r')로 열었기 때문이다. 핸들이 텍스트 모드에 있으면 시스템의 디폴트 텍스트 인코딩을 bytes.encode(쓰기의 경우)와 str.decode(읽기의 경우)에 적용해서 이진 데이터를 해석한다. 대부분의 시스템에서 디폴트 인코딩은 UTF-8인데, UTF-8 인코딩은 b'\xf1\xf2\xf3\xf4\xf5'라는 이진 데이터를 받아들일 수 없기 때문에 이런 오류가 발생한다. 이 문제는 파일을 'rb' 모드로 열면 해결할 수 있다.

```Python
with open('data.bin', 'rb') as f:
    data = f.read()
    
assert data == b'\xf1\xf2\xf3\xf4\xf5'
```

다른 방법으로, open 함수의 encoding 패러미터를 명시하면 플랫폼에 따라 동작이 달라지는 경우를 방지할 수 있다. 다음 예제에서는 파일 내 이진 데이터가 cp1252(윈도우에서 사용하던 레거시 인코딩 방식)으로 되어 있다고 가정하자.

```Python
with open('data.bin', 'r', encoding='cp1252') as f:
    data = f.read()
```

<br/>

## 1.4 C 스타일 형식 문자열을 str.format과 쓰기보다는 f-string을 이용한 인터폴레이션을 사용하라

파이썬 코드에서는 문자열을 많이 사용한다. 주로 사용자 인터페이스 또는 명령줄 유틸리티에 메시지를 표시하거나, 파일과 소켓에 데이터를 쓰거나, 어떤 일이 잘못됐는지 Exception에 자세히 기록할 때 문자열을 사용한다. 디버깅을 할 때도 사용한다. 

<br/>

형식화(formatting)는 미리 정의된 문자열에 데이터 값을 끼워 넣어서 사람이 보기 좋은 문자열로 저장하는 과정이다. 파이썬은 언어에 내장된 기능과 표준 라이브러리를 이용해 네 가지 방식으로 형식화를 할 수 있다. 하지만 나중에 설명할 한 가지 방법을 제외하면 모두 심각한 단점을 가진다.

<br/>

#### 1. % 형식화 연산자를 사용하는 방법

가장 일반적이자 % 형식화 연산자를 사용하는 방법이다. 이 연산자 왼쪽에 들어가는 미리 정의된 텍스트 템플릿을 **형식 문자열**이라 부른다. 템플릿에 끼워 넣을 값은 연산자 오른쪽에 단일 값(값이 하나인 경우)이나 tuple(값이 여럿인 경우)로 지정한다. 아래는 읽기 어려운 이진 값이나 16진값을 십진수로 표시하기 위해 %를 사용한 예제다.

In [22]:
a = 0b10111011
b = 0xc5f
print('이진수: %d, 십육진수: %d' % (a, b))

이진수: 187, 십육진수: 3167


형식 문자열은 연산자 왼쪽에 있는 값을 끼워 넣을 자리를 표현하기 위해 %d 같은 형식 지정자(format specifier)를 사용한다. 형식 지정자 문법은 C의 printf 함수에서 비롯되어 파이썬에 이식됐다. 파이썬은 %s, %x, %f 등 C 언어의 printf에 사용할 수 있는 대부분의 형식 지정자를 지원하고, 소수점 위치나 패딩, 채워 넣기, 좌우 정렬 등도 제공한다.

<br/>

하지만 파이썬에서 C 스타일 형식 문자열은 4가지 문제점을 갖는다.

<br/>

첫 번째 문제점은 형식화 식에서 오른쪽에 있는 tuple 내 데이터 값 순서를 바꾸거나, 값의 타입을 바꾸려고 할 때 발생할 수 있다. 타입 변환이 불가능하기 때문이다. 우선 아래 예제의 간단한 문자열은 잘 작동한다.

In [24]:
key = 'my_var'
value = 1.234
formatted = '%-10s = %.2f' %(key, value)
print(formatted)

my_var     = 1.23


하지만 key와 value의 위치를 바꾸면 예외가 발생한다.

In [25]:
reordered_tuple = '%-10s = %.2f' %(value, key)

TypeError: must be real number, not str

마찬가지로 오른쪽에 있는 파라미터의 순서를 그대로 유지하고 형식 문자열 순서를 바꿔도 같은 오류가 발생한다. 이런 오류를 피하려면 % 연산자 좌우가 서로 잘 맞는지 계속 검사해야 한다. 따라서 사람이 실수하기 쉽다.

<br/>

두 번째 문제점은 형식화 전 값을 변경해야 한다면(종종 있다) 식을 읽기 매우 어려워진다. 우선 아래 예제는 변경하기 전 코드다.

In [26]:
pantry = [
    ('아보카도', 1.25),
    ('바나나', 2.5),
    ('체리', 1.5),
]

for i, (item, count) in enumerate(pantry):
    print('#%d: %-10s = %.2f' % (i, item, count))

#0: 아보카도       = 1.25
#1: 바나나        = 2.50
#2: 체리         = 1.50


하지만 값을 조금 바꾸고 싶다고 가정하자. 이 경우 형식화 식에 있는 tuple 길이가 너무 길어져서 여러 줄에 나눠 써야 한다. 따라서 가독성이 떨어지게 된다.

In [27]:
for i, (item, count) in enumerate(pantry):
    print('#%d: %-10s = %d' % (
        i + 1,             # 인덱스에 +1을 더해 1부터 시작하게 바꾼다
        item.title(),
        round(count)))     # 반올림한다.

#1: 아보카도       = 1
#2: 바나나        = 2
#3: 체리         = 2


세 번째 문제점은 형식화 문자열에서 같은 값을 여러 번 사용하려면, 튜플에서도 같은 값을 여러 번 써야 한다는 점이다.

In [28]:
template = '%s는 음식을 좋아해. %s가 요리하는 모습을 봐요.'
name = '철수'
formatted = template % (name, name)
print(formatted)

철수는 음식을 좋아해. 철수가 요리하는 모습을 봐요.


이런 문제를 해결하기 위해 파이썬 % 연산자에는 튜플 대신 딕셔너리를 사용해 형식화할 수 있는 기능이 추가됐다. 딕셔너리 key는 형식 지정자에 있는 키(예: %(key)s)와 매치된다.

In [30]:
key = 'my_var'
value = 1.234

old_way = '%-10s = %.2f' % (key, value)

new_way = '%(key)-10s = %(value).2f' % {'key': key, 'value': value}    # 원래 방식

reordered = '%(key)-10s = %(value).2f' % {'value': value, 'key': key}  # 바꾼 방식

assert old_way == new_way == reordered

형식화 식에 딕셔너리를 사용하면 여려 형식 지정자에 같은 키를 지정할 수 있어서 문제를 해결할 수 있다.

In [31]:
name = '철수'
template = '%s는 음식을 좋아해. %s가 요리하는 모습을 봐요.'

before = template % (name, name)    # 튜플
template = '%(name)s는 음식을 좋아해. %(name)s가 요리하는 모습을 봐요.'
after = template % {'name': name}   # 딕셔너리

assert before == after

하지만 딕셔너리 형식 문자열을 사용하면 또 다른 문제가 생기거나 원래 문제가 더 심각해진다. 앞서 두 번째 문제점으로 지적한 '값을 표시하기 전 살짝 바꿔야 하는 경우'도 해당한다. 형식화 연산자인 % 오른편에 딕셔너리 key와 콜론(:) 연산자가 추가됨에 따라 형식화 식이 더 길어지고 가독성이 떨어진다. 

<br/>

아래 예제는 딕셔너리를 사용할 떄와 사용하지 않을 때 차이를 나타낸 코드다.

In [32]:
for i, (item, count) in enumerate(pantry):
    before = '#%d: %-10s = %d' % (
        i + 1,
        item.title(),
        round(count))
    
    after = '#%(loop)d: %(item)-10s = %(count)d' %{
        'loop': i + 1,
        'item': item.title(),
        'count': round(count),
    }
    
assert before == after

코드가 번잡해진 것을 볼 수 있다. 이런 번잡함이 파이썬 C 스타일 형식화의 네 번째 문제점이다. 각 key를 최소 두 번 반복한다. key에 해당하는 값이변수에 들어 있다면, 변수 이름까지 세 번 이상 반복하게 될 수도 있다.

<br/>

가독성을 해치는 문자를 제외하더라도, 이런 불필요한 중복 때문에 딕셔너리를 사용하는 형식화 식이 너무 길어진다. 긴 형식화 식을 여러 줄에 걸쳐 써야만 하는 경우, 형식 문자열을 여러 줄로 나눠 써서 하나로 합치고, 형식화에 사용할 딕셔너리에 넣을 값을 한 줄에 하나씩 나열해야 한다.

In [45]:
menu = {
    'soup': 'lentil',
    'oyster': 'tongyoung',
    'special': 'schnitzel',
}
template = ('Today\'s soup is %(soup)s, '
    'buy one get two %(oyster)s oysters '
    'and our special entree is %(special)s.')
formatted = template % menu
print(formatted)

Today's soup is lentil, buy one get two tongyoung oysters and our special entree is schnitzel.


#### 2. 내장 함수 format과 str.format을 사용하는 방법

파이썬 3부터는 %를 사용하는 오래된 C 스타일 형식화 문자열보다 더 표현력이 좋은 **고급 문자열 형식화** 기능이 도입됐다. 이 기능은 format 내장 함수를 통해 모든 파이썬 값에 사용할 수 있다.

<br/>

예를 들어 다음 코드는 새로운 옵션(천 단위 구분자를 표시할 때 쓰는 ,와 중앙에 값을 표시하는 ^)을 사용해 값을 형식화한다.

In [34]:
a = 1234.5678
formatted = format(a, ',.2f')
print(formatted)

b = 'my 문자열'
formatted = format(b, '^20s')
print('*', formatted, '*')

1,234.57
*        my 문자열        *


str 타입에 새로 추가된 format 메서드를 호출하면 여러 값에 한번에 이 기능을 적용할 수 있다. %d 같은 C 스타일 형식화 지정화 대신 위치 지정자 {}를 사용할 수 있다. 기본적으로 형식화 문자열 위치 지정자는 format 메서드에 전달된 인자 중 순서상 같은 위치에 있는 인자를 가리킨다.

In [35]:
key = 'my_var'
value = 1.234

formatted = '{} = {}'.format(key, value)    # 위치 지정자 {}
print(formatted)

my_var = 1.234


각 위치 지정자에는 콜론 뒤 형식 지정자를 붙여, 붙자열에 값을 넣을 때 어떤 형식으로 변환할지 정할 수 있다.

In [36]:
formatted = '{:<10} = {:.2f}'.format(key, value)
print(formatted)

my_var     = 1.23


위치 지정자를 적용한 결과는 그 위치에 해당하는 값과 : 뒤에 있는 형식 지정자를 format 내장 함수에 전달에 얻은 결과와 같다. 

<br/>

위치 지정자 중괄호에 위치 인덱스, 즉 format 메서드에 전달된 인자의 순서를 표현하는 위치 인덱스를 전달할 수도 있다. 따라서 인자의 순서를 바꾸지 않아도 값을 출력 순서를 바꿀 수 있다. (앞서 C 스타일 형식 문자열의 첫 번째 문제점을 해결)

In [37]:
formatted = '{1} = {0}'.format(key, value)
print(formatted)

1.234 = my_var


형식화 문자열 안에서 같은 위치 인덱스를 여러 번 사용할 수도 있다.(C 스타일 형식 문자열 세 번째 문제점 해결)

In [38]:
formatted = '{0}은 음식을 좋아해. {0}이 요리하는 모습을 봐요.'.format(name)
print(formatted)

철수은 음식을 좋아해. 철수이 요리하는 모습을 봐요.


하지만 format 메서드도 C 스타일 형식 문자열의 두 번째 문제점은 해결하지 못한다. format 메서드도 형식화 전 값을 조금 변경해야 하는 경우 코드 가독성이 떨어지게 된다.

In [40]:
for i, (item, count) in enumerate(pantry):
    old_style = '#%d: %-10s = %d' % (
        i + 1,
        item.title(),
        round(count))
    
    new_style = '#{}: {:<10s} = {}'.format(
        i + 1,
        item.title(),
        round(count))
    
    assert old_style == new_style

str.format과 함께 사용하는 형식 지정자는 딕셔너리 key나 리스트 인덱스를 조합해 위치 지정자에 사용하거나 값을 유니코드나 repr 문자열로 변환하는 등의 고급 옵션을 가지고 있다.

In [47]:
formatted = '첫 번째 글자는 {menu[oyster][0]!r}'.format(menu=menu)
print(formatted)

첫 번째 글자는 't'


하지만 이 기능도 앞서 C 스타일 형식 문자열의 네 번째 문제점인 key가 반복되어 중복이 생기는 점을 해결하지 못한다.

In [48]:
old_template = (
    'Today\'s soup is %(soup)s, '
    'buy one get two %(oyster)s oysters '
    'and our special entree is %(special)s.')
old_formatted = template % {
    'soup': 'lentil',
    'oyster': 'tongyoung',
    'special': 'schnitzel',
}

new_template = (
    'Today\'s soup is {soup}, '
    'buy one get two {oyster} oysters '
    'and our special entree is {special}.')
new_formatted = new_template.format(
    soup='lentil',
    oyster='tongyoung',
    special='schnitzel',
)

assert old_formatted == new_formatted

이런 단점과 C 스타일 형식화 식 문제점(두 번째와 네 번째)이 일부 남아 있으므로, 웬만하면 str.format 메서드를 사용하지 않기를 권한다. 형식 지정자에 사용하는 새로운 미니 언어와 format 내장 함수를 사용하는 방법 자체는 알아야 하지만, str.format의 나머지 부분은 파이썬이 새로 제공하는 **f-string**의 동작과 유용성을 이해하는 데 도움을 주는 역사적인 유물로 간주해야 한다.

<br/>

#### 3. 인터폴레이션을 이용한 형식 문자열

이런 문제점들을 해결하기 위해 파이썬 3.6부터는 인터폴레이션(interpolation)을 이용한 형식 문자열(f-string)이 도입됐다. 이 새 언어 문법에서는 형식 문자열 앞에 f를 붙여야 한다. 바이트 문자열 앞에 f 문자를 붙이고, raw 문자열(이스케이프하지 않아도 되는 문자열)에 r 문자를 붙이는 것과 비슷하다.

<br/>

간단한 예제를 보자.

In [50]:
key = 'my_var'
value = 1.234

formatted = f'{key} = {value}'
print(formatted)

my_var = 1.234


format 함수의 형식 지정자 안에서 콜론 뒤에 사용할 수 있던 내장 미니 언어를 f-string에서도 사용할 수 있다. 값을 유니코드나 repr 문자열로 변환하는 기능 역시 가능하다.

In [51]:
formatted = f'{key!r:<10} = {value:.2f}'
print(formatted)

'my_var'   = 1.23


f-string을 사용한 형식화는 C 스타일 형식화 문자열에 % 연산자를 사용하는 경우나, str.format 메서드를 사용하는 경우보다 항상 더 짧다.

In [53]:
f_string = f'{key:<10} = {value:.2f}'    # f-string

c_tuple = '%-10s = %.2f' %(key, value)   # C 스타일

str_args = '{:<10} = {:.2f}'.format(key, value)    # str format 메서드

str_kw = '{key:<10} = {value:.2f}'.format(key=key, value=value)     # str format 딕셔너리

c_dict = '%(key)-10s = %(value).2f' % {'key': key, 'value': value}

assert c_tuple == c_dict == f_string

assert str_args == str_kw == f_string

또한 f-string을 이용하면 위치 지정자 중괄호 안에 완전한 파이썬 식을 넣을 수 있다. 따라서 값을 약간 변경하고 싶을 때도 간결한 구문으로 표기할 수 있다.

In [54]:
for i, (item, count) in enumerate(pantry):
    old_style = '#%d: %-10s = %d' % (
        i + 1,
        item.title(),
        round(count))
    
    new_style = '#{}: {:<10s} = {}'.format(
        i + 1,
        item.title(),
        round(count))
    
    f_string = f'#{i+1}: {item.title():<10s} = {round(count)}'
    
    assert old_style == new_style == f_string

의미가 더 명확해진다면 연속된 문자열을 서로 연결해주는 기능을 사용해 f-문자열을 여러 줄로 나눌 수도 있다. 한 줄짜리 코드보다는 길겠지만, 가독성은 훨씬 더 좋다.

In [55]:
for i, (item, count) in enumerate(pantry):
    print(f'#{i+1}: '
    f'{item.title():<10s} = '
    f'{round(count)}')

#1: 아보카도       = 1
#2: 바나나        = 2
#3: 체리         = 2


파이썬 식을 형식 지정자 옵션에 넣을 수도 있다. 예를 들어, 다음 코드는 출력할 숫자 개수를 하드코딩하는 대신 변수를 사용해 형식 문자열 안에 패러미터화했다.

In [56]:
places = 3
number = 1.23456
print(f'내가 고른 숫자는 {number:.{places}f}')

내가 고른 숫자는 1.235


f-string이 제공하는 표현력, 간결성, 명확성을 고려하면 형식화 옵션은 f-string이 최고다. 따라서 값을 문자열로 형식화해야 하는 상황이라면 f-string을 택하라.

<br/>

## 1.5 복잡한 식 대신 도우미 함수를 작성해라

파이썬은 문법이 간결하므로 상당한 로직이 들어가는 식도 한 줄로 매우 쉽게 작성할 수 있다.

<br/>

아래 예제에서는 URL의 질의 문자형(query string)을 구문 분석(parsing)하려고 한다. 여기서 각 질의 문자열 패러미터는 정수 값을 표현한다.

In [57]:
from urllib.parse import parse_qs

my_values = parse_qs('빨강=5&파랑=0&초록=', keep_blank_values=True)
print(repr(my_values))

{'빨강': ['5'], '파랑': ['0'], '초록': ['']}


일부 질의 문자열 패러미터는 여러 값이 들어 있고, 일부 패러미터는 값이 하나만 들어 있으며, 일부 패러미터는 이름은 있지만 값이 비어 있고, 일부 패러미터는 아예 없을 수도 이다. 그러므로 딕셔너리에 get 메서드를 사용하면 상황에 따라 다른 값이 반환된다.

In [58]:
print('빨강:', my_values.get('빨강'))
print('초록:', my_values.get('초록'))
print('투명도:', my_values.get('투명도'))

빨강: ['5']
초록: ['']
투명도: None


패러미터가 없거나 빈 경우 0을 디폴트 값으로 대입할 수 있으면 좋을 것이다. 이런 로직을 처리하기 위해서는 완전한 if 문(statement)을 쓰거나 도우미 함수를 작성하는 것은 그다지 매력이 없다. if 식(expression)을 사용하는 편이 좋을 것이다. 

<br/>

다음 코드는 빈 문자열, 빈 리스트, 0이 모두 암시적으로 False로 평가된다는 점을 이용했다. 각 식은 왼쪽 하위 식이 False인 경우 모두 or 연산자 오른쪽의 하위 값으로 계산된다.

> get 메서드는 딕셔너리 안에 key가 없다면 두 번째 인자를 반환한다. 아래 예제는 두 번째 인자로 빈 리스트 ['']를 넣었다.

In [60]:
# 질의 문자열이 '빨강=5&파랑=0&초록='인 경우
# 왼쪽 하위 식이 False면 모두 or 연산자 오른쪽 하위 식으로 계산된다.(값이 0이 된다.)
red = my_values.get('빨강',[''])[0] or 0
green = my_values.get('초록',[''])[0] or 0
opacity = my_values.get('투명도',[''])[0] or 0
print(f'빨강: {red!r}')
print(f'초록: {green!r}')
print(f'투명도: {opacity!r}')

빨강: '5'
초록: 0
투명도: 0


* '빨강'은 my_values 딕셔너리 안에 key가 있으므로 작동한다. key에 해당하는 값은 '5'라는 문자열이 유일한 원소로 든 리스트다. '5'라는 문자열이 True로 평가되고, 이에 따라 식의 첫 번째 부분이 대입된다.

* '초록'은 my_values 딕셔너리 안에 key에 해당하는 값으로 리스트가 있기 때문에 작동한다. 그런데 암묵적으로 False로 평가되는 빈 문자열이 유일한 원소로 들어 있으므로, 전체 식은 0으로 평가된다.

* '투명도'는 my_values 딕셔너리 안에 key에 해당하는 값이 없으므로 작동한다. get 메서드는 딕셔너리 안에 key가 없을 때 두 번째 인자를 반환하므로, 빈 문자열이 반환된다. 이는 암묵적으로 False로 평가되므로 전체 식은 0으로 평가된다.

<br/>

하지만 위 식은 읽기 어려운 데다 원하는 모든 기능을 제공하지도 못한다. 모든 패러미터 값을 정수로 변환해서 즉시 수식에 활용할 수 없을까? 그렇게 하려면 각 식을 int 내장 함수로 감싸서 정수로 구문 분석해야 한다.

In [61]:
red = int(my_values.get('빨강', [''])[0] or [0])    # int 내장 함수로 감쌌다.

하지만 이 코드는 읽기 어렵고 시각적 잡음이 많다. 가독성이 안 좋기 때문에 코드를 새로 접하는 사람이 이해하는 데 시간이 많이 소요된다. 파이썬은 코드를 간결하게 유지하면서 이런 경우를 명확하게 표현할 수 있는 if/else 조건식(또는 삼항 조건식)이 있다.

In [62]:
# False로 평가되지 않는다면 red_str[0], 평가되면 0이 int 내장 함수로 감싸진다.
red_str = my_values.get('빨강', [''])
red = int(red_str[0]) if red_str[0] else 0    

if/else 조건식을 사용하면서 가독성이 더 좋아졌다. 코드가 어떤 조건에 따라 작동하는지 명확하게 알 수 있다. 하지만 여러 줄로 나눠 쓴 완전한 if/else 문보다는 덜 명확하다.

In [63]:
green_str = my_values.get('초록', [''])
if green_str[0]:
    green = int(green_str[0])
else:     # False로 평가된다면
    green = 0

이 로직을 반복 적용하려면(예제처럼 단 두세 번일지라도) **꼭 도우미 함수를 작성**해야 한다.

In [64]:
def get_first_int(values, key, default=0):
    found = values.get(key, [''])
    if found[0]:
        return int(found[0])
    return default    # default=0

도우미 함수 호출을 이용한 코드는 훨씬 명확하다.

In [65]:
green = get_first_int(my_values, '초록')

식이 복잡해지기 시작하면 바로 식을 더 작은 조각으로 나눠서 로직을 도우미 함수로 옮길지 고민해야 한다. 자신이 아무리 짧게 줄여 쓰는 것을 좋아해도, 코드를 줄이는 것보다 가독성을 높이는 것이 더 가치 있다. 

<br/>

## 1.6 인덱스를 사용하는 대신 대입을 사용해 데이터를 언패킹하라

파이썬에는 값으로 이뤄진 불변(immutable) 순서쌍을 만들 수 있는 tuple 내장 타입이 있다. 가장 짧은 튜플은 딕셔너리의 키-값 쌍과 비슷하게 두 값으로 이루어진다.

In [66]:
snack_calories = {
    '감자칩': 140,
    '팝콘': 80,
    '땅콩': 190, 
}
items = tuple(snack_calories.items())
print(items)

(('감자칩', 140), ('팝콘', 80), ('땅콩', 190))


튜플에 있는 값은 숫자 인덱스로 접근할 수 있다.

In [67]:
item = ('호박엿', '식혜')
first = item[0]
second = item[1]
print(first, '&', second)

호박엿 & 식혜


일단 튜플이 만들어졌다면, 인덱스를 이용해 새 값을 대입해서 튜플을 변경할 수는 없다.

In [68]:
pair = ('약과', '호박엿')
pair[0] = '타래과'

TypeError: 'tuple' object does not support item assignment

파이썬에는 **언패킹**(unpacking)(풀기) 구문이 있다. 언패킹 구문을 사용하면 한 문장 안에서 여러 값을 대입할 수 있다. 언패킹 문에 사용한 패턴은 튜플을 변경하려고 시도할 떄 사용한 구문, 즉 파이썬이 허용하지 않았던 구문과 아주 비슷하지만, 두 구문은 매우 다르게 작동한다. 예를 들어 튜플이 쌍이라는 사실을 알고 있다면, 인덱스를 사용해 각 값에 접근하는 대신 이 튜플을 두 변수 이름으로 이뤄진 튜플에 대입할 수 있다.

In [69]:
item = ('호박엿', '식혜')
first, second = item    # 언패킹
print(first, '&', second)

호박엿 & 식혜


언패킹은 튜플 인덱스를 사용하는 것보다 시각적 잡음이 적다.(즉, 가독성이 높아진다.) 리스트, 시퀀스, 이터러블(iterable) 안에 여러 계층으로 이터러블이 들어간 경우 등 다양한 패턴을 언패킹 구문에 사용할 수 있다. 

<br/>

다음 예제처럼 코드를 작성하는 것은 권장하지 않지만, 작동이 가능하다는 사실을 알고 원리를 이해하는 것은 중요하다.

In [70]:
favorite_snacks = {
    '짭조름한 과자': ('프레즐', 100),
    '달콤한 과자': ('쿠키', 100),
    '채소': ('당근', 20),
}

((type1, (name1, cals1)),
 (type2, (name2, cals2)), 
 (type3, (name3, cals3))) = favorite_snacks.items()    # 언패킹

print(f'제일 좋아하는 {type1} 는 {name1}, {cals1} 칼로리입니다.')
print(f'제일 좋아하는 {type2} 는 {name2}, {cals2} 칼로리입니다.')
print(f'제일 좋아하는 {type3} 는 {name3}, {cals3} 칼로리입니다.')

제일 좋아하는 짭조름한 과자 는 프레즐, 100 칼로리입니다.
제일 좋아하는 달콤한 과자 는 쿠키, 100 칼로리입니다.
제일 좋아하는 채소 는 당근, 20 칼로리입니다.


언패킹을 사용하면 임시 변수를 정의하지 않고도 값을 맞바꿀 수 있다. 

<br/>

다음 코드는 오름차순 정렬 알고리즘에서 전형적인 인덱스 구문(그리고 임시 변수)을 사용해 list와 두 위치에 있는 원소를 서로 맞바꾼다.

In [71]:
# 버블 정렬
def bubble_sort(a):
    for _ in range(len(a)):
        for i in range(1, len(a)):
            if a[i] < a[i-1]:
                temp = a[i]
                a[i] = a[i-1]
                a[i-1] = temp
                
names = ['프레즐', '당근', '쑥갓', '베이컨']
bubble_sort(names)
print(names)

['당근', '베이컨', '쑥갓', '프레즐']


하지만 언패킹 구문을 사용하면 한 줄로 두 인덱스가 가리키는 원소를 서로 맞바꿀 수 있다.

In [72]:
# 버블 정렬
def bubble_sort(a):
    for _ in range(len(a)):
        for i in range(1, len(a)):
            if a[i] < a[i-1]:
                a[i-1], a[i] = a[i], a[i-1]    # 맞바꾸기
                
names = ['프레즐', '당근', '쑥갓', '베이컨']
bubble_sort(names)
print(names)

['당근', '베이컨', '쑥갓', '프레즐']


언패킹를 달리 쓸모 있게 사용하는 방법은, 'for 루프 또는 그와 비슷한 다른 요소(컴프리헨션(comprehension)이나 제너레이터 식) 대상인 리스트 원소를 언패킹'하는 것이 있다. 

<br/>

비교를 위해 먼저 언패킹을 사용하지 않고 간식이 든 리스트에 이터레이션(iteration)하는 코드를 살펴보자.

In [73]:
snacks = [('베이컨', 350), ('도넛', 240), ('머핀', 190)]
for i in range(len(snacks)):
    item = snacks[i]
    name = item[0]
    calories = item[1]
    print(f'#{i+1}: {name} 은 {calories} 칼로리입니다.')

#1: 베이컨 은 350 칼로리입니다.
#2: 도넛 은 240 칼로리입니다.
#3: 머핀 은 190 칼로리입니다.


잘 작동하지만 가독성이 안 좋다. snacks 구조 내부 깊숙한 곳에 있는 데이터를 인덱스로 찾으려면 코드가 길어진다. 다음 예제는 enumerate 내장 함수와 언패킹을 사용해 똑같은 출력을 낸 것이다.

In [74]:
for rank, (name, calories) in enumerate(snacks, 1):
    print(f'#{rank}: {name} 은 {calories} 칼로리입니다.')

#1: 베이컨 은 350 칼로리입니다.
#2: 도넛 은 240 칼로리입니다.
#3: 머핀 은 190 칼로리입니다.


이런 식의 루프가 필요할 때는 이런 방법이 파이썬답다. 코드도 더 짧고 가독성도 좋다.(**일반적으로 인덱스를 사용해 무언가에 접근할 필요가 전혀 없다.**)

<br/>

파이썬은 리스트 구조, 함수 인자, 키워드 인자, 다중 반환 값 등에 대한 언패킹 기능도 제공한다. 언패킹 기능을 현명하게 사용하면 인덱스 사용을 피할 수 있고, 더 가독성이 좋은 코드를 만들 수 있다.

<br/>

## 1.7 range보다는 enumerate를 사용하라

range 내장 함수는 어떤 정수 집합을 이터레이션하는 루프가 필요할 떄 유용하다.

In [77]:
from random import randint

random_bits = 0
for i in range(32):
    if randint(0, 1):    # 0과 1사이의 정수를 생성하므로 0이나 1 중 하나를 생성한다는 의미.
        random_bits |= 1 << i    # |=는 or 연산자, <<는 시프트 연산자(비트를 이동시킨다)
        
print(bin(random_bits))

0b11001001101100110010011101100


문자열로 이뤄진 리스트처럼 이터레이셔할 대상 데이터 구조가 있다면 바로 루프를 돌 수 있다.

In [79]:
flavor_list = ['바닐라', '초콜릿', '피칸', '딸기']
for flavor in flavor_list:
    print(f'{flavor} 맛있어요.')

바닐라 맛있어요.
초콜릿 맛있어요.
피칸 맛있어요.
딸기 맛있어요.


리스트를 이터레이션할 때는 리스트의 몇 번째 원소를 처리 중인지 알아야 할 때가 많다. 예를 들어 아이스크림 맛의 선호도 순위를 출력하고 싶다고 하자. 이때 range를 사용할 수 있다.

In [80]:
for i in range(len(flavor_list)):
    flavor = flavor_list[i]
    print(f'{i + 1}: {flavor}')

1: 바닐라
2: 초콜릿
3: 피칸
4: 딸기


하지만 이 코드는 투박해 보인다. 리스트의 길이를 확인해야 하며, 인덱스를 사용해서 배열 원소에 접근한다. 이렇게 단계가 여러 번이므로 코드를 읽기 어렵다.

<br/>

파이썬은 이런 문제를 해결할 수 있는 **enumerate** 내장 함수를 제공한다. enumerate는 이터레이터를 지연 계산 제너레이터(lazy generator)로 감싼다. enumerate는 <U>루프 인덱스와 이터레이터의 다음 값으로 이뤄진 쌍</U>을 넘겨준다.(yield) 다음 코드는 next 내장 함수를 사용해 다음 원소를 가져온다.

In [83]:
it = enumerate(flavor_list)
print(next(it))
print(next(it))

(0, '바닐라')
(1, '초콜릿')


enumerate가 넘겨주는 각 쌍을 for 문에서 간결하게 언패킹할 수 있다. 코드를 더 깔끔하게 작성할 수 있다.

In [85]:
for i, flavor in enumerate(flavor_list):
    print(f'{i + 1}: {flavor}')

1: 바닐라
2: 초콜릿
3: 피칸
4: 딸기


enumerate의 두 번째 패러미터로 어디부터 수를 셀지 지정할 수 있다. 아래 예제는 1부터 시작한다.({i+1}을 해줄 필요가 없다.)

In [88]:
for i, flavor in enumerate(flavor_list, 1):
    print(f'{i}: {flavor}')

1: 바닐라
2: 초콜릿
3: 피칸
4: 딸기


## 1.8 여러 이터레이터에 나란히 루프를 수행하려면 zip을 사용해라

파이썬에서는 관련 객체가 든 리스트를 여러 개 다루는 경우가 있다. 리스트 컴프리헨션을 사용하면 소스 리스트에서 새 리스트를 파생시키기 쉽다.

In [89]:
names = ['Cecilia', '남궁민수', '洪吉童']
counts = [len(n) for n in names]
print(counts)

[7, 4, 3]


만들어진 리스트의 각 원소는 소스 리스트와 같은 인덱스 위치에 있는 원소와 서로 관련이 있다. 따라서 두 리스트를 동시에 이터레이션할 경우 names 소스 리스트 길이를 사용해 counts 리스트까지 이터레이션할 수 있다.

In [90]:
longest_name = None
max_count = 0

for i in range(len(names)):
    count = counts[i]
    if count > max_count:
        longest_name = names[i]
        max_count = count
        
print(longest_name)

Cecilia


하지만 이렇게 작성할 경우 시각적 잡음이 많다. 인덱스를 사용해 names와 counts 원소를 찾는 과정이 코드를 읽기 힘들게 만든다. 또한 배열 인덱스 i를 사용해 배열 원소를 가져오는 연산이 두 번씩 존재한다.(counts[i], names[i]) enumerate를 사용하면 약간 나아지지만 이상적이지는 않다.

In [91]:
for i, name in enumerate(names):
    count = counts[i]
    if count > max_count:
        longest_name = name
        max_count = count

이런 코드를 더 깔끔하게 만들 수 있도록 파이썬은 zip이라는 내장 함수를 제공한다. zip은 둘 이상의 이터레이터를 지연 계산 제너레이터를 이용해 묶어준다. zip 제너레이터는 각 이터레이터 다음 값이 든 튜플을 반환한다. 이 튜플을 for 문에서 바로 언패킹할 수 있다.

In [92]:
for name, count in zip(names, counts):
    if count > max_count:
        longest_name = name
        max_count = count

zip은 자신이 감싼 이터레이터 원소를 하나씩 소비한다. 따라서 메모리를 다 소모해서 프로그램이 중단되는 위험 없이 아주 긴 입력도 처리할 수 있다.

In [94]:
it = zip(names, counts)
print(next(it))

('Cecilia', 7)


하지만 입력 이터레이터의 길이가 서로 다를 때는 zip이 어떻게 동작하는지 주의해야 한다. 

<br/>

예를 들어 names에 다른 원소를 추가하고 count를 갱신하는 것은 잊어버렸다고 하자. 두 입력 리스트 길이가 다른데 zip을 실행하면 예상과 다른 결과가 나온다.

In [95]:
names.append('Rosalind')
for name, count in zip(names, counts):
    print(name)

Cecilia
남궁민수
洪吉童


출력을 보면 새로 추가한 원소인 'Rosalind'가 없다. 이유는 zip이 자신이 감싼 이터레이터 중 어느 하나가 끝날 때까지만 튜플을 내놓기 때문이다. 즉, 출력은 가장 짧은 입력의 길이와 같다. 

<br/>

리스트 컴프리헨션으로 리스트를 파생시킨 겨우 각 리스트의 길이가 같은 경우가 많지만 주의해야 한다. 긴 이터레이터의 뒷부분이 버려지는 zip의 특성이 바람직하지 못한 결과를 내놓는 경우도 있다. zip에 전달할 리스트 길이가 같지 않은 상황이라면, itertools 내장 모듈에 있는 zip_longest를 대신 사용하는 것을 고려해야 한다.

In [97]:
import itertools

for name, count in itertools.zip_longest(names, counts):
    print(f'{name}: {count}')

Cecilia: 7
남궁민수: 4
洪吉童: 3
Rosalind: None


zip_longest는 존재하지 않는 값을 자신에게 전달된 fillvalue로 대신한다. 디폴트 fillvalue는 None이다.

</br>

## 1.9 for나 while 루프 뒤에 else 블록을 사용하지 말라

파이썬 루프는 대부분의 다른 프로그래밍 언어가 제공하지 않는 기능을 제공한다. 파이썬은 루프가 반복 수행하는 내부 블록 바로 다음에 else 블록을 추가할 수 있다.

In [98]:
for i in range(3):
    print('loop', i)
else:
    print('Else block!')

loop 0
loop 1
loop 2
Else block!


위 예제에서 else문은 루프가 끝나자마자 실행됐다. 그렇다면 왜 이 블록의 시작이 'and'가 아니라 'else'일까? if/else 문에서 else는 '이 블록 앞의 블록이 실행되지 않으면 이 블록을 실행하라'는 뜻이었다. try/except 문에서 except도 마찬가지로 '이 블록 앞 블록에서 예외가 발생하면 이 블록을 실행하라'는 뜻이었다.

<br/>

또한 try/except/else도 이런 패턴을 따른다. 여기서 else는 '처리할 예외가 없는 경우에 이 블록을 실행하라'는 뜻이다. try/finally도 '앞의 블록을 실행한 다음에는 이 블록을 실행하라'는 뜻이므로 직관적이다.

파이썬에서 else, except, finally를 배운 프로그래머는 for/else의 else 부분을 '루프가 정상적으로 완료되지 않으면 이 블록을 실행하라'는 뜻으로 가정하기 쉽다. 하지만 실제 else 블록은 완전히 다르게 동작한다. 실제로 루프 안에서 break 문을 사용하면 else 블록이 실행되지 않는다.

In [99]:
for i in range(3):
    print('Loop', i)
    if i == 1:
        break
else:
    print('Else block!')

Loop 0
Loop 1


위처럼 break 문을 사용했더니 else 블록이 실행되지 않았다. 또한 빈 시퀀스에 루프를 실행하면 else 문이 바로 실행된다.

In [101]:
for x in []:
    print('이 줄은 실행되지 않는다.')
else:
    print('For Else block!')

For Else block!


while 루프의 조건이 처음부터 False인 경우(루프가 한 번도 실행되지 않는 경우)에도 else 블록이 바로 실행된다.

In [102]:
while False:
    print('이 줄은 실행되지 않는다.')
else:
    print('While Else block!')

While Else block!


이런 식으로 동작하는 이유는 루프를 사용해 검색을 수행할 경우, 루프 바로 다음에 있는 else 블록이 그와 함께 동작해야 유용하기 때문이다.

<br/>

예를 들어 두 수가 서로소(두 수의 공약수가 1밖에 없음)인지 알아보고 싶다고 하자. 무모한 방법이지만 공약수일 가능성이 있는 모든 수를 이터레이션하면서 두 수를 나눌 수 있는지 검사하면 된다. 모든 가능성을 검사하고 나면 루프가 끝난다. 루프가 break를 만나지 않으면 두 수가 서로소이므로 else 블록이 실행된다.

In [106]:
a = 4
b = 9

for i in range(2, min(a, b) + 1):    # 2부터 (a, b) 중 작은 수까지
    print('검사 중', i)
    if a % i == 0 and b % i == 0:
        print('서로소 아님')
        break
else:
    print('서로소')

검사 중 2
검사 중 3
검사 중 4
서로소


하지만 실전에서 이런 식으로 작성하지 않는다. 대신 계산을 수행하는 도우미 함수를 작성할 것이다. 도우미 함수는 일반적으로 두 가지 방법으로 작성할 수 있다.

첫 번째 방법은 원하는 조건을 찾자마자 빠르게 함수를 반환하는 방식이다. 루프를 빠져나가야 할 때 함수가 디폴트 출력을 반환한다.

In [107]:
def coprime(a, b):
    for i in range(2, min(a, b) + 1):
        if a % i == 0 and b % i == 0:
            return False
    return True

assert coprime(4, 9)
assert not coprime(3, 6)

두 번째 방법은 루프 안에서 원하는 대상을 찾았는지 나타내는 결과 변수를 도입하는 것이다. 원하는 대상을 찾자마자 break로 루프를 벗어난다.

In [108]:
def coprime_alternate(a, b):
    is_coprime = True
    for i in range(2, min(a, b) + 1):
        if a % i == 0 and b % i == 0:
            is_coprime = False
            break
    return is_coprime

assert coprime_alternate(4, 9)
assert not coprime_alternate(3, 6)

두 접근 방법 모두 훨씬 명확해 보인다. 상황에 따라 선택하면 된다. else 블록은 이득보다도 미래에 코드를 이해할 사람에게 부담감을 주는 단점 요소로 작용할 가능성이 크다. 따라서 절대로 for이나 while 루프 뒤에 else 블록을 사용해서는 안 된다.

<br/>

## 1.10 대입식을 사용해 반복을 피해라

대입식은 assignment expression이며 왈러스 연산자(walrus operator)라고도 부른다. 이 대입식은 파이썬 3.8에서 새롭게 도입된 구문이다. 일반 대입문(assignment statement)는 a = b라 쓰며 'a 이퀄(equal) b'라고 읽지만, 왈러스 연산자는 a := b라고 쓰며 'a 왈러스 b'라고 읽는다. (왈러스라는 이름은 :=가 바다코끼리(walrus)의 눈과 엄니처럼 보여서 붙여졌다.)

</br>

대입식은 대입문이 쓰일 수 없는 위치에서 변수에 값을 대입할 수 있으므로 유용하다. 예를 들어 if 문의 조건식 안에서 대입식을 쓸 수 있다. 대입식의 값은 왈러스 연산자 왼쪽에 있는 식별자에 대입된 값으로 평가된다.

<br/>

예를 들어 주스 바에서 사용할 신선한 과일 바구니를 관리한다고 하자. 과일 바구니의 내용물을 정의하면 다음과 같다.

In [109]:
fresh_fruit = {
    '사과': 10,
    '바나나': 8,
    '레몬': 5,
}

고객이 레모네이드를 주문했다면 레몬이 바구니에 최소 하나는 있어야 한다. 다음은 레몬의 개수를 읽어와서 0인지 조사하는 코드다.

In [111]:
def make_lemonade(count):
    ...

def out_of_stock():
    ...

count = fresh_fruit.get('레몬', 0)
if count:
    make_lemonade(count)
else:
    out_of_stock()

간단해 보이는 이 코드의 문제점은 필요 이상으로 잡음이 많다는 점이다. count 변수는 if 문의 첫 번째 블록 안에서만 쓰인다. if 앞에서 count를 정의하면 else 블록이나 그 이후 코드에서 count 변수에 접근해야 할 필요가 있는 듯 보이기 때문에 실제보다 변수가 중요해 보인다.(사실 그렇지 않다.)

<br/>

파이썬에서는 이런 식으로 값을 가져와서 그 값이 0이 아닌지 검사한 뒤 사용하는 경우가 잦다. 파이썬에 대입식이 추가되면서 위처럼 count를 여러 번 쓰지 않고 처리할 수 있게 됐다. 아래는 왈러스 연산자로 다시 쓴 코드다.

In [112]:
if count := fresh_fruit.get('레몬', 0):
        make_lemonade(count)
else:
    out_of_stock()

이렇게 코드가 한 줄이 더 줄었다. 또한 count가 if 문의 첫 번째 블록에서만 의미가 있다는 점이 명확히 보이기 때문에 이 코드가 더 읽기 쉽다. 대입 연산자는 우선 count 변수에 값을 대입하고, if 문의 맥락에서 대입된 값을 평가해 프로그램 흐름을 어떻게 제어할지 판단한다.

<br/>

레몬은 신맛이 강하기 때문에 레모네이드에는 레몬을 하나만 쓴다고 가정하자. 따라서 0이 아닌지 검사하는 것으로 충분할 것이다. 하지만 고객이 사과 주스를 주문하면 사과가 4개는 필요하다면 어떻게 검사해야 할까? 다음 코드는 fruit_basket 딕셔너리에서 count를 가져와 if 문의 조건식에서 비교를 수행한다.

In [114]:
# 왈러스 연산자를 쓰지 않은 코드
def make_cider(count):
    ...
    
count = fresh_fruit.get('사과', 0)
if count >= 4:
    make_cider(count)
else:
    out_of_stock()

이 코드도 레모네이드 예제처럼 왈러스 연산자를 써서 명확하게 바꿀 수 있다.

In [115]:
if (count := fresh_fruit.get('사과', 0)) >= 4:
    make_cider(count)
else:
    out_of_stock()

이 코드는 예상대로 작동하고 코드도 한 줄 짧다. if 문에서 대입 결과를 4를 비교하기 위해 대입식을 괄호로 둘러싸야 하는 점이 중요하다. 레모네이드는 대입식이 다른 큰 식의 하위 식이 아니라, 조건이 0이 아닌지 비교하는 데 쓰였으므로 괄호가 필요하지 않았다. 다른 식도 마찬가지로 가능하다면 대입식 주변에 괄호를 쓰는 일은 피해야 한다.

<br/>

이런 패턴의 변종으로 조건에 따라 현재 위치를 둘러싸는 영역에 있는 변수에 값을 대입하고, 그 변수를 바로 함수 호출에 사용하는 경우가 있다. 예를 들어 고객이 바나나 스무디를 주문했다고 하자. 스무디를 만드려면 바나나가 최소 두 개는 필요하고, 부족하면 OutOfBananas 예외를 발생시켜야 한다. 아래는 전형적인 로직 코드다.


In [116]:
def slice_bananas(count):
    ...
    
    
class OutOfBananas(Exception):
    pass


def make_smoothies(count):
    ...
    
    
pieces = 0
count = fresh_fruit.get('바나나', 0)
if count >= 2:
    pieces = slice_bananas(count)

    
try:
    smoothies = make_smoothies(pieces)
except OutOfBananas:
    out_of_stock()

두 번째 방식은 pieces = 0 대입을 else 블록에 넣는 것이다.

In [117]:
count = fresh_fruit.get('바나나', 0)
if count >= 2:
    pieces = slice_bananas(count)
else:
    pieces = 0

    
try:
    smoothies = make_smoothies(pieces)
except OutOfBananas:
    out_of_stock()

두 번째 방식은 pieces 변수가 두 위치(if 블록, else 블록)에서 정의되는 것처럼 보여서 조금 이상하게 보일 수 있다. 파이썬의 영역 규칙으로 인해(변수 영역과 클로저의 상호작용 방식을 이해하라) 이런 식으로 정의를 분리해도 기술적으로는 잘 동작하지만, 코드를 읽거나 변수 정의를 찾아내기는 쉽지 않다. 따라서 많은 사람이 pieces = 0 대입을 먼저하는 첫 번째 방식을 선호한다.

<br/>

왈러스 연산자를 사용하면 이 예제를 한 줄짜리 코드로 줄일 수 있다. 게다가 pieces는 if 문 다음에도 중요하다는 사실도 명확해진다.

In [118]:
pieces = 0
if (count := fresh_fruit.get('바나나', 0)) >= 2:
    pieces = slice_bananas(count)
    

try:
    smoothies = make_smoothies(pieces)
except OutOfBananas:
    out_of_stock()

앞서 작성한 두 번째 방식(else를 사용)도 왈러스 연산자를 이용해서 정의하면 가독성이 좋아진다.

In [119]:
if (count := fresh_fruit.get('바나나', 0)) >= 2:
    pieces = slice_bananas(count)
else:
    pieces = 0
    

try:
    smoothies = make_smoothies(pieces)
except OutOfBananas:
    out_of_stock()

파이썬에는 유연한 switch/case 문이 없다는 점도 다른 프로그래밍 언어를 하던 사람을 당황시키는 원인 중 하나다. 파이썬에서 이런 유형을 일반적으로 if, elif, else 문을 깊게 내포시키며 해결한다. 

<br/>

예를 들어 현재 주스 바에서 만들 수 있는 주스 중 가장 좋은 주스를 고객에게 제공하고 싶다고 하자. 바나나 스무디를 가장 먼저 제공하고, 다음은 애플 주스, 마지막으로 레모네이드를 제공한다.

In [120]:
# 왈러스 연산자를 사용하지 않은 코드
count = fresh_fruit.get('바나나', 0)
if count >= 2:
    pieces = slice_bananas(count)
    to_enjoy = make_smoothies(pieces)
else:
    count = fresh_fruit.get('사과', 0)
    if count >= 4:
        to_enjoy = make_cider(count)
    else:
        count = fresh_fruit.get('레몬', 0)
        if count:
            to_enjoy = make_lemonade(count)
        else:
            to_enjoy = '아무것도 없음'

이런 지저분한 코드는 흔히 볼 수 있다. 왈러스 연산자를 사용하면 switch/case 문 같은 다중 선택 전용 구문과 거의 비슷한 느낌이 드는 우아한 해법을 만들 수 있다.

In [122]:
if (count := fresh_fruit.get('바나나', 0)) >= 2:
    pieces = slice_bananas(count)
    to_enjoy = make_smoothies(pieces)
elif (count := fresh_fruit.get('사과', 0)) >= 4:
    to_enjoy = make_cider(count)
elif count := fresh_fruit.get('레몬', 0):
    to_enjoy = make_lemonade(count)
else:
    to_enjoy = '아무것도 없음'

또한 do/while 루프도 파이썬에 없기 때문에 당황하게 만드는 원인 중 하나다. 예를 들어, 신선한 과일이 배달돼서 이 과일을 모두 주스로 만든 뒤 병에 담기로 했다고 하자. 아래는 while 루프로 이 로직을 구현한 코드다.

In [125]:
def pick_fruit():
    ...
    
def make_juice(fruit, count):
    ...
    
bottles = []                  # 병에 담은 주스 이름이 담길 리스트
fresh_fruit = pick_fruit()    # 고른 과일
while fresh_fruit:
    for fruit, count in fresh_fruit.items():
        batch = make_juice(fruit, count)
        bottles.extend(batch)
    fresh_fruit = pick_fruit()     # 재귀

위 코드는 재귀를 사용했다. 이 상황에서 코드 재사용을 향상시키기 위한 전략은 **무한 루프-중간에서 끝내기**(loop-and-a-half0 관용어를 사용하는 것이다. 이 관용어를 사용하면 코드 반복을 없앨 수는 있지만, while 루프를 맹목적인 무한 루프로 만들기 때문에 while 루프의 유용성이 줄어든다. 이 방식에서는 루프 흐름 제어가 모두 break 문에 달려 있다.

In [126]:
bottles = []
while True:
    fresh_fruit = pick_fruit()
    if not fresh_fruit:    # 중간에 끝내기
        break
        
    for fruit, count in fresh_fruit.items():
        batch = make_juice(fruit, count)
        bottles.extend(batch)

왈리스 연산자를 사용하면 while 루프에서 매번 fresh_fruit 변수에 대입하고 조건을 검사할 수 있으므로, 무한 루프-중간에서 끝내기 관용어 필요성이 줄어든다. 이 해법이 더 짧고 읽기 쉽다.

In [128]:
bottles = []
while fresh_fruit := pick_fruit():
        for fruit, count in fresh_fruit.items():
            batch = make_juice(fruit, count)
            bottles.extend(batch)

대입식을 사용해 중복을 줄일 수 있는 다른 상황도 많다. 같은 식이나 같은 대입문을 여러 번 되풀이하는 부분이 보인다면 가독성을 향상시키기 위해 대입식을 도입하는 것을 고민해야 한다.

---