# 2장 파이썬 속성 강좌 2부

## 고급 파이썬 프로그래밍

### 정렬(sorting)

리스트의 소트(`sort`) 메소드를 이용하여 항목을 크기 순으로 정렬할 수 있다.

In [1]:
x = [4, 1, 2, 3]
x.sort()
print(x)

[1, 2, 3, 4]


기존의 리스트를 건드리지 않으면서 항목을 정렬하여 활용하고 싶으면 소티드(`sorted`) 함수를 활용한다.

**주의:** `sorted` 함수는 리스트 메소드가 아니라 일반 함수이다.

In [2]:
x = [4, 1, 2, 3]
y = sorted(x)
print(f"x = {x}", f"y = {y}", sep='\n')

x = [4, 1, 2, 3]
y = [1, 2, 3, 4]


`sort` 메소드와 `sorted` 함수 모두 오름차순 정렬을 기본으로 한다. 
내림차순으로 정렬하려면 `reverse` 매개변수의 키워드 인자값을 `True`로 지정하면 된다.

In [3]:
x = [4, 1, 2, 3]
x.sort(reverse=True)
print(x)

[4, 3, 2, 1]


In [4]:
x = [4, 1, 2, 3]
y = sorted(x, reverse=True)
print(y)

[4, 3, 2, 1]


#### 정렬 기준 지정

정렬 기준은 기본적으로 알려진 크기이다.

* 정수형, 실수형: 숫자들의 크기
* 문자열: 알파벳 순서 (일반 사전식 정렬)

In [5]:
x = ['dabc', 'cdabe', 'badc', 'ba', 'abc']
x.sort()
print(x)

['abc', 'ba', 'badc', 'cdabe', 'dabc']


하지만 `key` 매개변수의 키워드 인자값을 지정하여 정렬 기준을 변경할 수 있다.
`key` 매개변수의 키워드 인자값은 일변수 함수이어야 한다.
예를 들어, 숫자들의 절대닶의 크기를 기준으로 정렬하려면 다음과 같이 해야 한다.

In [6]:
x = sorted([-4, 1, -2, 3], key=abs)
print(x)

[1, -2, 3, -4]


**주의:** `abs`는 입력받은 숫자의 절대값을 반환하는 함수이다.

물론 절대값 기준 내림차순으로도 가능하다.

In [7]:
x = sorted([-4, 1, -2, 3], key=abs, reverse=True)

다른 예제를 살펴보자.

1부에서 살펴보았던 `word_counts` 변수에 저장된 단어 빈도수 목록을 살펴보자.

In [8]:
from collections import defaultdict, Counter

document = ["data", "science", "from", "scratch", "data", "from"]

word_counts = defaultdict(int)
for word in document:
    word_counts[word] += 1
    
word_counts

defaultdict(int, {'data': 2, 'science': 1, 'from': 2, 'scratch': 1})

`word_counts`의 항목들을 빈도수 기준 내림차순으로 정렬하고자 한다면 어떻게 해야 하는가?
가장 단순한 방법은 `Counter` 자료형의 `most_common` 메소드를 활용하면되다.

즉, 먼저 `word_counts`를 `Counter` 자료형으로 변환시킨 후 `most_common` 메소드를 적용한다.

In [9]:
Counter(word_counts).most_common()

[('data', 2), ('from', 2), ('science', 1), ('scratch', 1)]

하지만 `Counter` 자료형을 사용하지 않고도 가능하다. 
`sorted` 함수와 `sort` 메소드의 매개변수인 `key`의 키원드 인자값을 아래와 같이 지정하면 
동일한 결과를 얻는다.

`key` 매개변수의 키원드 인자로는 다음 함수를 사용한다.

In [10]:
word_counts_to_counts = lambda word_and_count: word_and_count[1]

즉, `key`의 키워드 인자값은 정렬해야할 대상들을 입력 받아 무엇을 기준으로 정렬할지를
반환값으로 알려주는 함수가 되어야 한다.

여기서는 `word_counts.items()` 항목이 길이가 2인 튜플이며, 1번 인덱스 값, 즉, 둘째 항목인 빈도수를 기준으로 
정렬하라고 알려주는 함수가 바로 `word_counts_to_counts`이다.

In [11]:
word_counts.items()

dict_items([('data', 2), ('science', 1), ('from', 2), ('scratch', 1)])

In [12]:
wc = sorted(word_counts.items(),
            key=word_counts_to_counts,
            reverse=True)
print(wc)

[('data', 2), ('from', 2), ('science', 1), ('scratch', 1)]


**주의:** `wc` 는 보통 워드 카운트(word count, 단어 빈도수)의 줄임말이다.

### 조건제시법(list comprehension)

집합을 정의하기 위해 사용하는 조건제시법을 리스트, 집합, 사전(`dict`)에도 적용할 수 있다.

예를 들어 0 ~ 4 까지의 정수 중에서 짝수만으로 이루어진 집합을 다음과 같이 
조건제시법으로 정의할 수 있다.

$$\{x \mid 0 \le x < 5, \text{단 } x는 짝수\}$$

동일한 조건으로 리스트를 생성하려면 다음과 같이 `for ... in ... if ...`문을 활용한다.
형식은 다음과 같다. 

```python
[x for x in range(5) if x % 2 == 0]
```
* `for`: 파이프($|$, 일명 짝대기) 기호에 대응.
* `x in range(5)`: '$0 \le x < 5$ 이며, $x$'는 정수를 표현.
* `if` : '단', 즉, 조건부에 대응.
* `x % 2 == 0`: `x`를 2로 나눈 나머지가 0과 같아야 한다는 조건, 즉, 짝수 조건 표현.

In [13]:
even_numbers = [x for x in range(5) if x % 2 == 0]
print(even_numbers)

[0, 2, 4]


집합에 대한 조건제시법 적용은 다음과 같다.

In [14]:
even_numbers_set = {x for x in range(5) if x % 2 == 0}
print(even_numbers_set)

{0, 2, 4}


아래 `squares`는 다음 집합에 대응한다.

$$\{x^2 \mid 0 \le x < 5 \text{ 이고 } x \text{ 는 정수}\} = \{0, 1, 4, 9, 16\}$$


In [15]:
squares = [x * x for x in range(5)]
print(squares)

[0, 1, 4, 9, 16]


아래 `even_squares`는 다음 집합에 대응한다.

$$\{x^2 \mid x \in \text{even_numbers}\} = \{0, 4,16\}$$


In [16]:
even_squares = [x * x for x in even_numbers]
print(even_squares)

[0, 4, 16]


사전(`dict`) 자료형에 대해서도 조건제시법을 적용할 수 있다.

In [17]:
square_dict = {x: x * x for x in range(5)}
print(square_dict)

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}


* 키: `range(5)`의 항목들, 즉, 0, 1, 2, 3, 4
* 키값: 키의 제곱, 즉, 각각 0, 1, 4, 9, 16

조건제시법에서 불필요한 것은 밑줄(`_`)로 처리한다.

예를 들어, 동일한 항복을 반복 생성하고자 할 때 아래와 같이 할 수 있다.

In [18]:
zeros = [0 for _ in even_numbers]
print(zeros)

[0, 0, 0]


**주의:** 위와 같이 하면 `even_numbers`와 동일한 길이의 리스트가 생성되며, 
모든 항목은 0으로 동일하다. 따라서 `for ... in ...`에 사용되어야 하는 변수가
아무런 역할도 수행하지 않는다. 따라서 밑줄로 처리하는 것이다.

실제로 아래와 같이 해도 동일한 결과를 얻는다.
이유는 `x`가 리스트의 항목을 생성하는데 아무런 역할도 수행하지 않기 때문이다.

In [19]:
zeros = [0 for x in even_numbers]
print(zeros)

[0, 0, 0]


조건제십법에 여러 개의 `for ... in ...` 문을 사용할 수 있다.

In [20]:
pairs = [(x, y)
         for x in range(10)
         for y in range(10)]

`pairs`는 아래 집합에 대응한다.

$$\{(x, y) \mid 0 \le x, y < 10 \text{ 이고 } x, y \text{는 정수} \}$$

따라서 `pairs`에는 총 100개의 순서쌍이 들어 있다. 
첫 10개의 항목을 확인해보자.

In [21]:
pairs[:10]

[(0, 0),
 (0, 1),
 (0, 2),
 (0, 3),
 (0, 4),
 (0, 5),
 (0, 6),
 (0, 7),
 (0, 8),
 (0, 9)]

그 다음 10개를 아래와 같다.

In [22]:
pairs[10:20]

[(1, 0),
 (1, 1),
 (1, 2),
 (1, 3),
 (1, 4),
 (1, 5),
 (1, 6),
 (1, 7),
 (1, 8),
 (1, 9)]

마지막 10개를 확인해보자.

In [23]:
pairs[-10:]

[(9, 0),
 (9, 1),
 (9, 2),
 (9, 3),
 (9, 4),
 (9, 5),
 (9, 6),
 (9, 7),
 (9, 8),
 (9, 9)]

두 개의 `for ... in ...` 문이 어떻게 움직이는지 감잡았을 것이다.

* `x`를 0부터 시작하여 1씩 증가시켜 9까지 변경할 때마다
    `y`를 0부터 9까지 변화시킨다.

다음 예제는 조금 다르게 작동한다.

* `x`를 0부터 시작하여 1씩 증가시켜 9까지 변경할 때마다
    `y`를 `x`+1부터 9까지 변화시킨다.

In [24]:
increasing_pairs = [(x, y)                       
                    for x in range(10)           
                    for y in range(x + 1, 10)]   

In [25]:
increasing_pairs[:9]

[(0, 1), (0, 2), (0, 3), (0, 4), (0, 5), (0, 6), (0, 7), (0, 8), (0, 9)]

In [26]:
increasing_pairs[10:17]

[(1, 3), (1, 4), (1, 5), (1, 6), (1, 7), (1, 8), (1, 9)]

In [27]:
increasing_pairs[-2:]

[(7, 9), (8, 9)]

`increasing_pairs`의 길이는 9 + 8 + 7 + 6 + 5 + 4 + 3 + 2 + 1, 즉, 45이다.

In [28]:
len(increasing_pairs)

45

또한 만약 (`x`, `y`) $\in$ `increasing_pairs` 이면  `x`가 `y` 보다 작다.

In [29]:
all(x < y for x, y in increasing_pairs)

True

### 자동 테스팅: `assert` 활용

작성된 코드가 의도한 대로 작동하는지를 확인하는 여러 방법이 있다.
이 강좌에서는 가장 단순한 `assert` 테스팅 기법만 사용한다.

어서트(`assert`, 주장) 이후에 나오는 문장의 참/거짓을 판단하여 
참이면 그냥 넘어가고, 거짓이면 오류를 발생시킨다.

In [30]:
assert 1 + 1 == 2

In [31]:
assert 1 + 1 == 3

AssertionError: 

예외처리 기능을 활용할 수도 있다.

In [32]:
assert 1 + 1 == 3, "1 + 1 should equal 2 but didn't"

AssertionError: 1 + 1 should equal 2 but didn't

`assert` 테스팅은 주로 함수의 구현을 테스팅할 때 활용한다.

예를 들어, 숫자들의 리스트를 인자로 받아 최소값을 반환하는 함수를 아래와 같이 구현했다고 하자.

In [33]:
def smallest_item(xs):
    return min(xs)

이제 위 구현이 제대로 작동하는지 아래처럼 테스팅할 수 있다.

In [34]:
assert smallest_item([10, 20, 5, 40]) == 5
assert smallest_item([1, 0, -1, 2]) == -1

오류가 발생하지 않기에 위 구현이 테스팅을 통과한 것으로 간주할 수 있다.

**주의:** 테스팅을 통과했다고 해서 구현이 제대로 되었다고 보장할 수는 없다.
테스팅은 몇 가지 경우에서 확인하니 잘 된다는 의미일 뿐이며, 모든 경우에 올바르게 작동한다는 
보장은 하지 못한다. 
그래도 이런 테스팅을 통해 구현된 코드에 대한 신뢰도를 많이 높일 수 있다. 

함수의 인자로 제대로된 값들이 입력되는지 여부를 확인하기 위해서도 `assert`가 활용될 수 있다.

In [35]:
def smallest_item_assert(xs):
    assert xs, "빈 리스트엔 최소값이 없어요!"
    return min(xs)

이제 빈 리스트(`[]`)를 인자로 사용하면 오류가 발생하는 대신에 바로 예외처리가 진행되어
`AssertionError`가 발생하고 발생 이유를 설명한다.

In [36]:
smallest_item_assert([])

AssertionError: 빈 리스트엔 최소값이 없어요!

반면에 `smallest_item` 함수의 경우 빈 리스트의 최소값이 존재하지 않는다는 `ValueError`가 
발생한다.

In [37]:
smallest_item([])

ValueError: min() arg is an empty sequence

### 객체 지향 프로그래밍

파이썬은 소위 **객체 지향 프로그래밍**을 지원하는 언어이다.
이 강좌에서는 객체 지행 프로그래밍의 정체를 논하지 않는다.
다만, 객체 지향 프로그래밍의 핵심 요소인 클래스(class)와 인스턴스(instance)를 
어떻게 정의하고 활용하는지 예제 두 개를 이용하여 보여준다.

앞으로 클래스와 인스턴스를 수 없이 보고 사용할 것이다.
사실, 지금까지도 많은 클래스와 인스턴스를 살펴 보았다.

* `str`: 문자열 클래스
    * 인스턴스: `"abc"`, `"홍길동"` 등


* `list`: 리스트 클래스
    * 인스턴스: `[1, 2, 3]`, `['ab', 1, [0, 1]]` 등


* `set`: 집합 클래스
    * 인스턴스: `set(), {1, 2, 3}`, `{'ab', 1, [0, 1]}` 등


* `dict`: 사전 클래스
    * 인스턴스: `{"이름":"홍길동", "출신":"한양"}` 등


* `defaultdict`: 디폴트딕트 클래스
    * 인스턴스: `defaultdict(int)`, `defaultdict(list)` 등


* `Counter`: 카운터 클래스
    * 인스턴스: `Counter([1, 2, 1, 3, 0])` 등

#### 클래스의 활용

클래스는 크게 세 가지 방식으로 사용된다.

1. 자료형 및 메소드 정의
    * 여기에서 주로 사용되는 방식이며, 앞서 언급한 클래스들이 여기에 해당한다.
1. 관련된 기능을 갖는 함수들의 모둠, 일종의 도구 상자
    * 아래 둘째 예제가 여기에 해당함.
1. 동일한 기능을 갖는 객체를 쉽고 다양한 방식으로 생성할 수 있도록 도와주는 기계틀 역할으 수행하는 도구
    * 게임 프로그래밍 등에서 게임 캐릭터, 배경, 도구 등을 쉽게 생성할 때 기본적으로 사용되는 방식임.

#### 첫째 예제: 집합 클래스 구현하기

집합 자료형인 `set`이 없다고 가정하고 직접 집합 자료형을 `MySet` 클래스를 이용하여 정의해보자.

In [38]:
class MySet: 

    # 메소드 정의:
    # 모든 메소드의 첫째 매개변수는 관습적으로 "self"라 부른다.
    # "self"에는 어떤 "MySet" 객체가 인자로 입력되어야 한다.

    def __init__(self, values=None):
        """이 메소드는 생성자이다. 모든 클래스의 생성자는 이 이름을 사용한다.
        클래스의 인스턴스를 생성할 때 눈에 보이지 않지만 이 메소드가 호출되어 실행된다.
        아래 형식으로 활용된다.
        s1 = MySet()          # 공집합 생성
        s2 = MySet([1,2,2,3]) # 원소를 지정하면서 집합 생성"""

        self.dict = {}  # "self"에 입력된 MySet 클래스의 객체에 빈 사전을 기본으로 포함시킴.
                        # self.dict 에 원소를 추가할 것임.
            
        if values is not None:    # values에 포함된 항목을 모두 self.dict에 추가
            for value in values:
                self.add(value)   # add 메소드 정의는 아래에 있음.

    def __repr__(self):
        """MySet 자료형의 값을 출력할 때 보여주는 방식을 지정함.
        print 또는 str 함수의 인자로 사용할 때 지정된 값으로 출력/변환된다.
        모든 클래스에는 이 메소드가 동일한 이름으로 포함된다."""
        return "MySet: " + str(self.dict.keys())
    
    # 키에 사용된 값들만 MySet의 원소로 인정한다. 
    # 즉, 키값은 중요하지 않으며, 여기서는 True를 사용한다.
    # 따라서 새로운 값을 원소로 추가할 때 '값:True' 형식으로 self.dict 에 추가한다.
    def add(self, value): 
        self.dict[value] = True
        
    # 원소 포함여부는 in 연산자를 활용한다.
    def contains(self, value): 
        return value in self.dict
    
    # 원소를 제거하는 메소드도 있다.
    def remove(self, value): 
        del self.dict[value]

#### 매직 메소드

이닛(`__init__`), 레퍼(`__repr__`) 메소드처럼 두 개의 밑줄(underscores)로 감싸인 메소드를
**매직 메소드**(magic methods)라 부르며, 모든 파이썬 클래스에 동일한 이름으로 포함되어 있다.
기타 많은 매직 메소드가 존재하며 명시적으로 선언되지 않은 매직 메소드는 기본 함수가 자동으로 지정된다.

#### 클래스와 인스턴스

1, 2, 3을 원소로 갖는 `MySet`을 다음처럼 생성한다.

In [39]:
s = MySet([1,2,3]) 

여기서 변수 `s`에 할당된 값을 `MySet` 클래스의 인스턴스라 부르며,
이 경우에는 특별히 `MySet` 자료형이라 부를 수 있다.
`set` 클래스의 인스턴스를 집합 자료형이라 부르는 것과 동일하다.

**주의:** 
* 위와 같이 실행하면 실제로는 `MySet`의 `__init__` 메소드가 호출된다.
    그런데 `__init__` 메소드의 첫째 매개변수인 `self`에 대한 인자는 입력하지 않으며
    `Values`의 인자만 사용한 것에 주의하라. 
* 기타 모든 메소드에 대해서도 마찬가지이다.
* `self`의 용도는 아래에서 상속을 설명할 때 알아본다.

이제 `MySet` 자료형인 `s`에 원소를 추가/삭제하는 방법과 결과를 확인해보자.

In [40]:
print(s)

s.add(4)
print(s.contains(4))
print(s)

s.remove(3)
print(s.contains(3))
print(s)

MySet: dict_keys([1, 2, 3])
True
MySet: dict_keys([1, 2, 3, 4])
False
MySet: dict_keys([1, 2, 4])


#### 둘째 예제: 클릭수 세기

웹페이지의 방문자 수를 확인하는 앱을 구현하고자 할 때 아래 도구들이 필요하다.

* 클릭수를 저장할 변수
* 클릭수를 1씩 키워주는 도구
* 현재 클릭수를 읽어주는 도구
* 클릭수를 초기화하는 도구

언급한 변수 한 개와 네 개의 도구를 포함한 일종의 도구상자를
아래 `CountingClicker` 클래스로 구현한다.

In [41]:
class CountingClicker:
    """함수의 경우처럼 문서화 문자열을 사용할 수 있다.
    클래스 정보를 확인할 때 보여지는 내용을 여기에 작성한다."""

    # 생성자
    # 클릭수 초기값을 0으로 지정
    def __init__(self, count = 0):
        self.count = count

    # 출력 메소드
    def __repr__(self):
        return f"CountingClicker(count={self.count})"

    # 클릭 이벤트가 발생하면 클릭수를 1씩 키워주는 도구 역할 함수
    def click(self, num_times = 1):
        """Click the clicker some number of times."""
        self.count += num_times

    # 현재 클릭수를 읽어주는 도구 역할 함수
    def read(self):
        return self.count
    
    # 클릭수를 초기화하는 도구 역할 함수
    def reset(self):
        self.count = 0

아래 코드를 실행하면 `CountingClass`의 인스턴스를 하나 생성하면 앞서 언급한 변수 한 개와 네 개의 도구를 
포함한 하나의 도구상자를 얻게 되며, 도구상자의 이름은 `clicker`이다.

In [42]:
clicker = CountingClicker()

`clicker` 도구상자의 도구를 이용하려면 아래와 같이 실행한다.

```python
clicker.도구역할함수이름(인자,....)
```

먼저 클릭수가 0으로 초기화되어 있음을 확인하자.
이유는 아무도 클릭하지 않았기 때문이다.
실제로 `clicker` 도구상자를 생성할 때 호출되는 `__init__` 메소드의 인자가 지정되지 않아서
`count` 매개변수의 키워드 인자로 기본값인 0이 사용되어, `self.count` 변수에 할당되었다.

In [43]:
assert clicker.read() == 0, "클릭수는 0부터 시작해야 합니다."

#### 인스턴스 변수

* `self.count`와 같은 변수를 **인스턴스 변수**라 부른다.
* 이유는 인스턴스가 생성되어야만 존재의미를 갖는 변수이기 때문이다.
* 인스턴스 변수 이외에 **클래스 변수**가 클래스를 선언할 때 사용될 수 있다.
    클래스 변수는 인스턴스가 생성되지 않아도 존재의미를 갖는다.
    이에 대해서는 나중에 기회 있을 때 자세히 설명한다.

이제 클릭을 두 번 했다가 가정하자. 
즉, `click` 메소드를 두 번 호출되어야 한다.

In [44]:
clicker.click()
clicker.click()

그러면 클릭수가 2가 되어 있어야 한다.

In [45]:
assert clicker.read() == 2, "두 번 클릭했으니 클릭수는 2이어야 함."

이제 클릭수를 초기화하자.

In [46]:
clicker.reset()

그러면 클릭수가 다시 0이 되어야 한다.

In [47]:
assert clicker.read() == 0, "클릭수를 초기화하면 0이 된다."

클릭수를 지정하면서 `CountingClicker`의 인스턴스를 생성할 수 있다.

In [48]:
clicker50 = CountingClicker(50)

클릭수가 50으로 설정되었음을 확인할 수 있다.

In [49]:
clicker50.read()

50

#### 클래스 상속

부모 클래스로부터 많은 기능을 물려받을 수 있는 자식 클래스를 상속을 이용하여 선언할 수 있다.

예를 들어, 클릭수를 초기화할 수 없는 자식 클래스 `NoResetClicker`를 아래와 같이 선언한다.
클릭수 초기화 기능을 없애기 위해서는 `reset` 메소드를 재정의(overriding)해야 한다.

In [50]:
class NoResetClicker(CountingClicker):
    # 부모 클래스인 CountingClicker의 모든 메소드를 물려 받는다.
    # 다만, reset 함수의 초기화 기능을 없애기 위해 다음처럼 재정의한다. 
    # 재정의하지 않는 메소드는 부모 클래스에서 정의된 그대로 물려 받는다.
    
    def reset(self):
        pass

이제 `NoResetClicker`의 인스턴스를 생성한 후 클릭수 초기화가 이루어지지 않을 확인할 수 있다.

In [51]:
clicker2 = NoResetClicker()
clicker2.click()
clicker2.click()
print(clicker2.read())
clicker2.reset()
print(clicker2.read())

2
2


### 이터러블(iterable) 자료형와 제너레이터(generator)

`for ... in ...` 반복문과 리스트 자료형은 서로 찰떡궁합 관계이다. 
특정 명령을 지정한 횟수만큼 쉽게 반복적으로 처리할 수 있도록 만들 수 있기 때문이다. 

In [52]:
type(range(10))

range

In [53]:
for i in [0, 1, 2, 3, 4]:
    print(i)

0
1
2
3
4


In [54]:
for i in range(5):
    print(i)

0
1
2
3
4


리스트처럼 `for ... in ...` 등의 반복문에서 항목을 차례대로 읽어 활용하는 것을 가능하게 해주는 자료형을 이터러블 자료형이다.

하지만 리스트의 항목은 엄청 많으면 리스트를 저장하는 데에 막대한 메모리가 요구된다.
게다가 한 번만 사용하고 말 리스트라는 문제가 더욱 심각하다.
따라서 필요한 만큼만 항목을 생성해주는 도구가 필요하며, 그런 도구를 제너레이터(generator)라 부른다.

#### `range` 함수

실제로 앞서 다루었던 `range` 함수가 제너레이터의 일종이다. 

예를 들어, `range(5)`는 `for ... in ...` 반복문에서 리스트 `[0, 1, 2, 3, 4]`와 동일한 기능을 수행한다. 

하지만 리스트의 항목은 엄청 많으면 리스트를 저장하는 데에 막대한 메모리가 요구된다.
따라서 필요한만큼만 항목을 생성하는

In [55]:
for i in range(5):
    print(i)

0
1
2
3
4


#### 제너레이터 구현

제너레이터 구현은 함수를 정의하는 방식과 거의 동일하다.
반환값을 지정하는 `return` 키워드 대신에 요청될 때 값을 생성하는 일드(`yield`) 키워드가 사용될 뿐이다.

예를 들어, `range(n)`과 동일한 기능을 수행하는 `generate_range` 제너레이터를 아래와 같이 정의할 수 있다.

In [56]:
def generate_range(n):
    i = 0
    while i < n:
        yield i       # yield 가 호출될 때마다 제너레이터의 값을 생성한다.
        i += 1

아래 반복문을 실행한다고 해서 `generate_range(10)`이 0부터 9까지의 정수를 한꺼번에 생성하지는 않는다.
대신에 `for` 반복문이 한 번씩 반복해서 실행될 때마다 차례대로 0, 1, 2, ... 등을 생성해서 변수 `i`에 할당한다.

In [57]:
for i in generate_range(10):
    print(f"i = {i}")

i = 0
i = 1
i = 2
i = 3
i = 4
i = 5
i = 6
i = 7
i = 8
i = 9


#### 소극적(lazy) 계산과 적극적(eager) 계산

`range`, `generate_range` 등 처럼 모든 값을 미리 생성해서 준비해 놓는 대신에 필요할 때 필요한 항목을 생성하는 함수를 
소극적 함수(lazy function)이라 부른다.

**주의:** 파이썬에서 정의되는 함수는 실행될 때 기본적으로 적극적으로 값을 생성하며 계산한다.


#### 무한 수열 생성

제너레이터를 이용하면 무한 수열도 생성할 수 있다.
이유는 제너레이터는 항상 요구되는 만큼만 생성하고,
따라서 절대로 무한히 많은 값들을 생성하려고 하지 않기 때문이다.

예를 들어, 아래 `natural_numbers` 함수는 모든 자연수를 생성할 준비가 된 제너레이터이다.

In [58]:
def natural_numbers():
    """returns 1, 2, 3, ..."""
    n = 1
    while True:
        yield n
        n += 1

물론 위와 같이 무한 수열을 생성하는 제너레이터는 매우 조심스럽게 사용해야 한다. 
예를 들어 아래와 같이 사용하면 무한 반복(loop)이 발생한다. 

```python
for i in natural_number():
    print(i)
```

무한 수열을 생성하는 제너레이터는 `break` 명령문과 함께 적절하게 사용할 수는 있다.

In [59]:
for i in natural_numbers():
    if i > 5:
        break
    print(i)

1
2
3
4
5


#### 이터레이터 재활용

생성된 이터레이터는 한 번 사용하면 다시 사용할 수 없으며,
필요할 때마다 다시 이터레이터를 생성해야 한다. 

예를 들어, 아래와 같이 이터레이터를 생성하여 변수에 저장하자.

In [60]:
iterator_once = generate_range(5)

그러고 나서 변수를 이용하여 반복문을 돌리자.

In [61]:
for i in iterator_once:
    print(i)

0
1
2
3
4


이제 다시 동일한 변수를 이용하여 반복문을 돌리면 아무 것도 하지 않을 것이다.
이유는 지정된 이터레이터가 이미 모든 값을 생성하였기 때문이다.

In [62]:
for i in iterator_once:
    print(i)

해결책은 해당 이터레이터를 다시 생성하는 것 뿐이다. 

In [63]:
iterator_once = generate_range(5)

for i in iterator_once:
    print(i)

0
1
2
3
4


따라서 이터레이터가 반복적으로 사용되어야 한다면 차라리 리스트로 정의해서 활용하는 것이 나을 수 있다.

#### 제너레이터 조건제시법

리스트와 사전 자료형의 경우에서처럼 조건제시법으로 제너레이터를 생성할 수 있다.
사용하는 기호는 소괄호(`()`)이며, 마치 조건제시법으로 튜플을 생성하는 것처럼 보인다.

In [64]:
evens_below_20 = (i for i in generate_range(20) if i % 2 == 0)

화면에 출력하고 싶어도 할 수 없다.
제너레이터이기 때문에 정의된 되어 있을 뿐이며, 아무 것도 생성하지 않았기 때문이다.

In [65]:
print(evens_below_20)

<generator object <genexpr> at 0x7f2e60304048>


하지만 `for ... in ...` 반복문을 이용하여 원소들을 확인할 수 있다.

In [66]:
for x in evens_below_20:
    print(x)

0
2
4
6
8
10
12
14
16
18


동일한 이유로 아래 정의들은 무한 수열을 정의하지만 전혀 문제가 없다.
이유는 반복문을 실행하기 전까지 아무런 계산도 하지 않기 때문이다.

In [67]:
data = natural_numbers()
evens = (x for x in data if x % 2 == 0)
even_squares = (x ** 2 for x in evens)
even_squares_ending_in_six = (x for x in even_squares if x % 10 == 6)
# 등등

#### `next` 함수

넥스트(`next`) 함수는 이터레이터에서 아직 생성되지 않는 다음 항목을 계산해내는 함수이다.

In [68]:
next(even_squares_ending_in_six)

16

In [69]:
next(even_squares_ending_in_six)

36

In [70]:
next(even_squares_ending_in_six)

196

#### `enumerate` 함수

리스트 또는 제너레이터를 대상으로 반복문을 실행할 때
각 항목고 함께 해당 항목의 인덱스를 함께 사용해야 할 때가 있다.
이럴 때 이뉴머레이트(`enumerate`) 함수가 유용하다.

In [71]:
names = ["Alice", "Bob", "Charlie", "Debbie"]

In [72]:
for i, name in enumerate(names):
    print(f"{i}번 이름은 {name}입니다.")

0번 이름은 Alice입니다.
1번 이름은 Bob입니다.
2번 이름은 Charlie입니다.
3번 이름은 Debbie입니다.


아래 두 방식도 가능하지만 `enumerate` 함수를 사용하는 것에 비하면
별로 좋아 보이지 않는다.

In [73]:
for i in range(len(names)):
    print(f"{i}번 이름은 {name}입니다.")

0번 이름은 Debbie입니다.
1번 이름은 Debbie입니다.
2번 이름은 Debbie입니다.
3번 이름은 Debbie입니다.


In [74]:
i = 0
for name in names:
    print(f"{i}번 이름은 {name}입니다.")
    i += 1

0번 이름은 Alice입니다.
1번 이름은 Bob입니다.
2번 이름은 Charlie입니다.
3번 이름은 Debbie입니다.


### 난수 생성

무작위 수를 생성할 필요가 종종 있다.
무작위로 생성된 수를 난수(random number)라 부르며,
난수 생성을 위해 랜덤(`random`) 모듈을 사용할 수 있다.

In [75]:
import random

#### `random` 함수

0과 1 사이의 실수를 무작위로, 하지만 균등하게(uniformly) 선택한다.
여기서 균등성은 한 영역에 치우치지 전 영역에서 골고루 선택함을 의미한다.

In [76]:
[random.random() for _ in range(10)]

[0.937756112280463,
 0.32925070503629605,
 0.8918915868968175,
 0.40093712003214144,
 0.24261195813819603,
 0.004140001033405172,
 0.07892457312887047,
 0.22705954278954454,
 0.49793011901847994,
 0.058484543912960874]

**주의:** 난수 생성이 엄밀히 말하면 완전히 무작위는 아니다. 
모든 컴퓨터 안에 난수표가 있어서 `random` 같은 함수를 실행할 때마다
난수표에서 차례대로 읽어서 보여주는 것에 불과하다.
하지만 우리 인간에게는 무작위적으로 보이며, 실제로 매우 유용하게 활용된다.

#### 시드(`seed`) 함수

코드를 실행할 때 마다 동일한 난수를 얻으려면,
즉, 동일한 환경에서 데이터 분석 실험을 반복하려면 
`seed` 함수를 먼저 실행해야 한다.

간단한게 설명하면, `seed` 함수에 입력된 정수 인자가
난수를 생성하는 기준을 제시한다.
따라서 어떤 환경에서도 `seed` 함수의 입력값이 동일하면 
동일한 난수가 생성된다.

In [77]:
random.seed(10)         # 시드를 10으로 지정
print(random.random())
random.seed(10)       
print(random.random())

0.5714025946899135
0.5714025946899135


시드를 지정하지 않으면 `random` 함수가 매번 다른 값을 생성한다.

In [78]:
print(random.random())

0.4288890546751146


In [79]:
print(random.random())

0.5780913011344704


In [80]:
print(random.random())

0.20609823213950174


#### `randrange` 함수

지정된 범위 안에서 정수를 무작위로 선택하는 함수이다. 

예를 들어, 0부터 9 사이의 정수중에서 임의로 하나의 수를 선택하려면 다음과 같이 실행한다.

In [81]:
random.randrange(10)

7

실행할 때마다 다른 값을 반환한다.

In [82]:
random.randrange(10)

4

그리고, 예를 들어, 3과 7 사이의 정수 중에서 임의로 하나를 선택하려면 다음과 같이 실행한다.

In [83]:
random.randrange(3, 7)

4

역시 실행할 때마다 다른 값을 반환한다.

In [84]:
random.randrange(3, 7)

3

하지만 `seed` 를 지정하면 매번 동일한 값을 반환한다.

In [85]:
random.seed(0)
random.randrange(3,7)

6

In [86]:
random.seed(0)
random.randrange(3,7)

6

In [87]:
random.seed(0)
random.randrange(3,7)

6

#### `shuffle` 함수

리스트의 항목들을 무작위로 섞고자 할 때 사용한다.

In [88]:
up_to_ten = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
random.shuffle(up_to_ten)
print(up_to_ten)

[9, 10, 2, 3, 6, 4, 8, 5, 1, 7]


역시 실행할 때마다 다르게 섞는다.

In [89]:
up_to_ten = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
random.shuffle(up_to_ten)
print(up_to_ten)

[6, 5, 9, 7, 1, 2, 8, 3, 4, 10]


하지만 시드를 지정하면 항상 동일한 결과를 보인다.

In [90]:
random.seed(50)
up_to_ten = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
random.shuffle(up_to_ten)
print(up_to_ten)

[9, 7, 1, 3, 4, 2, 10, 6, 5, 8]


In [91]:
random.seed(50)
up_to_ten = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
random.shuffle(up_to_ten)
print(up_to_ten)

[9, 7, 1, 3, 4, 2, 10, 6, 5, 8]


#### `choice` 함수

리스트에서 임의로 하나의 항목을 선택할 때 사용한다.

In [92]:
random.choice(["Alice", "Bob", "Charlie"])

'Alice'

실행할 때마다 값이 달라질 수 있다. 그리고 중복 선택이 가능하다.

In [93]:
random.choice(["Alice", "Bob", "Charlie"])

'Charlie'

In [94]:
random.choice(["Alice", "Bob", "Charlie"])

'Charlie'

시드를 지정하면 동일한 결과를 얻는다.

In [95]:
random.seed(100)
random.choice(["Alice", "Bob", "Charlie"])

'Alice'

In [96]:
random.seed(100)
random.choice(["Alice", "Bob", "Charlie"])

'Alice'

In [97]:
random.seed(100)
random.choice(["Alice", "Bob", "Charlie"])

'Alice'

#### `sample`  함수

리스트에서 지정한 개수만큼의 항목을 무작위로 선택해서 새로운 리스트를 생성할 수도 있다.
중복선택이 없다. 따라서 일종의 로또 뽑기와 비슷하게 작동한다.

In [98]:
lottery_numbers = range(60)
random.sample(lottery_numbers, 6)

[29, 59, 49, 11, 45, 25]

실행할 때 마다 다르게 선택한다.

In [99]:
lottery_numbers = range(60)
random.sample(lottery_numbers, 6)

[46, 22, 27, 32, 51, 7]

시드를 지정하면 변하지 않는다.

In [100]:
random.seed(0)
lottery_numbers = range(60)
random.sample(lottery_numbers, 6)

[54, 24, 48, 56, 26, 2]

In [101]:
random.seed(0)
lottery_numbers = range(60)
random.sample(lottery_numbers, 6)

[54, 24, 48, 56, 26, 2]

#### `choice`와 `range`의 합작

두 함수를 합작하면 `sample` 유사하게 작동하는 코드를 구현할 수 있다.
차이점은 중복 선택이 가능하다라는 점이다.

예를 들어, 0부터 99 사이의 정수 중에서 중복을 허락하면서 무작위로 10개의 정수를 선택하고자 
할 때 다음과 같이 실행한다.

In [102]:
four_with_replacement = [random.choice(range(100)) for _ in range(10)]
print(four_with_replacement)

[33, 65, 62, 51, 38, 61, 45, 74, 27, 64]


실행할 때마다 결과가 다르다.

In [103]:
four_with_replacement = [random.choice(range(100)) for _ in range(10)]
print(four_with_replacement)

[17, 36, 17, 96, 12, 79, 32, 68, 90, 77]


시드를 지정하면 항상 동일하다.

In [104]:
random.seed(5)
four_with_replacement = [random.choice(range(100)) for _ in range(10)]
print(four_with_replacement)

[79, 32, 94, 45, 88, 94, 83, 67, 3, 59]


In [105]:
random.seed(5)
four_with_replacement = [random.choice(range(100)) for _ in range(10)]
print(four_with_replacement)

[79, 32, 94, 45, 88, 94, 83, 67, 3, 59]


### 정규표현식

정규표현식은 문장을 탐색할 때 매우 유용하며, 탐색 대상의 패턴(pattern, 형태)을 지정한다.
하지만 사용법이 꽤 복잡하기도 해서 한 권의 책으로 나올 정도이다.
따라서 앞으로 정규표현식 예제가 나올 때마다 필요한 정도만 자세히 다룰 것이며,
여기서는 간단하 예제를 통해 정규표현식의 역할을 살펴본다.

먼저, 정규표현식 탐색에 필요한 도구를 모아놓은 `re` 모듈을 불러와야 한다.

In [106]:
import re

#### `match` 함수

* 사용법
    ```python
    re.match(패턴, 문자열)
    ```
    
* 의미: 문자열이 정규표현식이 지정한 문자열로 시작하는지 여부를 판단

예를 들어, 문자열이 `ca`로 시작하는지 여부를 알고자 하면 다음처럼 실행한다.
패턴 매칭이 성립하면 `Match` 객체가 리턴되며 매칭이 성공했음을 알려준다.

In [107]:
re.match("ca", "cat")

<_sre.SRE_Match object; span=(0, 2), match='ca'>

위 결과는 `cat` 문자열의 0번부터 2번 이전 인덱스까지 지정된 패턴으로 시작된다는 정보를 보여준다.

반면에 패턴 매칭이 성공하지 못하면 `None`을 리턴한다.

In [108]:
print(re.match("ca", "kat"))

None


#### 패턴 매칭 성공과 실패: `True` 또는 `False`

패턴 매칭이 성공하면 `True`, 실패하면 `False`로 간주된다.

In [109]:
if re.match("ca", "cat"):
    print("참")
else:
    print("거짓")

참


In [110]:
if re.match("ca", "kat"):
    print("참")
else:
    print("거짓")

거짓


#### `search` 함수

* 사용법
    ```python
    re.search(패턴, 문자열)
    ```
    
* 의미: 문자열이 정규표현식이 지정한 문자열을 **부분문자열**로 포함하는지 여부를 판단
* 반환값 자료형과 참/거짓 간주여부는 `match`의 경우와 동일.

In [111]:
re.search("at", "cat")

<_sre.SRE_Match object; span=(1, 3), match='at'>

In [112]:
re.search("at", "cot")   

#### 대괄호(`[]`) 패턴 규칙

지금 까지는 특정 문자열의 포함여부만을 살펴보았다.
하지만 특정 문자열 뿐만 아니라 특정 형태를 띄는 문자열을 탐색할 수도 있다.

예를 들어, 0부터 9까지의 숫자 중 하나로 시작하는지 여부를 물을 수 있다.
이를 위해 사용할 패턴은 `[0-9]` 이다.

* 패턴 규칙: 대괄호(`[]`)는 안에 포함된 문자들 중의 아무 문자 하나를 의미한다.
* `0-9`: 0부터 9까지의 정수를 가리킨다.
* `a-f`: 알파벳 a부터 f까지, 즉, a, b, c, d, e, f를 가리킨다.

In [113]:
re.match("[0-9]", "cot")   

In [114]:
re.match("[0-9]", "3cot")   

<_sre.SRE_Match object; span=(0, 1), match='3'>

In [115]:
re.match("[a-f]", "pat")   

In [116]:
re.search("[a-f]", "pat")   

<_sre.SRE_Match object; span=(1, 2), match='a'>

#### `split` 함수

* 사용법
    ```python
    re.split(패턴, 문자열)
    ```
    
* 의미: 지정된 패턴으로 문자열을 쪼갠다.
* 반환값: 쪼개딘 문자열들의 리스트

예를 들어, `a` 또는 `b`로 문자열을 쪼개고자 할 때 다음처럼 실행한다.

In [117]:
re.split("[ab]", "caribbean")

['c', 'ri', '', 'e', 'n']

즉, `"caribbean"`이 `"c"-a-"ri"-b-""-b-"e"-a-"n"`로 쪼개졌다.

#### `sub` 함수

* 사용법
    ```python
    re.sub(패턴, 대입문자열, 문자열)
    ```
    
* 의미: 지정된 패턴으로 탐색된 문자열 대신에 지정된 대입문자열을 삽입한다.
* 반환값: 수정된 문자열

예를 들어, 0부터 9까지의 숫자 대신에 대시(`-`)를 사용하고 싶으면 아래와 같이 실행한다.

In [118]:
re.sub("[0-9]", "-", "R2D2") 

'R-D-'

#### 참고자료

정규표현식에 대한 정보와 활용법은 매우 중요하며 아래 사이트를 이용하여 공부할 것을 추천한다.

참조: [생활코딩 정규표현식이란?](https://opentutorials.org/course/909/5142)

### 짝짓지(`zip`) 함수와 인자 풀어헤치기(argument unpacking)

리스트, 튜플 등 이터러블(iterable) 자료형 두 개 이상을 짝짓기를 통해 하나로 묶어야 할 때가 있다.
예를 들어, 두 개의 리스트의 항목을 순서대로 쌍으로 묶어 새로운 리스트를 생성할 수 있다.

In [119]:
list_abc = ['a', 'b', 'c']
list_abc_indices = [0, 1, 2]

list_pairs = zip(list_abc, list_abc_indices)

In [120]:
tuple_a = ('a', 0)
tuple_b = ('b', 1)
tuple_c = ('c', 2)

tuple_pairs = zip(tuple_a, tuple_b, tuple_c)

`zip`은 소극적인 함수이다. 즉, 필요한 만큼만 계산하고 결과를 생성한다.

In [121]:
print(list_pairs)

<zip object at 0x7f2e60291448>


In [122]:
print(tuple_pairs)

<zip object at 0x7f2e60291048>


따라서 결과물을 확인하려면 아래와 같이 리스트 조건제시법 등을 활용해야 한다.

In [123]:
[pair for pair in list_pairs]

[('a', 0), ('b', 1), ('c', 2)]

In [124]:
[pair for pair in tuple_pairs]

[('a', 'b', 'c'), (0, 1, 2)]

서로 길이가 다른 리스트를 대상으로 `zip` 함수를 사용하면 가장 짧은 리스트의 길이만큼만 짝짓기를 실행한다.

In [125]:
list_abcd = ['a', 'b', 'c', 'd']
list_count = ['first', 'second']

list_pairs_d = zip(list_abcd, abc_indices, list_count)

[pair for pair in list_pairs_d]

NameError: name 'abc_indices' is not defined

#### 인자 풀어헤치기(argument unpacking)

숫자 세 개의 평균을 계산해주는 함수를 아래와 같이 정의하자.

In [126]:
def mean3(a, b, c): return (a+b+c)/3

이제 `mean3` 함수를 호출하려면 반드시 인자 두 개를 입력해야 한다.

In [127]:
mean3(1, 2, 3)

2.0

그런데 길이가 3인 리스트나 튜플을 인자로 사용할 수 있다.
대신 인자를 풀어헤쳐야 하며 이를 위해 별표(`*`)를 사용한다.

In [128]:
mean3(*[1, 2,3])

2.0

In [129]:
mean3(*(1, 2, 3))

2.0

**주의:** 별표를 사용하지 않으면 오류가 발생한다.

In [130]:
mean3([1, 2, 3])

TypeError: mean3() missing 2 required positional arguments: 'b' and 'c'

In [131]:
mean3((1, 2, 3))

TypeError: mean3() missing 2 required positional arguments: 'b' and 'c'

#### 짝짓기 해제(unzip, 언짚)

인자 풀어헤치기 기술을 응용하여 
짝짓기가 된 쌍들의 리스트를 해제하여 두 개의 리스트로 되돌릴 수 있다.
다만 방식이 꽤나 생소하게 보일 수 있다.

앞서 `zip`으로 생성한 `list_pairs`를 풀어헤쳐서 기존 두 개의 리스트를 복구해보자.

In [132]:
list_abc = ['a', 'b', 'c']
list_abc_indices = [0, 1, 2]

list_pairs = zip(list_abc, list_abc_indices)

for i in list_pairs:
    print(i)

('a', 0)
('b', 1)
('c', 2)


`list_pairs`를 아래 형태의 리스트를 소극적(lazy)으로 담고 있다.

In [133]:
pairs = [('a', 0), ('b', 1), ('c', 2)]

이제 `pairs`를 풀어헤치면서 `zip` 함수의 인자로 입력하면
아래 세 개의 인자를 `zip` 함수의 인자로 입력하는 것과 동일하다.

```python
('a', 0), ('b', 1), ('c', 2)
```

따라서 `zip(*pairs)`는 아래 모양의 리스트를 품은 값이 된다.

```python
[('a', 'b', 'c'), (0, 1, 2)]
```

아래 코드를 실행하면 동일한 결과를 확인할 수 있다.

In [134]:
letters, numbers = zip(*pairs)
print(f"letters = {letters}", f"numbers = {numbers}", sep='\n')

letters = ('a', 'b', 'c')
numbers = (0, 1, 2)


### 이름 없는 인자들(`args`)과 이름 있는 인자들(`kwargs`)

함수를 선언할 때 아래 형태처럼 인자의 개수를 지정하는 것이 일반적이다. 

```python
def 함수이름(매개변수1, ..., 매개변수n):
    함수본체
```

하지만 원하는 대로 많은 인자를 받을 수 있도록 해야 하는 경우가 발생한다.
이를 위해 파이썬은 관습적으로 `args`와 `kwargs`라 불리며 특별한 역할을 수행하는 매개변수를 사용한다.

꽤 유용한 기법이지만 여기서는 고계함수를 선언하면서 반드시 필요한 경우에 한정해서 사용할 것이다.

#### 고계함수(higer-order function)

파이썬에서 함수는 일급객체, 즉, 다른 함수의 인자로 사용될 수 있다.
이렇게 함수를 인자로 입력받을 수 있는 함수를 고계함수(higher-order function)라 부른다.

예를 들어, 함수 `f`를 입력 받으면 `f`의 반환값의 두 배를 반환하는 새로운 함수를 반환하는 
`doubler` 함수를 정의해 보자.

In [135]:
def doubler(f):
    # 함수 f가 입력되었다고 가정하자.
    # 이제 임의의 x 에 대해 2*f(x)를 반환하는 함수 g를 선언하자.

    def g(x):
        return 2 * f(x)

    # 이제 함수 g를 doubler(f)의 반환값으로 지정한다.
    return g

`doubler` 함수의 인자로 다음 함수 `f1`을 사용해보자.

In [136]:
def f1(x):
    return x + 1

g = doubler(f1)

`g(x)`가 `f(x)`의 두 배임을 확인할 수 있다.

In [137]:
g(3) == 2 * f1(3)

True

In [138]:
g(-1) == 2 * f1(-1)

True

하지만 두 개의 인자를 받는 다음 함수 `f2`에 대해서는 `doubler`를 실행시킬 수 없다.

In [139]:
def f2(x, y):
    return x + y

g = doubler(f2)

In [140]:
try:
    g(1, 2)
except TypeError:
    print("함수 g는 하나의 인자만을 허용한다.")

함수 g는 하나의 인자만을 허용한다.


#### 임의로 많은 인자를 입력 받는 함수

임의로 많은 인자를 받는 함수를 선언하는 일반적인 형식은 
아래 `magic` 함수의 경우와 비슷하다.

In [141]:
def magic(*args, **kwargs):
    print("이름 없는 인자들:", args)
    print("이름 있는 인자들:", kwargs)

**주의:**

* 이름 없는 인자들을 위한 매개변수 `args`에는 한 개의 별표(`*`)를 붙힌다
    * `*agrs` 는 앞서 설명한 리스트 또는 튜플 인자 풀어헤치기(unpacking) 기법과 동일하다.
    * args는 arguments(아규먼츠, 인자)를 가리킴.

* 이름 있는 인자들을 위한 매개변수 `kwargs`에는 두 개의 별표(`**`)를 붙힌다.
    * `**kwagrs` 는 사전 자료형 인자 풀어헤치기(unpacking)를 의미한다.
    * kwargs는 keyword arguments(키워드 아규먼츠, 키워드 인자)를 가리킴.

In [142]:
magic(1, 2, key1="단어", key2="단어2", key3="단어3")

이름 없는 인자들: (1, 2)
이름 있는 인자들: {'key1': '단어', 'key2': '단어2', 'key3': '단어3'}


**주의:**

* 이름 없는 인자들은 튜플로 인식된다.
    
* 이름 있는 인자들은 사전으로 인식된다.

#### 인자 풀어헤치기 활용

리스트, 튜플, 사전 자료형을 풀어헤치기 기법으로 함수의 인자로 동시에 입력할 수도 있다.

예를 들어, 아래 함수는 인자 세 개를 요구한다.

In [143]:
def other_way_magic(x, y, z):
    return x + y + z

이제 길이가 2인 리스트 한 개와 한 개의 항목을 가진 사전 자료형을 
풀어헤치기 기법을 이용하여 인자로 사용해보자.

In [144]:
x_y_list = [1, 2]
z_dict = {"z": 3}

In [145]:
other_way_magic(*x_y_list, **z_dict) == other_way_magic(1, 2, 3)

True

#### 임의로 많은 인자를 받는 함수와 고계함수

앞서 살펴 본 `doubler` 함수를 일반화 하여 
임의로 많은 인자를 받은 함수를 인자로 사용할 수 있도록 
`args`와 `kwargs` 기법을 이용할 수 있다.

In [146]:
def doubler_correct(f):
    """f는 임의의 함수를 받아들인다."""
    
    # 함수 f가 인자로 들어오면 동일한 인자를 사용하는 함수 g를 선언한다.
    # 함수 g는 인자를 받으면 그대로 모두 함수 f에 전달한다.
    # 그리고 함수 f의 반환값을 두 배하여 반환한다.

    def g(*args, **kwargs):
        return 2 * f(*args, **kwargs)
    return g

이제 `f2`에 대해서도 2배 함수가 작동한다.

In [147]:
g = doubler_correct(f2)

g(1, 2) == 2 * f2(1,2)

True

### 자료형 명시하기

#### 파이썬과 동적 타이핑

파이썬은 **동적 타이핑**(dynamic typing)을 지원하는 언어이다.
즉, 함수나 변수를 선언할 때 변수들의 자료형을 명시적으로 제한하지 않는다.
동적 타이핑 언어의 경우 프로그램 실행 과정에서 문제가 발생하지 않도록 프로그램을 작성해야 한다.

예를 들어 아래 `add` 함수를 보자.

In [148]:
def add(a, b):
    return a + b

`add` 함수의 인자로 정수, 실수, 리스트, 문자열이 사용될 수 있다.

In [149]:
assert add(10, 5) == 15,                  "정수들에 대해 + 사용 가능"
assert add([1, 2], [3]) == [1, 2, 3],     "리스트들에 대해 + 사용 가능"
assert add("저 ", "잠깐만요!") == "저 잠깐만요!", "문자열들에 대해 + 사용 가능"

하지만 두 인자가 동일한 자료형을 가져야 한다.
예를 들어, 숫자와 문자열의 덧셈은 작동하지 않는다.
이유는 숫자와 문자열의 덧셈이 정의되어 있지 않기 때문이다.

In [150]:
try:
    add(10, "five")
except TypeError:
    print("정수와 문자열은 서로 더할 수 없어요!")

정수와 문자열은 서로 더할 수 없어요!


#### 파이썬과 정적 타이핑

C, Java 등 많은 프로그래밍 언어는 동적 타이핑 대신에 **정적 타이핑**(static typing)을 지원한다.
즉, 함수나 변수를 선언할 때 사용되는 변수들의 자료형과 인자 및 반환값의 자료형을 
애초부터 명시해야 하며 지정된 자료형이 사용되지 않을 경우 오류를 발생시킨다.

파이썬은 3.6 버전부터 정적 타이핑을 지원한다. 
다만 C, Java의 자료형과 관련된 엄격함은 전혀 존재하지 않으며, 
그냥 정적 타이핑의 형식만 빌려왔다.

즉, **자료형 명시**(type annotations)를 지원할 뿐이며, 
실제로는 동적 타이핑 형식으로 문법과 실행 과정을 확인하고 제어한다.

예를 들어, `add` 함수를 아래와 같이 선언할 수 있다.

In [151]:
def add(a: int, b: int) -> int:
    return a + b

하지만 여전히 문자열이나 리스트를 인자로 사용할 수 있다.

In [152]:
print(add(10, 5))
print(add([1, 2], [3]))
print(add("저 ", "잠깐만요!"))

15
[1, 2, 3]
저 잠깐만요!


#### 자료형 명시하기의 장점

비록 형식적더라도 자료형 명시하기가 주는 장점이 크게 네 가지 있으며,
이런 이유때문에 파이썬 최신 버젼에서 자료형 명시를 지원한다.

첫째, 문서화 및 프로그래밍 교육에 유용하다.

예를 위해, 먼저 벡터 자료형을 실수들의 리스트들의 집합으로 정의하자.

* 기본 자료형의 정의는 타이핑(`typing`) 모듈에 포함되어 있다.
* 벡터(Vector) 자료형은 실수들의 리스트, 즉, `List[float]`로 정의된다.

In [153]:
from typing import List
Vector = List[float]

이제 아래 두 개의 정의를 비교하면 둘째 정의가 보다 많은 정보를 우리에게 제공함을 알 수 있다.

정의 1: 전통적 방식

In [154]:
def dot_product(x, y): ...

정의 2: 자료형 명시

In [155]:
def dot_product(x: Vector, y: Vector) -> float: ...

둘째, `mypy` 와 같은 제3자가 개발한 툴을 이용하여 파이썬 코드를 실행하기 전에
작성된 코드에 사용된 함수와 변수들이 적절한 자료형을 사용했는지 여부를
검사해주는 툴을 활용할 수 있다.

하지만 여기서는 사용하지 않을 것이며, 대신에 관심이 있다면 
[mypy 공식 문서](https://mypy.readthedocs.io/en/stable/)를 참조하기를 추천한다.

셋째, 자료형을 명시적으로 보여줌으로써 보다 정제된 함수와 인터페이스를 디자인할 수 있다.

예를 들어, 아래 `secretly_ugly_function`인 경우 `value`와 `operation` 매개변수에
사용할 인자들의 자료형을 함수의 본체를 들여다보기 전까지는 전혀 알 수 없다.

In [156]:
def secretly_ugly_function(value, operation): ...

아래 `ugly_function`은 보다 이상하다.

In [157]:
from typing import Union

def ugly_function(value: int, operation: Union[str, int, float, bool]) -> int:
    ...

왜냐면 둘째 매개변수 `operation`에 할당될 수 있는 함수는 인자로 
`str`, `int`, `float`, `bool` 중의 하나의 자료형을 받아들일 수 있기 때문인데,
그렇게 되면 아주 쉽게 문제를 유발할 수 있다.

**주의:** `Union`은 합집합을 나타내는 기호이다.

따라서 이런 방식 보다는 명시적으로 자료형을 표기하는 것이 훨씬 
사용자들이 프로그램을 보다 쉽게 이해할 수 있도록 도와준다.

넷째, 소스코드 에디터의 자동완성 기능을 보다 적절하게 지원하게 만들어 주며,
따라서 보다 빠르게 오류 없는 프로그램을 작성할 수 있도록 도와준다. 

예를 들어, VSCode 에디터에서 아래 코드를 작성하다 보면 
매개변수 `xs`가 정수들의 리스트를 입력받을 것으로 기대하며,
리스트의 메소드의 목록을 보여주며 코드 작성을 도와주려 시도한다.

<img src="../images/type_annotation.png" width="50%">

#### 자료형 명시 방법

* 내장 자료형(built-in types): `int`, `bool`, `float`, `str` 등은 그대로 사용
* `a:int`, `b:bool`, `c:float`, `s:str` 등등

* 리스트: 단순히 `list` 라고 하는 것은 별 도움 않됨. 

In [158]:
def total(xs: list) -> float:
    return sum(xs)

* 대신에 어떤 자료형의 리스트인지 명시하는 게 보다 유용

In [159]:
from typing import List  # 대문자 L 사용에 주의할 것

def total(xs: List[float]) -> float:
    return sum(xs)

#### 변수 자료형 명시

변수의 자료형도 명시할 수 있다.

In [160]:
x: int = 5

경우에 따라 변수의 자료형이 명확하지 않아서 자료형을 명시하면 많은 도움을 받을 수 있다.
예를 들어, 아래 두 변수는 어떤 종류의 리스트인지 명확하지 않다.

In [161]:
values = []

대신에 아래의 경우는 아주 명확하다.
즉, 빈 리스트이면서 정수들의 리스트 중에 하나임을 명확히 보여준다.

In [162]:
values : List[int]= []

#### `Optional` 자료형

아래의 경우는 애매함이 더욱 심하다.

In [163]:
best_so_far = None

`None`은 '아무 값도 아니다'를 가리키는 '값'이다. 
하지만 변수는 어떤 값을 가리키기 위해 존재하며, 새로운 값을 언제라도 가리킬 수 있다.
따라서 `None`이 언제라도 다른 값으로 대체될 수 있으며,
대체될 값의 자료형을 암시해줄 필요가 있다.
이를 위해 옵셔널(`Optional`) 자료형을 `List` 자료형과 유사한 방법으로 활용할 수 있다.

In [164]:
from typing import Optional

best_so_far: Optional[float] = None

위와 같이 하면 `best_so_far` 변수에는 실수(`float`) 자료형이 할당될 것으로 
기대함을 바로 알 수 있다.
즉, `float` 자료형 또는 `None` 값을 위해 `best_so_far` 변수를 사용할 것이라고
명시하는 것이다.

#### `typing` 모듈

타이핑(`typing`)은 `List`, `Optional` 이외에도 다른 많은 자료형을 포함하고 있다.
그중에 일부만 다룰 예정이다.

In [165]:
from typing import Dict, Iterable, Tuple

`counts` 변수는 문자열을 키(key)로, 정수를 키값으로 사용하는 사전 자료형을 담고 있다.

In [166]:
counts: Dict[str, int] = {'data': 1, 'science': 2}

`evens` 변수는 0부터 9사이의 짝수를 소극적(lazy) 리스트로 담고 있다. 

In [167]:
evens: Iterable[int] = (x for x in range(10) if x % 2 == 0)

`triple` 변수는 정수, 실수, 정수 세 개의 값을 갖는 튜플이다.

In [168]:
triple: Tuple[int, float, int] = (10, 2.3, 5)

#### `Callable` 함수의 자료형

파이썬에서 함수는 일급 객체이다. 
즉, 함수의 인자로 함수를 입력할 수 있다.
따라서 함수를 가리키는 매개변수의 자료형도 명시할 수 있어야 한다. 
이를 위해 `Callable`(호출가능한) 자료형을 활용한다.

In [169]:
from typing import Callable

def twice(repeater: Callable[[str, int], str], s: str) -> str:
    return repeater(s, 2)

* `twice` 함수는 첫째 인자로 `Callable[[str, int], str]` 자료형의 함수를 인자로 받는다.
* `Callable[[str, int], str]` 는 아래 특징을 갖는 함수들의 자료형을 가리킨다.
    * 인자 함수 입력값 두 개
        * 첫째 인자: 문자열(`str`)
        * 둘째 인자: 정수(`int`)
    * 인자 함수 반환값: 문자열(`str`)

예를 들어, 아래 함수 `comma_repeater`를 `twice` 함수의 인자로 입력해보자.

In [170]:
def comma_repeater(s: str, n: int) -> str:
    n_copies = [s for _ in range(n)]
    return ', '.join(n_copies)

`twice(comma_repeater, "type hints")`는 
`comma_repeater("type hints", 2)`의 반환값을 반환한다.

In [171]:
comma_repeater("type hints", 2)

'type hints, type hints'

In [172]:
twice(comma_repeater, "type hints") == comma_repeater("type hints", 2)

True

#### 자료형도 파이썬 객체이다!

자료형을 명시하기 위해 사용된 자료형들 자체도 파이썬 객체이다.
즉, 변수에 할당할 수 있는 값으로 사용될 수 있다.

예를 들어, 복잡한 자료형을 단순한 이름으로 지정하여 다시 자료형 명시를 위해 사용할 수 있다.

In [173]:
Number = int
Numbers = List[Number]

def total(xs: Numbers) -> Number:
    return sum(xs)