# 제너레이터(generator)

## 제너레이터 사용하기

- 제너레이터는 이터레이터를 생성해주는 함수입니다. 
- 이터레이터는 클래스에 __iter__, __next__ 또는 __getitem__ 메서드를 구현해야 하지만 제너레이터는 함수 안에서 yield라는 키워드만 사용하면 끝입니다. 
- 그래서 제너레이터는 이터레이터보다 훨씬 간단하게 작성할 수 있습니다.

In [8]:
# 함수 안에서 yield를 사용하면 함수는 제너레이터가 되며 yield에는 값(변수)을 지정합니다.

def num_generator():
    yield 0
    yield 1
    yield 2

for i in num_generator():
    print(i, end=' ')

0 1 2 

### 제너레이터 객체가 이터레이터인지 확인하기
- number_generator 함수로 만든 객체가 정말 이터레이터인지 살펴보겠습니다. 
- 다음과 같이 dir 함수로 메서드 목록을 확인해봅니다.

In [11]:
g = num_generator()
print(g)
print(dir(g))

<generator object num_generator at 0x0000020FF7AFBC10>
['__class__', '__del__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__name__', '__ne__', '__new__', '__next__', '__qualname__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running', 'gi_yieldfrom', 'send', 'throw']


- number_generator 함수를 호출하면 제너레이터 객체(generator object)가 반환됩니다. 
- 이 객체를 dir 함수로 살펴보면 이터레이터에서 볼 수 있는 `__iter__`, `__next__` 메서드가 들어있습니다.
- 실제로 제너레이터 객체의 `__next__` 를 호출해보면 숫자 0, 1, 2가 나오다가 StopIteration 예외가 발생합니다.

In [12]:
print(g.__next__())
print(g.__next__())
print(g.__next__())
print(g.__next__())

0
1
2


StopIteration: 

- 함수에 yield만 사용해서 간단하게 이터레이터를 구현할 수 있습니다. 
- 단, 이터레이터는 `__next__` 메서드 안에서 직접 return으로 값을 반환했지만 제너레이터는 yield에 지정한 값이 `__next__` 메서드(next 함수)의 반환값으로 나옵니다. 
- 또한, 이터레이터는 raise로 StopIteration 예외를 직접 발생시켰지만 제너레이터는 함수의 끝까지 도달하면 StopIteration 예외가 자동으로 발생합니다.
- 제너레이터는 제너레이터 객체에서 `__next__` 메서드를 호출할 때마다 함수 안의 yield까지 코드를 실행하며 yield에서 값을 발생시킵니다(generate). 그래서 이름이 제너레이터(generator)입니다.

In [15]:
def number_generator():
    yield 0    # 0을 함수 바깥으로 전달하면서 코드 실행을 함수 바깥에 양보
    yield 1    # 1을 함수 바깥으로 전달하면서 코드 실행을 함수 바깥에 양보
    yield 2    # 2를 함수 바깥으로 전달하면서 코드 실행을 함수 바깥에 양보
 
g = number_generator()
 
a = next(g)    # yield를 사용하여 함수 바깥으로 전달한 값은 next의 반환값으로 나옴
print(a)       # 0
 
b = next(g)
print(b)       # 1
 
c = next(g)
print(c)       # 2

0
1
2


- 제너레이터는 함수를 끝내지 않은 상태에서 yield를 사용하여 값을 바깥으로 전달할 수 있습니다. 
- 즉, return은 반환 즉시 함수가 끝나지만 yield는 잠시 함수 바깥의 코드가 실행되도록 양보하여 값을 가져가게 한 뒤 다시 제너레이터 안의 코드를 계속 실행하는 방식입니다. 

- 제너레이터는 함수 끝까지 도달하면 StopIteration 예외가 발생합니다. 
- 마찬가지로 return도 함수를 끝내므로 return을 사용해서 함수 중간에 빠져나오면 StopIteration 예외가 발생합니다.
- 특히 제너레이터 안에서 return에 반환값을 지정하면 StopIteration 예외의 에러 메시지로 들어갑니다.


In [19]:
def one_generator():
    yield 1
    return 'return에 지정한 값'

In [22]:
g = one_generator()
print(g)
print(next(g))
print(next(g))

<generator object one_generator at 0x0000020FF6511D60>
1


StopIteration: return에 지정한 값

## 제너레이터 만들기
- range(횟수)처럼 동작을 하는 제너레이터를 만들어보겠습니다.

In [23]:
def number_generator(stop):
    n = 0
    while n < stop:
        yield n
        n += 1

In [24]:
for i in number_generator(3):
    print(i)

0
1
2


In [25]:
g = number_generator(3)
print(next(g))
print(next(g))
print(next(g))
print(next(g))

0
1
2


StopIteration: 

### yield 에서 함수 호출하기


In [26]:
def upper_generator(arr):
    for i in arr:
        yield i.upper()

In [30]:
fruits = ['apple', 'pear', 'orange']
for i in upper_generator(fruits):
    print(i)

APPLE
PEAR
ORANGE


- yield i.upper()와 같이 yield에서 함수(메서드)를 호출하면 해당 함수의 반환값을 바깥으로 전달합니다. 
- 즉, yield에 무엇을 지정하든 결과만 바깥으로 전달합니다(함수의 반환값, 식의 결과).

## yield from으로 값을 여러 번 바깥으로 전달하기
- 값을 여러 번 바깥으로 전달할 때 for, while 반복문에서 yield를 사용하지 않고 yield from 을 사용하면 됩니다.
- yield from에는 반복 가능한 객체, 이터레이터, 제너레이터 객체를 지정합니다(yield from은 파이썬 3.3 이상부터 사용 가능).

In [31]:
def number_generator():
    x = [1, 2, 3]
    for i in x:
        yield i
 
for i in number_generator():
    print(i)


1
2
3


In [32]:
def number_generator():
    x = [1, 2, 3]
    yield from x    # 리스트에 들어있는 요소를 한 개씩 바깥으로 전달
 
for i in number_generator():
    print(i)

1
2
3


- yield from x와 같이 yield from에 리스트(반복 가능한 객체)를 지정했습니다. 
- 이렇게 하면 리스트에 들어있는 요소를 한 개씩 바깥으로 전달합니다.

In [33]:
def number_generator(stop):
    n = 0
    while n < stop:
        yield n
        n += 1
 
def three_generator():
    yield from number_generator(3)    # 숫자를 세 번 바깥으로 전달
 
for i in three_generator():
    print(i)

0
1
2


### 제너레이터 표현식
- 리스트 표현식을 사용할 때 [ ](대괄호)를 사용했습니다. 
- 같은 리스트 표현식을 ( )(괄호)로 묶으면 제너레이터 표현식이 됩니다. 
- 리스트 표현식은 처음부터 리스트의 요소를 만들어내지만 제너레이터 표현식은 필요할 때 요소를 만들어내므로 메모리를 절약할 수 있습니다.

In [37]:
[i for i in range(50) if i % 5 == 0]

[0, 5, 10, 15, 20, 25, 30, 35, 40, 45]

In [47]:
(i for i in range(50) if i % 5 == 0)

<generator object <genexpr> at 0x0000020FF7B29A50>

## 제너레이터 장점
- 제너레이터는 모든 결과값을 메모리에 저장하지 않기 때문에 더 좋은 퍼포먼스를 냅니다. 

In [13]:
from __future__ import division
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024

def people_list(number):
    result = []
    for i in range(number):
        person = {
            'id' : i,
            'name' : random.choice(names),
            'majog' : random.choice(majors)
        }
        result.append(person)
    return result

t1 = time.time()
people = people_list(1000000)
t2 = time.time()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print ('시작 전 메모리 사용량: {} MB'.format(mem_before))
print ('종료 후 메모리 사용량: {} MB'.format(mem_after))
print ('총 소요된 시간: {:.6f} 초'.format(total_time))

시작 전 메모리 사용량: 66.46484375 MB
종료 후 메모리 사용량: 333.6015625 MB
총 소요된 시간: 1.913434 초


In [12]:
from __future__ import division
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024

def people_list(number):
    for i in range(number):
        person = {
            'id' : i,
            'name' : random.choice(names),
            'majog' : random.choice(majors)
        }
        yield person
t1 = time.time()
people = people_list(1000000)
t2 = time.time()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print ('시작 전 메모리 사용량: {} MB'.format(mem_before))
print ('종료 후 메모리 사용량: {} MB'.format(mem_after))
print ('총 소요된 시간: {:.6f} 초'.format(total_time))


시작 전 메모리 사용량: 336.83203125 MB
종료 후 메모리 사용량: 66.9453125 MB
총 소요된 시간: 0.082019 초


### list를 Print하는 구문 추가했을때 시간과 메모리 비교

In [6]:
from __future__ import division
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024

def people_list(number):
    result = []
    for i in range(number):
        person = {
            'id' : i,
            'name' : random.choice(names),
            'majog' : random.choice(majors)
        }
        result.append(person)
    return result

t1 = time.time()
people = people_list(1000000)
for i, person in enumerate(people):
    if i % 100000 == 0:
        print(i, person)
t2 = time.time()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print ('시작 전 메모리 사용량: {} MB'.format(mem_before))
print ('종료 후 메모리 사용량: {} MB'.format(mem_after))
print ('총 소요된 시간: {:.6f} 초'.format(total_time))

0 {'id': 0, 'name': '지길정', 'majog': '컴퓨터 공학'}
100000 {'id': 100000, 'name': '김세훈', 'majog': '국문학'}
200000 {'id': 200000, 'name': '진영욱', 'majog': '국문학'}
300000 {'id': 300000, 'name': '진영욱', 'majog': '수학'}
400000 {'id': 400000, 'name': '오세훈', 'majog': '국문학'}
500000 {'id': 500000, 'name': '최용호', 'majog': '국문학'}
600000 {'id': 600000, 'name': '지길정', 'majog': '영문학'}
700000 {'id': 700000, 'name': '오세훈', 'majog': '컴퓨터 공학'}
800000 {'id': 800000, 'name': '오세훈', 'majog': '영문학'}
900000 {'id': 900000, 'name': '김세훈', 'majog': '영문학'}
시작 전 메모리 사용량: 64.05078125 MB
종료 후 메모리 사용량: 333.328125 MB
총 소요된 시간: 2.135484 초


In [7]:
from __future__ import division
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024

def people_list(number):
    for i in range(number):
        person = {
            'id' : i,
            'name' : random.choice(names),
            'majog' : random.choice(majors)
        }
        yield person
t1 = time.time()
people = people_list(1000000)
for i, person in enumerate(people):
    if i % 100000 == 0:
        print(i, person)
t2 = time.time()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print ('시작 전 메모리 사용량: {} MB'.format(mem_before))
print ('종료 후 메모리 사용량: {} MB'.format(mem_after))
print ('총 소요된 시간: {:.6f} 초'.format(total_time))


0 {'id': 0, 'name': '김민우', 'majog': '국문학'}
100000 {'id': 100000, 'name': '오세훈', 'majog': '컴퓨터 공학'}
200000 {'id': 200000, 'name': '진영욱', 'majog': '수학'}
300000 {'id': 300000, 'name': '오세훈', 'majog': '수학'}
400000 {'id': 400000, 'name': '김세훈', 'majog': '국문학'}
500000 {'id': 500000, 'name': '진영욱', 'majog': '정치'}
600000 {'id': 600000, 'name': '김세훈', 'majog': '영문학'}
700000 {'id': 700000, 'name': '최용호', 'majog': '수학'}
800000 {'id': 800000, 'name': '최용호', 'majog': '컴퓨터 공학'}
900000 {'id': 900000, 'name': '지길정', 'majog': '국문학'}
시작 전 메모리 사용량: 333.41796875 MB
종료 후 메모리 사용량: 65.03515625 MB
총 소요된 시간: 2.174493 초


47.8828125