# 제너레이터(Generator)

- 제너레이터는 반복자(iterator)와 같은 루프의 작용을 컨트롤하기 위해 쓰여지는 특별한 함수 또는 루틴.  
- 제너레이터는 배열이나 리스트를 리턴하는 함수와 비슷하며, 호출을 할 수 있는 파라메터를 가지고 있고, 연속적인 값들을 만들어 냄.  
- 하지만 한번에 모든 값을 포함한 배열을 만들어서 리턴하는 대신에 yield 구문을 이용해 한 번 호출될 때마다 하나의 값만을 리턴하고, 이런 이유로 일반 반복자에 비해 아주 작은 메모리를 필요로 함.  
- 간단히 얘기하면 제너레이터는 반복자와 같은 역할을 하는 함수.

In [1]:
def square_numbers(nums):
    result = []
    for i in nums:
        result.append(i * i)
    return result

mynums = square_numbers([1, 2, 3, 4, 5])

print(mynums)

[1, 4, 9, 16, 25]


위 코드를 제너레이터로 만들어보기

In [2]:
def square_numbers(nums):
    for i in nums:
        yield i*i
        
my_nums = square_numbers([1, 2, 3, 4, 5])  #1

print(my_nums)

<generator object square_numbers at 0x111e3fba0>


#1까지는 아무런 계산을 하지 않고 호출되기를 기다리고 있는 상태임.

In [5]:
def square_numbers(nums):
    for i in nums:
        yield i * i

my_nums = square_numbers([1, 2, 3, 4, 5])

print(next(my_nums))
print(next(my_nums))
print(next(my_nums))
print(next(my_nums))
print(next(my_nums))

1
4
9
16


25

제너레이터는 일반적으로 for 루프를 통해서 호출함.

In [12]:
def square_numbers(nums):
    for i in nums:
        yield i * i

my_nums = square_numbers([1, 2, 3, 4, 5])

for num in my_nums:
    print(num)

1
4
9
16
25


**"list comprehension"**을 사용하면 위 코드를 더 간단하게 만들 수 있음.

In [13]:
my_nums = [x*x for x in [1, 2, 3, 4, 5]]

print(my_nums)

for num in my_nums:
    print(num)

[1, 4, 9, 16, 25]
1
4
9
16
25


위 구문을 조금만 바꾸면 제너레이터로 만들 수 있음.

In [14]:
my_nums = (x*x for x in [1, 2, 3, 4, 5])

print(my_nums)

for num in my_nums:
    print(num)

<generator object <genexpr> at 0x111ec8410>
1
4
9
16
25


한번에 제너레이터 데이터를 보고싶으면, 리스트로 변환해서 보면됨.

In [15]:
# -*- coding: utf-8 -*-

my_nums = (x*x for x in [1, 2, 3, 4, 5])  # 제너레이터 생성

print(my_nums)
print(list(my_nums))  # 제너레이터를 리스트로 변형

<generator object <genexpr> at 0x111e3fa98>
[1, 4, 9, 16, 25]


### 제너레이터의 장점인 성능에 대한 확인.

In [9]:
# -*- coding: utf-8 -*-
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024

def people_list(num_people):
    result = []
    for i in range(num_people):
        person = {
            'id': i,
            'name': random.choice(names),
            'major': random.choice(majors)
        }
        result.append(person)
    return result

        
t1 = time.clock()
people = people_list(1000000)  #1 people_list를 호출
t2 = time.clock()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print(process)
print(mem_before)
print()
print('시작 전 메모리 사용량: {} MB'.format(mem_before))
print('종료 후 메모리 사용량: {} MB'.format(mem_after))
print('총 소요된 시간: {:.6f} 초'.format(total_time))

psutil.Process(pid=83779, name='python3.6', started='15:37:53')
309.23046875

시작 전 메모리 사용량: 309.23046875 MB
종료 후 메모리 사용량: 572.78515625 MB
총 소요된 시간: 1.952282 초


백만명의 학생의 정보가 들어있는 리스트로 테스트 해본결과 메모리 사용량이 40MB에서 303MB로 증가, 소요시간은 2.49초.
아래의 제너레이터 코드와 비교.

In [1]:
# -*- coding: utf-8 -*-
from __future__ import division
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024


def people_generator(num_people):
    for i in range(num_people):
        person = {
            'id': i,
            'name': random.choice(names),
            'major': random.choice(majors)
        }
        yield person

        
t1 = time.clock()
people = people_generator(1000000)  #1 people_list를 호출
t2 = time.clock()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print(process)
print(mem_before)
print()
print('시작 전 메모리 사용량: {} MB'.format(mem_before))
print('종료 후 메모리 사용량: {} MB'.format(mem_after))
print('총 소요된 시간: {:.6f} 초'.format(total_time))

psutil.Process(pid=83786, name='python3.6', started='15:41:18')
46.4296875

시작 전 메모리 사용량: 46.4296875 MB
종료 후 메모리 사용량: 46.43359375 MB
총 소요된 시간: 0.000047 초


제너레이터를 활용하니 메모리 사용량이 훨씬 적고, 작업시간도 훨씬 빠름.  
  
#### 결론) 제너레이터는 모든 결과값을 메모리에 저장하지 않기 때문에 더 좋은 퍼포먼스를 냄.

---