***
[http://schoolofweb.net/blog/posts/파이썬-제너레이터-generator/](http://schoolofweb.net/blog/posts/파이썬-제너레이터-generator/) 를 보고 정리하였습니다.

***

제너레이터란, 반복자(iterator)와 같은 루프의 작용을 컨트롤하기 위해 쓰여지는 특별한 함수 또는 루틴을 말합니다.
제너레이터는 배열이나 리스트를 리턴하는 함수와 비슷하지만 차이점은 한번에 모든 값을 만들어서 배열이나 리스트에 담은 다음 리턴하는 것이 아니라, yield구문을 이용해 한번 호출될 때마다 하나의 값만을 리턴합니다.

이러한 이유로 일반 반복자에 비해 적은 메모리를 필요로 합니다.

일반함수 같은 경우 코드의 첫줄부터 마지막줄 return, exception등을 만날때까지 실행된 후 호출자에게 리턴됩니다. 그리고 함수 내부의 모든 로컬 변수는 메모리에서 사라집니다.

그러나, 영원히 사라져버리는 함수가 아니라 하나의 일을 마치면 자기가 했던 일을 기억하고 대기했다가 다시 호출되면 전의 일을 이어서 하는 함수가 필요하기 시작했습니다. 그것이 바로 **제너레이터**입니다.

In [2]:
def square_numbers(nums):
    result = []
    for i in nums:
        result.append(i+1)
    return result

my_nums = square_numbers([1,2,3,4,5])
print(my_nums)


[2, 3, 4, 5, 6]


위의 코드를 generator로 만들면 아래와 같습니다.



In [3]:
def square_numbers(nums):
    for i in nums:
        yield i*1

my_nums = square_numbers([1,2,3,4,5])
print(my_nums)

<generator object square_numbers at 0x7fd4b7e7d888>


결과를 보면 generator라는 오브젝트가 리턴됩니다. 자신이 리턴할 모든 값을 메모리에 저장하지 않기 때문입니다. 따라서 제너레이터가 만들어졌고, 이 제너레이터를 호출할 때마다 하나의 값만을 차례로 계산해서 리턴합니다.
더이상 전달할 값이 없으면 stopiteration이 발생합니다.

In [5]:
print(next(my_nums))
print(next(my_nums))
print(next(my_nums))
print(next(my_nums))
print(next(my_nums))

2
3
4
5


StopIteration: 

next메서드 말고 for문을 통해서도 호출이 가능합니다.


In [7]:
def square_numbers(nums):
    for i in nums:
        yield i*i

mynums = square_numbers([1,2,3,4,5])
for num in mynums:
    print(num)

1
4
9
16
25


아래와 같이 축약형태로 generator를 만들 수도 있습니다.

In [8]:
mynums = (x*x for x in [1,2,3,4,5])
for num in mynums:
    print(num)

1
4
9
16
25


아래는 generator 내 데이터를 한번에 보고 싶을 때 입니다.
그런데 아래와 같이 사용하면 generator의 메모리 절약 장점이 사라지게 됩니다. 주의하기!!

In [9]:
mynums = (x*x for x in [1,2,3,4,5])
print(mynums)
print(list(mynums))

<generator object <genexpr> at 0x7fd4b3dd02b0>
[1, 4, 9, 16, 25]


메모리 장점과 시간절약의 장점이 있다는 것을 아래 코드를 통해 확인해보겠습니다.



In [10]:
from __future__ import division
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']
process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024

def people_list(num_people):
    result = []
    for i in range(num_people):
        person = {
            'id': i,
            'name': random.choice(names),
            'major': random.choice(majors)
        }
        result.append(person)
    return result

def people_generator(num_people):
    for i in range(num_people):
        person = {
            'id': i,
            'name': random.choice(names),
            'major': random.choice(majors)
        }
        yield person

t1 = time.clock()
people_list = people_list(1000000)
mem_after = process.memory_info().rss / 1024 / 1024
t2 = time.clock()
total_time = t2-t1

print('시작 전 메모리 사용량: {} MB'.format(mem_before))
print('종료 후 메모리 사용량: {} MB'.format(mem_after))
print('총 소요된 시간: {:.6f} 초'.format(total_time))

시작 전 메모리 사용량: 71.58203125 MB
종료 후 메모리 사용량: 344.5859375 MB
총 소요된 시간: 1.840393 초


In [11]:
mem_before = process.memory_info().rss / 1024 / 1024
t11 = time.clock()
people = people_generator(1000000)
mem_after2 = process.memory_info().rss / 1024 / 1024
t12 = time.clock()
total_time2 =t12 - t11

print('시작 전 메모리 사용량: {} MB'.format(mem_before))
print('종료 후 메모리 사용량: {} MB'.format(mem_after2))
print('총 소요된 시간: {:.6f} 초'.format(total_time2))

시작 전 메모리 사용량: 341.21875 MB
종료 후 메모리 사용량: 341.21875 MB
총 소요된 시간: 0.000090 초
