Corey_Schafer [youtube](https://www.youtube.com/watch?v=bD05uGo_sVI&list=PL-osiE80TeTt2d9bfVyTiXJA-UTHn6WwU&index=28) [github](https://github.com/CoreyMSchafer/code_snippets/tree/master/Generators)

Generators are used when playing with data volumes that don't fit in memory. No one cares about execution time when using generators. It's about memory.

https://www.youtube.com/watch?v=bD05uGo_sVI&list=PL-osiE80TeTt2d9bfVyTiXJA-UTHn6WwU&index=28

<a href="#제너레이터">제너레이터</a>

<a href="#제너레이터는-한번에-하나씩-제너레이트한다">제너레이터는 한번에 하나씩 제너레이트한다</a>

<a href="#리스트-컴프리헨션과-제너레이터-컴프리헨션">리스트 컴프리헨션과 제너레이터 컴프리헨션</a>

<a href="#리스트나-제너레이터는-이터러블하다">리스트나 제너레이터는 이터러블하다</a>

<a href="#제너레이터를-리스트로-변환하기">제너레이터를 리스트로 변환하기</a>

<a href="#제너레이터는-메모리를-적게-사용한다">제너레이터는 메모리를 적게 사용한다</a>

<a href="#range-is-an-iterator">range is an iterator</a>

# 제너레이터

다음 코드는 리스트 [1, 2, 3, 4, 5]을 받아 각각의 컴포넌트를 제곱하여 새로운 리스트를 만는다.

In [6]:
def square_numbers(nums):
    result = []
    for i in nums:
        result.append(i*i)
    return result

my_nums = square_numbers([1,2,3,4,5])
print(my_nums)
print(type(my_nums))

[1, 4, 9, 16, 25]
<class 'list'>


이 코드를 제너레이터를 만드는 코드로 수정해 보자.

In [7]:
def square_numbers_generator(nums):
    for i in nums:
        yield i*i
        
my_nums = square_numbers_generator([1,2,3,4,5])
print(my_nums)
print(type(my_nums))

<generator object square_numbers_generator at 0x7fc0584f3bf8>
<class 'generator'>


In [8]:
print(dir(my_nums))

['__class__', '__del__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__name__', '__ne__', '__new__', '__next__', '__qualname__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running', 'gi_yieldfrom', 'send', 'throw']


In [9]:
for i in my_nums:
    print(i)

1
4
9
16
25


[<a href="#Generators">Back to top</a>]

# 제너레이터는 한번에 하나씩 제너레이트한다

리스트를 이용한 계산에서는 요구하는 계산을 다 해서 메모리에 저장한다.
이에 반해
제너레이터는 
코드가 요구할 때마다 요구하는 계산을 해서 쏘아준다.
요구하는 계산을 다 해서 한꺼번에 몽땅 메모리에 저장하지 않는다.

next함수를 이용하면 다음 항목을 제너레이트하도록 요구할 수 있다.

In [10]:
print(next(my_nums)) # 1
print(next(my_nums)) # 4 
print(next(my_nums)) # 9
print(next(my_nums)) # 16
print(next(my_nums)) # 25
try:
    print(next(my_nums))
except Exception as e:
    print(e)

StopIteration: 

In [11]:
my_nums = square_numbers_generator([1,2,3,4,5])
print(next(my_nums)) # 1
print(next(my_nums)) # 4 
print(next(my_nums)) # 9
print(next(my_nums)) # 16
print(next(my_nums)) # 25
try:
    print(next(my_nums))
except Exception as e:
    print(e)

1
4
9
16
25



요구한 항목들을 차례대로 다 제너레이트한 후에,
next함수가 또 새로운 항목을 요구하면 StopIteration 에러를 발생시킨다. 

[<a href="#Generators">Back to top</a>]

# 리스트 컴프리헨션과 제너레이터 컴프리헨션

리스트 컴프리헨션을 보자.
다음 코드는 리스트 [1, 2, 3, 4, 5]을 받아 각각의 컴포넌트를 제곱하여 새로운 리스트를 만는다.

In [4]:
x = [i*i for i in [1,2,3,4,5]]
print(x)
print(type(x))

[1, 4, 9, 16, 25]
<class 'list'>

1
4
9
16
25


이 코드를 제너레이터를 만드는 코드로 수정해 보자.

In [5]:
x = (i*i for i in [1,2,3,4,5])
print(x)
print(type(x))

<generator object <genexpr> at 0x10fc85200>
<class 'generator'>

1
4
9
16
25


[<a href="#Generators">Back to top</a>]

# 리스트나 제너레이터는 이터러블하다

이렀게 만든 리스트나 제너레이터는 이터러블하다.
사실 아래 코드와 같이 제너레이터는 for loop를 돌릴 때 많이 쓴다.

In [None]:
x = [i*i for i in [1,2,3,4,5]]
for i in x:
    print(i)

In [None]:
x = (i*i for i in [1,2,3,4,5])
for i in x:
    print(i)

[<a href="#Generators">Back to top</a>]

[<a href="#Generators">Back to top</a>]

# 제너레이터는 메모리를 절약한다

데이타가 작으면 두 방법의 차이를 느끼지 못하지만,
데이타가 큰 경우 제너레이터를 사용하면 메모리와 컴퓨팅시간을 절약할 수 있다.

먼저 메모리를 측정하는 모듈을 인스톨하자.

```
$ pip install memory_profiler
$ pip install memory_profiler --upgrade
```

or

```
$ easy_install -U memory_profiler # pip install -U memory_profiler
```

https://github.com/fabianp/memory_profiler#ipython-integration

### 많은 양의 데이타를 생성하는 함수를 만드는데, 하나는 리스트로 다른 하나는 제너레이터로 만들었다.

In [None]:
names = ['John', 'Corey', 'Adam', 'Steve', 'Rick', 'Thomas']
majors = ['Math', 'Engineering', 'CompSci', 'Arts', 'Business']

In [33]:
import memory_profiler as mem_profile
import random
import time

print('Memory (Before): ' + str(mem_profile.memory_usage()[0]) + 'MB' )

def people_list(num_people):
    result = []
    for i in range(num_people):
        person = {
                    'id': i,
                    'name': random.choice(names),
                    'major': random.choice(majors)
                }
        result.append(person)
    return result

t1 = time.clock()
people = people_list(1000000)
t2 = time.clock()

print('Memory (After) : ' + str(mem_profile.memory_usage()[0]) + 'MB')

print ('Took ' + str(t2-t1) + ' Seconds')

Memory (Before): 346.234375MB
Memory (After) : 617.32421875MB
Took 1.3802850000000007 Seconds


In [34]:
import memory_profiler as mem_profile
import random
import time

print('Memory (Before): ' + str(mem_profile.memory_usage()[0]) + 'MB' )

def people_generator(num_people):
    for i in range(num_people):
        person = {
                    'id': i,
                    'name': random.choice(names),
                    'major': random.choice(majors)
                }
        yield person

t1 = time.clock()
people = people_generator(1000000)
t2 = time.clock()

print('Memory (After) : ' + str(mem_profile.memory_usage()[0]) + 'MB')

print ('Took ' + str(t2-t1) + ' Seconds')

Memory (Before): 617.36328125MB
Memory (After) : 617.1015625MB
Took 0.0611290000000011 Seconds


The mebibyte is a multiple of the unit byte for digital information.[1] The binary prefix mebi means 220; therefore one mebibyte is equal to 1048576bytes = 1024 kibibytes. The unit symbol for the mebibyte is MiB. Technically a megabyte (MB) is a power of ten, while a mebibyte (MiB) is a power of two, appropriate for binary machines.

https://en.wikipedia.org/wiki/Mebibyte

### 숫자들이 주어졌을때, 이들 숫자중 3의 배수가 몇개 있는가를 세는 문제를 생각하자.

In [36]:
import memory_profiler as mem_profile
import random
import time

print('Memory (Before): ' + str(mem_profile.memory_usage()[0]) + 'MB' )

def divisible_by_three_list(numbers):
    filtered = [n for n in numbers if n % 3 == 0]
    return len(filtered)

t1 = time.clock()
n_divisible_by_three = divisible_by_three_list(range(10000000))
t2 = time.clock()

print('Memory (After) : ' + str(mem_profile.memory_usage()[0]) + 'MB')

print ('Took ' + str(t2-t1) + ' Seconds')
print(n_divisible_by_three)

Memory (Before): 668.203125MB
Memory (After) : 713.34375MB
Took 0.512003 Seconds
3333334


In [38]:
import memory_profiler as mem_profile
import random
import time

print('Memory (Before): ' + str(mem_profile.memory_usage()[0]) + 'MB' )

def divisible_by_three_generator(numbers):
    filtered = (1 for n in numbers if n % 3 == 0)
    return sum(filtered) # The sum() function takes an iterable and returns the sum of items in it.

t1 = time.clock()
n_divisible_by_three = divisible_by_three_generator(range(10000000))
t2 = time.clock()

print('Memory (After) : ' + str(mem_profile.memory_usage()[0]) + 'MB')

print ('Took ' + str(t2-t1) + ' Seconds')
print(n_divisible_by_three)

Memory (Before): 713.34375MB
Memory (After) : 713.34375MB
Took 0.5609979999999979 Seconds
3333334


[<a href="#Generators">Back to top</a>]