# Generators 

Corey_Schafer [youtube](https://www.youtube.com/watch?v=bD05uGo_sVI&list=PL-osiE80TeTt2d9bfVyTiXJA-UTHn6WwU&index=28) [github](https://github.com/CoreyMSchafer/code_snippets/tree/master/Generators)

Generators are used when playing with data volumes that don't fit in memory. No one cares about execution time when using generators. It's about memory.

https://www.youtube.com/watch?v=bD05uGo_sVI&list=PL-osiE80TeTt2d9bfVyTiXJA-UTHn6WwU&index=28

<a href="#제너레이터">제너레이터</a>

<a href="#제너레이터는-한번에-하나씩-제너레이트한다">제너레이터는 한번에 하나씩 제너레이트한다</a>

<a href="#리스트-컴프리헨션과-제너레이터-컴프리헨션">리스트 컴프리헨션과 제너레이터 컴프리헨션</a>

<a href="#제너레이터를-리스트로-변환하기">제너레이터를 리스트로 변환하기</a>

<a href="#제너레이터는-메모리를-적게-사용한다">제너레이터는 메모리를 적게 사용한다</a>

<a href="#range-is-an-iterator">range is an iterator</a>

# 제너레이터

다음 코드는 리스트 [1, 2, 3, 4, 5]을 받아 각각의 컴포넌트를 제곱하여 새로운 리스트를 만는다.

In [1]:
def square_numbers(nums):
    result = []
    for i in nums:
        result.append(i*i)
    return result

my_nums = square_numbers([1,2,3,4,5])
print(my_nums)
print(type(my_nums))
print()

for i in my_nums:
    print(i)

[1, 4, 9, 16, 25]
<class 'list'>

1
4
9
16
25


이 코드를 제너레이터를 만드는 코드로 수정해 보자.

In [2]:
def square_numbers(nums):
    for i in nums:
        yield i*i
        
my_nums = square_numbers([1,2,3,4,5])
print(my_nums)
print(type(my_nums))
print()

for i in my_nums:
    print(i)

<generator object square_numbers at 0x10fc5eca8>
<class 'generator'>

1
4
9
16
25


[<a href="#Generators">Back to top</a>]

# 제너레이터는 한번에 하나씩 제너레이트한다

리스트를 이용한 계산에서는 요구하는 계산을 다 해서 메모리에 저장한다.
이에 반해
제너레이터는 
코드가 요구할 때마다 요구하는 계산을 해서 쏘아준다.
요구하는 계산을 다 해서 한꺼번에 몽땅 메모리에 저장하지 않는다.

next함수를 이용하면 다음 항목을 제너레이트하도록 요구할 수 있다.

In [3]:
def square_numbers(nums):
    for i in nums:
        yield i*i
        
my_nums = square_numbers([1,2,3,4,5])
print(my_nums)
print(type(my_nums))
print()

print(next(my_nums)) # 1
print(next(my_nums)) # 4 
print(next(my_nums)) # 9
print(next(my_nums)) # 16
print(next(my_nums)) # 25
try:
    print(next(my_nums))
except Exception as e:
    print(e)

<generator object square_numbers at 0x10fc5edb0>
<class 'generator'>

1
4
9
16
25



요구한 항목들을 차례대로 다 제너레이트한 후에,
next함수가 또 새로운 항목을 요구하면 StopIteration 에러를 발생시킨다. 

[<a href="#Generators">Back to top</a>]

# 리스트 컴프리헨션과 제너레이터 컴프리헨션

리스트 컴프리헨션을 보자.
다음 코드는 리스트 [1, 2, 3, 4, 5]을 받아 각각의 컴포넌트를 제곱하여 새로운 리스트를 만는다.

In [4]:
x = [i*i for i in [1,2,3,4,5]]
print(x)
print(type(x))
print()

for i in x:
    print(i)

[1, 4, 9, 16, 25]
<class 'list'>

1
4
9
16
25


이 코드를 제너레이터를 만드는 코드로 수정해 보자.

In [5]:
x = (i*i for i in [1,2,3,4,5])
print(x)
print(type(x))
print()

for i in x:
    print(i)

<generator object <genexpr> at 0x10fc85200>
<class 'generator'>

1
4
9
16
25


[<a href="#Generators">Back to top</a>]

# 제너레이터를 리스트로 변환하기

제너레이터를 리스트로 다음과 같이 변환할 수 있다.
하지만 이렀게 하면
제너레이터가 가져오는 코드의 성능향상을 포기하는 것이다.

In [13]:
x = list((i*i for i in [1,2,3,4,5]))
print(x)
print(type(x))

[1, 4, 9, 16, 25]
<class 'list'>


[<a href="#Generators">Back to top</a>]

# 제너레이터는 메모리를 절약한다

데이타가 작으면 두 방법의 차이를 느끼지 못하지만,
데이타가 큰 경우 제너레이터를 사용하면 메모리와 컴퓨팅시간을 절약할 수 있다.

먼저 메모리를 측정하는 모듈을 인스톨하자.

```
$ pip install memory_profiler
$ pip install memory_profiler --upgrade
```

or

```
$ easy_install -U memory_profiler # pip install -U memory_profiler
```

https://github.com/fabianp/memory_profiler#ipython-integration

### 많은 양의 데이타를 생성하는 함수를 만드는데, 하나는 리스트로 다른 하나는 제너레이터로 만들었다.

In [15]:
import numpy as np

names = ['John', 'Corey', 'Adam', 'Steve', 'Rick', 'Thomas']
majors = ['Math', 'Engineering', 'CompSci', 'Arts', 'Business']

def people_list(num_people):
    result = []
    for i in range(num_people):
        person = {
                    'id'   : i,
                    'name' : np.random.choice(names),
                    'major': np.random.choice(majors)
                }
        result.append(person)
    return result

x = people_list(5)
print(x)
print()

%load_ext memory_profiler       
%memit people_list(1000000)
%timeit people_list(1000000)

[{'name': 'John', 'id': 0, 'major': 'Math'}, {'name': 'Rick', 'id': 1, 'major': 'Engineering'}, {'name': 'John', 'id': 2, 'major': 'Math'}, {'name': 'Thomas', 'id': 3, 'major': 'Business'}, {'name': 'Corey', 'id': 4, 'major': 'Math'}]

The memory_profiler extension is already loaded. To reload it, use:
  %reload_ext memory_profiler
peak memory: 587.85 MiB, increment: 472.02 MiB
9.27 s ± 119 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [16]:
import numpy as np

names = ['John', 'Corey', 'Adam', 'Steve', 'Rick', 'Thomas']
majors = ['Math', 'Engineering', 'CompSci', 'Arts', 'Business']

def people_generator(num_people):
    for i in range(num_people):
        person = {
                    'id'   : i,
                    'name' : np.random.choice(names),
                    'major': np.random.choice(majors)
                }
        yield person
        
x = people_generator(5)        
print(x)
print(next(x))
print(next(x))
print(next(x))
print(next(x))
print(next(x))
print()

x = people_generator(5)        
print(x)
print(next(x))
print(next(x))
print(next(x))
print(next(x))
print(next(x))
print()

%reload_ext memory_profiler       
%memit people_generator(1000000)
%timeit people_generator(1000000)

<generator object people_generator at 0x11f68b9e8>
{'name': 'Thomas', 'id': 0, 'major': 'Arts'}
{'name': 'John', 'id': 1, 'major': 'Math'}
{'name': 'Rick', 'id': 2, 'major': 'CompSci'}
{'name': 'Adam', 'id': 3, 'major': 'Math'}
{'name': 'John', 'id': 4, 'major': 'CompSci'}

<generator object people_generator at 0x13e7584c0>
{'name': 'Adam', 'id': 0, 'major': 'Engineering'}
{'name': 'Steve', 'id': 1, 'major': 'CompSci'}
{'name': 'Thomas', 'id': 2, 'major': 'Business'}
{'name': 'Adam', 'id': 3, 'major': 'Arts'}
{'name': 'Corey', 'id': 4, 'major': 'Math'}

peak memory: 92.51 MiB, increment: 0.00 MiB
199 ns ± 2.52 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


The mebibyte is a multiple of the unit byte for digital information.[1] The binary prefix mebi means 220; therefore one mebibyte is equal to 1048576bytes = 1024 kibibytes. The unit symbol for the mebibyte is MiB. Technically a megabyte (MB) is a power of ten, while a mebibyte (MiB) is a power of two, appropriate for binary machines.

https://en.wikipedia.org/wiki/Mebibyte

### 숫자들이 주어졌을때, 이들 숫자중 3의 배수가 몇개 있는가를 세는 문제를 생각하자.

In [19]:
def divisible_by_three_list(numbers):
    filtered = [n for n in numbers if n % 3 == 0]
    return len(filtered)

print(divisible_by_three_list([0,1,2,3,4,5,6,7,8,9]))
print(divisible_by_three_list(range(10)))
print()

%reload_ext memory_profiler       
%memit divisible_by_three_list(range(10000000))
%timeit divisible_by_three_list(range(10000000))
print(divisible_by_three_list(range(10000000)))

4
4

peak memory: 196.85 MiB, increment: 104.40 MiB
923 ms ± 23.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
3333334


In [20]:
def divisible_by_three_iterator(numbers):
    filtered = (1 for n in numbers if n % 3 == 0)
    return sum(filtered)

print(divisible_by_three_iterator([0,1,2,3,4,5,6,7,8,9]))
print(divisible_by_three_iterator(range(10)))
print()

%reload_ext memory_profiler       
%memit divisible_by_three_iterator(range(10000000))
%timeit divisible_by_three_iterator(range(10000000))
print(divisible_by_three_iterator(range(10000000)))

4
4

peak memory: 117.53 MiB, increment: 0.00 MiB
967 ms ± 27.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
3333334


[<a href="#Generators">Back to top</a>]

# range is an iterator

In [21]:
def my_range(start, stop, step=1):
    while start < stop:
        yield start
        start += step
        
print(my_range(0,10))
print(type(my_range(0,10)))
print()

for i in my_range(0,10):
    print(i)

<generator object my_range at 0x13eb00d58>
<class 'generator'>

0
1
2
3
4
5
6
7
8
9


In [12]:
print(range(10))
print(type(range(10)))
print()

for i in range(10):
    print(i)

range(0, 10)
<class 'range'>

0
1
2
3
4
5
6
7
8
9


[<a href="#Generators">Back to top</a>]