# Python Generator와 yield 의 개념

출처 - http://schoolofweb.net/blog/posts/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%A0%9C%EB%84%88%EB%A0%88%EC%9D%B4%ED%84%B0-generator/


generator는 사전적의미로 발전기?, 뭔가 만드는 사람이나 물건을 뜻한다. "제너레이터"는 반복자와 같은 루프의 작용을 컨트롤하기 위해 쓰여지는 특별한 함수 또는 루틴이다.

그래서 모든 제너레이터는 iterator 같은 것이다. 제너레이터는 배열이나 리스트를 리턴하는 함수와 비슷하고 호출을 할 수 있는 파라미터를 가지고 있고, 연속적인 값들을 만든다. 하지만 한번에 모든 값을 포함한 배열을 만들어서 리턴하는 대신에 __yield__ 구문을 이용해 한 번 호출될 때마다 하나의 값만 리턴하기 때문에 이러한 이유로 일반 반복자에 비해 아주 작은 메모리를 필요로 한다. 간단히 얘기하면 제너레이터는 반복자와 같은 역할을 하는 함수이다. 

● __한방에 리턴이 하나라 필요한 하나의 값만 리턴!!__


### 일반함수의 경우
일반함수는 호출되면 코드의 첫 번째행부터 시작해서 리턴 구문이나, 예외 또는 마지막 구문을 만날때까지 실행 후 호출자에게 모든 컨트롤를 리턴한다. 그리고 함수가 가지고 있던 모든 함수나 모든 로컬 변수는 메모리상에서 사라짐. 같은 함수가 다시 호출되면 모든 것은 처음부터 새롭게 시작한다.

### Generator의 등장
그런데 어느날부터 프로그래머들이 한번에 일을 다하고 영원히 사라져버리는 함수가 아닌 하나의 일을 마치면 자기가 했던 일을 기억하고 대기하고 있다가 다시 호출되면 전의 일을 계속하는 함수를 필요로 하기 시작했다. 그래서 만들어진 것이 제너레이터이다. 제너레이터를 사용하게 되면 일반함수보다 훨씬 좋은 퍼포먼스를 낼 수 있고, 메모리 리소스도 절약가능하다.


In [1]:
def square_numbers(nums):
    result = []
    for i in nums:
        result.append(i*i)
    return result

my_nums = square_numbers([1,2,3,4,5])

print(my_nums)

[1, 4, 9, 16, 25]


### 위의 일반적인 함수가 있다. 제곱된 값을 리스터로 리턴하는 경우의 코드.... 
이것은 아래처럼 generator 코드로 수정

In [4]:
def square_numbers(nums):
    result = []
    for i in nums:
        yield i*i

my_nums = square_numbers([1,2,3,4,5])

print(my_nums)
print(next(my_nums)) 
print(next(my_nums)) 
print(next(my_nums)) 

<generator object square_numbers at 0x00000242DE00A678>
1
4
9


# 한번 호출될 때마다 하나의 값을 yield 해버린다. 

* 그래서 next()라는 함수로 현재 다음 값이 무었인지 확인할 수 있다.
* 끝에 도달하고 더 호출하면? => 에러가 뜰 수 있다.

In [8]:
def square_numbers(nums):
    result = []
    for i in nums:
        yield i*i

my_nums = square_numbers([1,2,3,4,5])

print(my_nums)
print(next(my_nums)) 
print(next(my_nums)) 
print(next(my_nums)) 
print(next(my_nums)) 
print(next(my_nums)) 
# print(next(my_nums))  #=> 이 때 에러가 발생 

<generator object square_numbers at 0x00000242DE00AE60>
1
4
9
16
25


StopIteration: 

## 그래서 for 문과 같이 사용하는 경우가 있다.  멈추는 데 까지 loop를 돌 수 있다.

In [9]:
def square_numbers(nums):
    result = []
    for i in nums:
        yield i*i

my_nums = square_numbers([1,2,3,4,5])

for num in my_nums:
    print(num) #=> next(my_nums) 와 같은 역할을 하는데 for 문으로 자연스럽게 안의 값 꺼내줌

1
4
9
16
25


# list Comprehesion
코드를 간단하게 하기에 좋다. (이런거 for문의 in 옆에다가 쓰는 거 종종 봄)

In [12]:
my_nums = [x*x for x in [1,2,3,4,5]]

print(my_nums)

for num in my_nums:
    print(num)

[1, 4, 9, 16, 25]
1
4
9
16
25


위의 경우는 list로 만든 것이지만 이것을 generator로 만들 수 있다.

단순하게 []를 ()로 바꾸면 된다.

In [25]:
my_nums = (x*x for x in [1,2,3,4,5])

print(my_nums)

print("Generator to List",list(my_nums))
# next(my_nums) # 에러가 뜬다. 한번 리스트로 바꾸면 제너레이터의 기능 잃어버림

for num in my_nums:
    print(num)

print(list(my_nums))


<generator object <genexpr> at 0x00000242DE00AE60>
Generator to List [1, 4, 9, 16, 25]
[]


Generator의 중요한 장점은 퍼포먼스이다. 제너레이터는 모든 결과값을 메뫼에 저장하지 않아서 더 좋은 퍼포먼스를 낸다.
# 아래의 두개의 코드를 비교 100만개의 학생 정보를 리스트에 담는 코드

In [30]:
# -*- coding: utf-8 -*-
from __future__ import division
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024


def people_list(num_people):
    result = []
    for i in range(num_people):
        person = {
            'id': i,
            'name': random.choice(names),
            'major': random.choice(majors)
        }
        result.append(person)
    return result

t1 = time.clock()

# 100만명의 학생의 정보가 들어가는 리스트를 만듬
people = people_list(1000000)  #1 people_list를 호출
t2 = time.clock()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print('시작 전 메모리 사용량: {} MB'.format(mem_before))
print('종료 후 메모리 사용량: {} MB'.format(mem_after))
print('총 소요된 시간: {:.6f} 초'.format(total_time))

시작 전 메모리 사용량: 25.36328125 MB
종료 후 메모리 사용량: 306.6484375 MB
총 소요된 시간: 1.361369 초


In [32]:
# -*- coding: utf-8 -*-
from __future__ import division
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024
def people_generator(num_people):
    for i in range(num_people):
        person = {
            'id': i,
            'name': random.choice(names),
            'major': random.choice(majors)
        }
        yield person

t1 = time.clock()
people = people_generator(1000000)  #1 people_generator를 호출
t2 = time.clock()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print('시작 전 메모리 사용량: {} MB'.format(mem_before))
print('종료 후 메모리 사용량: {} MB'.format(mem_after))
print('총 소요된 시간: {:.6f} 초'.format(total_time))

시작 전 메모리 사용량: 36.06640625 MB
종료 후 메모리 사용량: 36.06640625 MB
총 소요된 시간: 0.000021 초


# 효율적인 Memory를 사용하는 코드가 속도에 영향을 미친다.

# 파이썬의 Asterisk(*)를 이해하자

*를 사용하는 상황은 크게 4가지로 구분된다.

* 곱셈 및 거듭제곱 연산으로 사용할 때
* 리스트형 컨테이너 타입의 데이터를 반복 확장하고자 할 때
* 가변인자!를 사용하고자 할 때
* 컨테이너 타입의 데이터를 Unpacking할 때


In [6]:
print(2 * 3)  # 2곱하기 3

print(2 ** 3) # 2의 3제곱
print(1.23 * 3.42) # 실수 곱
print(1.23 ** 3.42) # 실수 제곱

6
8
4.2066
2.029903914742676


In [9]:
# 길이 100의 제로값 리스트 초기화
one_list = [1] * 100
print(one_list)

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


In [14]:
zeros_tuple = (0,) * 100
            # 튜플인지 구별하기 위해 ,를 반드시 붙인다.
print(zeros_tuple)

(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0)


In [16]:
# 리스트형 컨테이너 타입의 데이터를 반복 확장하고자 할 때
vector_list = [[1,2,3]]
for i, vector in enumerate(vector_list * 3):
    print("{0} scalar product of vector: {1}".format((i + 1), [(i + 1) * e for e in vector]))

1 scalar product of vector: [1, 2, 3]
2 scalar product of vector: [2, 4, 6]
3 scalar product of vector: [3, 6, 9]


In [22]:
# * 한개 쓴다면 이건 튜플에 저장된다.

def save_ranking(*args):
    print(args)
    print(args[0])
    print(args[1])


save_ranking('ming', 'alice', 'tom', 'wilson', 'roy')

('ming', 'alice', 'tom', 'wilson', 'roy')
ming
alice


In [23]:
# ** 두개 쓸 때 >> 이건 딕셔너리에 저장된다. 

def save_ranking(**kwargs):
    print(kwargs)
    print(kwargs['first'])
    
    
save_ranking(first='ming', second='alice', fourth='wilson', third='tom', fifth='roy')

{'first': 'ming', 'second': 'alice', 'fourth': 'wilson', 'third': 'tom', 'fifth': 'roy'}
ming


In [25]:
from functools import reduce

primes = [2, 3, 5, 7, 11, 13]

def product(*numbers):
    p = reduce(lambda x, y: x * y, numbers)
    return p

print( product(*primes) )
# 30030

print( product(primes) )
# [2, 3, 5, 7, 11, 13]

30030
[2, 3, 5, 7, 11, 13]


In [1]:
dic = {
        'apple':'good',
        'banana':'no',
        'grape': 'not bad'
      }

# 리스트 안에 [ ele1, ele2, ele3 ] 들어 있니? 

if ele1 in [ele1, ele2, ele3 ]:

In [19]:
print("1")
if "good" in ['good','no','not bad']:
    print("Ok")
print("2")
if "not good" in ['good','no','not bad']:
    print("Ok")
print("3")    
for a in dic:
    print(f"key {a}, value : {dic[a]}")

1
Ok
2
3
key apple, value : good
key banana, value : no
key grape, value : not bad
