# Python intermediate Stduy group

## Reference : https://github.com/KaggleBreak/interpy-kr

- 위 내용을 참고하여 재학습하였습니다.

## 제너레이터(Generator)

- 제너레이터는 반복자(iterator)와 같은 루프의 작용을 컨트롤하기 위해 쓰여지는 특별한 함수 또는 루틴.  
- 제너레이터는 배열이나 리스트를 리턴하는 함수와 비슷하며, 호출을 할 수 있는 파라메터를 가지고 있고, 연속적인 값들을 만들어 냄.  
- 하지만 한번에 모든 값을 포함한 배열을 만들어서 리턴하는 대신에 yield 구문을 이용해 한 번 호출될 때마다 하나의 값만을 리턴하고, 이런 이유로 일반 반복자에 비해 아주 작은 메모리를 필요로 함.  
- 간단히 얘기하면 제너레이터는 반복자와 같은 역할을 하는 함수.

- 추가로 찾은 자료
  - http://pythonstudy.xyz/python/article/23-Iterator%EC%99%80-Generator
  - Generator는 Iterator의 특수한 한 형태이다.
Generator 함수(Generator function)는 함수 안에 yield 를 사용하여 데이타를 하나씩 리턴하는 함수이다. Generator 함수가 처음 호출되면, 그 함수 실행 중 처음으로 만나는 yield 에서 값을 리턴한다. Generator 함수가 다시 호출되면, 직전에 실행되었던 yield 문 다음부터 다음 yield 문을 만날 때까지 문장들을 실행하게 된다. 이러한 Generator 함수를 변수에 할당하면 그 변수는 generator 클래스 객체가 된다.

In [1]:
def square_numbers(nums):
    result = []
    for i in nums:
        result.append(i * i)
    return result

mynums = square_numbers([1, 2, 3, 4, 5])

print(mynums)

[1, 4, 9, 16, 25]


In [2]:
def square_numbers(nums):
    for i in nums:
        yield i * i

my_nums = square_numbers([1, 2, 3, 4, 5])

print(my_nums)

<generator object square_numbers at 0x105acf938>


In [3]:
def square_numbers(nums):
    for i in nums:
        yield i * i

my_nums = square_numbers([1, 2, 3, 4, 5])

print(next(my_nums))
print(next(my_nums))
print(next(my_nums))
print(next(my_nums))
print(next(my_nums))

1
4
9
16
25


In [4]:
print(next(my_nums))

StopIteration: 

제네레이터는 일반적으로 for 루프를 통해서 호출함

In [5]:
def square_numbers(nums):
    for i in nums:
        yield i * i
        
my_nums = square_numbers([1, 2, 3, 4 ,5])

for num in my_nums:
    print(num)

1
4
9
16
25


**"list comprehension"**을 사용하면 위 코드를 더 간단하게 만들 수 있음.

In [6]:
my_nums = [x*x for x in range(1, 6)]

print(my_nums)

for num in my_nums:
    print(num)

[1, 4, 9, 16, 25]
1
4
9
16
25


In [7]:
# 조금만 위의 것을 바꾸면...

my_nums = (x * x for x in range(1, 6))

print(my_nums)

for num in my_nums:
    print(num)

<generator object <genexpr> at 0x105b4abf8>
1
4
9
16
25


### 제너레이터의 장점인 성능에 대한 확인.

In [8]:
# -*- coding: utf-8 -*-
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024

def people_list(num_people):
    result = []
    for i in range(num_people):
        person = {
            'id': i,
            'name': random.choice(names),
            'major': random.choice(majors)
        }
        result.append(person)
        
    return result

        
t1 = time.clock()
people = people_list(1000000)  #1 people_list를 호출
t2 = time.clock()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print(process)
print(mem_before)
print()
print('시작 전 메모리 사용량: {} MB'.format(mem_before))
print('종료 후 메모리 사용량: {} MB'.format(mem_after))
print('총 소요된 시간: {:.6f} 초'.format(total_time))

psutil.Process(pid=2588, name='python3.6', started='01:26:44')
24.29296875

시작 전 메모리 사용량: 24.29296875 MB
종료 후 메모리 사용량: 298.0 MB
총 소요된 시간: 1.765978 초


In [9]:
# -*- coding: utf-8 -*-
from __future__ import division
import os
import psutil
import random
import time

names = ['최용호', '지길정', '진영욱', '김세훈', '오세훈', '김민우']
majors = ['컴퓨터 공학', '국문학', '영문학', '수학', '정치']

process = psutil.Process(os.getpid())
mem_before = process.memory_info().rss / 1024 / 1024


def people_generator(num_people):
    for i in range(num_people):
        person = {
            'id': i,
            'name': random.choice(names),
            'major': random.choice(majors)
        }
        yield person

        
t1 = time.clock()
people = people_generator(1000000)  #1 people_list를 호출
t2 = time.clock()
mem_after = process.memory_info().rss / 1024 / 1024
total_time = t2 - t1

print(process)
print(mem_before)
print()
print('시작 전 메모리 사용량: {} MB'.format(mem_before))
print('종료 후 메모리 사용량: {} MB'.format(mem_after))
print('총 소요된 시간: {:.6f} 초'.format(total_time))

psutil.Process(pid=2588, name='python3.6', started='01:26:44')
237.23828125

시작 전 메모리 사용량: 237.23828125 MB
종료 후 메모리 사용량: 56.609375 MB
총 소요된 시간: 0.170086 초


제너레이터를 활용하니 메모리 사용량이 훨씬 적고, 작업시간도 훨씬 빠름.  
  
#### 결론) 제너레이터는 모든 결과값을 메모리에 저장하지 않기 때문에 더 좋은 퍼포먼스를 냄.

In [11]:
for i, name in enumerate(people):
    print(f'{i} : {name}')
    
    if i == 1:
        break

0 : {'id': 0, 'name': '김민우', 'major': '컴퓨터 공학'}
1 : {'id': 1, 'name': '최용호', 'major': '정치'}


#### generator를 만들 때는 내가 원하는 방향과 목적에 부합하는 형태로 가야 한다.
- json, tsv, csv 등등 파일 포맷도 대응하면 좋음
- 성능은 최후순위.