# 컴프리헨션이 클 때는 제네레이터 표현식을 고려하자

### 컴프리헨션의 단점은 입력 시퀀스에 있는 각 값별로 아이템을 하나씩 담은 새 리스트를 통째로 생성한다는 점이다.
입력이 적은 경우 괜찮지만, 클때는 메모리를 많이 소모한다.

In [1]:
import os

In [6]:
import pandas as pd
a = pd.DataFrame()
a["example"] = ['a'*100, 'b'*57, 'c'*15, 'd'*1, 'e'*12, 'f'*75, 'g'*5, 'h'*86, 'i'*89, 'j'*11]

In [8]:
a.to_csv("my_file.txt", index=False)

In [11]:
value = [len(x) for x in open('my_file.txt')]
print(value)

[100, 57, 15, 1, 12, 75, 5, 86, 89, 11]


In [12]:
# 제네레이터 표현식은 () 문자 사이에 리스트 컴프리헨션과 비슷한 문법을 사용하여 생성한다.
# 제네레이터 표현식은 즉시 이터레이터로 평가되므로 더는 진행되지 않는다.
it = (len(x) for x in open('my_file.txt'))
print(it)

<generator object <genexpr> at 0x000001A7FFC60E08>


In [13]:
# 다음 출력을 생성하려면 내장함수 next로 반환받은 이터레이터를 한번에 전진시키면 된다.
# 메모리 사용량을 걱정하지 않아도 된다.
print(next(it))
print(next(it))

100
57


In [14]:
# 제네레이터 표현식의 또 다른 강력한 강점은 다른 제네레이터 표현식과 함께 사용할 수 있다는 점이다.
# 다음은 앞의 제너레이터 표현식이 반환한 이터레이터를 다른 제네레이터 표현식의 입력으로 사용한 예다.
roots = ((x, x**0.5) for x in it)

In [15]:
print(next(roots))

(15, 3.872983346207417)
