Comprehension : 리스트,딕셔너리,집합 등의 타입을 간결하게 이터레이션 하면서 원소로 부터 파생되는 데이터 구조를 생성할 수 있다    

Generator : 컴프리헨션 코딩 스타일을 사용하는 함수로 확장할 수 있다, 함수가 점진적으로 반환하는 값으로 이뤄지는 스트림을 만들어 준다. 이터레이터를 사용할 수 있는 곳(for 루프,별표 식 등) 이라면, 어디든 제너레이터 함수를 호출할 수 있다. - 가독성 뿐만 아니라 성능향상과 메모리 사용을 줄인다. 

# 컴프리헨션(Comprehension)

### map과 filter대신 컴프리헨션을 사용하라. 

In [1]:
#for 루프를 이용한 계산 
a = [1,2,3,4,5,6,7,8,9,10]
squares = [] 

for x in a:
    squares.append(x**2)
print(squares)

# 컴프리헨션을 이용한 계산 
sq = [x**2 for x in a]
print(sq)

# map 함수보다 가독성이 좋고, 원소도 쉽게 필터링 가능하다. 
alt = list(map(lambda x:x**2,a)) # 위와 동일한 계산 
print("map 함수 : ",alt)

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
map 함수 :  [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


In [2]:
squares = []
for x in a:
    if x %2 ==0:
        squares.append(x**2)
print(squares)

# 컴프리헨션에 조건 문을 넣었을 때
even_squares = [x**2 for x in a if x %2==0]
print(even_squares)

# map
alt = list(map(lambda x:x**2, filter(lambda x:x%2 ==0,a)))
assert even_squares == list(alt) # 똑같은 결과 값을 얻기 위해 filter(),map()함수를 두가지를 사용 해야한다. 
# 가독성도 떨어진다. 
print(alt)


[4, 16, 36, 64, 100]
[4, 16, 36, 64, 100]
[4, 16, 36, 64, 100]


In [3]:
# 딕셔너리 컴프리헨션과 집합 컴프리헤션도 있다. 
even_squares_dict = {x : x**2 for x in a if x %2 ==0}
threes_cubed_set = {x**3 for x in a if x %3==0}

print(even_squares_dict)
print(threes_cubed_set)

alt_dict = dict(map(lambda x:(x,x**2),filter(lambda x:x%2==0,a)))
print(alt_dict)
alt_set = set(map(lambda x:x**3,filter(lambda x: x%3==0,a)))
print(alt_set)

{2: 4, 4: 16, 6: 36, 8: 64, 10: 100}
{216, 729, 27}
{2: 4, 4: 16, 6: 36, 8: 64, 10: 100}
{216, 729, 27}


### 컴프리헨션 내부에 제어 하위 식을 세 개 이상 사용하지 말아라.


In [4]:
# 2단계의 하위 식 
matrix = [[1,2,3],[4,5,6],[7,8,9]]
flat = [x for row in matrix for x in row]
print(flat)

squared = [[x**2 for x in row] for row in matrix]
print(squared)

[1, 2, 3, 4, 5, 6, 7, 8, 9]
[[1, 4, 9], [16, 25, 36], [49, 64, 81]]


In [5]:
# 3단계의 하위 식 
my_list = [[[1,2,3],[4,5,6]],[[6,5,4],[3,2,1]]]

flat = [x for sublist1 in my_list for sublist2 in sublist1 for x in sublist2]
print(flat)
# 3단계 하위 식에서는 정식대로 쓰는 것이 가독성이 좀 더 높다. 
flat = [] 
for sublist in my_list:
    for sublist2 in sublist:
        for x in sublist2:
            flat.append(x)
print(flat)

[1, 2, 3, 4, 5, 6, 6, 5, 4, 3, 2, 1]
[1, 2, 3, 4, 5, 6, 6, 5, 4, 3, 2, 1]


In [6]:
# 컴프리헨션은 여러 if 조건도 허용한다. 
# 여러 조건을 같은 수준의 루프레 사용하면 암시적으로 and 식을 의미한다. 
# 4보다 큰 짝수만 남기고 싶다고 하자. 
a = [1,2,3,4,5,6,7,8,9,10]
b = [x for x in a if x> 4 if x%2==0]
c = [x for x in a if x > 4 and x%2==0]

print(b)
print(c)

[6, 8, 10]
[6, 8, 10]


In [7]:
# 조건문이 섞여도 3단계 깊이까지 늘어나면 컴프리헨션은 지양해야한다. 
# 가독성이 매우 떨어지기 시작한다. 
filtered = [[x for x in row if x%3 ==0] for row in matrix if sum(row)>=10]
print(filtered)

[[6], [9]]


### 대입식을 사용해 컴프리헨션 안에서 반복작업을 피하라.
- 여기서 대입식이란 왈러스 연산자를 이야기 하는 것이다.

In [8]:
stock = {
    '못' : 125,
    '나사못':2,
    '나비너트':3,
    '와셔':24
}

order = ["나사못",'나비너트','와셔',"궁금"]
def get_batches(count,size):
    return count // size
# else 일때, 즉 if 문 아래가 0이 나올때 결과물 보기 위해 
found = {name:get_batches(stock.get(name,0),8)
         for name in order
         if get_batches(stock.get(name,0),8)}

print(found) # else 를 따로 입력하지 않으면, pass 처리한다. 
# '궁금'은 key값에도 없지만.get()함수를 씀으로 오류 출력이 아닌 0이 나옴 

{'와셔': 3}


In [9]:
# 8개 이상이 최소주문 수량이고, 그걸 확인하는 코드 
stock = {
    '못' : 125,
    '나사못':35,
    '나비너트':8,
    '와셔':24
}

order = ['나사못','나비너트','클립']

def get_batches(count,size):
    return count // size

result = {}
for name in order:
    count = stock.get(name,0)
    batches = get_batches(count,8)
    if batches:
        result[name] = batches

print(result)

# 위와 동일, 딕셔너리 컴프리헨션을 사용
# 앞에 코드 보다 짧지만, 같은 식을 두 번 사용
found = {name:get_batches(stock.get(name,0),8)
         for name in order
         if get_batches(stock.get(name,0),8)}

print(found)



# 두식을 똑같이 바꿔야 하지만, 아래와 같이 실수하면 값이 달라질 수 있다. 
# 가능성 제시 
has_bug = {name:get_batches(stock.get(name,0),4)
           for name in order
           if get_batches(stock.get(name,0),8)}
print("예상",found)
print("실제",has_bug)


{'나사못': 4, '나비너트': 1}
{'나사못': 4, '나비너트': 1}
예상 {'나사못': 4, '나비너트': 1}
실제 {'나사못': 8, '나비너트': 2}


#### 왈러스 연산자(:=)

In [10]:
# 위와 같은 반복을 피하기 위해 파이썬 3.8부터 도입된 왈러스 연산자를 사용하는 것이다. 
found = {name : batches for name in order if (batches := get_batches(stock.get(name,0),8))}
print(found)
# 불필요한 반복과 왈러스 연산자를 안다면 가독성도 올라간다. 

# 단, 컴프리헨션이 평가되는 순서 때문에 실행 시점에 오류가 발생할 수 있다. 
try:
    result = {name: (tenth:=count//10) for name,count in stock.items() if tenth >0} # tenth를 찾을 수 없다.
    print(result)
except:
    print("raise NameError")

# 순서만 다시 지정하면 가능하다. - 컴프리헨션은 뒤에가 먼저
result = {name : tenth for name,count in stock.items()
          if (tenth:=count//10)>0}
print(result)

{'나사못': 4, '나비너트': 1}
raise NameError
{'못': 12, '나사못': 3, '와셔': 2}


- 단 for 루프에서 변수가 누출되듯 왈러스 연산자도 조건부분이 없다면 변수 누출되는데 이 점을 주의해야한다. 
- 왠만하면 루프 변수를 누출하지 않는 편이 좋다. 


In [11]:
for count in stock.values():
    pass 
print(f"{list(stock.values())}의 마지막 원소는 {count}이다.") # for 문의 변수 누출

# 왈러스 연산자 사용으로 인한 컴프리헨션 변수 누출 
half = [(last:=count //2) for count in stock.values()]
print(f"{half}의 마지막 원소는 {last}")

count=0
last = 0

half = [count for count in stock.values() if (last:=count//2)]
print(half)
print(count) # 컴프리헨션 자체는 변수 누출 안됨 
try:
    print(last)
except:
    print("변수 누출 안됨!!")


[125, 35, 8, 24]의 마지막 원소는 24이다.
[62, 17, 4, 12]의 마지막 원소는 12
[125, 35, 8, 24]
0
12


In [12]:
stock = {
    '못' : 125,
    '나사못':35,
    '나비너트':8,
    '와셔':24
}
result = {name : tenth for name,count in stock.items()
          if (tenth:=count//10)>0}
print(result)
print("변수 누출:",tenth) # 왈러스는 누출이 된다. 
try:
    print(name)
except:
    print("name 변수 누출 X")
try:
    print(count)
except:
    print("count 변수 누출 X")


{'못': 12, '나사못': 3, '와셔': 2}
변수 누출: 2
클립
0


In [13]:
# 단 컴프리헨션은 변수 누출이 안됨 
half = [count//2 for count in stock.values()]
print(half)
try:
    print(count)
except:
    print("변수 누출 안됨!!")

[62, 17, 4, 12]
0


In [14]:
# 딕셔너리 인스턴스 대신 제품 이름과 현재 재고 수량 쌍으로 이뤄진 이터레이터를 만든다. 
found = ((name,batches) for name in order
         if (batches:=get_batches(stock.get(name,0),8)))

print(found) # 진짜 제너레이터네?? 
print(next(found))
print(next(found))


<generator object <genexpr> at 0x106688190>
('나사못', 4)
('나비너트', 1)


- 또하나의 차이점은 for문의 index_words는 모든 결과값을 저장한다. 
- 제너레이터 버전으로 만들면 사용하는 메모리 크기를 어느정도 제한할 수 있다. -> 입력 길이가 아무리 길어도 쉽게 처리가 가능하다. 


In [20]:
import itertools
def index_file(handle):
    offset = 0
    for line in handle:
        if line:
            yield offset
        for letter in line:
            offset +=1
            if letter == " ":
                yield offset

# 이 함수의 작업 메모리는 입력 중 가장 긴 줄의 길이로 제한 된다. 
# 제너레이터를 정의할 때 한 가지 주의함 점이 있다.
#제너레이터가 반환하는 이터레이터에 상태가 있기에 호출하는 쪽에서 재사용이 불가능 하다
with open("address.txt","r",encoding="utf-8") as f:
    it = index_file(f)
    results = itertools.islice(it,0,10)
    print(list(results))


[0, 8, 18, 23, 28, 38]
