In [None]:
"""
22-09-26
1.10 순서를 깨지 않고 시퀀스의 중복 없애기

문제] 시퀀스에서 중복된 값을 없애고 싶지만, 아이템의 순서는 유지하고 싶다.

preliminary : yield 복습
https://stackoverflow.com/questions/68599824/does-yield-in-python-go-up-the-call-stack-when-using-recursion

"""

In [1]:
# 해결 - 시퀀스의 값이 hashable(해시가능)하다면,
# 이 문제는 set과 제네레이터(generator)를 사용해서 쉽게 해결 할 수 있다.

# 순서를 유지한 채, 시퀀스의 중복 제거하는 함수
def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

In [2]:
# How to use 'dedupe'?

a = [1, 5, 2, 1, 9, 1, 5, 10]

In [3]:
list(dedupe(a))

[1, 5, 2, 9, 10]

In [None]:
# hashable에 대한 문서: 
# https://www.geeksforgeeks.org/why-and-how-are-python-functions-hashable/
# 요약: dictionaries are not hashable!

# dict와 같은 해시 불가능한 타입의 중복을 제거하려면 레시피에 대해 약간의 수정이 필요함.

In [10]:
# 딕셔너리용 중복 제거 함수
def dedupe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)


In [11]:
a = [{'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]

In [12]:
# 'x':val, 'y':val 둘 모두가 같아야만 중복으로 판단하여 제거
list(dedupe(a, key=lambda d: (d['x'], d['y'])))

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

In [13]:
# 'x':val 이 같기만하면 중복으로 판단하여 제거
list(dedupe(a, key=lambda d: d['x']))

[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]

In [None]:
"""
토론]
중복을 없애려면 대개 set을 만드는 것이 가장 쉽다.
>>> a
[1, 5, 2, 1, 9, 1, 5, 10]
>>> set(a)
{1, 2, 10, 5, 9}

하지만 위의 방식은 기존 데이터의 순서가 훼손된다. 따라서 앞에 언급한 recipe로 문제를 해결한다.

제네레이터 함수를 사용했기 때문에 단순히 리스트 프로세싱 말고도 아주 일반적인 목적으로
함수를 사용할 수 있다. 예를 들어 파일을 읽어 들일 때 중복된 라인을 무시하려면 단순히 다음과 같은
코드를 사용하면 된다.

with open(somefile, 'r') as f:
    for line in dedupe(f):
        ...
        
key 함수의 스펙에 대해서는 python built-in 함수인 sorted(), min(), max() 등의 기능을 흉내내고 있다.
자세한 내용은 recipe 1.8, 1.13을 참고하라.
"""