# 컬렉션 자료구조
- 시퀸스 자료구조 : 데이터들이 연결되어서 사용하는 자료구조
- 컬렌션 자료구조 : 데이어들을 한곳에 모아서 사용하는 자료구조

- 종류
    - set
    - dictionary
    - Collections
- 속성
    - in : 멤버쉽 연산
    - len : 크기(길이)
    - iter : 반복성

# set
- 반복적이고 중복요소가 없고 정렬이 되지 않는 컬렉션
- 주의할 점!
    - 1) 인덱스 연산이 불가능합니다.
    - 2) 집합의 종류에 따라서 시간복잡도가 달라집니다.
- C언어 : set, multiset
- 파이썬 : set, frozenset
- set : 가변 객체
- frozenset : 불변 객체
- 불변 객채 ? 셋의 요소를 변경하는 메서드를 사용할 수 없다.

In [5]:
# add(x) : set에 x가 없을때 추가합니다.
drinks = {'커피', '망고바나나', '딸기스무디'}
print(drinks)
drinks.add('카페라떼')
print(drinks)
# set은 같은 값을 여러번 입력해도 중복된 값이 삭제가 된다.

{'커피', '망고바나나', '딸기스무디'}
{'커피', '망고바나나', '카페라떼', '딸기스무디'}


In [8]:
# update(B) : 여러가지 데이터를 한꺼번에 추가
# A |= B
drinks = {'커피', '망고바나나', '딸기스무디'}
drinks.update({'레몬에이드', '밀크쉐이크'})
drinks = {'커피', '망고바나나', '딸기스무디'}
drinks |= {'레몬에이드', '밀크쉐이크'}
print(drinks)

{'망고바나나', '밀크쉐이크', '레몬에이드', '커피', '딸기스무디'}


In [9]:
#union(B) : 합집합
games = {'롤', '배그', '스타크래프트'}
newgames = {'메이플', '카트라이더'}
allgames  = games.union(newgames)
print(allgames)

{'카트라이더', '롤', '배그', '스타크래프트', '메이플'}


In [12]:
# 교집합 intersection(B), A & B
newgames = {'메이플','카트라이더','스타크래프트'}
print(games.intersection(newgames))

{'스타크래프트'}


In [13]:
# 차집합 : difference(B), A - B
print(games.difference(newgames))

{'배그', '롤'}


In [15]:
# set의 데이터를 다 초기화
# clear()
newgames.clear()
print(newgames)

set()


In [16]:
# 삭제 메서드
# discard(x) : set내부에 있는 x를 삭제합니다.
# pop() : 한 항목을 무작위로 삭제하고 그 항목을 반환
# remove(x) : 항목에 x가 없을 경우 keyError를 반환

In [17]:
print(drinks)

{'망고바나나', '밀크쉐이크', '레몬에이드', '커피', '딸기스무디'}


In [18]:
drinks.discard('밀크쉐이크')

In [19]:
print(drinks)

{'망고바나나', '레몬에이드', '커피', '딸기스무디'}


In [20]:
drinks.remove('밀크쉐이크')

KeyError: '밀크쉐이크'

In [21]:
drinks.pop()

'망고바나나'

In [22]:
drinks

{'딸기스무디', '레몬에이드', '커피'}

In [26]:
# data l1, l2, l3에 값이 있다.
# 해당 값을 삭제하거나, 차집합화 하거나
# 혹은 합집합화 해서 assert를 사용해서
# 테스트를 통과하시오!

def remove(l1):
    return list(set(l1))

def intersections(l1, l2):
    return list(set(l1) & set(l2))

def union(l1, l2):
    return list(set(l1) | set(l2))



def main():
    l1 = [1,2,3,4,5,5,8,8,9,10,11,12,12,13,14]
    l2 = [4,5,6,7,8,9,10]
    l3 = []
    assert(remove(l1) == [1,2,3,4,5,8,9,10,11,12,13,14])
    assert(intersections(l1, l2) == [4,5,8,9,10])
    assert(union(l2, l3) == sorted(l2))
    print("테스트 통과!!")
    
if __name__ == "__main__":
    main()
# 조건
# 1) assert(함수() == [1,2,3,4,5,8,9,10,11,12,13,14])
# 2) assert(함수() == [4,5,8,9,10])
# 3) assert(함수() == sorted(l2))

테스트 통과!!


In [27]:
# 해쉬테이블 : 특정 객체에 해당하는 임의의 정수 값을 상수 시간 내에 계산합니다.
# 딕셔너리와 비슷하게 생겼습니다.
# 키와 밸류값으로 연관되어있습니다.

# Dictionary
# 컬렉션 매핑 타입
# 반복, in, len
# 매핑 : 키, 밸류값 항목을 가지고 있는 컬렉션입니다.
# 정렬되지 않은 매핑 타입을 임의적인 순서대로 순회를 합니다.
# 항목의 추가 제거가 자유로운 편입니다.
# 슬라이싱 속성을 사용할 수 없습니다.

In [31]:
# setDefault(key, value) : 딕셔너리 키 존재를 모른채 접근하는 경우 사용
# 주의 ? 딕셔너리에 포함되어있지 않은 경우 예외처리를 발생
# 키가 존재 하지 않으면 새 키와 기본값 default 가 저장이 됩니다.
def usual_dict(data):
    newdata = {}
    for k, v in data:
        if k in newdata:
            newdata[k].append(v)
        else:
            newdata[k] = [v]
    return newdata

def setdefault_dict(data):
    # 임시적으로 가지고 있을 딕셔너리
    newdata = {}
    for k, v in data:
        newdata.setdefault(k, []).append(v)
    return newdata
def main():
    dict_data= (('key1', 'value1'),
               ('key1','value2'),
               ('key2','value1'),
               ('key2','value2'),
               ('key2', 'value3'))
    
    print(usual_dict(dict_data))
    print(setdefault_dict(dict_data))
            
if __name__ == "__main__":
    main()

{'key1': ['value1', 'value2'], 'key2': ['value1', 'value2', 'value3']}
{'key1': ['value1', 'value2'], 'key2': ['value1', 'value2', 'value3']}


In [36]:
#update(B) : 딕셔너리에 A에 B가 존재한다면
# A(키, 값)을 B의 (키, 값)으로 갱신을 합니다.
# 만약 B의 키가 존재하지 않는다면 B의 (키, 값)을 A에 추가합니다.
temp = {'A': 1, 'B':2}
temp.update({'A':200})
print(temp)
temp.update({'C' : 3000})
print(temp)

{'A': 200, 'B': 2}
{'A': 200, 'B': 2, 'C': 3000}


In [43]:
# 키값을 반환하는 get(key)
character = dict(name='흰둥', age=3, hobby='짖기')
character.get('name')
# 키값에 아무것도 없다면?
character.get('age')

3

In [46]:
# items() -> 키와 밸류값을 한꺼번에 가져올때
character.items()
# keys() -> 키의 값만 가져올때
character.keys()
# values() -> 밸류의 값만 가져올때
character.values()

dict_values(['흰둥', 3, '짖기'])

In [47]:
# pop(key) : 원하는 키를 찾아서 삭제후 값을 반환
# popitem() : 가장 뒤에 있는 키와 밸류값을 삭제 한 뒤 반환
character.popitem()

('hobby', '짖기')

In [48]:
character.pop('age')

3

In [49]:
print(character)

{'name': '흰둥'}


In [51]:
# 딕셔너리를 깨끗하게 할때는
character.clear()
print(character)

{}


In [56]:
# 딕셔너리 속도측정
# 리스트와 딕셔너리의 속도를 찾을겁니다,.
import timeit
import random
for i in range(1, 100001, 200):
    # 타이머 추가
    t = timeit.Timer("random.randrange(%d) in x" % i,
                    "from __main__ import random, x")
    x = list(range(i))
    lst_time = t.timeit(number=1000)
    x = {j : None for j in range(i)}
    d_time = t.timeit(number=1000)
    print("%d %10.3f %10.3f" % (i, lst_time, d_time))
    


1      0.001      0.001
201      0.001      0.000
401      0.002      0.000
601      0.003      0.001
801      0.003      0.001
1001      0.004      0.001
1201      0.005      0.001
1401      0.006      0.001
1601      0.007      0.001
1801      0.007      0.000
2001      0.008      0.001
2201      0.009      0.001
2401      0.010      0.001
2601      0.011      0.001
2801      0.012      0.001
3001      0.012      0.001
3201      0.013      0.001
3401      0.013      0.001
3601      0.014      0.001
3801      0.015      0.001
4001      0.016      0.001
4201      0.016      0.001
4401      0.018      0.001
4601      0.019      0.001
4801      0.018      0.001
5001      0.019      0.001
5201      0.021      0.001
5401      0.020      0.001
5601      0.021      0.001
5801      0.023      0.001
6001      0.023      0.001
6201      0.024      0.001
6401      0.025      0.001
6601      0.025      0.001
6801      0.026      0.001
7001      0.028      0.001
7201      0.027      0.001
7401    

59001      0.235      0.001
59201      0.227      0.001
59401      0.227      0.001
59601      0.231      0.001
59801      0.236      0.001
60001      0.231      0.001
60201      0.233      0.001
60401      0.237      0.001
60601      0.241      0.001
60801      0.233      0.001
61001      0.234      0.001
61201      0.233      0.001
61401      0.235      0.001
61601      0.239      0.001
61801      0.244      0.001
62001      0.238      0.001
62201      0.245      0.001
62401      0.252      0.001
62601      0.245      0.001
62801      0.243      0.001
63001      0.244      0.001
63201      0.251      0.001
63401      0.243      0.001
63601      0.251      0.001
63801      0.249      0.001
64001      0.241      0.001
64201      0.256      0.001
64401      0.243      0.001
64601      0.243      0.001
64801      0.254      0.001
65001      0.244      0.001
65201      0.259      0.001
65401      0.257      0.001
65601      0.258      0.001
65801      0.258      0.001
66001      0.260    

In [4]:
# 딕셔너리 순회법
# a : hello
# b : world
# c : !
# c, b, a
d = dict(c = '!', b = 'world', a='hello')
# sort, sorted 차이점?
# sort : 리스트 메서드 -> 리스트 원본값을 직접 수정 list.sort()
# sorted : 내장함수 -> 리스트의 원본값은 그대로 정렬값을 반환 sorted(정렬한 값)
for key in sorted(d.keys()):
    print(key, d[key])

a hello
b world
c !


In [5]:
# 딕셔너리의 분기
# if문을 이용한 분기문 작성
ac = 'h'
if ac == 'h':
    print('hello')
elif ac == 'w':
    print('world')

hello


In [12]:
def hello():
    print('hello')
def world():
    print('world')
    
# 함수 + 딕셔너리
ac = 'w'
func = dict(h=hello, w=world)
func[ac]()

world


In [15]:
# 컬렉션 타입
# defaultdict
# 일반적인 딕셔너리
from collections import defaultdict
def dicts():
    data = {("LOL", "AOS"), ("BTG", "FPS"), ("STARCRAFT", "SIMUL") }
    # 일반딕셔너리
    d1 = {}
    for k, v in data:
        if k not in d1:
            d1[k] = []
        d1[k].append(v)
    print(d1)
    # defaultdict
    d2 = defaultdict(list)
    for key, value in data:
        d2[key].append(value)
    print(d2)

In [16]:
dicts()

{'LOL': ['AOS'], 'BTG': ['FPS'], 'STARCRAFT': ['SIMUL']}
defaultdict(<class 'list'>, {'LOL': ['AOS'], 'BTG': ['FPS'], 'STARCRAFT': ['SIMUL']})


In [19]:
# 딕셔너리
# 3.5이전에는 딕셔너리가 정렬이 안되서 무작위 출력이 되었다.
# 3.6이후부터는 딕셔너리가 정렬이 되서 잘 나옵니다.
# OrderedDict -> 동등성 굉장히 따진다.
# 추가한 삽입 순서대로 항목을 저장을 하게 된다.
from collections import OrderedDict
todo1 = OrderedDict()
todo1[1] = '양치'
todo1[10] = '점심'
todo1[5] = '출근'
print(todo)
todo2 = OrderedDict()
todo2[1] = '양치'
todo2[5] = '출근'
todo2[10] = '점심'
print(todo1 == todo2)

OrderedDict([(1, '양치'), (10, '점심'), (5, '출근')])
False


In [24]:
# C : !, B : world, A : hello
# 출력해보기
# 넣은 순서대로 출력하기
# 데이터를 한꺼번에 입력받고
# 하나는 리스트 형태로 -> 일반 딕셔너리
# 하나는 키값만 출력해보세요. -> orderedDict
def example():
    list1 = [('c','!'),('b','world'),('a','hello')]
    d1 = {}
    for key,value in list1:
        if key not in d1:
            d1[key] = []
        d1[key].append(value)
    for key in d1:
        print(key, d1[key])
    print()
    # 정렬 딕셔너리
    d2 = OrderedDict(list1)
    for key in d2:
        print(key, d2[key])


In [25]:
example()

c ['!']
b ['world']
a ['hello']

c !
b world
a hello


In [32]:
# 카운터 딕셔너리
from collections import Counter

def counter():
    """매핑을 하는 딕셔너리 """
    list1 = [1,2,3,4,6,6,7,7,7,8,9,10]
    list1_count = Counter(list1)
    print("list1만 가져온 값 : ", list1_count)
    
    """update를 사용해서 넣어줄 경우"""
    list2 = [1,2,3]
    list1_count.update(list2)
    print("list2가 추가된 값 : ", list1_count)
    """수동으로 추가될 경우"""
    list3 = [5,8,8]
    for key in list3:
        list1_count[key] += 1
    print('수동으로 추가된 값 : ', list1_count)
    
    list2_count = Counter(list3)
    
    print(list1_count + list2_count)

In [33]:
counter()

list1만 가져온 값 :  Counter({7: 3, 6: 2, 1: 1, 2: 1, 3: 1, 4: 1, 8: 1, 9: 1, 10: 1})
list2가 추가된 값 :  Counter({7: 3, 1: 2, 2: 2, 3: 2, 6: 2, 4: 1, 8: 1, 9: 1, 10: 1})
수동으로 추가된 값 :  Counter({7: 3, 8: 3, 1: 2, 2: 2, 3: 2, 6: 2, 4: 1, 9: 1, 10: 1, 5: 1})
Counter({8: 5, 7: 3, 1: 2, 2: 2, 3: 2, 6: 2, 5: 2, 4: 1, 9: 1, 10: 1})


In [35]:
# Counter , most_common() 
# 사용하면 가장 많이 나오는 단어와 횟수를 구할 수 있습니다.
# 짱구 짱아 흰둥 짱아 흰둥 짱구 흰둥 짱구 흰둥 짱아 짱구
# 짱구 : 4, 흰둥 : 4, 짱아 : 3
# assert(함수실행 == [("짱구", 4), ("흰둥", 4), ("짱아", 3)])
# 테스트 통과!!
def finding_word(seq, N):
    dcounter = Counter()
    for word in seq.split():
        dcounter[word] += 1
    return dcounter.most_common(N)

def result():
    list1 = "짱구 짱아 흰둥 짱아 흰둥 짱구 흰둥 짱구 흰둥 짱아 짱구"
    N = 3
    assert(finding_word(list1, N) == [("짱구", 4), ("흰둥", 4), ("짱아", 3)])
    print("테스트 통과!")
    
if __name__ == "__main__":
    result()

테스트 통과!


In [1]:
# 애너그램
# 단어나 문장의 철자 순서를 바꾸는 것을 의미합니다.
# 첫번째 문자열의 문자 발생횟수를 더해서 딕셔너리에 저장
# 두번재 문자열의 문자 발생회수를 빼서 딕셔너리 저장
# 두 딕셔너리의 모든 항목이 0이라면 두 문자는 애너그램
# youtube -> yuutbeo = True
# brunch -> bronch = False
# assert검사후 맞다면 테스트 통과!!
from collections import Counter
def anagram(s1, s2):
    counter = Counter()
    for c in s1:
        counter[c] += 1
    for c in s2:
        counter[c] -= 1
    for i in dcount.value():
        if i :
            return False
    return True

def main():
    s1 = "youtube"
    s2 = "yuutbeo"
    assert(anagram(s1, s2)is True)
    print("테스트 통과!!")
    
if __name__ == "__main__":
    main()

In [13]:
# 주사위 합계경로
# 주사위를 두개 던졌으르 때 합계가 특정수로 나오는 경우의 수와 경로를 구합니다.
# 5 [1, 4], [2, 3], [3, 2], [4, 1]
from collections import defaultdict, Counter
def dice(S, faces=6):
    if S > 2 * faces or S < 2:
        return None
    cdict = Counter()
    ddict = defaultdict(list)
    
    # 두 주사위의 합을 모두 더한뒤 딕셔너리에 넣습니다.
    for dice1 in range(1, faces + 1):
        for dice2 in range(1, faces + 1):
            t = [dice1, dice2]
            cdict[dice1 + dice2] += 1
            ddict[dice1 + dice2].append(t)
    return [cdict[S], ddict[S]]

def main():
    s = 12
    result= dice(s)
    print(result)

if __name__ == "__main__":
    main()

[1, [[6, 6]]]


In [23]:
# 중복되는 단어를 모두 찾아서 제거하는 프로그램을 제작합니다.
# google이 있다면 'le'만 남기고 모두 제거합니다.
# 만약 제거에 성공했다면 테스트 성공이라는 결과값을 나오게 합니다.
# twitter -> wier
import string
def delete_word(str1):
    # string.ascii_lowercase : abcd..xyz 값을 가져오는 
    word_table = {key : 0 for key in string.ascii_lowercase}
    for i in str1:
        word_table[i] += 1
    for key, value in word_table.items():
        if value > 1:
            str1 = str1.replace(key, "")
    return str1

def main():
    str1 = 'google'
    assert(delete_word(str1) == 'le')
    print("테스트 통과!!!")
    
if __name__ =="__main__":
    main()

테스트 통과!!!


In [22]:
delete_word('google')

'le'