# Data Structure2
# 비시퀀스 데이터 구조
## 세트
고유한 항목들의 정렬되지 않은 컬렉션
### 세트 메서드
```
s.add(x)            세트 s에 항목 x를 추가. 이미 x가 있다면 변화 없음
s.clear()           세트 s의 모든 항목을 제거
s.remove(x)         세트 s에서 항목 x를 제거. 항목 x가 없을 경우 Key error
s.pop()             세트 s 에서 랜덤하게 항목을 반환하고, 해당 항목을 제거
s.discard(x)        세트 s에서 항목 x를 제거
s.update(iterable)  세트 s에 다른 iterable 요소를 추가
```

## .add(x) 
세트에 x를 추가

In [44]:
my_set = {1, 2, 3,}
my_set.add(4)
print(my_set)

my_set.add(4)
print(my_set) # 각각의 고유한 값

{1, 2, 3, 4}
{1, 2, 3, 4}


### .clear()
세트의 모든 항목을 제거
- {}는 빈 딕셔너리를 의미하기 때문에 set() 반환

In [45]:
my_set = {1, 2, 3}
my_set.clear()
print(my_set)

set()


### .remove(x)
세트에서 항목 x를 제거

In [46]:
my_set = {1, 2, 3}
my_set.remove(2)
print(my_set)

{1, 3}


In [47]:
my_set.remove(10)
print(my_set) # KeyError

KeyError: 10

### .discard()
세트 s에서 항목 x를 제거. remove와 달리 에러 없음
- 에러 발생도, 반환 값도 없음

In [48]:
my_set = {1, 2, 3}
my_set.discard(2)
print(my_set)

{1, 3}


In [49]:
print(my_set.discard(10))

None


### .pop()
세트에서 **임의의** 요소를 제거하고 **반환**
- set는 순서가 없기 때문에 임의의 요소로 표현

In [50]:
my_set = {1, 2, 3}
element = my_set.pop()

print(element)
print(my_set)

1
{2, 3}


### pop 순서에 대한 추가 설명
**해시 테이블(Hash Table)**
- 데이터를 효율적으로 저장하고 검색하기 이해 사용되는 **자료 구조**
- 키-값 쌍을 연결하여 저장하는 방식
- 키를 해시 함수를 통해 해시 값으로 반환하고, 이 해시 값을 인덱스로 사용하여 데이터를 저장하거나 검색
    - 이렇게 하면 데이터의 검색이 *매우 빠르게* 이루어짐
- 파이썬에서 세트의 요소와 딕셔너리의 키는 해시 테이블을 이용하여 중복되지 않는 고유한 값을 저장
- 세트 내의 각 요소는 해시 함수를 통해 해시 값으로 변한되고, 이 해시 값을 기반으로 해시 테이블에 저장됨
- 마찬가지로 딕셔너리의 키는 고유해야 하므로, 키를 해시함수를 통해 해시 값으로 변환하여 해시 테이블에 저장

In [51]:
# 해시 테이블
a = [
    {
        'name' : '삼계탕',
        'price' : 20000
    },
    {
        'name' :'육전',
        'price' : 15000
    }
]

# 키로 접근하기 위해서 해시 테이블 사용
b = {
    '삼계탕' : 20000,
    '육전' : 15000
}

**해시(Hash)**
- 임의의 크기를 가진 데이터를 고정된 크기의 고유한 값으로 변환하는 것
- 이렇게 생성된 고유한 값은 해당 데이터를 식별하는 데 사용될 수 있음
- 일종의 "지문"과 같은 역할
- 지문은 개인을 고유하게 식별하는 것처럼, 해시 값은 데이터를 고유하게 식별
- 파이썬에서는 해시 함수를 사용하여 데이터를 해시 값으로 변환하며, 이 해시 값은 정수로 표현됨 

- 문자의 경우 동적이기 때문에 랜덤하게 주소가 할당
- 정수의 경우 고정된 값이기 때문에 해시 함수를 통해 나온 값이 정수로 동일함

**set의 pop 메서드 예시**
- set에서 임의의 요소를 제거하고 반환
- 실행할 때마다 다른 요소를 얻는다는 의미에서의 "무작위"가 아니라 "임의"라는 의미에서 무작위

- 해시 테이블에 나타나는 순서대로 반환

In [52]:
# 정수

my_set = {1, 2, 3, 9, 100, 4, 87, 39, 10, 52}

print(my_set.pop())
print(my_set.pop())
print(my_set.pop())
print(my_set.pop())
print(my_set.pop())
print(my_set.pop())
print(my_set.pop())
print(my_set.pop())
print(my_set.pop())
print(my_set.pop())
print(my_set)

1
2
3
100
4
39
9
10
52
87
set()


> 정수 값 자체가 곧 해시 값

In [53]:
# 문자열
my_str_set = {'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'}

print(my_str_set.pop())
print(my_str_set.pop())
print(my_str_set.pop())
print(my_str_set.pop())
print(my_str_set.pop())

d
j
f
g
b


> 반환 값이 매번 다름

In [54]:
print(hash(1))  # 1
print(hash(1))  # 1
print(hash('a'))  # 실행시마다 다름
print(hash('a'))  # 실행시마다 다름

1
1
-6426522749772006213
-6426522749772006213


- 파이썬에서 해시 함수의 동작 방식은 객체의 타입에 따라 달라짐
- 정수와 문자열은 서로 다른 타입이며, 이들의 해시 값을 계산하는 방식도 다름
- 정수 타입의 경우, 정수 값 자체가 곧 해시 값이 됨
    - 즉, 같은 정수는 항상 같은 해시 값을 가짐
    - 해시 테이블에 정수를 저장할 때 효율적인 방법
    - 예를 들어, hash(1)과 hase(2)는 항상 서로 다른 해시 값을 갖지만, hash(1)은 항상 동일한 해시 값을 갖게 됨
- 문자열은 가변적인 길이를 갖고 있고, 문자열에 포함된 각 문자들의 유니코드 코드 포인트 등을 기반으로 해시 값을 계산
    - 이로 인해 문자열의 해시 값은 문자열의 내용에 따라 다르게 계산됨
    
**정수는 해시 테이블에 저장되어 있는 순서가 있기 때문에 동일한 순서로 출력되는 것이다.**
**문자열은 실행될때마다 해시함수 마다 다른 값을 받는 것을 알 수 있음 -> pop 출력할 때마다 달라짐**

**해시 함수**
- 주어진 객체의 해시 값을 계산하는 함수
- 해시 값은 객체의 고유한 식별자로 사용될 수 있으며, 해시 테이블과 같은 자료 구조에서 빠른 검색을 위해 사용됨

In [55]:
# TypeError: unhashable type: 'list'
my_set = {[1, 2, 3], 1, 2, 3, 4, 5}
  
# TypeError: unhashable type: 'list
my_dict = {[1, 2, 3]: 'a'}

TypeError: unhashable type: 'list'

> '해시 가능성(hashable)'은 객체를 "딕셔너리의 키"나 "세트의 요소"로 사용할 수 있게 하는데, 이 자료 구조들이 내부적으로 해시 값을 사용하기 때문

해시 가능성은 불변형 자료에만 있음!!
리스트를 키로 쓸 수 없음 이유 -> 해시 가능성이 없기 떄문!

해시충돌
많은 input양 값은 주소에 다른 값 할당

### .update(iterable)
세트에 다른 iterable 요소를 추가

In [56]:
my_set = { 1, 2, 3}
my_set.update([4, 5, 1])
print(my_set)

{1, 2, 3, 4, 5}


### 세트의 집합 메서드
```
set1.difference(set2) : set1 - set2
- set1에는 들어있지만, set2에는 없는 항목으로 세트를 생성 후 반환  

set1.intersection(set2) : set1 & set2
- set1과 set2 모두 들어있는 항목으로 세트를 생성 후 반환

set1.issubset(set2) : set1 <= set2
- set1의 항목이 모두 set2에 들어 있으면 True를 반환   

set1.issuperset(set2) : set1 >= set2
- set1가 set2의 항목을 모두 포한하면 True를 반환

set1.union(set2) : set1 | set2
- set1 또는 set2에 (혹은 둘 다) 들어있는 항목으로 세트를 생성 후 반환
```

In [57]:
set1 = {0, 1, 2, 3, 4}
set2 = {1, 3, 5, 7, 9}

print(set1.difference(set2))
print(set1.intersection(set2))
print(set1.issubset(set2))
print(set1.issuperset(set2))
print(set1.union(set2))

{0, 2, 4}
{1, 3}
False
False
{0, 1, 2, 3, 4, 5, 7, 9}


## 딕셔너리 (dictionary)
고유한 항목들의 정렬되지 않은 컬렉션
- 앞으로 api 사용할 때 중요함
```
D.clear()           딕셔너리 D의 모든 키/값 쌍을 제거
D.get(k)            키 K에 연결된 값을 반환(키가 없으면 None을 반환)
D.get(k, v)         키 K에 연결된 값을 반환하거나 키가 없으면 기본 값으로 V를 반환
D.keys()            딕셔너리 D의 키를 모은 객체를 반환
D.values()          딕셔너리 D의 값을 모은 객체를 반환
D.items()           딕셔너리 D의 키/값 쌍을 모은 객체를 반환
D.pop(k)            딕셔너리 D에서 키k를 제거하고 연결됐던 값을 반환(없으면 오류)
D.pop(k, v)         딕셔너리 D에서 키k를 제거하고 연결됐던 값을 반환(없으면 V를 반환)
D.setdefault(k)     딕셔너리 D에서 키k와 연결된 값을 반환
D.setdefault(k, v)  딕셔너리 D에서 키k와 연결된 값을 반환
                    K가 D의 키가 아니면 값 v와 연결한 키 k를 D에 추가하고 v를 반환
D.update(other)     other 내 각 키에 대해 D에 있는 키면 D에 있는 그 키의 값을 other에 있는 값으로 대체
                    other에 있는 각 키에 대해 D에 없는 키면 키/값 쌍을 D에 추가
```
### clear()
딕셔너리 D의 모든 키/값 쌍을 제거

In [59]:
person = {'name' : 'Alice', 'age' : 25}
person.clear()
print(person)

{}


### .get(key[,default])
키 연결된 값을 반환하거나 키가 없으면 None 혹은 기본값을 반환

In [60]:
person = {'name' : 'Alice', 'age' : 25}

print(person.get('name'))
print(person.get('country'))
print(person.get('country', 'Unknown'))

Alice
None
Unknown


- key로 호출과 get의 차이

In [61]:

print(person['name'])
print(person.get('name'))

# 찾고자 하는 키가 없을 때
print(person['age']) # KeyError
print(person.get('age')) # None
print(person.get('age', 'Unknownn')) # Unknownn

Alice
Alice
25
25
25


### .keys()
딕셔너리 키를 모은 객체를 반환

In [62]:
person = {'name' : 'Alice', 'age' : 25}
print(person.keys())

for k in person.keys():
    print(k)

dict_keys(['name', 'age'])
name
age


### .values()
딕셔너리 값을 모은 객체를 반

In [63]:
person = {'name' : 'Alice', 'age' : 25}
print(person.values())

for v in person.values():
    print(v)

dict_values(['Alice', 25])
Alice
25


### .items()
딕셔너리 키/값 쌍을 모은 객체를 반환

In [64]:
person = {'name' : 'Alice', 'age' : 25}
print(person.items())

for k, v in person.items():
    print(k, v)

dict_items([('name', 'Alice'), ('age', 25)])
name Alice
age 25


In [65]:
blood_types = {'A':4, 'B': 2, 'O': 2, 'AB': 2}

# 키를 순회
for key in blood_types.keys():
    print(key)
    
# 값 순회
for value in blood_types.values():
    print(value)
    
# 키와 값을 같이 순회
for key, value in blood_types.items():
    print(key, ':', value)

A
B
O
AB
4
2
2
2
A : 4
B : 2
O : 2
AB : 2


### .pop(key[,default])
키를 제거하고 연결됐던 값을 반환 (없으면 에러나 default를 반환)
- 값이 없는 경우 원하는 값으로 출력 가능

In [66]:
person = {'name' : 'Alice', 'age' : 25}

print(person.pop('age'))
print(person)
print(person.pop('country', None))
print(person.pop('country'))

25
{'name': 'Alice'}
None


KeyError: 'country'

### setdefault(key[,default])
키와 연결된 값을 반환  
**키가 없다면** default와 연결한 키를 딕셔너리에 추가하고 default를 반환

In [68]:
person = {'name' : 'Alice', 'age' : 25}

print(person.setdefault('country', 'KOREA'))
# 키가 없다면 값이 변경되는 것이므로 키가 존재하면 그냥 연결된 값을 반환
print(person.setdefault('age', '50')) 
print(person)

KOREA
25
{'name': 'Alice', 'age': 25, 'country': 'KOREA'}


### .update([ohter])
other가 제공하는 키/값 쌍으로 딕셔너리를 갱신  
기존 키는 덮어씀
- 키가 중복된다면 마지막의 값으로 갱신된다.

In [70]:
person = {'name' : 'Alice', 'age' : 25}
other_person = {'name' : 'Jane', 'gender':'Female'}

# 여러개 동시에 넣을 수 있음
person.update(other_person)
print(person)

person.update(age = 50)
print(person)

person.update(country = 'KOREA')
print(person)

{'name': 'Jane', 'age': 25, 'gender': 'Female'}
{'name': 'Jane', 'age': 50, 'gender': 'Female'}
{'name': 'Jane', 'age': 50, 'gender': 'Female', 'country': 'KOREA'}


In [71]:
# 혈액형 인원 수 세기
# 결과 => {'A':3, 'B':3, 'O': 3, 'AB': 3}
blood_types = ['A', 'B', 'A', 'O', 'AB', 'AB', 'O', 'A', 'B', 'O', 'B', 'AB']

In [72]:
# []
new_dict = {}
# boold_types을 순회하면서
for blood_type in blood_types:
    # 기존에 키가 이미 존재한다면,
    if blood_type in new_dict:
        # 기존에 키의 값을 +1 증가
        new_dict[blood_type] += 1
    # 키가 존재하지 않는다면 (처음 설정되는 키)
    else:
        new_dict[blood_type] = 1
print(new_dict)

{'A': 3, 'B': 3, 'O': 3, 'AB': 3}


In [73]:
# .get()
new_dict = {}
# boold_types을 순회하면서
for blood_type in blood_types:
    # 기존의 값이 있는 경우 get이 작동하지 않기 때문에 추후에 1을 더해주어야 함
    new_dict[blood_type] = new_dict.get(blood_type, 0) + 1
print(new_dict)

{'A': 3, 'B': 3, 'O': 3, 'AB': 3}


In [74]:
# .setdefault()
new_dict = {}
# boold_types을 순회하면서
for blood_type in blood_types:
    new_dict.setdefault(blood_type, 0)
    new_dict[blood_type] += 1
print(new_dict)

{'A': 3, 'B': 3, 'O': 3, 'AB': 3}


In [75]:
# 딕셔너리 타입으로 해당되는 혈액혁에 몇명이 있는지를 카운트해라
bloods = ['A', 'B', 'A', 'O', 'AB', 'AB', 'O', 'A', 'B', 'O', 'B', 'AB']
counter  = dict() # 혈액형 : 몇명

for blood in bloods:
    if not counter.get(blood):
        counter[blood] = 0
    counter[blood] += 1
print(counter)

{'A': 3, 'B': 3, 'O': 3, 'AB': 3}


In [76]:
# .setdefault()
bloods = ['A', 'B', 'A', 'O', 'AB', 'AB', 'O', 'A', 'B', 'O', 'B', 'AB']
counter  = dict() # 혈액형 : 몇명

for blood in bloods:
    counter.setdefault(blood, 0)
    counter[blood] += 1
print(counter)

{'A': 3, 'B': 3, 'O': 3, 'AB': 3}


In [77]:
# collections.defaultdict
from collections import defaultdict

counter = defaultdict(int) # lambda: 0

for blood in bloods:
    counter[blood] += 1
print(counter)
print(dict(counter)) # 깔끔하게 보려면

defaultdict(<class 'int'>, {'A': 3, 'B': 3, 'O': 3, 'AB': 3})
{'A': 3, 'B': 3, 'O': 3, 'AB': 3}


In [78]:
# 카운터(Counter) 클래스
from collections import Counter
counter = Counter(bloods)
print(counter)
print(dict(counter)) # 깔끔하게 보려면

Counter({'A': 3, 'B': 3, 'O': 3, 'AB': 3})
{'A': 3, 'B': 3, 'O': 3, 'AB': 3}


# 복사
## 데이터 타입과 복사
- 파이썬에서는 데이터의 분류에 따라 복사다 달라짐
- '변경 가능한 데이터 타입'과 '변경 불가능한 데이터 타입'을 다르게 다룸

불변에서는 b = a 해도 b값의 변경이 영향을 미치지 않음

### 변경 가능한 데이터 타입의 복사

![image-5.png](attachment:image-5.png)

In [79]:
a = [1, 2, 3, 4]
b = a
b[0] = 100

print(a)
print(b)

[100, 2, 3, 4]
[100, 2, 3, 4]


### 변경 불가능한 데이터 타입의 복사

![image-6.png](attachment:image-6.png)

In [80]:
a = 20
b = a
b = 10

print(a)
print(b)

20
10


## 복사 유형
### 1. 할당 (Assignment)
할당 연산자(=)를 통한 복사는 해당 객체에 대한  **객체 참조를 복사**
주소를 복사한 것이므로 한몸이다!

In [82]:
original_list = [1, 2, 3]
copy_list = original_list
copy_list[0] = 'hi'

![image-7.png](attachment:image-7.png)

### 2. 얕은 복사 (Shallow copy)
슬라이싱을 통해 생성된 객체는 원본 객체와 독립적으로 존재  
내장함수 copy로도 가능하다!

![image-8.png](attachment:image-8.png)

In [83]:
a = [1, 2, 3]
# 슬라이싱
b = a[:]
b[0] = 100
print(a, b)

[1, 2, 3] [100, 2, 3]


In [84]:
# copy
c = a.copy()
c[0] = 100
print(a, c)

[1, 2, 3] [100, 2, 3]


- 2차원 리스트와 같이 변경가능한 객체 안에 변경 가능한 객체가 있는 경우

![image-3.png](attachment:image-3.png)

In [85]:
# 얕은 복사의 한게
a = [1, 2, [1, 2]]

b = a[:]
b[2][0] = 999
print(a, b) # a도 변경된 것을 확인

c = a.copy()
c[2][0] = 999
print(a, c)

[1, 2, [999, 2]] [1, 2, [999, 2]]
[1, 2, [999, 2]] [1, 2, [999, 2]]


### 3. 깊은 복사 (Deep copy)
내부에 중첩된 모든 객체까지 새로운 객체 주소를 참조하도록 함

![image-4.png](attachment:image-4.png)

In [86]:
import copy
original_list = [1, 2, [1, 2]]
deep_copied_list = copy.deepcopy(original_list)

deep_copied_list[2][0] = 100

print(original_list)
print(deep_copied_list)

[1, 2, [1, 2]]
[1, 2, [100, 2]]


In [None]:
# deepcopy는 무거워서 비추!
# 일차원 배열 (일반적인 경우)
# 블변형 요소
arr = [1, 2, 3, 4, 5]
arr_copy = arr[:]

# 가변형 요소를 가지고 있는 경우
arr = [1, 2, 3, 4, [5, 6]]
arr_copy = arr[:]
arr_copy[5] = arr[5][:] # 별도로 가변요소에 대한 처리 진행

# 재귀 함수를 정의해서 구현
def deep_copy(obj):
    # 복사과정을 진행
    # 타입별로 구분헤서 진행
    # 불변형인 경우 추가적인 복사 과정 X
    if isinstance(obj, str) or isinstance(obj, int): # 가변형 1
        return obj
    elif isinstance(obj, list): # 가변형 2
        # 복사하는 과정, 슬라이스 연산
        # 안쪽의 요소는 참조 형태로 넘어간다
        # 슬라이스 X -> 리스트 컴프리헨션(재귀)
        # return obj[:]
        # item도 가변형 일 수 있기 때문에, deep_copy 함수로 재귀
        return [item for item in obj]
    elif isinstance(obj, dict):
        copy_dict = dict()
        for ke in obj:
            copy_dict[key] = deep_copy(obj[key])
        #return copy_dict
        # 딕셔너리 컨프리헨션
        return {key:deep_copy(value) for key, value in obj.items()}
    elif isinstance(obj, tuple): # 튜플의 경우에는 안에 가변형 요소가 있을 수 있음
        pass
    else:
        # 복사가 진행된 객체
        return copy_obj

# 사용(깊은 복사)
origin_list = [1, 2, 3, 4, [4, 5, [6, 7]]]
copy_list = deep_copy(origin_list)

In [None]:
# 이차원 리스트을 복사할 때
arr = [[1, 2, 3],[4,5,6],[7,8,9]]

# for문을 사용 + 슬라이스 복사
arr2 = []
# arr를 순회하면서 
# 안쪽의 리스트를 복사하고,
for item in arr :
    copy_item = item[:]

    # arr 추가
    arr.append(copy_item)
    
arr2 = [item[:] for item in arr]