# chapter 3. Data Type

## 5. collections - 컨테이너 데이터형

### collections 모듈은 다향한 자료구조인 리스트, 튜플, 딕셔너리 등을 확장 하여 제작된 파이썬의 내장 모듈이다.

### 💡 deque
### 💡 OrderedDict
### 💡 defaultdic
### 💡 Counter
### 💡 namedtuple

### (1 ) deque 모듈

### 이 모듈은 스택과 큐를 모두 지원하는 모듈입니다.
### 리스트와 비슷한 형식으로 데이터를 저장하며, 먼저 append() 함수를 사용하여 기존 리스트처럼 데이터가 인덱스 번호를 늘리며 쌓이기 시작한다.  
  
#### 🔎 Q. deque를 사용할 때, 왜 list를 사용하지 않고 굳이 deque를 사용하는 이유는?
<b>이유는 시간복잡도에 있습니다.  
list는 배열의 형태이기때문에 index의 앞 부분에서 삽입, 삭제가 일어나기 때문에,  
만약 1번쨰 요소를 지운다면 그 뒤의 모든 요소가 1칸씩 앞으로 당겨줘야해서 비효율적입니다.  
그에 반해 양방향 삽입,삭제 구조인 deque는 간단하기 때문입니다.  
list의 시간 복잡도는 O(n)이고 deque는 O(1) 입니다.</b>

In [7]:
# 요소 추가
from collections import deque
my_deque = deque()
for i in range(5):
    my_deque.append(i)
    
print(my_deque)  

deque([0, 1, 2, 3, 4])


In [8]:
# 요소 추출
my_deque.pop()
my_deque.pop()

print(my_deque)

deque([0, 1, 2])


### 1-2 ) 큐 구현 :  appendleft(), pop(), append(), popleft()
<b> - 왼쪽에 값 입력 하고 싶다 -> appendleft()</b>  
<b> - 왼쪽에 값을 뺴고 싶다 -> appendpop()</b>

In [28]:
from collections import deque

my_deque = deque()
for i in range(5):
    my_deque.appendleft(i)   # appendleft 함수를 사용하면 기존 append() 함수와 다르게 왼쪽으로 채워짐
    
print(my_deque)    

deque([4, 3, 2, 1, 0])


In [29]:
my_deque.popleft()
my_deque.popleft()

print(my_deque)  # 오른쪽이 아닌 왼쪽부터 요소 추출

deque([2, 1, 0])


### 1-3 ) deque 확장 :  extend(), extendleft()
<b> - deque를 확장할때 extend 메서드를 사용합니다. 기본은 오른쪽으로 확장됩니다.</b>  
<b> - 왼쪽으로 확장하고 싶으면 extendleft() 메서드를 사용합니다.</b>

In [36]:
my_deque = deque(['l', 'o', 'v', 'e'])
my_deque.extend('you')    # 오른쪽에 붙여짐

print(my_deque)

deque(['l', 'o', 'v', 'e', 'y', 'o', 'u'])


### 1-4 ) 리스트처럼 사용 : insert(), remove()
<b> - deque는 리스트처럼 중간 내용을 수정하거나 새 항목을 입력하거나 삭제할 수 있다.

In [37]:
print('--- 수정하기 ---')
my_deque[0] = 'L'
print(my_deque)

print('--- 추가하기 ---')
my_deque.insert(0, 'I')
print(my_deque)

print('--- 삭제하기 ---')
my_deque.insert(100, 'I')    # 100번째 항목은 없지만 가장 큰 인덱스니까 제일 오른쪽에 I 추가
print(my_deque)

my_deque.remove('I')   # 같은 항목이 존재할 경우 왼쪽부터 삭제
print(my_deque)

--- 수정하기 ---
deque(['L', 'o', 'v', 'e', 'y', 'o', 'u'])
--- 추가하기 ---
deque(['I', 'L', 'o', 'v', 'e', 'y', 'o', 'u'])
--- 삭제하기 ---
deque(['I', 'L', 'o', 'v', 'e', 'y', 'o', 'u', 'I'])
deque(['L', 'o', 'v', 'e', 'y', 'o', 'u', 'I'])


### * deque의 장점

<b> 📍 deque 모듈의 장점은 <u>연결 리스트</u>의 특성을 지원한다는 것이다. 연결리스트는 데이터를 저장할 때 요소의 값을 한 쪽으로 연결한 후, 요소의 다음 값의 주소값을 저장하여 데이터를 연결하는 기법이다.</b>

![image.png](attachment:image.png)

<b> 연결 리스트는 다음 요소의 주소값을 저장하므로 데이터를 원형으로 저장한다. 이러한 특징 덕에 가능한 기능 중 하나는 rotate()함수이다. 기존 deque에 저장된 요소들의 값 인덱스를 바꾸는 것이 rotate()함수인데, 이렇게 한다면 요소를 옮길 때 실제 요소가 아닌 인덱스 번호만 바꾸면 되기에 편리하다. </b>

In [5]:
deq = deque([1, 2, 3, 4, 5])

# rotate() 함수는 데크를 num만큼 회전
# 양수면 오른쪽, 음수면 왼쪽으로 회전

deq.rotate(1)
print(deq)

deq.rotate(-1)
print(deq)

deque([5, 1, 2, 3, 4])
deque([1, 2, 3, 4, 5])


### 1 - 5 ) deque의 reverse() 함수
<b>기존과 반대로 데이터를 저장할 수 있다.</b>

In [14]:
my_deque = deque()
for i in range(5):
    my_deque.append(i)
print(my_deque)
print(deque(reversed(my_deque)))

deque([0, 1, 2, 3, 4])
deque([4, 3, 2, 1, 0])


  
### ( 2 ) OrderedDict 모듈

### OrderedDict 모듈은 이름 그대로 순서를 가진 딕셔너리 객체입니다.  딕셔너리 파일을 저장하면 키는 저장 순서와 상관 없이 저장됩니다.

In [2]:
from collections import OrderedDict
d = OrderedDict()
d['a'] = 100
d['b'] = 200
d['e'] = 300
d['c'] = 400

for k, v in d.items():
	print(k, v)

a 100
b 200
e 300
c 400


<b> 📍 하지만 파이썬 3.6 부터는 기본 사전(dict)도 OrderedDict 클래스와 동일하게 동작하기 때문에 이러한 용도로 OrderedDict 클래스를 사용할 일이 줄어들었습니다.  
  
  그치만 아예 필요성이 사라진것은 아닙니다.
사전 간에 동등성 비교를 할 때는 데이터의 키, 값이 동일하면 데이터의 순서가 무시 되었는데
OrderedDict 클래스 경우 데이터의 순서까지 고려해서 좀 더 엄격하게 동등성 비교가 됩니다.  

기본 비교 )</b>

In [3]:
dic1 = {'A': 1, 'B': 2, 'C': 3}
dic2 = {'A': 1, 'C': 3, 'B': 2}
dic1 == dic2

True

<b> OrderedDic 비교 )</b>

In [5]:
ordered_dic1 = OrderedDict({'A': 1, 'B': 2, 'C': 3})
ordered_dic2 = OrderedDict({'A': 1, 'C': 3, 'B': 2})
ordered_dic1 == ordered_dic2

False

In [6]:
ordered_dic3 = OrderedDict({'A': 1, 'B': 2, 'C': 3})
ordered_dic1 == ordered_dic3

True

  

### ( 3 ) defaultDict

### defaultDict 모듈은 딕셔너리의 변수를 생성할 때 키에 기본 값을 지정하는 방법입니다.  

<b>기본 dic 형태 ) </b>

In [7]:
d = dict()
print(d['first'])   # 이렇게 하면 first라는 키가 존재하지 않아 KeyError가 발생합니다.

KeyError: 'first'

In [8]:
from collections import defaultdict

d = defaultdict(lambda : 0)   #--> default 값을 0으로 설정하겠다.
print(d["first"])

0


<b>3번째줄을 해석하면 default값을 0 으로 초깃값을 주겠다 인데,  
lambda: 0 은 어떤 키가 들어오더라도 처음 값은 전부 0으로 설정하겠다는 뜻입니다.  
    
  
예시 1 ) </b>

In [9]:
import collections
 
normalDict = collections.defaultdict(int)
normalKey =["A","B","C"]
for item in normalKey:
    normalDict[item]
print(normalDict)

defaultdict(<class 'int'>, {'A': 0, 'B': 0, 'C': 0})


<b>defaultdict을 사용하면 다음과 같이 출력이 됩니다.  
defaultdict()인자값으로 lamda:0을 넣어도 되지만, 위와 같이 int를 넣어도 기본값으로 0으로 입력이 됩니다.  
  
예시 2 )</b>


In [10]:
import collections
normalDict = collections.defaultdict(int)
print(normalDict)
normalDict["a"]
print(normalDict)
normalDict["v"]
print(normalDict)

defaultdict(<class 'int'>, {})
defaultdict(<class 'int'>, {'a': 0})
defaultdict(<class 'int'>, {'a': 0, 'v': 0})


<b>위에서 보이는 바와 같이 최초에 없는 키값을 입력해도 에러가 나지 않고, 다음과 같이 설정된 값으로 초기화가 됩니다. 그래서 defaultdict에 자동으로 추가됩니다.  </b>

### ( 4 ) Counter

### 데이터의 개수를 셀 때 유용한 Collections 모듈의 Counter 클래스 입니다.
### 반환값은 Dictionary 타입입니다.

### - Counter의 기본 사용법
#### 1 ) 리스트(List)

In [11]:
import collections
lst = ['aa', 'cc', 'dd', 'aa', 'bb', 'ee']
print(collections.Counter(lst))

Counter({'aa': 2, 'cc': 1, 'dd': 1, 'bb': 1, 'ee': 1})


<b>lst = ['aa', 'cc', 'dd', 'aa', 'bb', 'ee']의 요소 개수를 collections.Counter()를 이용하여 구할 수 있습니다.  츨력 결과는 Dictionary 형태입니다. 
  
2 ) 딕셔너리(dictionary) </b>

In [12]:
import collections
print(collections.Counter({'가': 3, '나': 2, '다': 4}))

Counter({'다': 4, '가': 3, '나': 2})


<b>결과에서 볼 수 있듯이 요소의 갯수가 많은 것 부터 출력해줍니다.  
입력값은 Dictionary형태로 넣어주면, 결과값 또한 Dictionary입니다.
  
3 ) 값 = 개수 형태 </b>

In [13]:
c = collections.Counter(a=2, b=3, c=2)
print(collections.Counter(c))
print(sorted(c.elements()))

Counter({'b': 3, 'a': 2, 'c': 2})
['a', 'a', 'b', 'b', 'b', 'c', 'c']


  
### - Counter의 메소드들
#### 📍 update() 
#### 📍 most_common(n)
#### 📍 element()
#### 📍 substract()

In [14]:
# update(), most_common(n) 예제
my_list  = ['aaa', 'bbb', 'ccc']
new_list = ['aaa', 'ccc', 'ddd']

# 리스트 세기
from collections import Counter
counter = Counter(my_list)
print(counter)

# 추가된 리스트를 누적하여 세기
counter.update(new_list)
print(counter)

# 가장 많이 나타난 2개를 출력
print(counter.most_common(2))

Counter({'aaa': 1, 'bbb': 1, 'ccc': 1})
Counter({'aaa': 2, 'ccc': 2, 'bbb': 1, 'ddd': 1})
[('aaa', 2), ('ccc', 2)]


<b> => 넘긴 그 숫자 만큼만 리턴하기 때문에, 가장 개수가 많은 K개의 데이터를 얻을 수도 있습니다.</b>

In [15]:
# element() 예제 
c = collections.Counter("Hello Python")
print(list(c.elements()))
print(sorted(c.elements()))

['H', 'e', 'l', 'l', 'o', 'o', ' ', 'P', 'y', 't', 'h', 'n']
[' ', 'H', 'P', 'e', 'h', 'l', 'l', 'n', 'o', 'o', 't', 'y']


<b>=> 입력된 값의 요소에 해당하는 값을 풀어서 반환합니다.  
    elements()는 대소문자를 구분하며, sorted()를 이용하여 정렬해줄 수 있습니다.</b>

In [16]:
# substract() 예제
c = Counter(a=4, b=2, c=0, d=-2)
d = Counter(a=1, b=2, c=3, d=4)
c.subtract(d)
print(c)

Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6})


<b>=>요소를 뺴는 메소드. 다만, 요소가 없는 경우는 음수의 값이 출력됩니다.</b>

### - Counter의 연산들

In [19]:
# 덧셈
print('----- 덧셈 결과------')
a = collections.Counter(['a', 'b', 'c', 'b', 'd', 'a'])
b = collections.Counter('aaeroplane')
print(a)
print(b)
print(a+b)


# 뺄셈    * 주의 : 음수 값은 출력되지 않습니다.
print('----- 뺄셈 결과------')
a = collections.Counter('aabbccdd')
b = collections.Counter('abbbce')
print(a-b)

# 교집합(&)과 합집합(|)
print('----- 교집합 결과------')
a = collections.Counter('aabbccdd')
b = collections.Counter('aabbbce')
print(a & b)
print('----- 합집합 결과------')
print(a | b)

----- 덧셈 결과------
Counter({'a': 2, 'b': 2, 'c': 1, 'd': 1})
Counter({'a': 3, 'e': 2, 'r': 1, 'o': 1, 'p': 1, 'l': 1, 'n': 1})
Counter({'a': 5, 'b': 2, 'e': 2, 'c': 1, 'd': 1, 'r': 1, 'o': 1, 'p': 1, 'l': 1, 'n': 1})
----- 뺄셈 결과------
Counter({'d': 2, 'a': 1, 'c': 1})
----- 교집합 결과------
Counter({'a': 2, 'b': 2, 'c': 1})
----- 합집합 결과------
Counter({'b': 3, 'a': 2, 'c': 2, 'd': 2, 'e': 1})


  
### ( 5 ) namedtuple

### - 튜플의 형태로 데이터 구조체를 저장하는 모듈입니다. 기본 튜플과는 다르게 키(key)값으로 접근가능하도록 제공합니다.
### - collections.namedtuple(typename, field_names, verbose=False, rename=False)을 입력값으로 받으며, field_names 를 통해 namedtuple()의 키 즉, 필드명(fieldname)을 정의할 수 있습니다.
  
  
#### 예제1 ) tuple() vs namedtuple()

In [21]:
# tuple()
a = ('John', 28, '남')
b = ('Sally', 24, '여')
for n in [a, b]:
    print('%s은(는) %d 세의 %s성 입니다.' %n)

John은(는) 28 세의 남성 입니다.
Sally은(는) 24 세의 여성 입니다.


In [23]:
import collections
# namedtuple()
Person = collections.namedtuple("Person", 'name age gender')
P1 = Person(name='Jhon', age=28, gender='남')
P2 = Person(name='Sally', age=28, gender='여')
for n in [P1, P2]:
    print('%s는(은) %d세의 %s성 입니다.' %n)
    
print('--------------------------------------')
print(P1.name, P1.age, P1.gender)
print(P2.name, P2.age, P2.gender)

Jhon는(은) 28세의 남성 입니다.
Sally는(은) 28세의 여성 입니다.
--------------------------------------
Jhon 28 남
Sally 28 여


### - namedtuple()의 메소드들
#### 📍 _make : 기존에 생성된  namedtuple에 새로운 객체를 생성하는 메소드
####  📍 **dic : dictionary를 namedtuple()로 변환해준다.

In [25]:
print('------ _make 함수 예제 ------')
# Person 객체 만들기
Person = collections.namedtuple("Person", 'name age gender')
P1 = Person(name='Jhon', age=28, gender='남')
P2 = Person(name='Sally', age=28, gender='여')

# _make()를 이용하여 새로운 객체 생성
P3 = Person._make(['Tom', 24, '남'])

for n in [P1, P2, P3]:
    print('%s는(은) %d세의 %s성 입니다.' %n)

------ _make 함수 예제 ------
Jhon는(은) 28세의 남성 입니다.
Sally는(은) 28세의 여성 입니다.
Tom는(은) 24세의 남성 입니다.


In [26]:
print('------ **dic 함수 예제 ------')
# Person 객체 만들기
Person = collections.namedtuple("Person", 'name age gender')
P1 = Person(name='Jhon', age=28, gender='남')
P2 = Person(name='Sally', age=28, gender='여')

# double-star-operator
dic = {'name' : 'Tom', 'age' : 24, 'gender' : '남'}
P3 = Person(**dic)

for n in [P1, P2, P3]:
    # print('%s는(은) %d세의 %s성 입니다.' %n)
    print(n)

------ **dic 함수 예제 ------
Person(name='Jhon', age=28, gender='남')
Person(name='Sally', age=28, gender='여')
Person(name='Tom', age=24, gender='남')



## 6. Collections.abc - 컨테이너에 대한 추상 기본 클래스

### 컨테이너 타입에 필요한 일반적인 메서드를 모두 제공하는 추상 기반 클래스들을 정의하는 모듈 입니다.

### 👆컨테이너 타입은 무엇일까?
#### - 특정 속성이 구현되어 있는 클래스를 말합니다. 따라서 객체를 만드는데 직접 관여하지는 않지만, 특정 기능이 구현되어 있는 객체를 Container 객체라고 합니다.
#### - 순서가 없는 Container 객체는 dict, set 이고, 순서가 있는 Container 객체는 대표적으로 Sequence객체(리스트, 튜플, range, 문자열)가 있습니다.

In [39]:
from collections import Container
# issubClass는 특정 클래스가 다른 클래스의 속성을 이어받은 클래스(상속)인지 확인하는 클래스 입니다.
issubclass(dict, Container)  # 결과 : True
issubclass(set, Container)   # 결과 : True
issubclass(str, Container)   # 결과 : True

True

<b>Sequence의 기능을 사용하려면 Collection의 추상 클래스를 상속 받습니다.  
    그 속에 추상 메서드는 __getitem__, __len__ 입니다.   
하지만 스스로 커스텀 컨테이너를 만들때, Sequence 안의 추상메서드들 중 하나라도 빠뜨리지 않고 기본 메서드를 전부 정의하기가 어렵습니다.
  
이런 어려움을 피하기 위하여 collections.abc 모듈을 사용해서 각 컨테이너 타입에 필요한 일반적인 메서드를 모두 제공하는 추상 기반 클래스들을 정의합니다.  
이 추상 기반 클래스들에서 상속받아 서브클래스를 만들다가 깜박 잊고 필수 메서드를 구현하지 않으면 모듈이 에러를 발생시킵니다. 추상 기반 클래스가 요구하는 메서드를 모두 구현하면 별도로 작업하지 않아도 클래스가 부가적인 메소드를 모두 제공합니다.  

  
예시 )</b>

In [44]:
import collections.abc
class MySet(collections.Set):
    pass
a = MySet()

TypeError: Can't instantiate abstract class MySet with abstract methods __contains__, __iter__, __len__

<b>=> 에러 메시지 처럼, 
추상메소드는 생략하면 기본적인 클래스 기능은 동작하지만, 객체를 생성하면 에러가 발생합니다.</b>