# 데이터 구조

- stack
- Queue
- Tuple
- Set
- Dictionary

# 1. Stack
: 나중에 넣은 데이터를 먼저 반환하도록 설계된 메모리 구조
-> LIFO = Last In First Out
ex. 뒤로 가기!

- 데이터 입력:*push*
- 데이터 출력:*pop*

1. 파이썬은 리스트를 사용하여 스택 구조 활용
2. push -> append()
3. pop -> pop()
4. 스택구조를 활용해 역순으로 출력할 수 있음.

In [1]:
a = [1,2,3,4,5]
a.append(10)
a.append(20)
a.pop()

20

# 2. Queue
: 먼저 넣은 데이터를 먼저 반환하도록 설계된 메모리 구조
-> FIFO = First In First Out (stack과 반대되는 개념)

- 데이터 입력: *put*
- 데이터 출력: *get*

1. 파이썬은 리스트를 사용하여 큐 구조 활용
2. put -> append()
2. get -> pop(0)


In [2]:
a = [1,2,3,4,5]
a.append(10)
a.append(20)
a.pop(0)

1

# 3. Tuple
: _값의 변경이 불가능_ 한 리스트

- 선언: ()
- 리스트의 연산, 인덱싱, 슬라이싱 동일하게 사용
- 프로그램을 작동하는 동안 변경되지 않는 데이터의 저장

In [4]:
t = (1,2,3)
print(t+t, t*2)

len(t)

#t[1] = 5 Error 발생

t = (1)
print(t) #일반 정수로 인식
t = (1,)
print(t) #값이 하나인 Tuple은 반드시 ","를 붙여야 함

(1, 2, 3, 1, 2, 3) (1, 2, 3, 1, 2, 3)
1
(1,)


# 4. Set
: 값을 순서 X 중복 X로 저장하는 자료형

- set 객체 선언을 이용하여 객체 생성
- 원소 추가: add (한 개), update (여러 개 - 리스트 형태)
- 원소 삭제: remove / discard
- 모든 원소 삭제: clear
- 합집합: union / |
- 교집합: intersection / &
- 차집합: difference / -

In [7]:
s = set([1,2,3,1,2,3])
s

{1, 2, 3}

In [9]:
s.add(1)
s

{1, 2, 3}

In [11]:
s.remove(1)
s

{2, 3}

In [12]:
s.update([1,4,5,6,7])
s

{1, 2, 3, 4, 5, 6, 7}

In [13]:
s.discard(3)
s

{1, 2, 4, 5, 6, 7}

In [15]:
s.clear()
s

set()

In [16]:
s1 = set([1,2,3,4,5])
s2 = set([3,4,5,6,7])

s1.union(s2)

{1, 2, 3, 4, 5, 6, 7}

In [17]:
s1|s2

{1, 2, 3, 4, 5, 6, 7}

In [18]:
s1.intersection(s2)

{3, 4, 5}

In [19]:
s1 & s2

{3, 4, 5}

In [20]:
s1.difference(s2)

{1, 2}

In [21]:
s1 - s2

{1, 2}

# 5. Dictionary
: 데이터를 저장할 때 구분지을 수 있는 값을 함께 저장

- 구분을 위한 데이터 고유 값 = Identifier or Key
- Key 값을 활용하여 Value 관리
- 선언: {}

In [22]:
country_code = {}
country_code = {'America':1, 'Korea':82, 'China':86, 'Japan':81}
country_code

{'America': 1, 'Korea': 82, 'China': 86, 'Japan': 81}

In [23]:
country_code.items() #Dict 데이터 출력

dict_items([('America', 1), ('Korea', 82), ('China', 86), ('Japan', 81)])

In [24]:
country_code.keys() #키 값만 출력

dict_keys(['America', 'Korea', 'China', 'Japan'])

In [28]:
country_code["German"] = 49 #있을 경우에는 값 반환, 없을 경우에는 추가
country_code

{'America': 1, 'Korea': 82, 'China': 86, 'Japan': 81, 'German': 49}

In [26]:
country_code.values()

dict_values([1, 82, 86, 81, 49])

In [27]:
for k, v in country_code.items():
    print("Key: ", k)
    print("Value: ", v)

Key:  America
Value:  1
Key:  Korea
Value:  82
Key:  China
Value:  86
Key:  Japan
Value:  81
Key:  German
Value:  49


In [29]:
'Korea' in country_code.keys()

True

# Collections
: list, tuple, dict에 대한 python built-in 확장 자료 구조(모듈)

- 편의성, 실행 효율 등을 사용자에게 제공

ex.
from collections import deque
from collections import Counter
from collections import OrederedDict
from collections import defaultdict
from collections import namedtuple

# 1. depue
: Stack과 Queue를 지원하는 모듈
-> **리스트보다 효율적인 자료 저장 방식 지원**

- rotate, reverse 등 linked list의 특성을 지원함
- 기존 list 형태의 함수 모두 지원

In [31]:
from collections import deque

deque_list = deque()

for i in range(5):
    deque_list.append(i)
print(deque_list)

deque_list.appendleft(10)
print(deque_list)

deque_list.rotate(2)
print(deque_list) #시작점을 2칸 뒤의 값으로 옮김 (회전판이라고 생각!)

deque([0, 1, 2, 3, 4])
deque([10, 0, 1, 2, 3, 4])
deque([3, 4, 10, 0, 1, 2])


In [32]:
from collections import deque
import time

start_time = time.time()
deque_list = deque()
for i in range(10000):
    for i in range(1000):
        deque_list.append(i)
        deque_list.pop()
print(time.time() - start_time, "Seconds")

start_time = time.time()
just_list = []
for i in range(10000):
    for i in range(1000):
        just_list.append(i)
        just_list.pop()
print(time.time() - start_time, "Seconds")

#deque가 훨씬 빠름!

1.598358392715454 Seconds
4.047752141952515 Seconds


# 2. OrderedDict
: 입력한 순서대로 dict을 반환

- Dict type의 값을 value 또는 key 값으로 정렬할 때 사용 가능

In [36]:
from collections import OrderedDict

d = OrderedDict()
d['X'] = 100
d['Y'] = 200
d['Z'] = 300
d['I'] = 500

for k, v in OrderedDict(sorted(d.items(), key = lambda t: t[0])).items(): #key 값 순으로 정렬
    print(k,v)
print("\n")
for k, v in OrderedDict(sorted(d.items(), key = lambda t: t[1])).items(): #value 값 순으로 정렬
    print(k,v)

# lambda는 간단한 함수
# 인수로 t를 받아서 t의 첫번째를 반환 (key는 parameter)
# sorted는 sort와는 다르게 반환값을 가짐
# 정렬을 해서 items 반환

I 500
X 100
Y 200
Z 300


X 100
Y 200
Z 300
I 500


# 3. Defaultdict
: Dic type의 값에 기본 값을 지정 -> 신규값이 들어왔을 때 default로 대응

In [37]:
from collections import defaultdict

d = defaultdict(lambda: 0) #dafault를 0으로 설정
print(d["first"])

0


In [38]:
#하나의 지문에 각 단어들이 몇 개나 있는지 세고 싶을 때
#Text-mining 접근법 Vector Space Model

text = '''A press release is the quickest and easiest way to get free publicity. If well written, a press release can result in multiple published articles about your firm and its products. And that can mean new prospects contacting you asking you to sell to them. ....'''.lower().split()
print(text)

['a', 'press', 'release', 'is', 'the', 'quickest', 'and', 'easiest', 'way', 'to', 'get', 'free', 'publicity.', 'if', 'well', 'written,', 'a', 'press', 'release', 'can', 'result', 'in', 'multiple', 'published', 'articles', 'about', 'your', 'firm', 'and', 'its', 'products.', 'and', 'that', 'can', 'mean', 'new', 'prospects', 'contacting', 'you', 'asking', 'you', 'to', 'sell', 'to', 'them.', '....']


In [44]:
from collections import OrderedDict
from collections import defaultdict

text = '''A press release is the quickest and easiest way to get free publicity. If well written, a press release can result in multiple published articles about your firm and its products. And that can mean new prospects contacting you asking you to sell to them. ....'''.lower().split()
print(text)

word_count = defaultdict(lambda: 0)

for word in text:
    word_count[word] += 1
for i, v in OrderedDict(sorted(word_count.items(), key = lambda t: t[1], reverse = True)).items():
    print(i,v)

['a', 'press', 'release', 'is', 'the', 'quickest', 'and', 'easiest', 'way', 'to', 'get', 'free', 'publicity.', 'if', 'well', 'written,', 'a', 'press', 'release', 'can', 'result', 'in', 'multiple', 'published', 'articles', 'about', 'your', 'firm', 'and', 'its', 'products.', 'and', 'that', 'can', 'mean', 'new', 'prospects', 'contacting', 'you', 'asking', 'you', 'to', 'sell', 'to', 'them.', '....']
and 3
to 3
a 2
press 2
release 2
can 2
you 2
is 1
the 1
quickest 1
easiest 1
way 1
get 1
free 1
publicity. 1
if 1
well 1
written, 1
result 1
in 1
multiple 1
published 1
articles 1
about 1
your 1
firm 1
its 1
products. 1
that 1
mean 1
new 1
prospects 1
contacting 1
asking 1
sell 1
them. 1
.... 1


# 4. Counter
: Sequence type의 data element들의 갯수를 dict 형태로 반환

- Dict 타입, keyword parameter 등도 모두 처리 가능
- Set 연산 지원
- word counter의 기능도 손쉽게 제공

In [46]:
from collections import Counter

c = Counter()
c = Counter('gallahad')
print(c)

Counter({'a': 3, 'l': 2, 'g': 1, 'h': 1, 'd': 1})


In [50]:
N = Counter({'red': 4, 'blue': 2})
print(N)
print(list(N.elements()))

Counter({'red': 4, 'blue': 2})
['red', 'red', 'red', 'red', 'blue', 'blue']


In [52]:
K = Counter(cats = 4, dogs = 8)
print(K)
print(list(K.elements()))

Counter({'dogs': 8, 'cats': 4})
['cats', 'cats', 'cats', 'cats', 'dogs', 'dogs', 'dogs', 'dogs', 'dogs', 'dogs', 'dogs', 'dogs']


In [55]:
a = Counter(a = 4, b = 2, c = 0, d = -2)
b = Counter(a = 1, b = 2, c = 3, d = 4)

print(a + b)
print(a & b)
print(a | b)

Counter({'a': 5, 'b': 4, 'c': 3, 'd': 2})
Counter({'b': 2, 'a': 1})
Counter({'a': 4, 'd': 4, 'c': 3, 'b': 2})


In [57]:
text = '''A press release is the quickest and easiest way to get free publicity. If well written, a press release can result in multiple published articles about your firm and its products. And that can mean new prospects contacting you asking you to sell to them. ....'''.lower().split()
print(text)

print(Counter(text))
print(Counter(text)["a"])

['a', 'press', 'release', 'is', 'the', 'quickest', 'and', 'easiest', 'way', 'to', 'get', 'free', 'publicity.', 'if', 'well', 'written,', 'a', 'press', 'release', 'can', 'result', 'in', 'multiple', 'published', 'articles', 'about', 'your', 'firm', 'and', 'its', 'products.', 'and', 'that', 'can', 'mean', 'new', 'prospects', 'contacting', 'you', 'asking', 'you', 'to', 'sell', 'to', 'them.', '....']
Counter({'and': 3, 'to': 3, 'a': 2, 'press': 2, 'release': 2, 'can': 2, 'you': 2, 'is': 1, 'the': 1, 'quickest': 1, 'easiest': 1, 'way': 1, 'get': 1, 'free': 1, 'publicity.': 1, 'if': 1, 'well': 1, 'written,': 1, 'result': 1, 'in': 1, 'multiple': 1, 'published': 1, 'articles': 1, 'about': 1, 'your': 1, 'firm': 1, 'its': 1, 'products.': 1, 'that': 1, 'mean': 1, 'new': 1, 'prospects': 1, 'contacting': 1, 'asking': 1, 'sell': 1, 'them.': 1, '....': 1})
2
