### Data structure(데이터 구조)

데이터 타입(숫자형, 문자형 자료형, data type)  
데이터를 어떻게 효율적으로 저장하면 좋을까?

#### 파이썬 기본 데이터 구조

1. 스택과 큐(stack & queue with list)
2. 튜플과 집합(tuple & set)
3. 사전(dictionary)
4. Collection 모듈

#### 스택(stack)

- 후입선출 방식으로 나중에 넣은 데이터를 먼저 반환하도록 설계된 메모리 구조
- Last In First Out(LIFO)
- Data의 입력을 Push 출력을 Pop이라고 함

In [3]:
# 리스트를 사용하여 스택 구조를 구현
a = [1,2,3,4,5]
a.append(10) # 10 Push
c = a.pop() # pop함수는 return이 존재하는 함수로 지금은 10을 반환함
print(c, a)

10 [1, 2, 3, 4, 5]


In [8]:
# 스택 구조를 이용한 입력된 데이터를 역순으로 정렬
x = list(map(str, input("입력해주세요 : ")))
y = []
for i in range(len(x)):
    y.append(x.pop())
y = "".join(y)
print(y)

입력해주세요 : naver
revan


#### 큐(queue)

- 선입후출방식으로 먼저 넣은 데이터를 먼저 반환하도록 설계된 메모리 구조
- First In First Out(FIFO)
- Stack과 반대되는 개념

In [10]:
a = [1,2,3,4,5]
a.append(10)
c = a.pop(0) # 가장 먼저 넣은 값 반환
print(c, a)

1 [2, 3, 4, 5, 10]


#### 튜플(tuple)

- 값의 변경이 불가능한 리스트
- 선언시 []가 아닌 ()를 사용
- 리스트의 연산, 인덱싱, 슬라이싱 등을 동일하게 사용

In [11]:
t = (1,2,3)
type(t)

tuple

In [14]:
t[0] = 2 # 데이터 값의 변화가 안됨.

TypeError: 'tuple' object does not support item assignment

튜플은 함수의 반환값등으로 쓰이며 사용자의 실수에 의한 에러를 사전에 방지  
프로그램을 작동하는 동안 변경되지 않은 데이터의 저장

In [16]:
t = (1) # int 타입
t1 = (1,) # tuple 타입
print(type(t), type(t1))

<class 'int'> <class 'tuple'>


#### 집합(set)

- 값을 순서없이 저장, 중복을 불허하는 자료형
- set 객체 선언을 이용하여 객체 생성

In [17]:
s = set([1,2,3,1,2,3])
s

{1, 2, 3}

In [21]:
s = {1,2,3,1,2,3}
s

{1, 2, 3}

In [28]:
s = {1,2,3,1,2,3}
s.add(0) # 원소 0 추가
s.remove(1) # 원소 1 제거
print(s)

{0, 2, 3}


In [29]:
s.update({4,5,6,7}) # 한번에 여러개의 원소 추가
print(s)

{0, 2, 3, 4, 5, 6, 7}


In [35]:
s.discard(4) # 원소 4 제거
print(s)

{0, 2, 3, 5, 6, 7}


In [38]:
s.clear() # 변수 s의 원소를 모두 제거

In [47]:
# 수학에서 활용하는 다양한 집합연산 가능
s1 = {1,2,3,4,5}
s2 = {4,5,6,7,8}
union = s1.union(s2) # s1과 s2의 합집합
print(f"합집합 원소 : {union}")
print(f"다른 합집합 식인 s1|s2 : {s1 | s2}")
print("\n")
intersections = s1.intersection(s2) # s1과 s2의 교집합
print(f"교집합 원소 : {intersections}")
print(f"다른 교집합 식인 s1&s2 : {s1 & s2}")
print("\n")
difference = s1.difference(s2) # s1에 대한 차집합
print(f"s1에 대한 차집합 원소 : {difference}")
print(f"다른 차집합 식인 s1-s2 : {s1 - s2}")

합집합 원소 : {1, 2, 3, 4, 5, 6, 7, 8}
다른 합집합 식인 s1|s2 : {1, 2, 3, 4, 5, 6, 7, 8}


교집합 원소 : {4, 5}
다른 교집합 식인 s1&s2 : {4, 5}


s1에 대한 차집합 원소 : {1, 2, 3}
다른 차집합 식인 s1-s2 : {1, 2, 3}


#### 사전(dict)

- 데이터를 저장할 때는 구분 지을 수 있는 값을 함께 저장
- 구분을 위한 데이터 고유값을 Identifier 또는 Key라고 부름
- 고유한 특징을 지닌 Key값을 활용하여 데이터 값(Value)를 관리함
- key와 value를 매칭하여 key로 value를 검색
- 다른 언어에서는 Hash Table이라는 용어를 사용

In [48]:
country_code = {} # dict()
country_code = {"America":1, "Korea":82, "China":86, "Japan":81}
country_code

{'America': 1, 'Korea': 82, 'China': 86, 'Japan': 81}

In [49]:
country_code.items() # dict 데이터 출력

dict_items([('America', 1), ('Korea', 82), ('China', 86), ('Japan', 81)])

In [56]:
for i in country_code.items():
    print(i) # 튜플로 출력

('America', 1)
('Korea', 82)
('China', 86)
('Japan', 81)
('Australia', 49)


In [57]:
for i,j in country_code.items():
    print(f"Country : {i}, Number : {j}")

Country : America, Number : 1
Country : Korea, Number : 82
Country : China, Number : 86
Country : Japan, Number : 81
Country : Australia, Number : 49


In [50]:
country_code.keys() # dict key값만 출력

dict_keys(['America', 'Korea', 'China', 'Japan'])

In [51]:
country_code.values() # dict values값만 출력

dict_values([1, 82, 86, 81])

In [53]:
country_code["Australia"] = 49 # 새로운 key 추가
print(country_code)

{'America': 1, 'Korea': 82, 'China': 86, 'Japan': 81, 'Australia': 49}


In [59]:
"Korea" in country_code.keys() # key값중에 "korea"가 있는지 확인

True

In [62]:
# VSCode 에서 Rainbow csv extension 사용하는게 좋다.

In [None]:
csv.reader()

In [70]:
import csv
def getKey(item): # 정렬을 위한 함수
    return item[1]

command_data = []
# csv 파일 불러오기
with open("./command_data.csv", "r", encoding="utf-8") as csvfile:
    spamreader = csv.reader(csvfile, delimiter=",", quotechar='"')
    for row in spamreader:
        command_data.append(row)
# command들의 종류를 key에 저장하고 key에 해당하는 값이 나오면 갯수를 추가함
command_counter = {}
for data in command_data:
    if data[1] in command_counter.keys():
        command_counter[data[1]] += 1
    else:
        command_counter[data[1]] = 1
# command의 종류와 갯수를 리스트로 묶고 이차원 리스트로 다시 묶어줌        
dictlist = []
for key, value in command_counter.items():
    temp = [key, value]
    dictlist.append(temp)
# 묶인 이차원 리스트를 갯수 기준으로 내림차순 한 뒤, 상위 100개만 출력    
sorted_dict = sorted(dictlist, key=getKey, reverse=True)
print(sorted_dict[:100])

[['bookworm', 8500], ['elsa', 7500], ['fillmore', 7394], ['francis', 5978], ['anton_ego', 5819], ['queen_grimhilde', 5000], ['kristoff', 4934], ['brent_mustangburger', 4838], ['emperor_zurg', 4470], ['tarzan', 4193], ['stitch', 3742], ['marlon_the_alligator', 3203], ['faline', 3115], ['meg', 3098], ['fear', 2968], ['roo', 2782], ['claire_wheeler', 2777], ['don_carlton', 2773], ['guido', 2541], ['flynn_rider', 1996], ['mama_odie', 1883], ['darla_sherman', 1861], ['tiger_lily', 1846], ['chick_hicks', 1678], ['louis_the_alligator', 1374], ['the_dodo', 1364], ['ray_the_firefly', 998], ['tigger', 884], ['jane_porter', 852], ['al_mcwhiggin', 777], ['tinker_bell', 696], ['peter_pig', 500], ['rocket_raccoon', 473], ['charlotte_la_bouff', 472], ['peter_pan', 463], ['auto', 458], ['kocoum', 438], ['prince_naveen', 425], ['flik', 424], ['dory', 410], ['bo_peep', 407], ['captain_hook', 403], ['aladdin', 402], ['chatter_telephone', 372], ['django', 371], ['charlie', 363], ['bomb_voyage', 337], ['ri

#### collection 모듈

- list, tuple, dict에 대한 Python Built-in 확장 자료 구조(모듈)
- 편의성, 실행 효율 등을 사용자에게 제공함
- collection 모듈의 메소드
1. deque
2. OrderedDict
3. defaultdict
4. Counter
5. namedtuple

#### 1. deque

- 스택과 큐를 지원하는 모듈
- list에 비해 효율적이고 빠른 자료 저장 방식(자료구조)을 지원함
- rotate, reverse등 Linked List의 특성을 지원함
- 기존 list 형태의 함수를 모두 지원함
- 효율적 메모리 구조로 처리속도 향상

In [75]:
from collections import deque
deque_list = deque()
for i in range(5):
    deque_list.append(i)
print(f"기본 : {deque_list}")
deque_list.appendleft(10)
print(f"가장 왼쪽에 10 추가 : {deque_list}")
pop_return = deque_list.popleft()
print(f"가장 왼쪽 값 반환 : {deque_list}")
print(f"반환값 : {pop_return}")

기본 : deque([0, 1, 2, 3, 4])
가장 왼쪽에 10 추가 : deque([10, 0, 1, 2, 3, 4])
가장 왼쪽 값 반환 : deque([0, 1, 2, 3, 4])
반환값 : 10


In [89]:
deque_list.rotate(1) # 1칸씩 값이 회전(rotate), 실행할 때 마다 달라짐
print(deque_list)

deque([1, 2, 3, 4, 0])


In [90]:
deque_list.append(100) # 오른쪽에 100 추가
print(deque_list)
deque_list.appendleft(120) # 왼쪽에 120 추가
print(deque_list)

deque([1, 2, 3, 4, 0, 100])
deque([120, 1, 2, 3, 4, 0, 100])


In [91]:
deque_list.extend([5,6,7]) # 오른쪽에 [5,6,7] 추가
print(deque_list)
deque_list.extendleft([5,6,7]) # 왼쪽에 [5,6,7]추가
print(deque_list)

deque([120, 1, 2, 3, 4, 0, 100, 5, 6, 7])
deque([7, 6, 5, 120, 1, 2, 3, 4, 0, 100, 5, 6, 7])


일반 리스트와 deque 모듈의 deque 리스트 메모리 처리 속도 비교

In [92]:
import time

def general_list():
    just_list = []
    for i in range(100):
        for i in range(100):
            just_list.append(i)
            just_list.pop()
            
# 매직 메소드
%timeit general_list()

8.27 ms ± 581 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [93]:
import time

def deque_list():
    deque_list = deque()
    for i in range(100):
        for i in range(100):
            deque_list.append(i)
            deque_list.pop()
            
# 매직 메소드
%timeit deque_list()

2.73 ms ± 580 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


deque list의 처리 속도가 기존 list에 비하여 약 3배가 빠름

#### 2. OrderedDict

- Dict와 달리, 데이터를 입력한 순서대로 dict를 반환함
- 그러나 dict도 python3.6부터 입력한 순서를 보장하여 출력함

In [100]:
# 옛날에는 입력한 순서대로 출력이 안됬지만 지금은 출력이 됨
d = {}
d["x"] = 100
d["y"] = 200
d["z"] = 300
d["l"] = 400
# 순서 x > y > z > l
for i, j in d.items():
    print(i,j)

x 100
y 200
z 300
l 400


#### 3. defaultdict

- Dict type의 값에 기본 값을 지정, 신규값 생성시 사용하는 방법

In [103]:
# 기존 dict는 없는 key값은 불러올 수 없음
d = dict()
print(d["first"])

KeyError: 'first'

In [110]:
from collections import defaultdict
d = defaultdict(object) # Default dict를 생성
d = defaultdict(lambda: 0) # Default key의 value를 0으로 설정
print(d["first"])

0


In [112]:
# text - mining 접근법인 vector space model
text = "가 나 다라 마다 바 가 나 다 라라 마마라 라하라 갈나 니나 갈나 갈 가가가 가 가 나나 니".split()
d = defaultdict(lambda : 0)
for i in text:
    d[i] += 1
# 단어 갯수 출력
d

defaultdict(<function __main__.<lambda>()>,
            {'가': 4,
             '나': 2,
             '다라': 1,
             '마다': 1,
             '바': 1,
             '다': 1,
             '라라': 1,
             '마마라': 1,
             '라하라': 1,
             '갈나': 2,
             '니나': 1,
             '갈': 1,
             '가가가': 1,
             '나나': 1,
             '니': 1})

#### 4. Counter

- Sequence type의 data elemnet들의 갯수를 dict형태로 반환

In [114]:
from collections import Counter
text = "가 나 다라 마다 바 가 나 다 라라 마마라 라하라 갈나 니나 갈나 갈 가가가 가 가 나나 니".split()
print(Counter(text))

Counter({'가': 4, '나': 2, '갈나': 2, '다라': 1, '마다': 1, '바': 1, '다': 1, '라라': 1, '마마라': 1, '라하라': 1, '니나': 1, '갈': 1, '가가가': 1, '나나': 1, '니': 1})


In [116]:
c = Counter({"red":4, "blue":2})
print(c)
print(list(c.elements()))

Counter({'red': 4, 'blue': 2})
['red', 'red', 'red', 'red', 'blue', 'blue']


In [124]:
c = Counter({"red":4, "blue":2})
b = Counter({"red":2, "blue":1})
print(c - b)
print(c + b)

Counter({'red': 2, 'blue': 1})
Counter({'red': 6, 'blue': 3})


In [123]:
c = Counter(a=4, b=2, c=0, d=-2)
b = Counter(a=1, b=2, c=3, d=4)
print(c & b)
print(c | b)

Counter({'b': 2, 'a': 1})
Counter({'a': 4, 'd': 4, 'c': 3, 'b': 2})


In [128]:
# 단어의 갯수를 내림차순으로 정렬
sorted(Counter(text).items(), key=lambda t: t[1], reverse=True)

[('가', 4),
 ('나', 2),
 ('갈나', 2),
 ('다라', 1),
 ('마다', 1),
 ('바', 1),
 ('다', 1),
 ('라라', 1),
 ('마마라', 1),
 ('라하라', 1),
 ('니나', 1),
 ('갈', 1),
 ('가가가', 1),
 ('나나', 1),
 ('니', 1)]

In [127]:
print(Counter(text)["가"])

4


#### 5. namedtuple

- tuple형태로 data 구조체를 저장하는 방법
- 저장되는 data의 variable을 사전에 지정해서 저장함

In [133]:
# 데이터를 저장할 때 어떤 식으로 저장할지 사전에 정의함
from collections import namedtuple
temp = namedtuple("Point", ["x", "y"]) # 구조체(클래스)의 이름은 Point
print(temp)
p = temp(11, y=22) # x와 y를 지정하고 구조체로 저장
print(p[0] + p[1])
x, y = p
print(x, y)
print(p.x, p.y)
print(Point(x=11, y=22))

<class '__main__.Point'>
33
11 22
11 22
Point(x=11, y=22)
