## 1. 자료구조의 이해
### - 자료구조의 개념
- 자료구조(data structure): 특징이 있는 정보를 메모리에 효율적으로 저장 및 반환하는 방법으로, 데이터를 관리하는 방식이다. 특히 대용량일수록 메모리에 빨리 저장하고 빠르게 검색하여, 메모리를 효율적으로 사용하고 실행 시간을 줄일 수 있게 해 준다.

### 파이썬에서의 자료구조
- 스택(stack): 나중에 들어온 값을 먼저 나갈 수 있도록 해 주는 자료구조(last in first out)
- 큐(queue): 먼저 들어온 값을 먼저 나갈 수 있도록 해 주는 자료구조(first in first out)
- 튜플(tuple): 리스트와 같지만, 데이터의 변경을 허용하지 않는 자료구조
- 세트(set): 데이터의 중복을 허용하지 않고, 수학의 집합 연산을 지원하는 자료구조
- 딕셔너리(dictionary): 전화번호부와 같이 키(key)와 값(value) 형태의 데이터를 저장하는 자료구조. 여기서 키값은 중복을 허용하지 않음
- collections 모듈: 위에 열거된 여러 자료구조를 효율적으로 사용할 수 있도록 지원하는 파이썬 내장 모듈    


## 2. 스택과 큐
### - 스택(stack)
- 자료구조의 핵심 개념 중 하나로, 간단히 표현하면 ‘Last In First Out (LIFO)’으로 정의할 수 있다. 즉, 마지막에 들어간 데이터가 가장 먼저 나오는 형태로, 데이터의 저장 공간을 구현하는 것이다.
- 데이터를 저장하는 공간으로, 리스트와 비슷하지만 저장 순서가 바뀌는 형태를 스택 자료구조(stack data structure)라고 한다. 스택에서 데이터를 저장하는 것을 푸시(push), 데이터를 추출하는 것을 팝(pop)이라고 한다.
- 파이썬에서는 list로 스택 구현 가능

In [2]:
a = [1,2,3,4,5]
a.append(10)
a

a.pop()
a.pop()

print(a)

[1, 2, 3, 4]


In [3]:
# 7-1.
word = input("Input a word: ")
word_list = list(word)
print(word_list)


result = []
for _ in range(len(word_list)):
    result.append(word_list.pop())

print(result)
print(word[::-1])

Input a word: PYTHON
['P', 'Y', 'T', 'H', 'O', 'N']
['N', 'O', 'H', 'T', 'Y', 'P']
NOHTYP


### - 큐 (Queue)
- 스택과 다르게 먼저 들어간 데이터가 먼저 나오는 ‘Fist in First Out(FIFO)’의 메모리 구조를 가지는 저장 체계이다.
- 파이썬에서 큐를 구현하는 것은 기본적으로 스택의 구현과 같은데, pop( ) 함수를 사용할 때 인덱스가 0번째인 값을 쓴다는 의미로 pop(0)을 사용하면 된다. 즉, pop( ) 함수가 리스트의 마지막 값을 가져온다고 하면, pop(0)은 맨 처음 값을 가져온다는 뜻이다.

In [4]:
# 큐 - 선입선출/ 리스트로 표현가능
a = [1,2,3,4,5]
a.append(10)
a.append(20)
a.pop(0)  # index 0 
a.pop(0)

2

## 3. 튜플과 세트
### - 튜플
- 리스트와 같은 개념이지만, 데이터를 변경할 수 없는 자료구조

In [5]:
# 튜플 - 값 변경 불가, 인덱스 불가
t = (1,2,3)
print(t+t, t*2)
len(t)

(1, 2, 3, 1, 2, 3) (1, 2, 3, 1, 2, 3)


3

In [6]:
t[1] = 5  # 에러 -> 튜플의 값은 마음대로 변경 불가!

TypeError: 'tuple' object does not support item assignment

### - 세트
- 튜플과 다르게 삭제나 변경 가능
- add( ) : 원소 하나를 추가 
- remove( ) 또는 discard( ) : 원소 하나를 제거  
- update( ) : 새로운 리스트를 그대로 추가 
- clear( ) : 모든 변수를 지우기

In [7]:
# 세트
s = set([1,2,3,1,2,3])
s

{1, 2, 3}

In [9]:
s.add(1)
s

{1, 2, 3}

In [11]:
s.update([1,4,5,6,7])
s

{1, 2, 3, 4, 5, 6, 7}

In [12]:
s.discard(3)  # 값 3 삭제
s

{1, 2, 4, 5, 6, 7}

In [13]:
s.clear()  # 모든 원소 삭제
s

set()

- 세트는 다양한 집합 연산을 제공한다. 
- 합집합
    - s1.union(s2): 
    - s1 | s2
- 교집합 
    - s1.intersection(s2)
    - s1 & s2
- 차집합
    - s1.difference(s2)
    - s1 - s2

In [14]:
s1 = set([1,2,3,4,5])
s2 = set([3,4,5,6,7])

s1.union(s2)

{1, 2, 3, 4, 5, 6, 7}

In [15]:
s1|s2

{1, 2, 3, 4, 5, 6, 7}

In [16]:
s1.intersection(s2)

{3, 4, 5}

In [17]:
s1&s2

{3, 4, 5}

In [18]:
s1.difference(s2)

{1, 2}

In [19]:
s1 - s2

{1, 2}

## 4. 딕셔너리
- 키와 값 형태로 데이터를 저장하는 자료구조
- {}를 사용하여 키와 값의 쌍으로 구성

In [20]:
# 딕셔너리
student_info = {20140012: 'S', 20140202: 'J', 20305012: 'H'}
print(student_info[20140012])

S


- 키 출력: my_dict.keys()
- 값 출력: my_dict.values()
- 키-값 쌍 출력: my_dict.items()

## 5. collections 모듈
- deque
- OrderedDict
- defaultdict
- Counter
- namedtuple

### - Deque 모듈
- deque모듈의 장점: 연결 리스트의 특성을 지원한다. 연결 리스트는 데이터를 저장할 때 요소의 값을 한 쪽으로 연결한 후, 요소의 다음 값의 주소값을 저장하여 데이터를 연결하는 기법이다.

In [22]:
# 1. deque 모듈 - rotate 사용가능
from collections import deque
deque_list = deque()
for i in range(5):
    deque_list.append(i)
print(deque_list)   # deque([0, 1, 2, 3, 4])
 
deque_list.pop()   # 3 . 오른쪽 값부터 출력되고 사라진다.

deque([0, 1, 2, 3, 4])


4

In [23]:
# - deque로 큐 사용하기 - appendleft
deque_list = deque()
for i in range(5):
    deque_list.appendleft(i)

print(deque_list)    # deque([4, 3, 2, 1, 0])

deque([4, 3, 2, 1, 0])


- deque에서 rotate 사용

In [25]:
from collections import deque
deque_list = deque()
for i in range(5):
    deque_list.appendleft(i)
    
print(deque_list)
deque_list.rotate(2)  # 2칸씩 뒤로 당겨짐
print(deque_list)
deque_list.rotate(2)
print(deque_list)


deque([4, 3, 2, 1, 0])
deque([1, 0, 4, 3, 2])
deque([3, 2, 1, 0, 4])


- deque에서 reversed() 함수 사용

In [26]:
# deque 모듈은 reversed() 함수를 사용하여 기존과 반대로 데이터 저장 가능
print(deque(reversed(deque_list)))

deque([4, 0, 1, 2, 3])


- deque모듈에서 extend(), extendleft() 사용

In [27]:
# deque 모듈은 기존의 list에서 지원하는 기능도 지원 - extend, extendleft
print(deque_list)   # deque([3, 2, 1, 0, 4])
deque_list.extend([5,6,7])
print(deque_list)   # deque([3, 2, 1, 0, 4, 5, 6, 7])
deque_list.extendleft([5,6,7])
print(deque_list)   # deque([7, 6, 5, 3, 2, 1, 0, 4, 5, 6, 7])


deque([3, 2, 1, 0, 4])
deque([3, 2, 1, 0, 4, 5, 6, 7])
deque([7, 6, 5, 3, 2, 1, 0, 4, 5, 6, 7])


### - OrderDict 모듈
- 이름 그대로 순서를 가진 딕셔너리 객체
- 딕셔너리 파일을 저장하면 키는 저장 순서와 상관없이 저장된다. 


In [28]:
d = {}
d['x']=100
d['l']=500
d['y']=200
d['z']=300

for k,v in d.items():
    print(k,v)

x 100
l 500
y 200
z 300


In [29]:
# orderdict
from collections import OrderedDict

d = OrderedDict()
d['x'] = 100
d['y'] = 200
d['z'] = 300
d['l'] = 500
for k,v in d.items():
    print(k,v)   # 입력한 순서대로 입력된다. 

x 100
y 200
z 300
l 500


In [32]:
def sort_by_key(t):
    return t[0]

from collections import OrderedDict
d = dict()
d['x'] = 100
d['y'] = 200
d['z'] = 300
d['l'] = 500
for k,v in OrderedDict(sorted(d.items(), key = sort_by_key)).items():
    print(k,v)
# sorted(d.items(), key = sort_by_key) : t[0]: key들 모음인데, 이걸 기준으로 정렬한다.  



l 500
x 100
y 200
z 300


In [31]:
from collections import OrderedDict
d = dict()
d['x'] = 100
d['y'] = 200
d['z'] = 300
d['l'] = 500

for k,v in OrderedDict(sorted(d.items(), key = lambda x: x[0])).items():
    print(k,v)
# 함수 없이 이렇게 써도 똑같다.

l 500
x 100
y 200
z 300


### - defaultdict 모듈
- 딕셔너리의 변수를 생성할 때 키에 기본 값을 지정하는 방법
- 딕셔너리에서는 키를 생성하지 않고 해당 키의 값을 호출하면 오류가 발생한다. 

In [33]:
# defaultdict 모듈
from collections import defaultdict
d = defaultdict(lambda: 0)   # default값을 0으로 설정한 것! lambda:0을 return 0으로 생각하면 된다. 어떤 키가 들어오더라도 처음 값은 전부 0으로 처리하겠다. 
print(d["first"])  # 어떤 키가 들어와도 기본값 0


0


In [34]:
# defaultdict의 초기값 리스트 형태로도 지정 가능!
from collections import defaultdict

s = [('yellow',1), ('blue',2), ('yellow',3), ('blue',4), ('red',1)]
d = defaultdict(list)
for k, v in s:
    d[k].append(v)

print(d.items())

dict_items([('yellow', [1, 3]), ('blue', [2, 4]), ('red', [1])])


### - Counter 모듈
- 시퀀스 자료형의 데이터 요소 개수를 딕셔너리 형태로 반환하는 자료구조
- 리스트나 문자열과 같은 시퀀스 자료형 안의 요소 중 값이 같은 것이 몇 개 있는지 반환해 준다. 

In [35]:
# Counter 모듈
from collections import Counter

text = list("gallahad")
text
c = Counter(text)
c
c["a"]

3

In [39]:
text = """A press release is the quickest and easiest way to get free publicity. If well written, a press release can result in muliple published articles about your firm and its products. And that can mean new prospects contacting you asking you to sell to them.""".lower().split()

Counter(text)

Counter({'a': 2,
         'press': 2,
         'release': 2,
         'is': 1,
         'the': 1,
         'quickest': 1,
         'and': 3,
         'easiest': 1,
         'way': 1,
         'to': 3,
         'get': 1,
         'free': 1,
         'publicity.': 1,
         'if': 1,
         'well': 1,
         'written,': 1,
         'can': 2,
         'result': 1,
         'in': 1,
         'muliple': 1,
         'published': 1,
         'articles': 1,
         'about': 1,
         'your': 1,
         'firm': 1,
         'its': 1,
         'products.': 1,
         'that': 1,
         'mean': 1,
         'new': 1,
         'prospects': 1,
         'contacting': 1,
         'you': 2,
         'asking': 1,
         'sell': 1,
         'them.': 1})

### - namedtuple 모듈
- 튜플의 형태로 데이터 구조체를 저장하는 방법

In [36]:
from collections import namedtuple

Point = namedtuple('Point', ['x','y'])
p = Point(11, y=22)
p

Point(x=11, y=22)

In [37]:
p.x, p.y

(11, 22)

In [38]:
print(p[0], p[1])

11 22


## 6. 텍스트 마이닝 프로그램
- 딕셔너리와 collections 모듈을 이용하여 텍스트 마이닝 프로그램을 만들어 보자!

- 문장의 단어 개수를 파악하는 코드를 작성한다. 
- defaultdict 모듈을 사용한다. 
- 단어의 출현 횟수를 기준으로 정렬된 결과를 보여 주기 위해 OrderedDict 모듈을 사용한다. 

In [40]:
from collections import Counter
from collections import defaultdict

txt = "A press releases is the quickest and eariest way to get free publicity.\
    If well written, a press release can result in multiple published articles about your firm and its products.\
        And that can mean new prospects contacting you asking you to sell to them."

str_n = defaultdict(lambda: 0)

txt_list = txt.lower().split(" ")

for k, v in Counter(txt_list).items():
    str_n[k] = v
#del(str_n[''])
str_n.pop('', None)

for k,v in OrderedDict(sorted(str_n.items(), key = lambda x: x[1], reverse = True )).items():
    print(k,v)


and 3
to 3
a 2
press 2
can 2
you 2
releases 1
is 1
the 1
quickest 1
eariest 1
way 1
get 1
free 1
publicity. 1
if 1
well 1
written, 1
release 1
result 1
in 1
multiple 1
published 1
articles 1
about 1
your 1
firm 1
its 1
products. 1
that 1
mean 1
new 1
prospects 1
contacting 1
asking 1
sell 1
them. 1


In [42]:
# 방법 2.
from collections import Counter, OrderedDict, defaultdict
import re

text="A press release is the quickest and easiest way to get free publicity. If well written, a press release can result in muliple published articles about your firm and its products. And that can mean new prospects contacting you asking you to sell to them."

def count(text):    
    test1=text.lower()   
    test1=re.split('[,.\n ]',test1)
    while '' in test1: test1.remove('')
    d_test1=defaultdict(lambda:0)
    
    for word in test1:
        d_test1[word]+=1
        
    for k,v in OrderedDict(sorted(d_test1.items(), key=lambda t:t[1], reverse=True)).items():
        print(k,v)

count(text)

and 3
to 3
a 2
press 2
release 2
can 2
you 2
is 1
the 1
quickest 1
easiest 1
way 1
get 1
free 1
publicity 1
if 1
well 1
written 1
result 1
in 1
muliple 1
published 1
articles 1
about 1
your 1
firm 1
its 1
products 1
that 1
mean 1
new 1
prospects 1
contacting 1
asking 1
sell 1
them 1
