<a href="https://colab.research.google.com/github/psygrammer/psypy/blob/master/notebooks/03_a_built_in_data_structures.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 03. 내장 자료구조, 함수, 파일 (1)

* 싸이그래머 / PsyPy [1]
* 김무성

In [3]:
!python -V

Python 3.6.8


# 차례
* 자료 구조와 순차 자료형
  - 튜플
  - 리스트
  - 내장 순차 자료형 함수
  - 사전
  - 세트(집합)
  - 리스트, 집합, 사전 표기법

------------------------

## 튜플

1차원, 고정된 크기를 가지는 변경 불가능한 순차 자료형. ,로 구분되는 개별 원소의 열 혹은 괄호 ()나 tup 함수로 생성.


* 튜플 기초
* 튜플에서 값 분리하기
* 튜플 메서드

### 튜플 기초 

In [4]:
tup = 4, 5, 6  # 혹은 tup = (4, 5, 6)
tup

(4, 5, 6)

In [5]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

In [6]:
# 모든 순차자료형이나 이터레이터는 tuple 메서드를 통해 튜플로 변환될 수 있다.
tuple([4, 0, 2])

(4, 0, 2)

In [7]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

In [8]:
# []로 개별 원소 접근
tup[0]

's'

In [9]:
# 한번 생성되면 변경 불가능
tup = tuple(['foo', [1,2], True])
tup[2] = False  # 에러 난다.

TypeError: ignored

In [10]:
# 하지만 다음은 가능하다 (튜플의 원소들이 각 객체의 참조이므로 가능한 것)
print(tup)
print(tup[1])

tup[1].append(3)  # 2번째 원소는 리스트. 리스트의 내장함수 append는, 해당 리스트의 뒤에 값을 추가하는 기능을 가지고 있다.
tup

('foo', [1, 2], True)
[1, 2]


('foo', [1, 2, 3], True)

In [11]:
# + 연산
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

In [12]:
# * 연산
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

###  튜플에서 값 분리하기

In [13]:
tup = (4, 5, 6)
a, b, c = tup
b

5

In [14]:
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
d

7

In [15]:
print(a, b)
tmp = a
a = b
b = tmp
print(a, b)

4 5
5 4


In [16]:
print(a, b)
b, a = a, b
print(a, b)

5 4
4 5


In [17]:
seq = [(1, 2, 3), (4, 5, 6), (7, 8,9)]
for a, b, c in seq :
    print(a, b, c)

1 2 3
4 5 6
7 8 9


### 튜플 메서드

In [18]:
# count 메서드
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2)

4

------------------------

## 리스트

튜플과 달리, 리스트는 크기나 내용의 변경이 가능. 대괄호 []나 list 함수를 사용해서 생성

* 리스트 생성
* 원소 추가하고 삭제하기
* 리스트 이어붙이기
* 정렬
* 이진 탐색과 정렬된 리스트 유지하기
* 슬라이싱

### 리스트 생성

In [19]:
a_list = [2, 3, 7, None]
print(a_list)

tup = ('foo', 'bar', 'baz')
print(tup)

b_list = list(tup)
print(b_list)

b_list[1] = 'peekaboo'
print(b_list)

[2, 3, 7, None]
('foo', 'bar', 'baz')
['foo', 'bar', 'baz']
['foo', 'peekaboo', 'baz']


### 원소 추가하고 삭제하기

In [20]:
b_list.append('dwarf')
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

In [21]:
b_list.insert(1, 'red')
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

In [22]:
b_list.pop(2)

'peekaboo'

In [23]:
b_list

['foo', 'red', 'baz', 'dwarf']

In [24]:
b_list.append('foo')
print(b_list)

b_list.remove('foo')
print(b_list)

['foo', 'red', 'baz', 'dwarf', 'foo']
['red', 'baz', 'dwarf', 'foo']


In [25]:
# in 예약어
'dwarf' in b_list

True

### 리스트 이어붙이기

In [26]:
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

In [27]:
x = [4, None, 'foo']
print(x)

x.extend([7, 8, (2, 3)])
print(x)

[4, None, 'foo']
[4, None, 'foo', 7, 8, (2, 3)]


```python
# 이어붙이기보다 extend가 더 빠르다

# 이 코드가 더 빠르다
everything = []
for chunk in list_of_lists :
    everything.extend(chunk)
    
# 이 코드는 느리다
everything = []
for chunk in list_of_lists :
    everything =  everything + chunk
```    

### 정렬

In [28]:
a = [7, 2, 5, 1, 3]
print(a)

a.sort()
print(a)

[7, 2, 5, 1, 3]
[1, 2, 3, 5, 7]


In [29]:
b = ['saw', 'small', 'He', 'foxes', 'six']
print(b)

b.sort(key=len)
print(b)

['saw', 'small', 'He', 'foxes', 'six']
['He', 'saw', 'six', 'small', 'foxes']


### 이진 탐색과 정렬된 리스트 유지하기

In [30]:
import bisect

c = [1, 2, 2, 2, 3, 4, 7]

# bisect 메서드는 값이 추가될 때 리스트가 정렬된 상태를 유지할 수 있는 위치를 반환한다.
bisect.bisect(c, 2)

4

In [31]:
bisect.bisect(c, 5)

6

In [32]:
# insort 메서드는 실제로 정렬된 상태를 유지한 채 값을 추가한다.
bisect.insort(c, 6)
c

[1, 2, 2, 2, 3, 4, 6, 7]

### 슬라이싱

In [33]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

[2, 3, 7, 5]

In [34]:
seq[3:4] = [6,3]
seq

[7, 2, 3, 6, 3, 5, 6, 0, 1]

In [35]:
seq[:5]

[7, 2, 3, 6, 3]

In [36]:
seq[3:]

[6, 3, 5, 6, 0, 1]

In [37]:
seq[-4:]

[5, 6, 0, 1]

In [38]:
seq[-6:-2]

[6, 3, 5, 6]

In [39]:
seq[::2]

[7, 3, 3, 6, 1]

In [40]:
seq[::-1]  # 역순으로 

[1, 0, 6, 5, 3, 6, 3, 2, 7]

<img src='https://github.com/psygrammer/psypy/blob/master/notebooks/figures/03/01_fig.a.2.png?raw=1'/>

------------------------

## 내장 순차 자료형 함수

파이썬은 순차 자료형에 사용할 수 있는 매우 유용한 함수들을 제공한다.

* enumerate
* sorted
* zip
* reversed

### enumerate

```python
# 순차 자료형에서 현재 아이템의 색인을 함께 처리하고자 할 때 흔히 사용된다.

# 이 코드가
i = 0
for value in collection :
    # value를 가지고 무언가 한다
    i += 1
    
#  enumerate를 사용하면
for i, value in enumerate(collection) :
    # value를 가지고 무언가 한다    
    
```

In [41]:
some_list = ['foo', 'bar', 'baz']

mapping = dict((v, i) for i, v in enumerate(some_list))

mapping

{'bar': 1, 'baz': 2, 'foo': 0}

### sorted

In [42]:
# sorted 함수는 정렬된 새로운 순차 자료형을 반환한다.

sorted([7, 1, 2, 6, 0, 3, 2])

[0, 1, 2, 2, 3, 6, 7]

In [43]:
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

In [44]:
# 정렬과 중복제거
sorted(set('this is just some string'))

[' ', 'e', 'g', 'h', 'i', 'j', 'm', 'n', 'o', 'r', 's', 't', 'u']

### zip

In [45]:
# zip 함수는 여러 개의 리스트나 튜플 또는 다른 순차 자료형을 서로 짝지어서 튜플의 리스트를 생성한다.

seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

zip(seq1, seq2)

<zip at 0x7f23cb850b88>

In [46]:
for e in zip(seq1, seq2) :
    print(e)

('foo', 'one')
('bar', 'two')
('baz', 'three')


In [47]:
# zip 함수가 여러 개의 순차 자료형을 받을 수 있다면 반환되는 리스트의 크기는 넘겨 받은 순차 자료형 중에 가장 짧다.
seq3 = [False, True]

for e in zip(seq1, seq2, seq3) :
    print(e)

('foo', 'one', False)
('bar', 'two', True)


In [48]:
# enumerate와 함께 사용되기도 한다.
for i, (a, b) in enumerate(zip(seq1, seq2)) :
    print('%d: %s, %s' %(i, a, b))

0: foo, one
1: bar, two
2: baz, three


In [49]:
# zip 함수를 사용해서 짝지어진 순차 자료형을 다시 풀어낼 수 있다.
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]

first_names, last_names = zip(*pitchers)

print(first_names)
print(last_names)

('Nolan', 'Roger', 'Schilling')
('Ryan', 'Clemens', 'Curt')


### reversed

In [50]:
# reversed는 순차 자료형을 역순으로 순회한다.
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

------------------------

## 사전

dict(사전)은 유연한 크기를 가지는 키-밸류 쌍이다.<br> 
일반적으로 해시맵 또는 연관 배열이라고 알려져 있다.<br>
중괄호 {}를 사용해, 콜론 :로 구분되는 키와 값을 둘러싸서 생성한다.

* 사전 기초
* 순차 자료 구조에서 사전 생성하기
* 기본 값
* 유효한 사전 키

### 사전 기초

In [51]:
empty_dict = {}

d1 = {'a' : 'some value', 'b' : [1,2,3,4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

In [52]:
d1[7] = 'an ingeger'  # 7이란 키가 없으면 생성해서 넣는다.
d1

{7: 'an ingeger', 'a': 'some value', 'b': [1, 2, 3, 4]}

In [53]:
d1['b']

[1, 2, 3, 4]

In [54]:
# 사전에 어떤 키가 있는지 확인
'b' in d1

True

In [55]:
# 삭제 - del 혹은 pop
d1[5] = 'some value'
d1['dummy'] = 'another value'
print(d1)

del d1[5]
print(d1)

ret = d1.pop('dummy')
print(ret)
print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an ingeger', 5: 'some value', 'dummy': 'another value'}
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an ingeger', 'dummy': 'another value'}
another value
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an ingeger'}


In [56]:
# 키만 얻기
d1.keys()

dict_keys(['a', 'b', 7])

In [57]:
# 값만 얻기
d1.values()

dict_values(['some value', [1, 2, 3, 4], 'an ingeger'])

In [58]:
for v in d1.values() :
    print(v)

some value
[1, 2, 3, 4]
an ingeger


In [59]:
# 사전들 합치기

print(d1)

d1.update({'b' : 'foo', 'c': 12})

print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an ingeger'}
{'a': 'some value', 'b': 'foo', 7: 'an ingeger', 'c': 12}


### 순차 자료 구조에서 사전 생성하기

```python
# 이런 방식을 많이 쓴다
mapping = {}
for key, value in zip(key_list, value_list) :
    mapping[key] = value
```    

In [60]:
# 이것이 더 편하다
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

### 기본 값

```python
# 일반적 로직
if key in some_dict :
    value = some_dict[key]
else :
    value = default_value
```    

```python
# get 또는 pop을 쓰면 편하다.

value = some_dict.get(key, default_value)

# or
value = some_dict.pop(key, default_value)
```

In [61]:
# 보통 사전의 값(value)로 list 같은 다른 컬렉션 값을 많이 이용한다.

words = ['apple', 'bat', 'bar', 'atom', 'book']

by_letter = {}

for word in words :
    letter = word[0]
    if letter not in by_letter :
        by_letter[letter] = [word]
    else :
        by_letter[letter].append(word)
        
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [62]:
# setdefault 메서드를 사용하면 value의 기본자료형을 설정하므로, 위의 코드를 더 줄일 수 있다.
words = ['apple', 'bat', 'bar', 'atom', 'book']

by_letter = {}

for word in words :
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)
        
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [63]:
# 내장 collections 모듈의 defaultdict 클래스를 사용하면 더 쉽다.
from collections import defaultdict

words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = defaultdict(list)
for word in words :
    by_letter[word[0]].append(word)
    
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

In [64]:
# defaultdict의 초기화는 호출 가능한(함수 같은) 객체도 사용할 수 있다.

counts = defaultdict(lambda: 4) # lambda 함수로 기본값 4를 셋팅
print(counts)

counts['a']
print(counts)

counts['b']
print(counts)

counts['a'] = 7
print(counts)

defaultdict(<function <lambda> at 0x7f23cb849268>, {})
defaultdict(<function <lambda> at 0x7f23cb849268>, {'a': 4})
defaultdict(<function <lambda> at 0x7f23cb849268>, {'a': 4, 'b': 4})
defaultdict(<function <lambda> at 0x7f23cb849268>, {'a': 7, 'b': 4})


### 유효한 사전 키

사전의 키는 이뮤터블 객체만 가능하다(스칼라형, 튜플-튜플안에 저장된 것들이 이뮤터블이어야 함- 등)<br>
값은 어떤 파이썬 객체라도 사용가능하다.


In [65]:
# 키 유효성 검사

hash('string')

-7983885227043772489

In [66]:
hash((1,2,(2,3)))

1097636502276347782

In [67]:
hash((1,2,[2,3])) # 튜플 안의 리스트는 값이 바뀔 수 있으므로 에러

TypeError: ignored

In [68]:
# 리스트를 키로 사용하려면 튜플로 변경하면 된다.
d = {}

d[tuple([1,2,3])] = 5
d

{(1, 2, 3): 5}

------------------------

## 세트(집합)

세트(집합)는 유일한 원소만 담는 정렬되지 않은 자료형이다. set 함수나 중괄호 {}를 사용해 생성한다.

In [69]:
set([2, 2, 2, 1, 3, 3])

{1, 2, 3}

In [70]:
{2, 2, 2, 1, 3, 3}

{1, 2, 3}

In [71]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

# 합집합 (or)
print(a)
print(b)
print(a | b) 

{1, 2, 3, 4, 5}
{3, 4, 5, 6, 7, 8}
{1, 2, 3, 4, 5, 6, 7, 8}


In [72]:
# 교집합 (and)
print(a)
print(b)
print(a & b)

{1, 2, 3, 4, 5}
{3, 4, 5, 6, 7, 8}
{3, 4, 5}


In [73]:
# 차집합
print(a)
print(b)
print(a - b)

{1, 2, 3, 4, 5}
{3, 4, 5, 6, 7, 8}
{1, 2}


In [74]:
# 대칭차집합 (xor)
print(a)
print(b)
print(a ^ b)

{1, 2, 3, 4, 5}
{3, 4, 5, 6, 7, 8}
{1, 2, 6, 7, 8}


In [76]:
# 부분집합 & 확대집합 검사
a_set = {1, 2, 3, 4, 5}

print({1, 2, 3}.issubset(a_set))
print({1, 2, 3}.issuperset(a_set))

True
False


In [77]:
# 내용 같은지 검사
{1, 2, 3} == {3, 2, 1}

True

------------------------

## 리스트, 집합, 사전 표기법

간결한 표현으로 새로운 리스트를 만들 수 있다.

* 리스트, 집합, 사전 표기법
* 중첩된 리스트 표기법

### 리스트 표기법 기초

```python
# 기본 형태는 다음과 같다
[expr for val in collection if condtion]

# 위의 코드는 다음 반복문과 같다
result = []
for val in collection :
    if condition :
        result.append(expr)
```        

In [78]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']

lst = [x.upper() for x in strings if len(x) > 2]
lst

['BAT', 'CAR', 'DOVE', 'PYTHON']

```python
# 사전에 대해서는 이런 형태로
dict_comp = {key-expr : value-expr for value in collection if condition}
```

In [79]:
loc_mapping = {val : index for index, val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

```python
#  집합에 대해서는 이런 형태로
set_comp = { expr for value in collection if condtion}
```

In [80]:
unique_length = {len(x) for x in strings}
unique_length

{1, 2, 3, 4, 6}

### 중첩된 리스트 표기법

In [0]:
# 몇몇 파일에서 이 이름을 읽어와서 남자와 여자의 이름을 따로 저장했으며
# 각 이름에서 e가 2개 이상 포함된 이름의 리스트를 구한다고 가정하자.
all_data = [['Tom', 'Billy', 'Jefferson', 'Andrew', 'Wesley', 'Steven', 'Joe'],
            ['Susie', 'Casey', 'Jill', 'Ana', 'Eva', 'Jennifer', 'Stehanie']]

In [82]:
# 일반적인 형태
names_of_interest = []
for names in all_data :
    enough_es = [name for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)

names_of_interest

['Jefferson', 'Wesley', 'Steven', 'Jennifer', 'Stehanie']

In [83]:
# 중첩된 리스트 표기법을 이용
result = [name for names in all_data for name in names
          if name.count('e')>=2]
result

['Jefferson', 'Wesley', 'Steven', 'Jennifer', 'Stehanie']

In [0]:
# 숫자 튜플이 담긴 리스트를 단순 리스트로 변환하는 예제
some_tuples = [(1,2,3), (4,5,6), (7,8,9)]

In [85]:
# 일반적인 for문
flattend = []
for tup in some_tuples :
    for x in tup :
        flattend.append(x)
        
flattend

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [86]:
# 중첩된 리스트 표기법
flattened = [x for tup in some_tuples for x in tup]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

-----------------------------

# 참고자료
* [1] 파이썬 라이브러리를 활용한 데이터 분석(2판)
  - http://www.hanbit.co.kr/store/books/look.php?p_code=B6417848794