# Chapter 03 내장 자료구조, 함수, 파일


## 3.1 자료구조와 순차자료형

### 튜플

In [1]:
tup = 4, 5, 6

In [2]:
tup

(4, 5, 6)

쉼표로 구분해서 넘기면 알아서 튜플화해준다. 몰랐다.

In [3]:
tup = tuple('string')

In [4]:
tup

('s', 't', 'r', 'i', 'n', 'g')

튜플 자체는 immutable하지만, 튜플 내에 저장된 객체는 그 위치에서 바로 변경이 가능하다.

--> 이게 무슨 소리냐면...

In [5]:
tup = ('foo', [1, 2], True)

In [6]:
tup[1].append(3)

In [7]:
tup

('foo', [1, 2, 3], True)

이어붙이기도 가능하다.

In [8]:
(4, None, 'foo') + (6, 0) + ('bar', )

(4, None, 'foo', 6, 0, 'bar')

In [9]:
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

언패킹을 지원한다.

그래서 파이썬에서는 "두 변수 값 바꾸기"를 보다 쉽게 구현할 수 있다.

In [10]:
#원래 같으면
a = 1
b = 2
tmp = a
a = b
b = tmp
print(a)
print(b)

2
1


In [11]:
#언패킹 활용
a, b = 1, 2
b, a = a, b
print(a)
print(b)

2
1


`*rest`를 활용할 수 있다.
 - 사실 'rest'가 아니라 다른 말을 써도 된다. 포인트는 `*(asterisk)`다.
 - 변수를 사용하지 않을거면 주로 `*_`를 활용한다.

In [12]:
values = 1, 2, 3, 4, 5

a, b, *rest = values

In [13]:
a

1

In [14]:
b

2

In [15]:
rest

[3, 4, 5]

### 튜플 메서드
- `count`

### 리스트

In [23]:
#이터레이터나 제너레이터의 실제값을 담기 위한 용도로 자주 사용된다!
gen = range(10)

In [17]:
gen

range(0, 10)

In [18]:
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [22]:
gen = range(10, 0, -2)
list(gen)

[10, 8, 6, 4, 2]

### 리스트 메서드
- `append`: 끝에 값 추가
- `insert`
    - 추가된 위치 이후의 원소들을 내부적으로 모두 자리를 옮겨야 하기 때문에 연산 비용이 많이 든다.
    - 앞 또는 뒤에 추가하고 싶은 거면 `collections`의 `deque`(양방향 큐)를 활용한다.
- `pop`
- `remove`: 한번에 하나씩, 제일 앞부터
- `in`: 어떤 값이 있는지 검사(메서드 아니고 예약어)
    - 모든 값을 일일이 검사해야 하므로 많이 느리다!!!!
- `extend`
    - 새로운 리스트를 생성하고 값을 복사하는 `+` 연산자에 비해 연산비용이 낮다!
- `sort`
    - 새로운 리스트를 생성하지 않고 기존의 리스트를 정렬
        - `sorted` 함수는 정렬된 **복사본**을 생성
    - 정렬 기준으로 사용할 **함수**를 `key`인자에 넘겨줄 수 있다.
        - `lambda`식을 많이 활용한다!
        - https://docs.python.org/ko/3/howto/sorting.html 참조하기

In [24]:
b = ['saw', 'small', 'He', 'foxes', 'six']

In [25]:
b.sort(key=len)

In [29]:
b

['He', 'saw', 'six', 'small', 'foxes']

In [31]:
student_tuples = [
     ('john', 'A', 15),
     ('jane', 'B', 12),
     ('dave', 'B', 10),
 ]

sorted(student_tuples, key=lambda student: student[2])   # sort by age

[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)]

### `bisect` 모듈
> 정렬된 리스트와 관련된 기능을 제공한다.
- `bisect.bisect`: 값이 추가될 때 리스트가 정렬된 상태를 유지할 수 있는 **위치**를 리턴
- `bisect.insort`: 정렬된 상태를 유지한 채 값을 추가 

정렬된 리스트에 수행해야한다!
- 정렬되지 않은 리스트에 수행해도 에러가 나지는 않지만, 정확하지 않은 값이 리턴된다.

In [32]:
import bisect

In [33]:
c = [1, 2, 2, 2, 3, 4, 7]

In [34]:
bisect.bisect(c, 2)

4

In [35]:
bisect.bisect(c, 6)

6

In [36]:
bisect.insort(c, 6)

In [37]:
c

[1, 2, 2, 2, 3, 4, 6, 7]

### 순차자료형 함수
- 튜플, 리스트에 적용 가능

- `enumerate`
- `sorted`
    - **튜플의 리스트**를 생성
- `zip`
    - 3개 이상도 가능
    - 넘겨받은 순차자료형 중 가장 짧은 크기로 생성
    - 여러 개의 순차 자료형을 **동시에 순회**하는 경우에 자주 씀
        - `enumerate`와 함께 사용하기도 한다.
    - 리스트의 로우를 칼럼으로 변환할 때도 씀
- `reversed`
    - 제너레이터다
    - `range` step을 음수로 주는 게 더 빠르긴 하다.

In [40]:
#zip
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


In [41]:
#zip2
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]

first_names, last_names = zip(*pitchers)

In [42]:
first_names

('Nolan', 'Roger', 'Schilling')

In [43]:
last_names

('Ryan', 'Clemens', 'Curt')

In [49]:
#reversed
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

In [53]:
list(range(9, -1, -1))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

In [62]:
%time
list(reversed(range(100)))

CPU times: user 2 µs, sys: 0 ns, total: 2 µs
Wall time: 6.2 µs


[99,
 98,
 97,
 96,
 95,
 94,
 93,
 92,
 91,
 90,
 89,
 88,
 87,
 86,
 85,
 84,
 83,
 82,
 81,
 80,
 79,
 78,
 77,
 76,
 75,
 74,
 73,
 72,
 71,
 70,
 69,
 68,
 67,
 66,
 65,
 64,
 63,
 62,
 61,
 60,
 59,
 58,
 57,
 56,
 55,
 54,
 53,
 52,
 51,
 50,
 49,
 48,
 47,
 46,
 45,
 44,
 43,
 42,
 41,
 40,
 39,
 38,
 37,
 36,
 35,
 34,
 33,
 32,
 31,
 30,
 29,
 28,
 27,
 26,
 25,
 24,
 23,
 22,
 21,
 20,
 19,
 18,
 17,
 16,
 15,
 14,
 13,
 12,
 11,
 10,
 9,
 8,
 7,
 6,
 5,
 4,
 3,
 2,
 1,
 0]

In [61]:
%time
list(range(99, -1, -1))

CPU times: user 2 µs, sys: 1e+03 ns, total: 3 µs
Wall time: 5.01 µs


[99,
 98,
 97,
 96,
 95,
 94,
 93,
 92,
 91,
 90,
 89,
 88,
 87,
 86,
 85,
 84,
 83,
 82,
 81,
 80,
 79,
 78,
 77,
 76,
 75,
 74,
 73,
 72,
 71,
 70,
 69,
 68,
 67,
 66,
 65,
 64,
 63,
 62,
 61,
 60,
 59,
 58,
 57,
 56,
 55,
 54,
 53,
 52,
 51,
 50,
 49,
 48,
 47,
 46,
 45,
 44,
 43,
 42,
 41,
 40,
 39,
 38,
 37,
 36,
 35,
 34,
 33,
 32,
 31,
 30,
 29,
 28,
 27,
 26,
 25,
 24,
 23,
 22,
 21,
 20,
 19,
 18,
 17,
 16,
 15,
 14,
 13,
 12,
 11,
 10,
 9,
 8,
 7,
 6,
 5,
 4,
 3,
 2,
 1,
 0]

`reversed`보다는 `range` step을 음수로 주는 게 빠르다.

### 딕셔너리
> a.k.a 해시맵, 연관배열

### 딕셔너리 메서드
- `keys:` 키 이터레이터 반환
- `values`: 밸류 이터레이터 반환
- `update`
- `del`
- `pop`


딕셔너리 키는 **해시 가능**해야 한다.
- 스칼라형(실수, 정수, 문자열) 혹은 튜플(튜플 내부의 값 역시 불변해야함)


### `setdefault`
>`딕셔너리.setdefault(키, 디폴트)`

In [63]:
words = ['apple', 'bat', 'bar', 'atom', 'book']

by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

In [64]:
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [68]:
by_letter = {}
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)

In [69]:
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

### `defaultdict`
> `딕셔너리 = defaultdict(밸류 타입)`
- `밸류 타입`은 list, int 등으로 줄 수 있다.

참조: https://docs.python.org/2/library/collections.html

In [70]:
from collections import defaultdict

by_letter = defaultdict(list)

In [71]:
by_letter

defaultdict(list, {})

In [72]:
for word in words:
    by_letter[word[0]].append(word)

In [73]:
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

In [78]:
#벨류 타입을 int로 주면 카운팅을 쉽게 할 수 있다.

s = 'mississippi'

d = defaultdict(int)

for k in s:
    d[k] += 1
    
d

defaultdict(int, {'m': 1, 'i': 4, 's': 4, 'p': 2})

### 셋

### 셋 메서드
> 산술 집합 연산을 위한 메서드들

> 모든 연산은 연산 결과를 좌항에 대입하는 함수도 따로 제공한다.

- `add`: 원소 추가
- `clear`: 모든 원소 제거
- `remove`: 원소 제거
- `pop`: 임의 원소 제거
- 합집합
    - `a.union(b)` `a | b`
    - 대입: `a.update(b)` `a |= b`
- 교집합
    - `a.intersection(b)` `a & b`
    - 대입: `a.intersection_update(b)` `a &= b`
- 차집합
    - `a.difference(b)` `a - b`
    - 대입: `a.difference_update(b)` `a -= b`
- 대칭차집합
    - `a.symmetric_difference(b)` `a ^ b`
    - 대입: `a.symmetric_difference_update(b)` `a ^= b`
- 부분집합
    - `a.issubset(b)`
- 확대집합
    - `a.issuperset(b)`
- 교집합이 없을 경우
    - `a.isdisjoint(b)`

In [80]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7}

In [81]:
#합집합
a.union(b)

{1, 2, 3, 4, 5, 6, 7}

In [82]:
a | b

{1, 2, 3, 4, 5, 6, 7}

In [83]:
#교집합
a.intersection(b)

{3, 4, 5}

In [84]:
a & b

{3, 4, 5}

In [85]:
#차집합
a.difference(b)

{1, 2}

In [86]:
a - b

{1, 2}

In [87]:
#대칭차집합
a.symmetric_difference(b)

{1, 2, 6, 7}

In [88]:
a ^ b

{1, 2, 6, 7}

In [89]:
#부분집합
a.issubset(b)

False

In [90]:
#확대집합
a.issuperset(b)

False

In [91]:
#교집합 없음
a.isdisjoint(b)

False

In [92]:
#업데이트
a.update(b)

In [93]:
a

{1, 2, 3, 4, 5, 6, 7}

In [94]:
a.issuperset(b)

True

### 리스트 컴프리헨션 (+ 셋, 딕셔너리 컴프리헨션)