# 수집(Collection) 자료형

파이썬과 같은 프로그래밍 언어에는 정수, 실수, 불리언 값 등의 기본 자료형 이외에 
리스트(list), 문자열(string), 튜플(tuple), 집합(set), 사전(dictionary) 
등의 수집(collection) 자료형도 기본적으로 제공된다.

수집 자료형은 크게 두 종류르 구분된다.

* 순서를 따지는 수집 자료형: 리스트, 문자열, 튜플
* 순서를 무시하는 수집 자료형: 집합, 사전

### 리스트

리스트는 파이썬에서 사용되는 모든 자료형을 담을 수 있는 그릇에 해당한다. 
리스트에 포함되는 값들 사이의 순서는 절대적으로 중요하다. 

In [1]:
[1, 3] == [3, 1]

False

In [2]:
[1] != [1,1]

True

비어 있는 리스트인 공리스트는 `[]`로 표현된다. 
리스트 안에는 여러 종류의 자료형이 섞여도 되며, 여러 값들은 콤마로 구분된다.
예를 들어, 아래 예제에서는 정수형, 불 형, 부동소수점 실수형이 함께 사용되었다. 

In [3]:
[1, 3, True, 6.5]

[1, 3, True, 6.5]

리스트를 변수에 할당할 수도 있다.

In [4]:
myList = [1, 2, True, 6.5]

In [5]:
myList

[1, 2, True, 6.5]

##### 주의사항

C 또는 자바의 경우은 기본적으로 동일한 자료형의 값들만 리스트에 포함될 수 있으며
서로 다른 종류의 자료형의 값들을 포함하려면 복잡한 방식을 사용해야 한다.

#### 시퀀스 자료형 공통 메소드

아래 메소드들은 순서를 따지는 시퀀스 자료형에 포함되어 있다. 

* `[k]` :  인덱싱 함수. 시퀀스 자료형의 특정 인덱스 값을 리턴한다. 
* `+` : 이어 붙이기(concatenation) 함수. 두 개의 시퀀스를 이어 붙인다. 
* `*` : 반복 함수. 주어진 수 많큼 반복해서 이어 붙인다.
* `in` : 소속 확인 함수. 특정 값이 주어진 시퀀스에 포함되어 있는지 확인한다.
* `len` : 길이 확인 함수. 주어진 시퀀스의 길이를 리턴한다.
* `[i:j]`: 슬라이싱 함수. 주어진 시퀀스의 해당 인덱스 구간을 리턴한다. `i` 인덱스 값부터 `j-1` 인덱스 값까지로 이루어진 리스트를 리턴한다. 

##### 주의사항

* 인덱스 값은 0, 1, 2,... 등으로 시작한다. 
* 따라서 `myList[0] = 1`이고, `myList[0:3] = [1, 2, True]`이다. 

#### 인덱싱과 슬라이싱

In [6]:
myList = [1, 2, 3, 4]

In [7]:
A = myList[1: 3]
A

[2, 3]

In [8]:
myList[1] = 77
myList

[1, 77, 3, 4]

In [9]:
A

[2, 3]

#### 리스트 자료형 기본 메소드

아래의 메소드들이 리스트와 관련된 기본적인 메소드 들이다. 

* `append`
* `insert`
* `pop`
* `sort`
* `reverse`
* `del`
* `index`
* `count`
* `remove`

등등

In [10]:
myList = [1024, 3, True, 6.5]

`append`는 리스트 끝에 새로운 값을 추가하는 데에 사용됨.

In [11]:
myList.append(False)
myList

[1024, 3, True, 6.5, False]

`insert`는 특정 인덱스에 특정 값을 집어 넣을 때 사용.

In [12]:
myList.insert(2, 4.5)
myList

[1024, 3, 4.5, True, 6.5, False]

`pop`은 특정 인덱스 값을 지운다. 대신에 지운 값을 리턴한다. 
인자를 받지 않으면 마지막 인덱스 값을 지우고 그 값을 리턴한다. 

In [13]:
myList.pop()

False

In [14]:
myList

[1024, 3, 4.5, True, 6.5]

In [15]:
myList.pop(1)

3

In [16]:
myList

[1024, 4.5, True, 6.5]

`sort` 함수는 리스트에 포함된 값들을 정렬한다. 
기본은 오름차순 정렬이며, _키워드_ 값을 변경하면 내림차순 정렬도 가능하다. 

In [17]:
myList.sort()
myList

[True, 4.5, 6.5, 1024]

##### 주의사항

`sort` 메소드는 리턴값이 `None`이다. 즉, `sort` 메소드는 리스트 자체를 변형시키며 어떤 값도 리턴하지 않는다. 따라서 리턴값을 사용할 수 없다. 

In [18]:
C = myList.sort()
myList

[True, 4.5, 6.5, 1024]

`sort` 메소드에 `reverse` 키워드 인자를 사용하면 내림차순으로 정렬할 수 있다.

In [19]:
myList.sort(reverse=True)
myList

[1024, 6.5, 4.5, True]

`reverse` 메소드는 리스트의 순서를 뒤집는다. 
`sort` 메소드와 마찬가지로 리턴값은 `None`이다. 

In [20]:
myList.reverse()
myList

[True, 4.5, 6.5, 1024]

`del` 메소드는 특정 인덱스의 값을 삭제한다. 
`del` 엄격한 의미에서는 리스트 관련 메소드가 아니다.
다만 `pop`과 비슷한 기능을 갖고 있어서 여기서 소개한다.

In [21]:
del myList[2]
myList

[True, 4.5, 1024]

`index` 메소드는 특정 값이 나타나는 인덱스 값 중에서 가장 작은 인덱스를 리턴한다. 

In [22]:
myList.index(4.5)

1

In [23]:
myList.index(4.5)

1

`cound` 메소드는 특정값이 리스트에서 몇 번 사용되었는지 확인해서 리턴한다. 

In [24]:
myList.count(6.5)

0

##### 주의사항

* `pop` 메소드는 특정 값을 리턴하면서 동시에 기존 리스트를 수정한다.
    + `pop`에 아무런 인자를 넣지 않으면 기본적으로 리스트에서 마지막 원소를 삭제하고 그 값을 리턴한다.
    + 특정 위치의 값을 인자로 넣으면 해당 인덱스 위치의 값을 삭제하고 그 값을 리턴한다.
* `reverse` 메소드는 기존 리스트를 수정하나 널 값인 `None`을 리턴한다.
* 인덱스는 `0`부터 시작한다.

#### `range`  함수

파이썬에서 리스트와 함께 가장 많이 사용되는 `range`라는 함수가 있다. 
`range` 함수는 구간을 의미하는 클래스의 객체를 생성한다.
`list`라는 함수를 이용하여, 구간 내에 속하는 정수들로 이루어진 리스트를 생성할 수 있다.

`range` 함수는 한 개에서 최대 세 개의 인자를 받을 수 있다.

* 인자가 한 개이면 `0`부터 인자까지의 구간을 의미한다. 
    단, 구간의 끝은 포함하지 않는다.

In [25]:
range(10)

range(0, 10)

In [26]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

* 인자가 두 개이면 구간의 처음과 끝을 나타낸다. 단, 구간의 끝은 포함하지 않는다.

In [27]:
range(5, 10)

range(5, 10)

In [28]:
list(range(5,10))

[5, 6, 7, 8, 9]

* 인자가 세 개이면 마지막 인자는 뛰어넘기 수준을 결정한다.
    예를 들어, 마지막 인자가 2이면 두 개씩 건너 뛰면서 구간을 정한다는 의미이다.

In [29]:
list(range(5, 10, 2))

[5, 7, 9]

* 마지막 인자가 음수이면 역순으로 구간을 정한다는 의미이다.

In [30]:
list(range(10,1,-1))

[10, 9, 8, 7, 6, 5, 4, 3, 2]

In [31]:
list(range(10,1,-2))

[10, 8, 6, 4, 2]

#### 문자열(string) 클래스

임의의 길이의 문자들의 나열을 문자열이라 부르며, 인용부호를 이용하여 감싸야만 한다. 

##### 주의사항

* 인용부호로 감싸지 않으면 식별자, 즉 변수로 취급된다. 
    따라서 변수 선언을 하지 않을 경우 에러가 발생하게 된다.

In [32]:
"David"

'David'

In [33]:
'David'

'David'

In [34]:
"""David"""

'David'

In [35]:
'Dav"id'

'Dav"id'

In [36]:
myName="David"

문자열 또한 시퀀스 자료형이기 때문에 앞서 언급한 시퀀스 자료형 공통 메소드와 함수들이 동일한 방식으로 적용될 수 있다.

In [37]:
myName[3]

'i'

In [38]:
myName * 2

'DavidDavid'

In [39]:
len(myName)

5

시퀀스 자료형 공통 메소드 이외에 문자열 클래스만의 메소드들이 따로 존재한다.

* `center`
* `count`
* `ljust`
* `lower`
* `rjust`
* `find`
* `split`
* `uppter`

등등

* `center` 메소드
    + 인자: 양의 정수
    + 리턴값: 입력받은 숫자의 크기에 해당하는 문자열을 리턴한다. 기존의 문자열을 중앙에 위치시킨다.

In [40]:
myName.center(9)

'  David  '

In [41]:
len(myName.center(9))

9

* `count` 메소드
    + 인자: 문자열
    + 리턴값: 기존의 문자열에서 입력받은 부분 문자열이 몇 번 나타나는지를 세어서 리턴한다.

In [42]:
myName.count('d')

1

In [43]:
myName.count('Da')

1

##### 주의사항

* 대소문자를 구분한다.

In [44]:
myName.count('da')

0

* `ljust`와 `rjust` 메소드
    + 인자: 양의 정수
    + 리턴값: `center` 메소드와 비슷. 다만 왼쪽 또는 오른쪽으로 기존 문자열을 맞춤.

In [45]:
myName.ljust(10)

'David     '

In [46]:
myName.rjust(10)

'     David'

* `lower`와 `upper` 메소드
    + 인자: 없음
    + 리턴값: 기존 문자열을 모두 소문자 또는 대문자로 전환하여 리턴함.

In [47]:
myName.lower()

'david'

In [48]:
myName.upper()

'DAVID'

* `find` 메소드
    + 인자: 문자열
    + 리턴값: 기존 문자열에서 입력받은 문자열이 처음으로 나타나는 인덱스 번호

In [49]:
myName.find('vi')

2

In [50]:
myName.find('D')

0

* `split` 메소드
    + 인자: 문자열
    + 리턴값: 입력받은 문자열을 기준으로 기존의 문자열을 분리한 후 분리된 문자열들로 구성된 리스트를 리턴한다.
        
    만약에 인자가 명시되지 않았으면 스페이스, 탭, 줄바꾸기 등을 기준으로 사용한다.

In [51]:
myName.split('v')

['Da', 'id']

In [52]:
myName.split('vi')

['Da', 'd']

In [53]:
myName.split('d')

['Davi', '']

In [54]:
"David is a student".split()

['David', 'is', 'a', 'student']

In [55]:
"David is a student.\n We too.".split()

['David', 'is', 'a', 'student.', 'We', 'too.']

In [56]:
"David\t is a student.\n We too.".split()

['David', 'is', 'a', 'student.', 'We', 'too.']

##### 주의사항

* 리스트와 문자열의 가장 큰 차이점 중의 하나는 가변성(mutability)이다.
* 리스트는 수정이 가능한 가변(mutable) 자료형인 반면에 문자열은 수정이 불가능한 불변(immutable) 자료형이다.

In [57]:
myList

[True, 4.5, 1024]

In [58]:
myList[0] = 2 ** 10

In [59]:
myList

[1024, 4.5, 1024]

In [60]:
myName

'David'

In [61]:
myName[0] = 'X'

TypeError: 'str' object does not support item assignment

#### 튜플(tuple) 클래스

튜플은 리스트와 매우 유사하다.
다만 리스트와는 달리 불변 자료형이다. 
즉, 튜플을 수정할 수 없다.

In [62]:
myTuple = (2, True, 4,.96)

In [63]:
myTuple

(2, True, 4, 0.96)

In [64]:
len(myTuple)

4

In [65]:
myTuple[0]

2

In [66]:
myTuple * 3

(2, True, 4, 0.96, 2, True, 4, 0.96, 2, True, 4, 0.96)

In [67]:
myTuple[0:2]

(2, True)

In [68]:
myTuple[1] = False

TypeError: 'tuple' object does not support item assignment

#### 집합(set) 클래스

집합은 튜플과 비슷하다. 대신에 순서가 없고, 원소가 중복되어도 하나로 취급한다.
중괄호(`{, }`)로 둘러쌓아 집합을 표시한다.
공집합은 `set()`로 표기한다.
집합은 가변 자료형이다.

In [69]:
{3, 6, "cat", 4.5, False}

{False, 3, 4.5, 'cat', 6}

In [70]:
mySet = {3, 6, "cat", 4.5, False}

In [71]:
mySet

{False, 3, 4.5, 'cat', 6}

In [72]:
mySet0 = set()

In [73]:
mySet0

set()

##### 주의사항

* 집합은 시퀀스 자료형으로 간주하지는 않는다.
* 하지만 시퀀스 자료형의 메소드들 중에 `in`과 `len`은 적용할 수 있다.

In [74]:
False in mySet

True

In [75]:
"dog" in mySet

False

In [76]:
False in mySet0

False

In [77]:
len(mySet)

5

In [78]:
len(mySet0)

0

집합과 관련된 연산자가 따로 있다.

* `|`: 합집합 연산자
* `&`: 교집합 연산자
* `-`: 집합 빼기 연산자
* `<=`: 부분집합 확인 연산자

In [79]:
mySet1 = {6, False, (2,3)}

In [80]:
mySet | mySet1

{False, 3, 4.5, 6, 'cat', (2, 3)}

In [81]:
mySet & mySet1

{False, 6}

In [82]:
mySet - mySet1

{'cat', 3, 4.5}

In [83]:
mySet <= mySet1

False

In [84]:
mySet0 <= mySet

True

집합 고유의 메소드들이 존재한다.

* `union`: 합집합 메소드
* `intersection`: 교집합 메소드
* `difference`: 집합 빼기 메소드
* `issubset`: 부분집합 확인 메소드
* `add`: 원소 추가 메소드
* `remove`: 원소 제거 메소드
* `pop`: 임의의 원소 제거 메소드
* `clear`: 모든 원소 제거 메소드

In [85]:
mySet

{False, 3, 4.5, 'cat', 6}

In [86]:
yourSet = {99, 3, 100}

In [87]:
mySet.union(yourSet)

{False, 3, 4.5, 99, 6, 100, 'cat'}

In [88]:
mySet.intersection(yourSet)

{3}

In [89]:
mySet.difference(yourSet)

{False, 4.5, 'cat', 6}

In [90]:
{3,100}.issubset(yourSet)

True

In [91]:
mySet.add("house")

In [92]:
mySet

{False, 3, 4.5, 6, 'cat', 'house'}

In [93]:
mySet.remove(4.5)

In [94]:
mySet

{False, 3, 6, 'cat', 'house'}

In [95]:
mySet.pop()

False

In [96]:
mySet

{3, 6, 'cat', 'house'}

In [97]:
mySet.pop()

3

In [98]:
mySet.clear()

In [99]:
mySet

set()

#### 사전 (dictionary) 클래스

사전은 일종의 쌍들의 집합이다. 
각 쌍은 키(key)와 값(value)로 구성되어 있으며 "key:value"의 모양을 갖는다.
각 쌍은 쉼표(콤마)로 구분된다.

In [100]:
capitals = {'Gyongi':'Suwon','Gangwon':'Chuncheon'}

In [101]:
capitals

{'Gangwon': 'Chuncheon', 'Gyongi': 'Suwon'}

사전 역시 구성원들의 순서가 전혀 중요하지 않다. 
따라서 리스트나 튜플, 문자열의 경우처럼 인덱스를 사용하지 못한다.
하지만 키를 이용하여 해당 키에 대응하는 값을 읽거나, 새로은 키와 값으로 이루어진 쌍을 추가할 수 있다.
즉, 사전은 가변 자료형이다.

In [102]:
len(capitals)

2

In [103]:
capitals['Gyongi']

'Suwon'

In [104]:
capitals['Jeju'] = 'Jeju'

In [105]:
capitals

{'Gangwon': 'Chuncheon', 'Gyongi': 'Suwon', 'Jeju': 'Jeju'}

In [106]:
capitals['Gangwon'] = 'Wonju'

In [107]:
capitals

{'Gangwon': 'Wonju', 'Gyongi': 'Suwon', 'Jeju': 'Jeju'}

사전의 키를 이용하여 `for`문을 작성할 수 있다.

In [108]:
for k in capitals:
   print(capitals[k]," is the capital of ", k)

Wonju  is the capital of  Gangwon
Suwon  is the capital of  Gyongi
Jeju  is the capital of  Jeju


##### 주의사항

* 사전을 보여줄 때의 순서는 전혀 의미가 없다.

사전과 함께 사용되는 함수는 다음과 같다.

* `[]`: 키를 이용하여 키에 연관된 값을 구하는 함수
* `in`: 특정 키가 사용되었는지를 판단해주는 함수
* `del`: 특정 키와 함께 사용된 값을 삭제하는 함수

In [109]:
'Gyonggi' in capitals

False

In [110]:
'Seoul' in capitals

False

In [111]:
del capitals['Jeju']

In [112]:
capitals

{'Gangwon': 'Wonju', 'Gyongi': 'Suwon'}

사전 클래스에 정의된 메소드에는 아래의 것들이 포함되어 있다.

* `keys`: 사전에 사용된 키들만 따로 모은다.
* `values`: 사전에 사용된 값들만 따로 모은다.
* `items`: 사전에 사용된 키와 값들의 쌍을 튜플로 변환해서 모은다.
* `get`
    + 인자가 하나일 때: 인자로 들어온 값이 키로 사용되었을 경우 키에 해당하는 값을 리턴한다. 아니면 `None`을 리턴한다.
    + 인자가 두 개일 때: 첫 번째 인자로 들어온 값이 키로 사용되었을 경우 키에 해당하는 값을 리턴한다. 아니면 두 번째 인자를 리턴한다.

In [113]:
phoneext = {'kim':1410, 'Jin':1137}

In [114]:
phoneext

{'Jin': 1137, 'kim': 1410}

In [115]:
phoneext.keys()

dict_keys(['kim', 'Jin'])

In [116]:
list(phoneext.keys())

['kim', 'Jin']

In [117]:
phoneext.values()

dict_values([1410, 1137])

In [118]:
list(phoneext.values())

[1410, 1137]

In [119]:
capitals.items()

dict_items([('Gangwon', 'Wonju'), ('Gyongi', 'Suwon')])

In [120]:
list(capitals.items())

[('Gangwon', 'Wonju'), ('Gyongi', 'Suwon')]

In [121]:
phoneext.get('park')

In [122]:
phoneext.get('Jin')

1137

In [123]:
phoneext.get('park', "No entry")

'No entry'

In [124]:
phoneext.get('kim', "No entry")

1410

### 연습문제: 텍스트 문서 다루기

저장되어 있는 텍스트 문서를 열어서 내용을 확인하고 활용하는 방법이다.

먼저 아래 사이트에서 `shakespeare.txt` 파일을 다운받아 현재 파이썬이 실행되는 폴더와 동일한 위치에 저장시킨다.
반드시 현재 파이썬이 실행되는 폴더와 동일한 곳에 저장되어 있어야 오류가 발생하지 않는다.

http://composingprograms.com/shakespeare.txt

`shakespeare.txt` 파일은 셰익스피어 작품인 '한여름밤의 꿈'이 들어 있다.

먼저 `open` 함수를 이용하여 파일을 불러들인다. 
여기서 불러들인다 함은 해당 파일을 열어서 내용을 들여다 보고 읽거나 수정할 수 있도록 준비시키는 단계이다.

In [125]:
shakespeare = open("shakespeare.txt")

##### 주의사항

`shakespeare.txt` 파일을 다운로드 하지 않고 직접 확인할 수도 있다.
2장에서 다룬 `urllib.request` 라는 모듈에 포함되어 있는 `urlopen` 이란 함수를 이용하면 된다.
따라서 아래와 같이 실행하면 된다.

    from urllib.request import urlopen
    shakespeare = urlopen("shakespeare.txt")    

`shakes` 변수에 할당된 값은 그러나 '한여름밤의 꿈'의 내용만 포함하고 있지는 않다. 
내용 이외에 파일의 크기, 변경시간 등등 파일과 관련된 다른 많은 정보들이 포함되어 있다.
따라서 `shakes` 파일의 내용을 보여달라고 해도 바로 보여주지는 않는다.

In [126]:
shakespeare

<_io.TextIOWrapper name='shakespeare.txt' mode='r' encoding='UTF-8'>

실제로 `shakes` 변수에 할당된 값의 자료형을 `type` 함수를 이용하여 확인하면 이상한 자료형으로 확인된다.

In [127]:
type(shakespeare)

_io.TextIOWrapper

파일의 내용을 확인하고자 한다면 `shakes` 자료형 클래스의 메소드인 `read` 를 이용해야 한다.

In [128]:
text = shakespeare.read()

내용을 모두 확인했으면 이제 파일을 닫도록 하자.
즉, `shakespeare.txt` 파일은 `open` 함수를 다시 사용하기 전에는 더 이상 읽을 수 없다.

In [129]:
shakespeare.close()

이제 `text`는 문자열 자료형이며, '한여름밤의 꿈' 작품 내용 전체를 담은 하나의 문자열이 할당되어 있다.

In [130]:
type(text)

str

`text`에 할당된 문자열을 `print(text)` 등을 이용하여 확인할 수 있다. 
하지만 여기서는 실행하지 않는다. 
텍스트 내용이 너무 길기 때문이다.
그런데 '한여름밤의 꿈'에 사용된 단어의 수는 몇 개일까?

사용된 단어의 수를 확인하는 방법 중의 하나는 `text`에 할당된 문자열을 스페이스, 탭, 줄바꾸기 등을 기준으로 쪼개는 것이다.
문자열 클래스의 `split` 메소드가 그런 기능을 갖고 있다.

In [131]:
text_words = text.split()

따라서 '한여름밤의 꿈'에 사용된 단어의 개수는 중복 포함해서 아래와 같이 확인할 수 있다.

In [132]:
len(text_words)

980637

'한여름밤의 꿈'에 사용된 첫 10개의 단어는 다음과 같이 확인할 수 있다.

In [133]:
text_words[:10]

['A',
 "MIDSUMMER-NIGHT'S",
 'DREAM',
 'Now',
 ',',
 'fair',
 'Hippolyta',
 ',',
 'our',
 'nuptial']

앞서 '한여름밤의 꿈'에서 사용된 단어의 개수는 중복되어 사용된 것을 함께 계산한 결과이다.
파이썬 리스트의 경우 중복해서 사용된 항목을 다르게 취급하기 때문에 그런 결과가 나온다. 

따라서 중복사용을 제외하고 순수한 의미의 사용된 단언수를 확인하려면 다른 자료형을 이용해야 한다.
예를 들어, 집합을 이용하면 된다.

리스트 자료형을 집합으로 변환하는 함수 `set`을 이용할 수 있다.

In [134]:
words_set = set(text_words)

이제 사용된 단어의 수를 확인할 수 있다.

In [135]:
len(words_set)

33505

집합을 활용하는 함수들 중에 `max`도 포함된다. 
`max`는 사전식 순서의 기준에 따라 최대값을 결정한다.

In [136]:
max(words_set)

'zwaggered'

`max`에는 `key`라는 숨은 인자가 들어 있다.
`key`는 크기를 결정하는 기준을 정한다.
기본은 사전식 순서이다.
따라서 문자열 길이를 기준으로 순서를 정하고 싶으면 `key = len`을 사용해야 한다.

In [137]:
max(words_set, key=len)

'tragical-comical-historical-pastoral'