# Chapter 3 내장 자료구조, 함수, 파일

## 3.1 자료구조와 순차 자료형

### 3.1.1 튜플

#### 튜플 정의하기

- 튜플은 1차원의 고정된 크기를 가지는 `변경 불가능`한 순차 자료형

In [1]:
# 튜플을 정의하는 방법들 
tup = 4, 5, 6
nested_tup = (4,5,6), (7,8)
tup2 = tuple([4,5,6])
tup_string = tuple('string')

In [2]:
print('''
tup : {0}
nested_tup : {1}
tup2 : {2}
tup_string {3}'''.format(tup \
                        , nested_tup \
                        , tup2 \
                        , tup_string))


tup : (4, 5, 6)
nested_tup : ((4, 5, 6), (7, 8))
tup2 : (4, 5, 6)
tup_string ('s', 't', 'r', 'i', 'n', 'g')


- 튜플은 변경 불가능하다.

In [3]:
tup = tuple(['foo',[1,2],True])
tup[2] = False

TypeError: 'tuple' object does not support item assignment

- 튜플 내 저장된 객체는 그 위치에서 바로 변경이 가능하다

In [4]:
print('tup : {0}'.format(tup))

tup[1].append(3)
print('tup : {0}'.format(tup))

tup : ('foo', [1, 2], True)
tup : ('foo', [1, 2, 3], True)


#### 튜플에서 값 분리하기

- 튜플과 _같은 표현_ 의 변수에 튜플을 `대입`하면 파이썬은 등호(=) 오른쪽에 있는 변수에서 값을 `분리`한다.

In [14]:
tup = 4,5,(6,7)
a,b,(c,d) = tup

print('''
a : {0}
b : {1}
c : {2}
d : {3}
'''.format(a,b,c,d))


a : 4
b : 5
c : 6
d : 7



- 튜플이나 리스트를 순회할 때도 흔히 이 기능을 활용한다.

In [15]:
seq = [(1,2,3),(4,5,6),(7,8,9)]

for a, b, c in seq:
        print('a = {0}, b = {1}, c = {2}'.format(a,b,c))

a = 1, b = 2, c = 3
a = 4, b = 5, c = 6
a = 7, b = 8, c = 9


- *rest, *_ : 처음 몇몇 값만 '끄집어내야' 하는 상황에서 사용

In [17]:
values = 1,2,3,4,5

a, b, *rest = values
d, e, *_ = values

print('''
a = {0}, b = {1}, rest = {2}
d = {3}, e = {4}, _ = {5}'''.format(a,b,rest,d,e,_))


a = 1, b = 2, rest = [3, 4, 5]
d = 1, e = 2, _ = [3, 4, 5]


#### 튜플 메서드

- 튜플은 크기와 내용이 변경 불가능하므로 인스턴스 메서드가 많지 않음
- tuple.count(value) : 주어진 value가 몇 개 있는 지 반환하는 메서드

In [20]:
a = (1,2,2,2,3,4,2)
a.count(2)

4

### 3.1.2 리스트

- 튜플과는 대조적으로 리스트는 크기나 내용의 변경이 가능하다. 
- 리스트는 대괄호 [ ]나 list 함수를 사용해서 생성할 수 있다.

In [52]:
a_list = [2,3,7,None]
print(a_list)

tup = ('foo','bar','baz')
b_list = list(tup)
print(b_list)

b_list[1] = 'peekaboo'
print(b_list)

[2, 3, 7, None]
['foo', 'bar', 'baz']
['foo', 'peekaboo', 'baz']


#### 원소 추가하고 삭제하기

* list에 원소 추가
    * list.append() : 리스트 `끝`에 새로운 값을 추가할 수 있다.
    * list.insert() : 리스트의 `특정 위치`에 값을 추가할 수 있다.

In [53]:
### list.append()
b_list.append('dwarf')
print('add dwarf in list b using list.append() : {0}'.format(b_list))

### list.insert()
b_list.insert(1, "red")
print('add red in list b at 1 using list.insert() : {0}'.format(b_list))

add dwarf in list b using list.append() : ['foo', 'peekaboo', 'baz', 'dwarf']
add red in list b at 1 using list.insert() : ['foo', 'red', 'peekaboo', 'baz', 'dwarf']


- list에 원소 삭제
    - list.pop() : 리스트의 `특정 위치`의 값을 반환하고 해당 값을 리스트에서 삭제한다.
    - list.remove() : 중복되는 값이 있는 경우 리스트에서 `제일 앞`에 위치한 값부터 삭제가 이뤄진다.

In [54]:
### list.pop()
print(b_list.pop(2))
print("remove the value in index 2 : {0}".format(b_list))

### list.remove()
b_list.append('foo')
print('add another foo in list b : {0}'.format(b_list))

b_list.remove('foo')
print("remove the value which is foo in list b : {0}".format(b_list))

peekaboo
remove the value in index 2 : ['foo', 'red', 'baz', 'dwarf']
add another foo in list b : ['foo', 'red', 'baz', 'dwarf', 'foo']
remove the value which is foo in list b : ['red', 'baz', 'dwarf', 'foo']


#### in, not in 예약어

In [56]:
print("dwarf in b_list : {0}".format('dwarf' in b_list))
print("dwarf not in b_list : {0}".format('dwarf' not in b_list))

dwarf in b_list : True
dwarf not in b_list : False


#### 리스트 이어붙이기

- \+ : + 연산자를 이용하면 두 개의 리스트를 합칠 수 있다
- list.extend() : 미리 리스트를 정의해 두었다면 extend 메서드를 사용해 여러 개의 값을 추가할 수 있다.

In [59]:
[4,None,'foo'] + [7,8,(2,3)]

[4, None, 'foo', 7, 8, (2, 3)]

In [61]:
x = [4, None, 'foo']
x.extend([7,8,(2,3)])
print(x)

[4, None, 'foo', 7, 8, (2, 3)]


### 3.1.3 내장 순차 자료형 함수

#### enumerate 

- 이 함수는 순차 자료형에서 현재 아이템의 색인을 함께 처리하고자 할 때 흔히 사용한다.

In [10]:
some_list = ['foo', 'bar', 'baz']

mapping = {}

for i, v in enumerate(some_list) : 
    mapping[i] = v
    print(mapping)

{0: 'foo'}
{0: 'foo', 1: 'bar'}
{0: 'foo', 1: 'bar', 2: 'baz'}


#### sorted

- sorted 함수는 **정렬된** `새로운 순차 자료형`을 반환한다.

In [72]:
a = [7,1,2,6,0,3,2]
b = sorted(a)

print('''
a = {0}
b = {1}'''.format(a, b))


a = [7, 1, 2, 6, 0, 3, 2]
b = [0, 1, 2, 2, 3, 6, 7]


#### zip

- zip 함수는 여러 개의 리스트나 튜플 또는 다른 순차 자료형을 서로 짝지어서 튜플의 리스트를 생성한다.

In [12]:
seq1 = ['foo','bar','baz']
seq2 = ['one','two','three']

zipped = zip(seq1,seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

- zip 함수는 여러 개의 순차 자료형을 받을 수 있으며 반환되는 리스트의 크기는 넘겨받은 순차 자료형 중 `가장 짧은` 크기로 정해진다.


In [83]:
seq3 = [False, True]

list(zip(seq1,seq2,seq3))

[('foo', 'one', False), ('bar', 'two', True)]

- zip 함수는 enumerate와 함께 사용되기도 한다.

In [84]:
for i, (a,b) in enumerate(zip(seq1,seq2)) : 
    print('''
    i = {0}
    a = {1}
    b = {2}'''.format(i,a,b))


    i = 0
    a = foo
    b = one

    i = 1
    a = bar
    b = two

    i = 2
    a = baz
    b = three


- zip 함수를 사용해서 짝지어진 순차 자료형을 다시 풀어낼 수도 있다. 
- 이를 이용해서 리스트의 `로우`를 리스트의 `컬럼`으로 변환하는 것도 가능하다.

In [87]:
pitchers = [('Nolan','Ryan'), ('Roger','Clemens'), ('Schilling', 'Curt')]

first_names, last_names = zip(*pitchers)

print('''
first_names : {0}
last_names : {1}'''.format(first_names,last_names))


first_names : ('Nolan', 'Roger', 'Schilling')
last_names : ('Ryan', 'Clemens', 'Curt')


### 3.1.4 사전

- dict(사전)은 파이썬 내장 자료구조 중에서 가장 중요하다.
- 일반적으로는 `해시맵` 또는 `연관 배열`이라고 널리 알려져 있다.
- 사전은 유연한 크기를 가지는 `키-값` 쌍으로, `키`와 `값`은 모두 파이썬 객체다.

In [2]:
d1 = {'a' : 'some value', 'b' : [1,2,3,4]}
print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4]}


In [3]:
d1[7] = 'an integer'
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [4]:
print('''
d1['a'] : {0}
d1[7] : {1}'''.format(d1['a'] \
                     , d1[7]))


d1['a'] : some value
d1[7] : an integer


In [5]:
'b' in d1

True

#### dict 관련 기본 메소드

##### del, pop
- `del` 예약어나 `pop` 메서드 (값을 반환함과 동시에 해당 키를 삭제한다)를 사용해서 사전의 값을 삭제할 수 있다.

In [23]:
d1[5] = 'some value'
print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value'}


In [24]:
d1['dummy'] = 'another value'
print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value', 'dummy': 'another value'}


In [25]:
del d1[5]
print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'dummy': 'another value'}


In [27]:
ret = d1.pop('dummy')
print('''
ret = {0}
d1 = {1}'''.format(ret, \
                  d1))


ret = another value
d1 = {'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}


##### keys, values
- `keys` 와 `values` 메서드는 각각 키와 값이 담긴 이터레이터를 반환한다.
- 키-값 쌍은 일정한 기준으로 정렬되어 있진 않지만, `keys` 메서드와 `values` 메서드에서 반환하는 리스트는 같은 순서를 가진다.

In [31]:
print('''
list(d1.keys()) : {0}
list(d1.values()) : {1}'''.format(list(d1.keys()), \
                                  list(d1.values())))


list(d1.keys()) : ['a', 'b', 7]
list(d1.values()) : ['some value', [1, 2, 3, 4], 'an integer']


##### update 
- update 메서드를 사용해서 하나의 사전을 다른 사전과 합칠 수 있다.

In [33]:
d1.update({'b':'foo', 'c':12})
print(d1)

{'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}


#### 순차 자료형에서 사전 생성하기

In [37]:
mapping = dict(zip(range(5), reversed(range(5))))
print(mapping)

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}


#### 기본값

##### get
- 사전 메서드인 get과 pop은 반환할 기본값을 받아서 위 코드에서 if-else 블록을 아래처럼 간단하게 작성할 수 있다.
- get메서드는 기본적으로 해당 키가 존재하지 않을 경우 None을 반환함.
- pop메서드는 예외를 발생시킴

In [None]:
# 기본값을 설정하는 아주 일반적인 로직
if key in some_dict : 
    value = some_dict[key]
else : 
    value = default_value

In [None]:
value = some_dict.get(key, default_value)

> 예시 : 여러 단어를 시작 글자에 따라 사전에 리스트로 저장하고 싶다면?

##### setdefault
- setdefault 메소드를 사용하면 다음 if-else 구문을 아래과 같이 작성할 수 있다.

In [42]:
words = ['apple','bat','bar','atom','book']
by_letter = {}

for word in words :
    letter = word[0]
    if letter not in by_letter :
        by_letter[letter] = [word]
    else : 
        by_letter[letter].append(word)
        
print(by_letter)

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}


In [41]:
by_letter = {}

for word in words : 
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)
    
print(by_letter)

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}


##### defaultdict
- 내장 collections 모듈의 defaultdict 클래스를 사용하면 위 과정을 좀 더 쉽게 할 수 있다.

In [45]:
from collections import defaultdict

by_letter = defaultdict(list)

for word in words : 
    by_letter[word[0]].append(word)
    
print(by_letter)

defaultdict(<class 'list'>, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})


##### 유효한 사전 키, hash()
- 사전의 값(value)으로 어떤 파이썬 객체라도 가능하지만 키(key)는 스칼라형(정수,실수,문자열)이나 튜플(튜플에 저장된 값 역시 값이 바뀌지 않는 객체여야 한다) 처럼 값이 바뀌지 않는 객체만 가능하다.
- 기술적으로는 `해시 가능` 해야한다는 뜻.
- hash() 함수를 통해 어떤 객체가 해시 가능한지 검사할 수 있다.

In [46]:
hash('string')

-942897530707866750

In [47]:
hash((1,2,(2,3)))

-9209053662355515447

In [48]:
hash((1,2,[2,3]))  # 리스트는 변경이 가능한 값이므로 해시 가능하지 않음 

TypeError: unhashable type: 'list'

### 3.1.5 집합
- $집합^{set}$ 은 유일한 원소만 담는 `정렬되지 않은` 자료형
- 사전과 유사하지만 값은 없고 키만 가지고 있다고 생각하면 됨
- 집합은 set함수 혹은 중괄호를 이용해 생성할 수 있음

In [49]:
set([2,2,2,1,3,3])

{1, 2, 3}

In [50]:
{2,2,2,1,3,3}

{1, 2, 3}

##### union & intersection
- union : 두 집합의 모든 원소를 모은 집합. union 메서드를 사용하거나 | 이항연산자로 구할 수 있음 
- intersection : 두 집합에 공통으로 존재하는 원소만 모은 집합. intersection 메서드를 사용하거나 & 이항연산자로 구할 수 있음

In [52]:
a = {1,2,3,4,5}
b = {3,4,5,6,7,8}

print('''
a.union(b)        : {0}
a | b             : {1}
a.intersection(b) : {2}
a & b             : {3}
'''.format(a.union(b), \
           a|b, \
           a.intersection(b), \
           a & b))


a.union(b)        : {1, 2, 3, 4, 5, 6, 7, 8}
a | b             : {1, 2, 3, 4, 5, 6, 7, 8}
a.intersection(b) : {3, 4, 5}
a & b             : {3, 4, 5}



##### 파이썬 집합 연산

<details>
<summary>파이썬 집합 연산</summary>
<div markdown="1">

|함수|대체 문법|설명|
|:--|:--|:--|
|a.add(x)|N/A|a에 원소 x를 추가한다.|
|a.clear()|N/A|모든 원소를 제거하고 빈 상태로 되돌린다.|
|a.remove(x)|N/A|a에서 원소 x를 제거한다.|
|a.pop()|N/A|a에서 `임의의 원소`를 제거한다. 비어있는 경우 KeyError를 발생시킨다.|
|a.union(b)|a \| b|a와 b의 합집합|
|a.update(b)|a \|= b|a에 a와 b의 합집합을 대입한다.|
|a.intersection(b)|a \& b|a와 b의 교집합|
|a.intersection_update(b)|a \&= b|a에 a와 b의 교집합을 대입한다.|
|a.difference(b)|a - b|a와 b의 차집합|
|a.difference_update(b)|a -= b|a에 a와 b의 차집합을 대입한다.|
|a.symmetric_difference(b)|a ^ b|a와 b의 대칭차집합|
|a.symmetric_difference_update(b)|a ^= b|a에 a와 b의 대칭차집합을 대입한다.|
|a.issubset(b)|N/A|a의 모든 원소가 b에 속할 경우 True|
|a.issuperset(b)|N/A|a가 b의 모든 원소를 포함할 경우 True|
|a.isdisjoint(b)|N/A|a와 b 모두에 속하는 원소가 없을 경우 True|
    
</div>
</details>

> 사전처럼 집합 원소들도 일반적으로 변경이 불가능해야한다. 따라서 리스트를 집합의 원소로 담으려면 튜플로 변경해야 한다.

In [54]:
my_data = [1,2,3,4]
my_set = {tuple(my_data)}
print(my_set)

{(1, 2, 3, 4)}


> 만일 집합의 내용이 같다면 두 집합은 동일하다.

In [55]:
{1,2,3} == {2,3,1}

True

### 3.1.6 리스트, 집합, 사전 표기법

##### 리스트 표기법
- `리스트 표기법`은 파이썬 언어에서 가장 사랑받는 기능 중 하나다. 이를 이용하면 아래의 반복문을 한 줄로 간결하게 표현할 수 있다.

---
result = []  

for val in collection :  

    if condition :      
        result.append(expr)
---

- 리스트 표기법  
result = [expr for val in collection if condition]

- 사전 표기법  
dict_comp = {key-expr : value_expr for value in collection if condiciton}

- 집합 표기법  
set_comp = {expr for value in collection if condiciton}

> 예1) 문자열 리스트 중 문자열의 길이가 2 이하인 문자열은 제외하고 나머지를 대문자로 바꾸기

In [56]:
strings = ['a','as','bat','car','dove','python']

[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

> 예2) 리스트 내의 문자열들의 길이를 담고있는 집합 생성하는 집합 표기법

In [58]:
unique_lengths = {len(x) for x in strings}
print(unique_lengths)

{1, 2, 3, 4, 6}


In [61]:
set(map(len,strings))   # map 함수를 이용해서 함수적으로 표현할 수도 있다.

{1, 2, 3, 4, 6}

> 예3) 리스트에서 문자열의 위치를 담고 있는 사전 생성하는 사전 표기법 (key - 문자열, value - 해당 문자열의 위치)

In [66]:
loc_mapping = {val : index for index, val in enumerate(strings)}
print(loc_mapping)

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}


##### 중첩된 리스트 표기법

> 예1) 다음과 같이 영어, 스페인어 이름들을 담고 있는 리스트의 리스트가 있다고 하자.  
이 때, 각 이름에서 e가 2개 이상 포함된 이름의 목록을 구한다고 가정하자.  
리스트는 for 문을 사용해서 다음처럼 구할 수 있다.

In [68]:
all_data = [['John','Emily','Michael','Mary','Steven'],
            ['Maria','Juan','Javier','Natalia','Pilar']]

In [73]:
names_of_interest = []

for names in all_data :
    enough_es = [name for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)

print(names_of_interest)

['Steven']


>  `중첩된 리스트 표기법`을 사용하면 다음처럼 한 번에 구현할 수 있다.

In [74]:
names_of_interest = [name for names in all_data for name in names if name.count('e') >= 2]
print(names_of_interest)

['Steven']


> 예2) 숫자 튜플이 담긴 리스트를 그냥 단순한 리스트로 변환하는 예제

In [76]:
some_tuples = [(1,2,3), (4,5,6), (7,8,9)]

In [77]:
flattend = []

for tup in some_tuples : 
    for x in tup : 
        flattend.append(x)

print(flattend)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


In [78]:
flattend = [x for tup in some_tuples for x in tup]
print(flattend)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


> 위 문법과 `리스트 표기법 안에서 리스트 표기법`을 사용하는 것의 차이를 구별하는 것은 매우 중요하다.

In [79]:
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

## 3.2 함수

### 3.2.1 네임스페이스, 스코프, 지역 함수

- 함수는 `전역`과 `지역`, 두 가지 $스코프^{scope}$에서 변수를 참조함.
- 함수 내에서 선언된 변수는 기본적으로 모두 지역 네임스페이스에 속함.
- 지역 네임스페이스는 함수가 호출될 때 생성되며 함수의 인자를 통해 즉시 생성됨.
- 함수의 실행이 끝나면 지역 네임스페이스는 사라짐

In [27]:
def func() : 
    a = []
    for i in range(5) : 
        a.append(i)

func()
a             # 함수가 실행될 때 a가 지역네임스페이스에서 생성되며, 함수가 끝남에 따라 지역 네임스페이스도 사라져, a도 사라지게 됨 

NameError: name 'a' is not defined

- 함수의 지역스페이스 밖에서 변수에 값을 대입하려면 그 변수를 `global` 예약어를 이용해서 전역 변수로 선언해야 한다.

In [30]:
a = None

def bind_a_variable() :
    global a
    a = []

bind_a_variable()
a                    

[]

### 3.2.2 여러 값으로 반환하기

In [31]:
def f() :
    a = 5
    b = 6 
    c = 7
    return a, b, c

return_value = f()
print(return_value)

(5, 6, 7)


In [33]:
def f() :
    a = 5
    b = 6 
    c = 7
    return {'a' : a, 'b' : b, 'c' : c}

f()

{'a': 5, 'b': 6, 'c': 7}

### 3.2.3 함수도 객체다

- 파이썬에서는 함수도 객체이므로 다른 언어에서는 힘든 객체 생성 표현을 쉽게 할 수 있다.


> 예) 데이터 정제 위해 다음과 같은 문자열 리스트를 변형해야 한다고 가정.

In [35]:
states = ['Alabama', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
         'southcarolina##', 'West virginia?']

In [40]:
import re

def clean_strings(strings) :
    result = []
    for value in strings :
        value = value.strip()
        value = re.sub('[!#?]',"",value)
        value = value.title()
        result.append(value)
    return result

In [41]:
clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'Southcarolina',
 'West Virginia']

- 다른 유용한 접근법으로는 적용할 함수를 리스트에 담아두고 각각의 문자열에 적용하는 것이다.
- 이러한 접근 방법은 함수가 재사용되기 용이하게 만들어준다.

In [42]:
def remove_punctuation(value) :
    return re.sub('[!#?]','',value) 

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops) :
    result = []
    for value in strings :
        for function in ops :
            value = function(value)
        result.append(value)
    return result

In [43]:
clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'Southcarolina',
 'West Virginia']

- 순차적 자료형에 대해 함수를 적용하는 내장 함수 `map함수`를 이용하면 함수를 인자로 사용할 수도 있다.

In [44]:
for x in map(remove_punctuation, states) :
    print(x)

Alabama
Georgia
Georgia
georgia
FlOrIda
southcarolina
West virginia


### 3.2.4 익명 함수

- 파이썬은 $익명^{anonymous}$함수 혹은 $람다^{lambda}$함수라고 하는 값을 반환하는 단순한 한 문장으로 이루어진 함수를 지원한다.
- lambda 예약어로 정의하며, 이는 '익명 함수를 선언한다'라는 의미이다.
- 람다 함수가 익명 함수라고 불리는 이유 중 하나는 이 함수 객체에는 명시적인 _name_ 속성이 없기 때문이다.

In [58]:
def apply_to_list(some_list, f) :
    return [f(x) for x in some_list]

ints = [4,0,1,5,6]
apply_to_list(ints, lambda x: x*2)

[8, 0, 2, 10, 12]

In [57]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

strings.sort(key = lambda x: len(set(list(x))))
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

### 3.2.5 커링: 일부 인자만 취하기

- `커링`은 수학자인 하스켈 커리의 일므에서 따온 컴퓨터 과학 용어.
- 커링은 함수에서 `일부 인자만 취하는` 새로운 함수를 만드는 기법

In [59]:
def add_numbers(x,y) :
    return x + y

In [60]:
add_five = lambda y: add_numbers(5,y)

In [62]:
add_five(10)

15

- add_five는 add_numbers의 두 번째 인자를 커링함.
- 여기서는 기존 함수를 호출하는 새로운 함수를 하나 정의한 것 뿐임

- 내장 functools 모듈의 partial 함수를 이용하면 이 과정을 단순화 할 수 있다.

In [63]:
from functools import partial
add_five = partial(add_numbers,5)

In [64]:
add_five(10)

15

### 3.2.6 제너레이터

- 순차적인 자료를 순회하는 일관적인 방법을 제공한다.
- `이터레이터 프로토콜`을 이용하면 순회 가능한 객체를 만들 수 있다.  


  
- 예를 들어 사전을 순회하면 사전의 키가 반환된다.

In [68]:
some_dict = {'a' : 1, 'b' : 2, 'c' : 3}

dict_iterator = iter(some_dict)    # for key in some_dict 구문을 사용하면 iter(some_dict)이 실행된다고 보면된다.

print(dict_iterator)
print(list(dict_iterator))

<dict_keyiterator object at 0x0000018C9AB48810>
['a', 'b', 'c']


- `제너레이터`는 순회 가능한 객체를 생성하는 간단한 방법.
- `일반 함수`는 실행되면 단일 값을 반환하는 반면 `제너레이터`는 순차적인 값을 매 요청 시마다 하나씩 반환한다.
- 제너레이터를 생성하려면 함수에서 `return`을 하는 대신에 `yield` 예약어를 사용한다.

In [69]:
def squares(n=10) :
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n+1) :
        yield i ** 2

In [73]:
gen = squares()
gen    # 제너레이터를 호출하더라도 코드가 즉각적으로 실행되지 않는다.

<generator object squares at 0x0000018C9AB4A9E0>

In [74]:
# 제너레이터로부터 값을 요청하면 그때서야 제너레이터의 코드가 실행된다.
for x in gen :
    print(x, end = ' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

#### 제너레이터 표현식
- 리스트 표현식에서 대괄호를 사용하듯이 괄호를 사용해서 제너레이터를 생성할 수 있다.

In [None]:
# 1)과 2)는 동일한 코드

# 1) ------------------------------
gen = (x ** 2 for x in range(100))


# 2) ------------------------------
def _make_gen() :
    for x in range(100) :
        yield x ** 2
gen = _make_gen()

- 제너레이터 표현식은 리스트 표현식을 인자로 받는 어떤 파이썬 함수에서도 사용할 수 있다.

In [75]:
sum(x ** 2 for x in range(100))

328350

In [77]:
dict((i, i**2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

#### itertools 모듈

- 표준 라이브러리인 itertools 모듈은 일반 데이터 알고리즘을 위한 많은 제너레이터를 포함하고 있다.
- 예를 들어 grouby는 순차 자료구조와 함수를 받아 인자로 받은 함수에서 반환하는 값에 따라 그룹을 지어준다.

In [81]:
import itertools

first_letter = lambda x : x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

for letter, names in itertools.groupby(names, first_letter) :
    print(letter, list(names))  # names는 제너레이터다. 

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


#### 유용한 itertools 함수

<details>
<summary>유용한 itertools 함수</summary>
<div markdown="1">

|함수|설명|
|:--|:--|
|combinations(iterable, k)|iterable에서 순서를 고려하지 않고 길이가 k인 모든 가능한 조합을 생성한다.|
|permutations(iterable, k)|iterable에서 순서를 고려하여 길이가 k인 모든 가능한 조합을 생성한다.|
|groupby(iterable[, keyfunc])|iterable에서 각각의 고유한 키에 따라 그룹을 생성한다.|
|product(*iterables, repeat=1)|iterable에서 카테시안 곱을 구한다. 중첩된 for 문 사용과 유사하다.|
    
</div>
</details>

### 3.2.7 에러와 예외 처리

- try/except : try 구문을 먼저 실행시켜보고, 에러가 발생한다면 except에 있는 구문을 실행시킴
- except [ValueError/TypeError] : 무시하고 싶은 에러를 특정하고 싶다면 except 뒤에 그 에러를 적어준다. 여러 개의 에러는 튜플로 묶어서 한 번에 예외처리 할 수도 있다.
- finally : 예외를 무시하지 않고, try 블록의 성공 여부와 관계없이 실행시키고 싶은 코드는 finally 구문을 통해 적어준다.

> float 함수 실행시 ValueError는 무시하고 TypeError는 받고 싶은 경우

In [92]:
def attempt_float(x) :
    try : 
        return float(x)
    except ValueError : 
   #except (ValueError, TypeError) :       튜플 형태로 두 개의 애러를 한꺼번에 처리할 수도 있다.
        return x

In [95]:
attempt_float('1.2345')

1.2345

In [96]:
attempt_float('something')

'something'

In [98]:
attempt_float((1,2))

TypeError: float() argument must be a string or a number, not 'tuple'

> 예외를 무시하지 않고, try 블록의 성공 여부와 상관없이 실행시키고 싶은 코드가 있는 경우 finally 구문 사용

In [None]:
f = open("./", 'w')

try :
    write_to_file(f)
except :
    print("Failed")
else :
    print("Succeeded")
finally:
    f.close()           # 여기서 파일 핸들 f는 항상 닫히게 된다.

## 3.3 파일과 운영체제

- 파일을 읽고 쓰기 위해 열 때는 내장 함수인 open을 이용해서 파일의 상대 경로나 절대 경로를 넘겨주어야 한다.

In [3]:
path = 'examples/segismundo.txt'

f = open(path)

- 기본적으로 파일은 읽기 전용 모드인 'r'로 열린다. 
- 파일 핸들 f를 리스트로 생각할 수 있으며 파일의 매 줄을 순회할 수 있다.
- 파일에서 읽은 줄은 $줄끝^{end-of-line, EOL}$ 문자가 남아 있으므로 이를 제거하는 다음과 같은 코드를 종종 보게 됨

In [8]:
lines = [x.rstrip() for x in open(path)]
lines

['Sue챰a el rico en su riqueza,',
 'que m찼s cuidados le ofrece;',
 '',
 'sue챰a el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sue챰a el que a medrar empieza,',
 'sue챰a el que afana y pretende,',
 'sue챰a el que agravia y ofende,',
 '',
 'y en el mundo, en conclusi처n,',
 'todos sue챰an lo que son,',
 'aunque ninguno lo entiende.',
 '']

- 파일 객체를 생성하기 위해 open을 사용했다면 작업이 끝났을 때 명시적으로 닫아주어야 한다.
- 파일을 닫으면 해당 자원을 운영체제로 되돌려준다.

In [9]:
f.close()

- with 문을 사용하면 파일 작업이 끝났을 때 필요한 작업이 끝난 후 파일 핸들 f를 자동으로 닫아준다.

In [10]:
with open(path) as f :
    lines = [x.rstrip() for x in f]

#### read, seek, tell

- read : 해당 파일에서 특정 개수만큼 문자를 반환한다. 여기서 '문자'는 인코딩으로 결정되거나 이진 모드인 경우에는 단순히 바이트로 결정된다.
- tell : read 메서드는 읽은 바이트만큼 파일 핸들의 위치를 옮기는데, tell 메서드는 현재 위치를 알려준다.
- seek : 파일 핸들의 위치를 해당 파일에서 지정한 바이트 위치로 옮긴다.

In [16]:
f = open(path)

In [17]:
f.read(10)

'Sue챰a el r'

In [18]:
f.tell()

11

In [19]:
f.read(10)

'ico en su '

In [20]:
f.tell()

21

In [21]:
f.seek(3)

3

In [22]:
f.tell()

3

In [23]:
f.close()

#### 파이썬 파일 모드

<details>
<summary>파이썬 파일 모드</summary>
<div markdown="1">

|모드|설명|
|:--|:--|
|r|읽기 전용 모드|
|w|쓰기 전용 모드, 새로운 파일을 생성한다(같은 이름의 파일이 존재하면 덮어쓴다).|
|x|쓰기 전용 모드, 새로운 파일을 생성한다. 이미 존재할 경우 실패한다.|
|a|기존 파일에 추가한다(파일이 존재하지 않을 경우 새로 생성한다).|
|r+| 읽기/쓰기모드|
|b|이진 파일 모드. 읽기/쓰기 모드에 추가해서 'rb' 또는 'wb'처럼 사용한다.|
|t|텍스트 모드(자동으로 바이트를 유니코드로 디코딩한다). 모드를 지정하지 않으면 t가 기본 모드로 지정된다. 다른 모드에 추가해서 'rt' 또는 'xt'처럼 사용한다.|
    
</div>
</details>


#### 파일에 텍스트 기록

- 파일에 텍스트를 기록하려면 write나 writelines 메서드를 이용하면된다. 

In [39]:
# 빈 줄이 포함되지 않도록 prof_mod.py를 작성하러면 다음과 같이 하면 된다.
with open('tmp.txt', 'w') as handle :
    handle.writelines(x for x in open(path) if len(x) > 1)

with open('tmp.txt') as f :
    lines = f.readlines()
    
lines

['Sue챰a el rico en su riqueza,\n',
 'que m찼s cuidados le ofrece;\n',
 'sue챰a el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sue챰a el que a medrar empieza,\n',
 'sue챰a el que afana y pretende,\n',
 'sue챰a el que agravia y ofende,\n',
 'y en el mundo, en conclusi처n,\n',
 'todos sue챰an lo que son,\n',
 'aunque ninguno lo entiende.\n']

#### 자주 사용하는 파일 메서드

<details>
<summary>중요 file 메서드와 속성</summary>
<div markdown="1">

|메서드|설명|
|:--|:--|
|read([size])|파일에서 데이터를 읽어서 문자열로 반환한다. size 인자를 사용해서 몇 바이트를 읽을 것인지 지정할 수 있다.|
|readlines([size])|파일의 매 줄을 모두 읽어 리스트로 반환한다. size 인자를 사용해서 얼마나 읽을 건인지 지정할 수 있다.|
|write(str)|전달받은 문자열을 파일에 기록한다.|
|writelines(strings)|전달받은 일련의 문자열을 파일에 기록한다.|
|close()|파일 핸들을 닫는다.|
|flush()|내부 I/O 버퍼를 디스크로 비운다.|
|seek(pos)|파일 내에서 지정한 위치(정수)로 이동한다.|
|tell()|현재 파일의 위치를 정수 형태로 변환한다.|
|closed|파일 핸들이 닫힌 경우 True를 반환한다.|
    
</div>
</details>
