# 파이썬 프로그래밍 기초 5부

## 주요 내용

* 함수
* 파일

## 함수

함수는 지정된 코드에 이름을 주어 필요할 때 간편하게 재사용할 수 있도록 도와주는 수단이다.

* 함수는 `def` 예약어를 이용하여 선언한다.
* 함수는 여러 개의 인자를 받을 수 있으며, 인자를 받는 역할을 수행하는 변수를 __매개변수__ 또는 
    __키워드__라고 한다.
* 함수의 인자는 위치 인자와 키워드 인자로 구분된다.
    예를 들어, 아래 함수에서 `x`와 `y`는 위치 인자를 받는 매개변수이고,
    `z`는 키워드 인자를 받는 매개변수이다.
* 키워드 인자는 함수를 선언할 때 함께 지정되며, 해당 함수를 호출할 때 키워드 인자를 따로 지정하지 않으면
    함수를 선언할 때 지정된 기본값이 사용된다.

아래 함수는 셋째 인자, 즉, 키워드 인자를 1보다 큰 값으로 지정할 때와 
아닐 때를 구분하여 다른 값을 계산하여 반환한다.
만약에 키워드 인자를 따로 지정하지 않으면 기본값이 1보다 크기에 2배 연산이 사용된 값이 반환된다.

In [1]:
def my_function(x, y, z=1.5):
    if z > 1:
        return 2 * (x + y) - z
    else:
        return (x + y) + z

In [2]:
my_function(5, 6, z=1)

12

In [3]:
my_function(3.14, 7, 3.5)

16.78

In [4]:
my_function(10, 20)

58.5

### 네임 스페이스와 스코프

함수는 전역 변수와 지역 변수 모두 사용할 수 있다.

* 전역 변수: 함수 밖에서 선언된 변수
* 지역 변수: 함수의 매개변수 또는 함수 내에서 선언된 변수

예를 들어 아래 함수 `func1()`는 두 개의 지역변수 `a`와 `b` 모두 사용한다.

In [5]:
def func1(b):
    a = []
    for i in range(5):
        a.append(i)
    
    b.extend(a)
    return b

In [6]:
print(func1([-4, -3, -2, -1]))

[-4, -3, -2, -1, 0, 1, 2, 3, 4]


아래 함수 `func2()`는 전역변수 `a`와 지역변수 `b` 모두 사용한다.

In [7]:
a = []

def func2(b):
    for i in range(5):
        a.append(i)
    
    b.extend(a)
    return b

In [8]:
print(func2([-4, -3, -2, -1]))

[-4, -3, -2, -1, 0, 1, 2, 3, 4]


전역변수가 가리키는 값을 함수 내에서 변경하려면 `global` 예약어를 이용해야 한다.
`global` 예약어를 사용하지 않으면 의도대로 작동하지 않을 수 있다.

In [9]:
a = None

def bind_a_variable(b):
    a = [1, 2, 3]
    a = a + b

bind_a_variable([4, 5])

print(a)

None


`global` 예약어를 사용하면 다르게 작동한다.

__주의사항:__ `global` 예약어는 조심스럽게 다루어어야 하기에
특별한 상황이 아니라면 사용을 피해야 한다. 
이유는 복잡하기에 여기서는 그렇다고 언급만 한다.

In [10]:
a = None

def bind_a_variable(b):
    global a
    a = [1, 2, 3]
    a = a + b

bind_a_variable([4, 5])

print(a)

[1, 2, 3, 4, 5]


모든 변수는 이처럼 역할에 따라 활동 영역이 달라진다.
변수의 활동영역을 __스코프__(scope)라 부르며, 
변수들의 스코프에 따라 구분하여 관리하는 도구가 __네임 스페이스__(name space)이다.

예를 들어, 전역변수 네임 스페이스에 포함된 변수는 `globals()` 함수를 이용하여 확인할 수 있다.
아래 코드를 실행하면 매우 많은 변수를 확인하게 된다.

```python
globals()
```

모든 함수는 자체의 네임 스페이스를 관리한다.
함수가 실행되는 도중에 `locals()` 함수가 호출되면 해당 함수가 사용할 수 있는 지역변수들을 확인할 수 있다.

In [12]:
a = []

def func2(b):
    for i in range(5):
        a.append(i)
        
    b.extend(a)
    
    print("지역 변수: ", locals())  # func2() 함수의 네임 스페이스 확인
    return b

`func2()` 는 실행 도중에 전역변수 이외에 `b`와 `i` 두 개의 지역변수를 사용할 수 있음을
아래와 같이 확인할 수 있다.

In [13]:
func2([])

지역 변수:  {'b': [0, 1, 2, 3, 4], 'i': 4}


[0, 1, 2, 3, 4]

### 여러 개의 값 반환하기

함수는 실행 중에 `return` 예약어를 만나는 순간에 지정된 값을 반환하고 실행을 멈춘다.
즉, 원칙적으로 하나의 값만 반환할 수 있다는 의미이다.
그런데 튜플을 이용하여 여러 개의 값을 하나로 묶어 반환할 수 있다.
예를 들어, 아래 함수는 `a`, `b`, `c` 세 개의 값을 튜플로 반환한다.

In [15]:
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c

a, b, c = f()

__주의사항:__ 마치 세 개의 값을 반환하는 것처럼 보이지만 실제로는 `(a, b, c)`를 반환한다.

In [17]:
type(f())

tuple

### 제1종 객체와 함수

__제1종 객체__(first-class object)는 변수 선언, 함수의 인자 및 반환값 등으로 사용되어
저장 및 변경이 가능한 객체를 의미한다. 
정수, 부동소수점, 문자열, 리스트, 튜플, 사전 등이 대표적인 제1종 객체이다.
그런데 파이썬에서는 함수도 제1종 객체이다. 
앞서 파이썬에서 다루는 모든 값은 객체라고 하였는데 함수 역시 객체로 정의된다.

__참고:__ 프로그래밍 언어에 따라 제1종 객체의 범위가 다르다.
예를 들어, 파이썬, 자바 등에서는 함수는 제1종 객체가 아니다.

__참고:__ '제1종 객체' 표현 대신에 '1급 객체' 표현이 참고서에 많이 사용된다. 
하지만 객체를 1급, 2급 등으로 나누는 것은 표현상 적절하지 않다는 판단하에 여기서는 제1종, 제2종 등의
표현을 사용한다.

#### 예제

정돈되지 않은 문자열들의 리스트가 아래와 같이 주어졌을 때 필요 없는 기호를 제거하는 작업을 진행하려 한다.

In [26]:
states = ['   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
          'south   carolina##', 'West virginia?']

예를 들어, 스페이스, 느낌표, 물음표 등의 기호를 삭제하거나, 단어의 첫글자를 대문자로 변경하는 작업이 필요하다.
단, 하나의 문자열에 포함된 단어들 사이의 빈 공간은 그대로 두어야 한다.

언급된 작업 모두 문자열 메서드 또는 문자열과 관련된 함수로 처리할 수 있다.

* `strip()` 문자열 메서드: 단어 양끝의 스페이스 제거

In [35]:
"\n   Alabama\t   ".strip()

'Alabama'

* `title()` 문자열 메서드: 단어의 첫글자만 대문자로 변경

In [33]:
"souTh   cArolina".title()

'South   Carolina'

* `re` 모듈의 `sub()` 함수: 문자열의 일부를 다른 문자령로 대체하기

In [36]:
import re

In [37]:
re.sub('[!#?]', '', "Geo#rgi?a!")

'Georgia'

세 함수를 `for` 반복문에 함께 이용하면 리스트에 모든 문자열을 
예쁘게 처리할 수 있다.

__참고:__ 이와 같이 데이터를 다루기 좋게 처리하는 과정을 __데이터 전처리__라고 한다.

In [39]:
result = []
for value in states:
    value = value.strip()
    value = re.sub('[!#?]', '', value)
    value = value.title()
    result.append(value)
    
result

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

아래 함수는 임의의 리스트에 대해 언급된 전처리를 처리하도록 하는 함수이다.

In [40]:
def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result

위 함수를 이용하면 동일한 결과를 얻는다.

In [41]:
clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

`clean_strings()` 함수가 갖는 하나의 한계는 전처리 과정에 다른 종류의 작업을 처리하는 함수가 추가되어야 하거나
처리 작업의 종류가 달라질 때 발생한다.
왜냐하면 그럴 때는 함수 자체의 정의를 수정해야 하는 수고를 들여야 하기 때문이다.

이에 대한 해결책은 함수의 본문에서 처리하는 과정을 작업 기능에 따라 분리해 내어 `clean_string()` 함수와
별도로 관리하는 것이다. 
예를 들어, 각각의 작업처리 함수를 하나의 리스트에 담아 놓은 후 `clean_sting()` 함수는 그 리스트에 포함된
함수를 필요할 때 활용하도록 할 수 있다.
그런데 이렇게 하려면 함수를 리스트의 항목으로 사용할 수 있어야 하는데,
파이썬에서는 함수의 이름으로 구성된 리스트를 작성하기만 하면 된다.

예를 들어, `strip()`과 `title()` 두 문자열 메서드의 이름으로 구성된 리스트는 아래와 같다.

__주의사항:__ 함수를 명기 할 때 괄호를 사용하면 함수가 실행되어 반환한 값을 가리킨다. 
따라서 괄호를 사용하지 않아야 함수 자체가 값으로 취급된다.

__참고:__ 함수가 제1종 객체가 아닌 프로그래밍 언어에서는 함수들의 리스트, 어레이 등을 보다 복잡하게 다루어야 한다.

In [42]:
[str.strip, str.title]

[<method 'strip' of 'str' objects>, <method 'title' of 'str' objects>]

위 리스트에 느낌표, 샵, 물음표 기호를 제거하는 함수를 추가하려면 먼저 해당 함수를 정의해야 한다.

In [43]:
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

앞서 사용된 세 작업을 수행하는 함수들의 리스트가 다음과 같다.

In [71]:
clean_ops = [str.strip, remove_punctuation, str.title]

위 리스트를 이용하여 `clean_string()` 함수를 재정의할 수 있다.

* 첫째 인자: 단어들의 리스트
* 둘째 인자: 작업 처리 함수들의 리스트

In [45]:
def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

In [46]:
clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

좋아 보인다. 그런데 'South   Carolina'의 경우 두 단어 사이에 스페이스가 너무 많이 들어가 있는데
언급된 세 작업은 이를 처리하지 못한다. 

이런 문자열을 처리하는 방법은 문자열을 스페이스 기준으로 쪼갠 다음에 다시 하나의 문자열로 합치는 것이다.

* `split()` 문자열 메서드: 지정된 인자를 기준으로 문자열 쪼개기. 반환값은 문자열들의 리스트.
    인자를 지정하지 않으면 스페이스를 기준으로 사용.

In [48]:
'South   Carolina'.split()

['South', 'Carolina']

* `join()` 문자열 메서드: 지정된 문자열을 기준으로 문자열들의 리스트를 하나의 문자열로 이어붙이기

예를 들어, 스페이스(" ")를 기준으로 `South`와 `Carolina`를 이어붙이는 방법은 다음과 같다.

In [49]:
" ".join(['South', 'Carolina'])

'South Carolina'

쉼표와 스페이스(`, `)로 구분하고 싶다음 다음과 같이 한다.

In [57]:
", ".join(['South', 'Carolina'])

'South, Carolina'

위 두 작업을 처리하는 함수를 기존의 처리 함수 리스트에 추가해야 한다.
`split()` 문자열 메서드는 `str.split` 으로 지정하면 되지만,
`join()` 문자열 메서드는 여기서 필요한 스페이스 기준을 지정해야 하기에 아래와 같이 함수를 새로 정의해서 사용한다.

In [66]:
def space_join(a_list):
    return " ".join(a_list)

이제 위 두 함수를 `clean_ops` 리스트에 추가한 후에 `clean_string()` 함수를 다시 실행하자.

__주의사항:__ `clean_string()` 함수는 전혀 수정하지 않는다.

In [72]:
clean_ops.extend([str.split, space_join])

In [73]:
clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

#### `map()` 함수 활용

In [47]:
for x in map(remove_punctuation, states):
    print(x)

   Alabama 
Georgia
Georgia
georgia
FlOrIda
south   carolina
West virginia


### Anonymous (Lambda) Functions

def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2

def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)

In [None]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [None]:
strings.sort(key=lambda x: len(set(list(x))))
strings

### Currying: Partial Argument Application

def add_numbers(x, y):
    return x + y

add_five = lambda y: add_numbers(5, y)

from functools import partial
add_five = partial(add_numbers, 5)

### Generators

In [None]:
some_dict = {'a': 1, 'b': 2, 'c': 3}
for key in some_dict:
    print(key)

In [None]:
dict_iterator = iter(some_dict)
dict_iterator

In [None]:
list(dict_iterator)

In [None]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2

In [None]:
gen = squares()
gen

In [None]:
for x in gen:
    print(x, end=' ')

#### Generator expresssions

In [None]:
gen = (x ** 2 for x in range(100))
gen

def _make_gen():
    for x in range(100):
        yield x ** 2
gen = _make_gen()

In [None]:
sum(x ** 2 for x in range(100))
dict((i, i **2) for i in range(5))

#### itertools module

In [None]:
import itertools
first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names is a generator

### Errors and Exception Handling

In [None]:
float('1.2345')
float('something')

In [None]:
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

In [None]:
attempt_float('1.2345')
attempt_float('something')

In [None]:
float((1, 2))

In [None]:
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

In [None]:
attempt_float((1, 2))

In [None]:
def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x

f = open(path, 'w')

try:
    write_to_file(f)
finally:
    f.close()

f = open(path, 'w')

try:
    write_to_file(f)
except:
    print('Failed')
else:
    print('Succeeded')
finally:
    f.close()

#### Exceptions in IPython

In [10]: %run examples/ipython_bug.py
---------------------------------------------------------------------------
AssertionError                            Traceback (most recent call last)
/home/wesm/code/pydata-book/examples/ipython_bug.py in <module>()
     13     throws_an_exception()
     14
---> 15 calling_things()

/home/wesm/code/pydata-book/examples/ipython_bug.py in calling_things()
     11 def calling_things():
     12     works_fine()
---> 13     throws_an_exception()
     14
     15 calling_things()

/home/wesm/code/pydata-book/examples/ipython_bug.py in throws_an_exception()
      7     a = 5
      8     b = 6
----> 9     assert(a + b == 10)
     10
     11 def calling_things():

AssertionError:

## Files and the Operating System

In [None]:
%pushd book-materials

In [None]:
path = 'examples/segismundo.txt'
f = open(path)

for line in f:
    pass

In [None]:
lines = [x.rstrip() for x in open(path)]
lines

In [None]:
f.close()

In [None]:
with open(path) as f:
    lines = [x.rstrip() for x in f]

In [None]:
f = open(path)
f.read(10)
f2 = open(path, 'rb')  # Binary mode
f2.read(10)

In [None]:
f.tell()
f2.tell()

In [None]:
import sys
sys.getdefaultencoding()

In [None]:
f.seek(3)
f.read(1)

In [None]:
f.close()
f2.close()

In [None]:
with open('tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)
with open('tmp.txt') as f:
    lines = f.readlines()
lines

In [None]:
import os
os.remove('tmp.txt')

### Bytes and Unicode with Files

In [None]:
with open(path) as f:
    chars = f.read(10)
chars

In [None]:
with open(path, 'rb') as f:
    data = f.read(10)
data

In [None]:
data.decode('utf8')
data[:4].decode('utf8')

In [None]:
sink_path = 'sink.txt'
with open(path) as source:
    with open(sink_path, 'xt', encoding='iso-8859-1') as sink:
        sink.write(source.read())
with open(sink_path, encoding='iso-8859-1') as f:
    print(f.read(10))

In [None]:
os.remove(sink_path)

In [None]:
f = open(path)
f.read(5)
f.seek(4)
f.read(1)
f.close()

In [None]:
%popd

## Conclusion