# 함수 사용
- 파이썬의 장점은 데이터를 다루는 방식이 직관적이고 편리하다는 것
- 데이터에 적용되는 다양한 함수 사용법을 다룬다
- def, \*args, **kwargs, lambda, map, apply

## def 
- 반복 사용되는 작업은 함수로 만들어 두면 편리하게 다시 사용할 수 있다
- 함수를 정의할 때 def를 사용한다
- 함수를 호출할 때 인자를 넘겨줄 수 있다
- 함수 실행 결과로 어떤 값을 받으려면 return 문을 사용한다

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 함수 정의 (리턴 값이 없는 함수)
def my_func(): 
    print("작업을 수행했습니다...")

In [3]:
# 함수 호출 
my_func()

작업을 수행했습니다...


In [4]:
# 리턴 값이 있는 함수 정의
def my_func(): 
    return 100

y = my_func()
y

100

In [5]:
# 인자가 있는 함수 정의
def my_func(a,b,c): 
    return a*100 + b*10 + c

y = my_func(1, 2, 3)
y

123

In [6]:
# 인자의 디폴트 값을 지정하는 함수 정의
def my_func(a=1,b=2,c=3): 
    return a*100 + b*10 + c

In [7]:
# 다양한 함수 호출이 가능
my_func()

123

In [8]:
my_func(b=2, c=1, a=3)

321

In [9]:
# 첫번째 인자만 지정
my_func(5)

523

In [10]:
# 두개의 인자만 지정
my_func(7,8)

783

In [11]:
# 일부 인자만 지정
my_func(c=9)

129

### 디폴트 값이 일부만 지정된 경우
- 주의: 디폴트 값이 없는 인자는 앞에 배치해야 한다

In [12]:
def my_func(a,b=5,c=7): 
    return a*100 + b*10 + c

my_func(a=2)

257

In [13]:
my_func(2)

257

In [14]:
my_func(2,6)

267

### 함수는 두개 이상의 결과를 리턴할 수 있다

In [15]:
def my_func(a=1,b=2,c=3): 
    p = a*100 + b*10 + c
    q = a+b+c
    return (p, q)

x, y = my_func()
print(x, y)

123 6


### 주의
- 함수 정의 내부에서 사용한 변수는 임시변수로서 외부에서는 접근이 안된다
- 위에서 p나 q는 함수 정의 외부에서 읽을 수 없다

In [16]:
# print(p) # 오류가 발생한다

## 임의의 길이의 인자 사용
- 인자로 임의의 길이의 리스트나 튜플을 사용할 수 있다
- 이를 명시하기 위해서 앞에 * 를 붙인다

In [17]:
def my_f(*args):
   for i in args: 
        print(i)
    
my_f(1,2,3)

1
2
3


In [18]:
x = (1,2,3)
my_f(*x)

1
2
3


In [19]:
x = [1,2,3,4,5]
my_f(*x)

1
2
3
4
5


### 인자의 이름도 임의로 지정할 수 있다
- 임의의 갯수의 인자 이름을 넘겨줄 수 있다
- 이를 위해 딕셔너리를 사용한다 (키에 인자명, 값에 인자 값을 지정)
- 이를 명시하기 위해서 \**를 사용한다

In [20]:
def my_f(**kwargs):
    print("인자 갯수:", len(kwargs))
    print("인자 이름:", list(kwargs.keys()))
    print("인자 값:", list(kwargs.values()))
    # 인자를 사용한 작업 수행

In [21]:
dic = {'a':1, 'b':2, 'c':3}
my_f(**dic)

인자 갯수: 3
인자 이름: ['a', 'b', 'c']
인자 값: [1, 2, 3]


# 다양한 함수 사용법

## lambda, 간단히 함수 정의하기
- def를 사용하지 않고 함수를 정의할 수 있다

In [22]:
# 일반적인 함수 정의 방법
def my_f(x):
    return x*10

my_f(4)

40

In [23]:
# def을 사용하지 않는 방법
my_f = lambda x: x*10

my_f(4)

40

## map, 리스트에 함수 적용하기

- map의 첫번째 인자에는 함수를, 두번째 인자에는 데이터를 넣는다
- 리스트 외에도 튜플, 배열에 대해서도 사용할 수 있다
- 이 때 함수명을 만들지 않고 lambda를 사용하여 함수 내용만 정의할 수 있다

In [24]:
# 이미 정의된 함수명을 사용하는 경우
x = [1,2,3,4]
list(map(my_f, x))

[10, 20, 30, 40]

In [25]:
# 튜플도 사용할 수 있다
x = (1,2,3,4)
list(map(my_f, x))

[10, 20, 30, 40]

In [26]:
# 배열도 사용할 수 있다
y = np.array(x)
y

array([1, 2, 3, 4])

In [27]:
list(map(my_f, y))

[10, 20, 30, 40]

In [28]:
# 함수명 자체를 사용하지 않는 방법 (익명 함수)
list(map(lambda i: i*10, x))

[10, 20, 30, 40]

In [29]:
list(map(lambda x: x*10, y))

[10, 20, 30, 40]

In [30]:
# (참고) 위와 같은 간단한 리스트 생성은 다른 방법으로도 가능하다
[i*10 for i in x]

[10, 20, 30, 40]

## apply, 시리즈나 데이터프레임에 함수 적용하기
- apply는 리스트, 튜플, 배열에는 사용할 수 없다

In [31]:
x = [1,2,3,4,5,6]
s = pd.Series(x)
s

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [32]:
# 시리즈의 모든 데이터에 대해서 10을 곱하는 함수 my_f를 적용한다 
s.apply(my_f)

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [33]:
# 함수명을 사용하지 않고 익명의 함수정의를 사용하는 방법
s.apply(lambda x : x*10)

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [34]:
# 홀수와 짝수를 구분하는 예 (특정한 기능을 시리즈에 일괄 적용하기에 편리)
s.apply(lambda x : 1 if x%2 ==1 else 0)

0    1
1    0
2    1
3    0
4    1
5    0
dtype: int64

### (참고) apply 대신 map을 사용할 수도 있다

In [35]:
s.map(lambda x : x*10)

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

## 데이터프레임에 함수 적용

In [36]:
x = {'city': ['서울', '부산', '대구', '대전', '광주'],
        'population': [990, 350, 250, 154, 150],
        'temp': [13, 16, 14, 13, 15]}

data = pd.DataFrame(x)
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


- 데이터프레임의 한 컬럼은 시리즈가 된다

In [37]:
# temp 컬럼의 모든 값에 3을 더한다
data['temp'].apply(lambda x : x+3)

0    16
1    19
2    17
3    16
4    18
Name: temp, dtype: int64

In [38]:
# 각 컬럼(시리즈)에 대해서 최대값을 찾기
data[["population","temp"]].apply(lambda x: x.max())

population    990
temp           16
dtype: int64

In [39]:
# 각 컬럼의 평균값 구하기
data[["population","temp"]].apply(lambda x: x.mean())

population    378.8
temp           14.2
dtype: float64

In [40]:
# 행을 대상으로 함수 적용도 가능하다 (인구와 기온의 평균 구하기??)
data[["population","temp"]].apply(lambda x: x.mean(), axis=1)

0    501.5
1    183.0
2    132.0
3     83.5
4     82.5
dtype: float64

### 데이터프레임 전체에 함수 적용하기, apply()

In [41]:
df = pd.DataFrame(np.arange(20).reshape(4,5))
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [42]:
# 데이터프레임의 모든 컬럼에 대해서 동일한 함수를 적용
df.apply(lambda x: x.mean())

0     7.5
1     8.5
2     9.5
3    10.5
4    11.5
dtype: float64

In [43]:
# 데이터프레임의 모든 행에 대해서 동일한 함수를 적용
df.apply(lambda x: x.mean(), axis=1)

0     2.0
1     7.0
2    12.0
3    17.0
dtype: float64