# 함수 사용

- 데이터에 적용되는 다양한 함수 사용법을 다룬다
- def, lambda, map, apply
- (참고) \*args, \**kwargs, 

## import

In [1]:
import pandas as pd
import numpy as np

# def 
- 반복 사용되는 작업은 함수로 만들어 두면 편리하게 다시 사용할 수 있다
- 함수를 정의할 때 def를 사용한다
- 함수를 호출할 때 인자를 넘겨줄 수 있다
- 함수 실행 결과로 어떤 값을 받으려면 return 문을 사용한다

## 리턴 값이 없는 함수

In [2]:
# 주어진 작업만 수행하는 함수
def my_func(): 
    print("작업을 시작했습니다...")
    print("작업 종료!")

In [3]:
# 함수 호출 
my_func()

작업을 시작했습니다...
작업 종료!


## 리턴 값 정의
- return을 사용하며, 임의의 형태의 묶음 데이터도 리턴할 수 있다

In [4]:
# 임의의 주사위 값 2개 리턴 (정수 어레이 리턴)
def my_func(): 
    return np.random.randint(1,7,2)

y = my_func()
y

array([2, 6])

### (연습) 랜덤 넘버 10개를 리턴하는 함수를 만드시오
- (0~1) 사이의 값을 갖는 랜덤 넘버 생성

In [61]:
# (풀이)



## 인자

In [5]:
# 인자가 있는 함수 정의
def my_func(a,b,c): 
    return a*100 + b*10 + c

y = my_func(1, 2, 3)
y

123

### 인자의 디폴트 값

In [6]:
# 인자의 디폴트 값을 지정하는 함수 정의
def my_func(a=1,b=2,c=3): 
    return a*100 + b*10 + c

In [7]:
# 다양한 함수 호출이 가능
my_func()

123

In [8]:
my_func(b=2, c=1, a=3)

321

In [9]:
# 첫번째 인자만 지정
my_func(5)

523

In [10]:
# 두개의 인자만 지정
my_func(7,8)

783

In [11]:
# 일부 인자만 지정
my_func(c=9)

129

### 디폴트 값이 일부만 지정된 경우
- 주의: 디폴트 값이 없는 인자는 앞에 배치해야 한다
- 디폴트 값이 없는 인자는 필수 입력 인자임

In [12]:
def my_func(a,b=5,c=7): 
    return a*100 + b*10 + c

my_func(a=2)

257

In [13]:
my_func(2)

257

In [14]:
my_func(2,6)

267

### (연습) 같은 길이의 배열을 두개 입력하면 각 항목별 자승의 합을 구하는 함수를 만드시오
- 5개 길이의 어레이를 두개 만들어 입력으로 사용한다

In [62]:
# (풀이)



### 함수 내부변수
- 함수 정의 내부에서 사용한 변수는 임시변수로서 외부에서는 접근이 안된다
- 아래에서 p나 q는 함수 정의 외부에서 읽을 수 없다

In [45]:
# 입력변수 자승의 합과, 곱의 합을 리턴하는 함수 (a^2 + b^2 + ab)
def my_func(a,b): 
    p = a*a + b*b
    q = a*b
    return p + q

my_func(2, 3)

# print(p) # 오류가 발생한다!

19

### (연습) 함수 내부 변수를 함수 밖에서 접근하는 방법은? 위에서 p,q를 접근하는 방법은?

In [63]:
# (풀이)



# 편리한 함수 사용법

- lambda, map, apply

## lambda, 익명 함수 정의
- def, return을 사용하지 않고 간단히 함수를 정의할 수 있다

In [16]:
# 일반적인 함수 정의 방법
def my_f(x):
    return x*10

my_f(4)

40

In [17]:
# def, return을 사용하지 않는 방법
my_f = lambda x: x*10

my_f(4)

40

## map, 리스트에 함수 적용하기

- map의 첫번째 인자에는 함수를, 두번째 인자에는 데이터를 넣는다
- 리스트 외에도 튜플, 배열에 대해서도 사용할 수 있다
- 별도로 함수를 정의하지 않고 lambda를 사용하여 함수 내용만 정의할 수 있다

In [18]:
# 이미 정의된 함수명을 사용하는 경우
x = [1,2,3,4]
list(map(my_f, x))

[10, 20, 30, 40]

In [19]:
# 튜플도 사용할 수 있다
x = (1,2,3,4)
list(map(my_f, x))

[10, 20, 30, 40]

In [20]:
# 배열도 사용할 수 있다
y = np.array(x)
list(map(my_f, y))

[10, 20, 30, 40]

In [21]:
# lambda를 사용하는 방법 (익명 함수)
list(map(lambda i: i*10, x))

[10, 20, 30, 40]

In [22]:
# (참고) 위와 같은 리스트 생성은 다른 방법으로도 가능하다
[i*10 for i in x]

[10, 20, 30, 40]

### (연습) 숫자 리스트를 받으면 문자열 리스트로 바꾸는 함수를 만드시오
- (힌트) 숫자를 문자열로 바꾸려면 str() 함수를 사용한다

In [64]:
# (풀이)



## apply, 시리즈나 데이터프레임에 함수 적용

- apply는 리스트, 튜플, 배열에는 사용할 수 없다

In [23]:
x = {'city': ['서울', '부산', '대구', '대전', '광주'],
        'population': [990, 350, 250, 154, 150],
        'temp': [13, 16, 14, 13, 15]}

data = pd.DataFrame(x).set_index('city')
data

Unnamed: 0_level_0,population,temp
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


In [24]:
# 컬럼(시리즈)에 대해서 최대값을 찾기
data[["population","temp"]].apply(lambda x: x.max())

population    990
temp           16
dtype: int64

In [25]:
# 컬럼(시리즈)의 평균값 구하기
data[["population","temp"]].apply(lambda x: x.mean())

population    378.8
temp           14.2
dtype: float64

- 데이터프레임 전체에 함수 적용하기

In [26]:
data.apply(lambda x: x.mean())

population    378.8
temp           14.2
dtype: float64

### (연습) 모든 도시의 자동차수, 기온의 최대값과 최소값의 차이를 구하시오

In [65]:
# (풀이)



# 참고 \*args, \**kwargs

## 임의의 길이의 리스트 인자 사용
- 인자로 임의의 길이의 리스트나 튜플을 사용할 수 있다
- 이를 명시하기 위해서 리스트형 인자명 앞에 * 를 붙인다

In [29]:
def my_f(*args):
   for i in args: 
        print(i)

In [30]:
x = (1,2,3)
my_f(*x)

1
2
3


In [31]:
x = [1,2,3,4,5]
my_f(*x)

1
2
3
4
5


## 딕셔너리를 사용해 인자의 이름도 지정
- 임의의 갯수의 인자 이름을 넘겨줄 수 있다
- 이를 위해 딕셔너리를 사용한다 (키에 인자명, 값에 인자 값을 지정)
- 이를 명시하기 위해서 인자명 앞에 \**를 붙인다

In [32]:
def my_f(**kwargs):
    print("인자 갯수:", len(kwargs))
    print("인자 이름:", list(kwargs.keys()))
    print("인자 값:", list(kwargs.values()))
    # 인자를 사용한 작업 수행

In [33]:
dic = {'a':1, 'b':2, 'c':3}
my_f(**dic)

인자 갯수: 3
인자 이름: ['a', 'b', 'c']
인자 값: [1, 2, 3]


# 정답

### (연습) 랜덤 넘버 10개를 리턴하는 함수를 만드시오
- (0~1) 사이의 값을 갖는 랜덤 넘버 생성

In [36]:
def rand_n(): 
    return np.random.rand(10)
rand_n()

array([0.27735973, 0.18621162, 0.91329298, 0.89713478, 0.63400016,
       0.36762895, 0.70580835, 0.65833767, 0.68639758, 0.99806999])

### (연습) 같은 길이의 배열을 두개 입력하면 각 항목별 자승의 합을 구하는 함수를 만드시오
- 5개 길이의 어레이를 두개 만들어 입력으로 사용한다

In [41]:
def sum_2(a,b):
    return a*a + b*b

x1 = np.arange(5)
x2 = np.arange(10, 15)
print('입력: ',x1, x2)

sum_2(x1, x2)

입력:  [0 1 2 3 4] [10 11 12 13 14]


array([100, 122, 148, 178, 212])

### (연습) 함수 내부 변수를 함수 밖에서 접근하는 방법은? 위에서 p,q를 접근하는 방법은?

In [48]:
# 아래와 같이 return 문에 포함하면 된다
def my_func(a,b): 
    p = a*a + b*b
    q = a*b
    return p, q, (p + q)

p, q, pq_sum = my_func(2, 3)
p, q, pq_sum

(13, 6, 19)

### (연습) 숫자 리스트를 받으면 문자열 리스트로 바꾸는 함수를 만드시오
- (힌트) 숫자를 문자열로 바꾸려면 str() 함수를 사용한다

In [57]:
list(map(lambda i: str(i), x))

['1', '2', '3', '4', '5']

### (연습) 모든 도시의 자동차수, 기온의 최대값과 최소값의 차이를 구하시오

In [60]:
data.apply(lambda x: x.max()-x.min())

population    840
temp            3
dtype: int64