#### 코드 성능 향상시켜 실행시간 측정하기

In [2]:
# 데이터 프레임 생성 및 함수 작성
import pandas as pd
import numpy as np

df = pd.DataFrame({'a':[10,20,30], 'b':[20,30,40]})

def avg_2_apply(row):
    x = row[0]
    y = row[1]
    if (x == 20):
        return np.nan
    else:
        return (x + y) / 2

In [5]:
# 실행시간 측정
%timeit df.apply(avg_2_apply, axis = 1)

687 µs ± 16.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [6]:
# 넘파이로 벡터화한 함수 사용
@np.vectorize
def v_avg_2_mod(x, y):
    if x == 20:
        return np.nan
    else:
        return(x + y) /2

In [7]:
# 실행시간 측정
%timeit v_avg_2_mod(df['a'], df['b'])

56.3 µs ± 2.72 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [8]:
# numba 라이브러리로 벡터화한 함수 사용
import numba

@numba.vectorize
def v_avg_2_mod(x, y):
    if x == 20:
        return np.nan
    else:
        return(x + y) /2

In [9]:
# 실행시간 측정
%timeit v_avg_2_mod(df['a'].values, df['b'].values)

4.87 µs ± 213 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


#### 위에서 아래로 내려올수록 점점 실행 속도가 빨라짐
#### 즉 함수를 최적화 하면 할수록 실행 속도가 빨라짐