# 성능 향상 시키기 - cython, numba 라이브러리

## 코드성능 향상시켜 실행 시간 측정 - timeit
### %%timeit

In [2]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'a':[10, 20, 30], 'b':[20, 30, 40]})

def avg_2_apply(row):
    x = row[0]
    y = row[1]
    if (x==20):
        return np.nan
    else:
        return (x+y)/2

#### 판다스 데이터프레임 - 실행 시간 측정

In [3]:
%%timeit
df.apply(avg_2_apply, axis=1)

916 µs ± 21.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


#### numpy로 벡터화한 함수 사용 - 실행 시간 측정

In [4]:
@np.vectorize
def v_avg_2_mod(x, y):
    if (x==20):
        return(np.NaN)
    else:
        return (x+y)/2

In [5]:
%%timeit
v_avg_2_mod(df['a'], df['b'])

137 µs ± 3.65 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


#### numba 라이브러리로 벡터화한 함수 사용 - 실행 시간 측정

In [6]:
import numba

@numba.vectorize
def v_avg_2_numba(x, y):
    if (int(x) == 20):
        return(np.NAN)
    else:
        return (x+y)/2

In [7]:
%%timeit
v_avg_2_numba(df['a'].values, df['b'].values)

The slowest run took 8.54 times longer than the fastest. This could mean that an intermediate result is being cached.
11.1 µs ± 13.4 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


* 파이콘
* 사이파이(SciPy)
* 유로 사이파이(EuroSciPy)
* Daniel Chen