# 직접 해보세요!
## 코드의 성능을 향상시켜 실행 시간 측정하기 ― timeit

#### 성능 향상시키기 - cython, numba

In [3]:
import pandas as pd
import numpy as np

In [6]:
df = pd.DataFrame({'a': [10, 20, 30], 'b': [20, 30, 40]})
df

Unnamed: 0,a,b
0,10,20
1,20,30
2,30,40


In [7]:
def avg_2_apply(row):
    x = row[0]
    y = row[1]
    if(x == 20):
        return np.nan
    else:
        return (x + y)/2

### 2. 판다스 데이터프레임 ― 실행 시간 측정

In [8]:
%%timeit
df.apply(avg_2_apply, axis = 1)
#1,000번 함수를 반복 실행하였고 그에 해당하는 실행 시간은 316마이크로초 (오차범위 12.1 마이크로초)

316 µs ± 12.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### 3. 넘파이로 벡터화한 함수 사용하기 ― 실행 시간 측정

In [9]:
@np.vectorize
def v_avg_2mod(x, y):
    if(x == 20):
        return (np.NaN)
    else:
        return (x + y) / 2

In [10]:
%%timeit
v_avg_2mod(df['a'], df['b'])
# 10,000번 함수를 반복 실행하였고 그에 해당하는 실행 시간은 43.8마이크로초(오차범위 518 나노초)

43.8 µs ± 518 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


### 5. numba 라이브러리로 벡터화한 함수 사용하기 ― 실행 시간 측정

In [11]:
import numba

@numba.vectorize
def v_avg_2_numba(x, y):
    if(x == 20):
        return (np.NaN)
    else:
        return (x + y) / 2

In [12]:
%%timeit
v_avg_2_numba(df['a'].values, df['b'].values)
#100,000번 함수를 반복 실행하였고 그에 해당하는 실행 시간은 9.7마이크로초(오차범위는 12.3마이크로초)

The slowest run took 9.07 times longer than the fastest. This could mean that an intermediate result is being cached.
9.7 µs ± 12.3 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
