# 유용한 numpy 함수 정리

In [2]:
import numpy as np

## np.r_ - slicing에 유용

여러 array를 하나로 concat하는 역할

In [3]:
np.r_[2:5, 6:10]

array([2, 3, 4, 6, 7, 8, 9])

## .extract - 필터링

In [49]:
a = np.arange(10)
np.extract(a < 5, a)

array([0, 1, 2, 3, 4])

## .where - 필터링 + T/F 변환

np.where( 조건식, True 결과, False 결과 )

In [2]:
a = np.arange(10)
np.where(a < 5, a, 10*a)

array([ 0,  1,  2,  3,  4, 50, 60, 70, 80, 90])

In [4]:
np.where(a < 3) # 조건식 결과만 index로 가져올 수도 있음

(array([0, 1, 2]),)

## .select - 조건식 + 치환

numpy.select(condlist, choicelist, default=0)

**condlist의 조건식과 매칭되는 choicelist의 결과로 치환한다.**

모두 해당하지 않으면 default 값 / 단, 조건식이 겹치는 경우, 앞 조건식의 결과가 반영되므로 조심해야 한다.

In [5]:
x = np.arange(10)

condlist = [x<3, x>5] # 조건식 형태로 입력
choicelist = [x, x**2]
np.select(condlist, choicelist, default=100) # 데이터 변수(x) 따로 사용 불필요

array([  0,   1,   2, 100, 100, 100,  36,  49,  64,  81])

## .isin - SQL의 in

np.isin( input array, 비교 array )

In [3]:
a = [3,5,15]
b = np.arange(10)
np.isin(a, b)

array([ True,  True, False])

이 결과를 df.loc[ ]에 조건으로 활용

is not in 은 invert 옵션으로 표현 (np.invert 사용보다 빠르다고 함)

In [4]:
np.isin(a, b, invert=True)

array([False, False,  True])

## .digitize

데이터를 특정값 기준 group 별로 어떤 처리를 할 때 유용 // pandas의 cut 함수와 유사함

right option이 pd.cut과 달라 주의 ( digitize - False, pd.cut - True )

In [5]:
times = np.array(['AM','PM'])
bins = np.digitize([6,11,13,22], bins=[12, 24])

위의 경우, < 12 , 12 <= 24, 24 >  3가지 그룹에 맞게 indexing( bins+1 )

In [6]:
bins

array([0, 0, 1, 1])

In [9]:
np.choose(bins, times)
# times[bins]와 같음

array(['AM', 'AM', 'PM', 'PM'], dtype='<U2')

## .argpartition

N largest 또는 N smallest를 찾을 때 유용

함수 설명 : 

기준 값만 맞는 순서에 놓고(pivot) 작은 값은 왼쪽, 큰 값은 오른쪽 이동 (정렬 X)

In [32]:
x = np.array([ 8,3,1,6,4,10])
x

array([ 8,  3,  1,  6,  4, 10])

In [33]:
# largest 구현
x[ np.argpartition(x, 3) ]
# 오름차순 3번째인 4의 위치를 맞게 맞추고 나머지 이동

array([ 3,  1,  4,  6,  8, 10])

In [34]:
sorted( x[ np.argpartition(x, 3) ][-3:], reverse=True)

[10, 8, 6]