# 4.3 배열을 사용한 데이터 처리

Numpy의 배열을 이용하면, 반복문을 사용하지 않고 간결한 배열연산이 가능하다.  
배열연산을 이용해 반복문을 명시적으로 제거하는 기술을 Vectorization이라고 한다.  
일반적으로 백터화된 배열에 대한 산술연산은 순수 파이썬 연산에 비해 2~수백배까지 빠르다.  

## 4.3.1 배열연산으로 조건절 표현하기 (numpy.where)

numpy.where 함수는 'x if condition where y' 같은 삼항식의 벡터화 버전이다.

먼저 다음과 같은 불리언 배열과 값을 가진 두 배열이 있다고 하자.

In [5]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])

In [6]:
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])

In [7]:
cond = np.array([True, False, True, True ,False])

cond 배열 값에 따라 xarr 값을 또는 yarr 값을 취하고 싶다면, 다음과 같이 할 수 있다.

In [8]:
result = [(x if c else y) for x, y, c in zip(xarr, yarr ,cond)]

In [9]:
result

[1.1000000000000001, 2.2000000000000002, 1.3, 1.3999999999999999, 2.5]

cf) zip(iterator) 함수는 동일한 개수로 이루어진 자료형을 묶어주는 함수이다.

In [11]:
list(zip(xarr, yarr))

[(1.1000000000000001, 2.1000000000000001),
 (1.2, 2.2000000000000002),
 (1.3, 2.2999999999999998),
 (1.3999999999999999, 2.3999999999999999),
 (1.5, 2.5)]

하지만 위와 같은 방식은 다차원에서 불가능하고, 큰 배열을 빠르게 처리하지 못 하는 문제점이 있다.  
np.where를 이용하면, 다음과 같이 간결하게 작성할 수 있다.

In [12]:
result = np.where(cond, xarr, yarr)

In [13]:
result

array([ 1.1,  2.2,  1.3,  1.4,  2.5])

np.where의 두 번째 인자와 세 번째 인자는 반드시 배열이 아니라도 괜찮다.   
둘 다 스칼라 값이거나 하나만 스칼라 값이여도 동작한다.

In [16]:
arr = np.random.randn(4,4)

In [17]:
arr

array([[-0.42712697,  0.16354609, -0.77773139,  0.72707965],
       [-1.35011904,  1.63279655, -0.29568754, -1.06848869],
       [ 0.31920107, -0.83090493, -0.37866643, -0.22186598],
       [ 0.31619741, -0.59992029, -0.39074684, -0.2628718 ]])

In [18]:
np.where(arr > 0, 2, -2)

array([[-2,  2, -2,  2],
       [-2,  2, -2, -2],
       [ 2, -2, -2, -2],
       [ 2, -2, -2, -2]])

In [19]:
np.where(arr > 0, 2, arr)

array([[-0.42712697,  2.        , -0.77773139,  2.        ],
       [-1.35011904,  2.        , -0.29568754, -1.06848869],
       [ 2.        , -0.83090493, -0.37866643, -0.22186598],
       [ 2.        , -0.59992029, -0.39074684, -0.2628718 ]])

## 4.3.2 수학 메서드와 통계 메서드

배열 전체 또는 배열의 일부 자료에 대해 통계를 계산하기 위해서 수학 함수를 배열 메서드로 사용한다.  
합, 평균, 표준편차는 numpy의 최상위 함수를 이용하거나 객체의 인스턴스 메서드를 이용해 구한다.

In [24]:
arr = np.random.rand(5,4)

In [25]:
arr

array([[ 0.61060287,  0.73887789,  0.40535226,  0.4125516 ],
       [ 0.71335373,  0.20572469,  0.9164306 ,  0.99261708],
       [ 0.43705862,  0.84721486,  0.31707071,  0.85202406],
       [ 0.14498662,  0.25194553,  0.13990049,  0.99846714],
       [ 0.58254107,  0.59742919,  0.23153397,  0.79686118]])

In [23]:
arr.mean() #인스턴스를 이용해 평균구하기

0.52233507793360912

In [26]:
np.mean(arr) #최상위 메서드를 이용해 구하기

0.55962720911677732

In [27]:
arr.sum()

11.192544182335547

mean이나 sum 함수는 axis인자를 받아 해당 축에 대한 통계를 계산한다.

In [31]:
arr.mean(axis = 1)

array([ 0.54184616,  0.70703153,  0.61334206,  0.38382495,  0.55209135])

In [32]:
arr.mean(axis = 0)

array([ 0.49770858,  0.52823843,  0.40205761,  0.81050421])

In [29]:
arr.sum(1)

array([ 2.16738462,  2.82812611,  2.45336825,  1.53529979,  2.20836542])

In [30]:
arr.sum(0)

array([ 2.48854291,  2.64119217,  2.01028803,  4.05252107])

### 4.3.2.1 sum

배열의 전체 합이나 특정 축에 대한 원소의 합을 계산한다.

In [36]:
data = np.array([[0,1,2],[3,4,5],[6,7,8]])

In [37]:
data.sum(0)

array([ 9, 12, 15])

In [38]:
data.sum()

36

### 4.3.2.2 mean

배열의 산술평균을 구한다. 배열의 크기가 0인 경우 NaN을 리턴한다.

In [39]:
data.mean()

4.0

In [40]:
data.mean(0)

array([ 3.,  4.,  5.])

### 4.3.2.3 std(표준편차), var(분산)

In [41]:
data.std()

2.5819888974716112

In [42]:
data.std(axis=1)

array([ 0.81649658,  0.81649658,  0.81649658])

In [43]:
data.var()

6.666666666666667

In [44]:
data.var(axis=0)

array([ 6.,  6.,  6.])

### 4.3.2.4 min(최소), max(최대)

In [45]:
data.min()

0

In [46]:
data.min(0)

array([0, 1, 2])

In [47]:
data.max()

8

In [48]:
data.max(axis=1)

array([2, 5, 8])