# NumPy 기본: 배열과 벡터 계산

**Num**erical **Py**thon의 줄임말<br />

1. 빠르고 메모리 사용, 벡터 연산, 브로드캐스팅(확대) 기능을 제공하는 다차원 배열인 ndarray (n dimentional array)를 제공
2. for 문 등 반복문을 작성할 필요없이 전체 배열에 대해 빠른 연산을 제공
3. 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구
4. 선형대수, 난수 발생기, 푸리에(Fourier) 변환 기능
5. C, C++, 포트란 등 다른 언어로 쓰여진 코드를 통합하는 도구

### 데이터 분석에서 빠른 연산을 위해 자주 사용하는 기능

1. 배열에서 데이터 변경, 정제, 부분 집합, 필터링의 빠른 수행
2. 정렬, 유일 원소 찾기, 집합 연산
3. 통계 표현과 데이터의 수집/요약
4. 여러 데이터의 병합, 데이터 정렬과 데이터 조작

#### 표준 NumPy의 컨벤션을 import numpy as np로 사용


## 4.1 NumPy ndarray: 다차원 배열 객체

### 파이선 "리스트" 자체에 대한 연산
리스트 연산과 배열 연산의 차이


In [27]:
data = [[0.9526, -0.246, -0.8856],
        [0.5639, 0.2379, 0.9104]]

In [28]:
data * 10

[[0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104]]

In [29]:
data + data

[[0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104]]

### ndarray 사용

In [3]:
import numpy as np 
# numpy 라이브러리를 np이름으로 사용

In [31]:
data = [[0.9526, -0.246, -0.8856],
        [0.5639, 0.2379, 0.9104]]

In [32]:
# 리스트를 ndarray로 변환
nd_data = np.array(data)

In [33]:
nd_data

array([[ 0.9526, -0.246 , -0.8856],
       [ 0.5639,  0.2379,  0.9104]])

In [34]:
nd_data * 10 
## 위의 List형식과 달리 배열의 각 항목에 곱셈이 적용된다.

array([[ 9.526, -2.46 , -8.856],
       [ 5.639,  2.379,  9.104]])

In [35]:
nd_data + nd_data

array([[ 1.9052, -0.492 , -1.7712],
       [ 1.1278,  0.4758,  1.8208]])

In [36]:
nd_data.shape 
# numpy.ndarry.shape는 배열의 구조를 알려주는 함수

(2, 3)

In [37]:
nd_data.dtype

dtype('float64')

### 4.1.1 ndarray 생성

In [39]:
data1 = [ 6. ,  7.5,  8. ,  0. ,  1. ]
arr1 = np.array(data1)

In [40]:
arr1 # np.array

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [41]:
data2 = [[1,2,3,4], [5,6,7,8]]

In [42]:
arr2 = np.array(data2)

In [43]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [45]:
arr2.ndim?

In [46]:
arr2.ndim ## numpy.ndarry.ndim 배열의 차수를 출력

2

In [47]:
arr2.nbytes ## numpy.ndarry.dtype 자료형 출력

64

In [48]:
arr2.shape

(2, 4)

#### nd.array는 생성될 때 적절한 자료형을 선택한다.

In [49]:
arr1.dtype

dtype('float64')

In [50]:
arr2.dtype

dtype('int64')

#### zeros - 주어진 길이나 모양에 각각 0이 들어있는 배열 생성<br /> ones - 주어진 길이나 모양에 각각 1이 들어있는 배열 생성

In [51]:
np.zeros(10) 

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [52]:
np.zeros((3,6)) ## 3행 6열

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [64]:
np.empty((2,5)) 

array([[  2.31584178e+077,   1.49457796e-154,   2.37663529e-312,
          2.56761491e-312,   8.48798317e-313],
       [  9.33678148e-313,   8.70018275e-313,   6.79038653e-313,
          2.31584178e+077,   6.99676061e-309]])

- np.empty는 0으로 초기화된 배열을 반환하지 않는다

In [67]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [68]:
type(np.arange(15))

numpy.ndarray

In [71]:
np.asarray(nd_data) # 배열

array([[ 0.9526, -0.246 , -0.8856],
       [ 0.5639,  0.2379,  0.9104]])

In [72]:
np.asarray(data) # 리스트

array([[ 0.9526, -0.246 , -0.8856],
       [ 0.5639,  0.2379,  0.9104]])

In [77]:
np.eye(4)

array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

In [78]:
np.identity(4)

array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

함수 | 설명
--- | ---
array | 입력 데이터(리스트, 튜플, 배열 또는 다른 순차형 데이터)를 ndarray로 변환하며 dtype이 명시되지 않은 경우에는 자료형을 추론하여 저장한다. 기본적으로 입력 데이터는 복사된다.
asarray | 입력 데이터를 ndarray로 변환하지만 입력 데이터가 이미 ndarray일 경우, 복사가 되지 않는다.
arange | 내장 range 함수와 유사하지만 리스트 대신 ndarray를 반환한다.
ones, ones_like | 주어진 dtype과 주어진 모양을 가지는 배열을 생성하고 내용응ㄹ 모두 1로 초기화한다. ones_like는 주어진 배열과 동일한 모양과 dtype을 가지는 배열을 새로 생성하여 내용을 모두 1로 초기화한다.
zeros, zeros_like | ones, ones_like와 같지만 내용을 0으로 채운다.
empty, empty_like | 메모리를 할당하여 새로운 배열을 생성하지만 ones나 zeros처럼 값을 초기화하지는 않는다.
eye, identity | N x N 크기의 단위 행렬을 생성한다(좌상단에서 우하단을 잇는 대각선은 1로 채워지고 나머지는 0으로 채워진다).

### 4.1.2 ndarray의 자료형

dtype로 자료형을 알 수 있다.

- 산술 데이터의 dtype은 float, int 같은 자료형의 이름과 하나의 원소가 차지하는 비트로 이루어짐
- 파이썬의 float 객체에서 사용되는 부동소수점 값은 8바이트 혹은 64바이트로 이루어짐
- [NumPy 자료형](http://docs.scipy.org/doc/numpy/user/basics.types.html)

In [88]:
arr1 = np.array([1,2,3], dtype=np.float32)

In [89]:
arr2 = np.array([1,2,3], dtype=np.float64)

In [90]:
arr1.dtype, arr2.dtype

(dtype('float32'), dtype('float64'))

#### ndarray의 astype 메소드 : 배열의 dtype을 다른형으로 명시적 변경 가능(다른 언어의 cast와 같은 역할)

In [91]:
arr = np.array([1,2,3,4,5])

In [92]:
arr.dtype

dtype('int64')

In [93]:
float_arr = arr.astype(np.float64)

In [94]:
float_arr

array([ 1.,  2.,  3.,  4.,  5.])

In [95]:
float_arr.dtype

dtype('float64')

#### 부동소수점 -> 정수형(소수점 아랫자리 버려짐)

In [96]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])

In [97]:
arr

array([  3.7,  -1.2,  -2.6,   0.5,  12.9,  10.1])

In [98]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

#### 숫자형 문자열 -> 정수, float

In [99]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)

In [100]:
numeric_strings

array([b'1.25', b'-9.6', b'42'],
      dtype='|S4')

In [101]:
numeric_strings.astype(float) 
# astype을 호출하면 새로운 dtype이 이전 dtype과 같아도 항상 새로운 배열을 생성(데이터를 복사)

array([  1.25,  -9.6 ,  42.  ])

In [104]:
# 문자열이 아니라 int로 넣어도 dtype을 np.string_으로 설정 가능
numeric_strings = np.array(['1.25', '-9.6', 42], dtype=np.string_)

In [105]:
numeric_strings

array([b'1.25', b'-9.6', b'42'],
      dtype='|S4')

In [106]:
numeric_strings.astype(float)

array([  1.25,  -9.6 ,  42.  ])

In [107]:
int_array = np.arange(10)

In [108]:
int_array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [109]:
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

In [110]:
calibers

array([ 0.22 ,  0.27 ,  0.357,  0.38 ,  0.44 ,  0.5  ])

In [111]:
int_array.astype(calibers.dtype)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

- 0., 1., 처럼 뒤의 0이 생략된 경우가 발생하는데 이건 뒤의 소수점이 없으면 자동으로 0을 빼주는 것으로 생각하면 된다.

#### dtype 축약코드(u4 = uint32)

In [187]:
empty_uint32 = np.empty(8, dtype='u4')

- astype을 호출하면 새로운 dtype이 이전 dtype과 같아도 항상 새로운 배열을 생성(데이터를 복사)한다.
- float64나 float32 같은 부동소수점은 근사 값이라는 사실을 염두에 두는 게 중요하다. 복잡한 연산 중에는 부동소수점 오류가 누적되어 비교를 할 때 특정 소수자리까지만 유효한 경우가 생길 수 있다.

### 4.1.3 배열과 스칼라 간의 연산

- **배열은 for 반복문을 작성하지 않고 데이터를 일괄처리할 수 있다(벡터화라고 한다)**
- 같은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용

In [112]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [116]:
arr*3

array([[  3.,   6.,   9.],
       [ 12.,  15.,  18.]])

In [113]:
arr

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [114]:
arr * arr

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [115]:
arr - arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [117]:
1 / arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

In [118]:
# **는 square root of x
arr ** 0.5

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

#### 내장 함수

In [195]:
import math
math.sqrt(3)

1.7320508075688772

### 4.1.4 인덱싱(색인)과 슬라이싱

In [137]:
arr = np.arange(10)

In [138]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [139]:
arr[5]

5

In [140]:
arr[5:8] 

array([5, 6, 7])

In [142]:
arr[5:8] = 12

In [143]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

#### 브로드캐스팅
- arr[5:8] = 배열에 스칼라 값을 대입하면 이 값이 필요한 만큼 복사되어 확산 전파

#### 배열 조각은 원본 배열의 뷰이다 (리스트와의 중요한 차이점)

- 즉, 데이터는 복사되지 않으며 뷰에 대한 변경은 그대로 원본 배열에 반영된다

#### np.array 예

In [144]:
arr_slice = arr[5:8]

In [145]:
arr_slice

array([12, 12, 12])

In [146]:
arr_slice[1] = 12341
arr_slice[0] = 12340
arr_slice[-1] = 12339

In [147]:
arr

array([    0,     1,     2,     3,     4, 12340, 12341, 12339,     8,     9])

#### Slicing : 사용 예

- [:]: 배열 전체
- [0:n]: 0번째부터 n-1번째까지, 즉 n번 항목은 포함하지 않는다.
- [:5]: 0번째부터 4번째까지,5번은 포함하지 않는다.
- [2:]: 2번째부터 끝까지
- [-1]: 제일 끝에 있는 배열값 반환
- [-2]: 제일 끝에서 두번째 값 반환

In [148]:
arr_slice

array([12340, 12341, 12339])

In [149]:
arr_slice[:] = 64

In [150]:
arr_slice

array([64, 64, 64])

In [151]:
arr_slice[0:2]

array([64, 64])

In [152]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

#### 리스트

In [154]:
l = range(10)
l

range(0, 10)

In [155]:
l_slice = l[5:8]
l_slice

range(5, 8)

In [157]:
l_slice[1] = 100

TypeError: 'range' object does not support item assignment

In [160]:
l

range(0, 10)

In [163]:
l_slice

range(5, 8)

In [164]:
# l_slice의 값을 변경해도 원본 l은 영향을 받지 않는다. 복사한 값이기 때문이다.
l

range(0, 10)

- Python list는 위의 예제에서 보듯이 원본에는 영향을 미치지 않음
- Python list는 브로드 캐스팅이 안됨

### Why? NumPy does not copy?

- 대용량 데이터 처리 염두
- 만약 NumPy가 데이터 복사를 남발한다면 성능과 메모리 문제 직면
- 뷰 대신 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()를 사용해서 명시적으로 배열 복사

#### ndarray 슬라이스 복사본 명시적 정의 .copy

In [165]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [166]:
arr_slice2 = arr[5:8].copy()

In [167]:
arr_slice2

array([64, 64, 64])

In [168]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [169]:
arr_slice2[:] = 33333

In [170]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [171]:
arr_slice2

array([33333, 33333, 33333])

#### 2차원 배열 제어

In [172]:
arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])

In [173]:
arr2d[2]

array([7, 8, 9])

In [174]:
arr2d[0][2]

3

In [175]:
# ,로도 구분 가능
arr2d[0, 2]

3

In [178]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

In [179]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [180]:
arr3d.ndim

3

In [181]:
arr2d.ndim

2

In [182]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [183]:
old_values = arr3d[0].copy()

In [184]:
old_values

array([[1, 2, 3],
       [4, 5, 6]])

In [185]:
arr3d[0] = 42

In [186]:
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [187]:
old_values

array([[1, 2, 3],
       [4, 5, 6]])

In [188]:
arr3d[0] = old_values

In [189]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [190]:
arr3d[1, 0]

array([7, 8, 9])

#### 슬라이스 색인

In [191]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [192]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [193]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

#### arr2d[:2, 1:]
     행,  열

- 같은 [ ] 안에서는 행과 열 구분

In [194]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [195]:
arr2d[:2][1:]

array([[4, 5, 6]])

In [196]:
arr2d[1, :2]

array([4, 5])

In [197]:
arr2d[2, :1]

array([7])

In [198]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [199]:
arr2d[:2, 1:] = 0

In [200]:
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### 4.1.5 불리언 색인

#### 정규분포

- [정규분포](http://mirror.enha.kr/wiki/%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%AC)
- [(미적통, 적통) 통계 기초 개념 - 정규분포, 표준정규분포, 표준정규분포표](http://blog.naver.com/PostView.nhn?blogId=sbssbi69&logNo=90158138717)

- 자연 현상에서 자주 발생하는 확률 분포.
- 어떤 사건이 계속 누적될 때의 확률 분포.
- 자신과 컨벌류션을 해도 모양이 그대로 유지되는 유일한 함수이다.

In [202]:
# randn
# Return a sample (or samples) from the "standard normal" distribution.
data = np.random.randn?

In [272]:
data = np.arange(28)
data=data.reshape(7,4)

In [273]:
data

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27]])

In [274]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [275]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'],
      dtype='<U4')

In [276]:
names == 'Bob'

array([ True, False, False,  True, False, False, False], dtype=bool)

In [277]:
# names에서 Bob는 0, 3번째에 존재한다.
# 그러므로 0, 3번 값은 된다.
data[names == 'Bob']

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

In [278]:
names2 = np.array(['Bob', 'Joe', 'Will'])

In [279]:
data[names2 == 'Bob']

IndexError: boolean index did not match indexed array along dimension 0; dimension is 7 but corresponding boolean dimension is 3

In [280]:
data[names == 'Bob', 2:]

array([[ 2,  3],
       [14, 15]])

In [281]:
data[names == 'Bob', 3]

array([ 3, 15])

#### != ,  ~ 으로 부정

In [282]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True], dtype=bool)

In [283]:
data[~(names == 'Bob')]

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27]])

In [284]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'],
      dtype='<U4')

In [285]:
mask = (names == 'Bob') | (names == 'Will')

In [286]:
mask

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [287]:
data[mask]

array([[ 0,  1,  2,  3],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [288]:
data[mask, 3:]

array([[ 3],
       [11],
       [15],
       [19]])

#### 불리언 색인시 항상 데이터 복사(바뀌지 않더라도)

- 파이썬 예약어인 and, or는 불리언 배열에서는 사용 불가

In [289]:
data[data < 5] = 0

In [290]:
data

array([[ 0,  0,  0,  0],
       [ 0,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27]])

In [291]:
data[names == 'Bob'] = 7

In [292]:
data

array([[ 7,  7,  7,  7],
       [ 0,  5,  6,  7],
       [ 8,  9, 10, 11],
       [ 7,  7,  7,  7],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27]])

### 4.1.6 팬시 색인

- 팬시 색인: 정수 배열을 사용한 색인을 설명하기 위해 NumPy에서 차용한 단어

In [293]:
arr = np.empty((8, 4))

In [294]:
for i in range(8):
    arr[i] = i

In [295]:
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [299]:
# 특정한 순서로 로우 선택
arr[[4, 3, 0, 6]]

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

In [302]:
arr[[-2, -3]]

array([[ 6.,  6.,  6.,  6.],
       [ 5.,  5.,  5.,  5.]])

In [303]:
np.arange(32)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31])

In [304]:
arr = np.arange(32).reshape((8, 4)) ## reshape 8 * 4 행렬로 형태를 잡는다.

In [305]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [307]:
# 1개 항목을 선택
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

- 결과를 보면 (1, 0), (5, 3), (7, 1), (2, 2)에 대응하는 요소가 선택

In [310]:
# 특정 행들을 선택하고 이의 열의 순서를 바꾸는 경우
# 1, 5, 7, 2 행을 선택
# 컬럼 열에서 :,로 모든 행을 선택해 주어야 한다.
# 0, 3, 1, 2 열을 순서대로 선택

arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [312]:
# np.ix_ 사용하는 방법
arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### 4.1.7 배열 전치와 축 바꾸기

- 행렬의 내적을 구하기도 하기 때문에 이론적인 배경이 필요하다.
- [Matrix - wiki](http://en.wikipedia.org/wiki/Matrix_(mathematics)
- [Matrix - kor](http://ko.wikipedia.org/wiki/%ED%96%89%EB%A0%AC)
- [Matrix - enha](http://mirror.enha.kr/wiki/%ED%96%89%EB%A0%AC)

In [4]:
arr = np.arange(15).reshape((3, 5))

In [5]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [6]:
arr.T # 행과 열을 바꿔준다.

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [7]:
arr.transpose() # T와 같은 역할을 한다.

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [15]:
arr = np.random.randn(6, 3)

In [16]:
arr

array([[ 0.38540894,  0.71353036,  0.0084336 ],
       [ 1.77765793,  0.40808544,  0.47847051],
       [ 1.10974917, -0.2440395 , -1.51562484],
       [-0.25998259,  1.51206856,  1.23710293],
       [-0.15742641,  0.50100499,  1.13041259],
       [-1.12379603, -0.96574309,  0.16266411]])

In [17]:
arr.T

array([[ 0.38540894,  1.77765793,  1.10974917, -0.25998259, -0.15742641,
        -1.12379603],
       [ 0.71353036,  0.40808544, -0.2440395 ,  1.51206856,  0.50100499,
        -0.96574309],
       [ 0.0084336 ,  0.47847051, -1.51562484,  1.23710293,  1.13041259,
         0.16266411]])

In [18]:
np.dot(arr.T, arr) # arr.T 3 * 6 행렬 곱하기 arr 6 * 3 행렬의 결과값이다.

array([[ 5.89544253,  1.34293001, -1.51053942],
       [ 1.34293001,  4.20523161,  2.85098185],
       [-1.51053942,  2.85098185,  5.36083971]])

In [19]:
# Matrices are not aligned.
# ex) (3, 6) * (6, 3) is available
# but (3, 6) * (3, 6) is not avaiable.
np.dot(arr.T, arr.T) # (3, 6) * (3, 6) 곱하기 오류

ValueError: shapes (3,6) and (3,6) not aligned: 6 (dim 1) != 3 (dim 0)

## 4.3 배열을 사용한 데이터 처리

- 반복문 작성하지 않고 간결한 배열연산을 통해 많은 종류의 데이터 처리 작업
- 배열연산을 사용해서 반복문을 명시적으로 제거하는 기법을 흔히 **벡터화**
- 순수 파이썬보다 2~3배, 많게는 수십, 수백 배까지 빠르다.
- 12장 **브로드캐스팅** 아주 강력한 벡터 연산 방법

In [50]:
points = np.arange(-1, 1, 0.01) # -5, 5까지 0.01간격으로 구성된 배열

In [51]:
points[:10]

array([-1.  , -0.99, -0.98, -0.97, -0.96, -0.95, -0.94, -0.93, -0.92, -0.91])

In [52]:
len(points)

200

In [53]:
points.shape

(200,)

### 4.3.2 수학 메서드와 통계 메서드

In [60]:
arr = np.random.randn(5, 4)

In [61]:
arr

array([[-0.53813984, -0.07581452, -0.18834675, -0.2898599 ],
       [-0.64800439,  0.49410351,  0.77301798, -1.44952762],
       [ 0.04924688,  0.31635548, -0.55625626,  1.30463338],
       [-1.66464587, -0.66777404, -0.47815486,  1.26331352],
       [-0.19105134,  0.43757708,  0.36980962,  0.76636993]])

In [62]:
arr.mean()

-0.048657400509141593

In [63]:
np.mean(arr)

-0.048657400509141593

In [64]:
arr.sum()

-0.97314801018283181

#### mean(평균)이나 sum 같은 함수는 선택적으로 axis 인자를 받아 해당 axis에 대한 통계 계산하고 한 차수 낮은 배열을 반환

In [67]:
arr.mean(axis=1)

array([-0.27304025, -0.20760263,  0.27849487, -0.38681531,  0.34567633])

In [71]:
# 디폴트 값은 axis=0
arr.sum(axis=0)

array([-2.99259456,  0.50444753, -0.07993028,  1.5949293 ])

In [72]:
arr.sum(0)

array([-2.99259456,  0.50444753, -0.07993028,  1.5949293 ])

In [73]:
arr.sum(axis=1)

array([-1.09216102, -0.83041052,  1.11397948, -1.54726125,  1.3827053 ])

In [74]:
arr.sum(1)

array([-1.09216102, -0.83041052,  1.11397948, -1.54726125,  1.3827053 ])

#### cumsum과 cumprod 메서드는 중간 계산 값을 담고 있는 배열을 반환

In [75]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])

In [76]:
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [77]:
# Return the cumulative sum of the elements along the given axis.
arr.cumsum?
np.cumsum?

In [78]:
# 세로로 더하기
# 0은 column
arr.cumsum(0)

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]])

In [80]:
# 가로로 곱하기
# 1은 row
arr.cumprod(1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]])

In [81]:
arr.cumprod(0)

array([[ 0,  1,  2],
       [ 0,  4, 10],
       [ 0, 28, 80]])

### 4.3.3 불리언 배열을 위한 메서드

- 앞의 메서드에서 불리언 값은 1(True), 0(False)으로 취급
- 따라서 불리언 배열에 대한 sum 메서드를 실행하면 True인 원소의 개수를 반환

In [82]:
arr = np.random.randn(100)

In [83]:
(arr > 0).sum()

42

In [85]:
arr[:10]

array([-0.46943197, -1.08196868,  0.13390909,  1.15394314, -0.52025635,
       -1.40799013, -0.04480409, -0.52468365, -0.22032046,  0.59175335])

- any: 하나 이상의 True값 검사
- all: 모든 원소가 True인지 검사

In [86]:
bools = np.array([False, False, True, False])

In [87]:
bools.any()

True

In [88]:
bools.all()

False

In [93]:
bools = np.array([True, True, True, True])

In [94]:
bools.any()

True

In [95]:
bools.all()

True

In [96]:
# 0만 아니면 True
# 불리언 배열이 아니어도 동작
arr.any()

True

In [97]:
arr.all()

True

### 4.3.4 정렬

In [98]:
arr = np.random.randn(8)

In [99]:
arr

array([-0.45640642, -0.25306929,  1.07256234,  0.28804502, -0.68136239,
       -0.9385541 , -0.38035532,  0.44094288])

In [100]:
arr.sort()

In [101]:
arr

array([-0.9385541 , -0.68136239, -0.45640642, -0.38035532, -0.25306929,
        0.28804502,  0.44094288,  1.07256234])

#### 다차원 배열의 정렬은 sort 메서드에 넘긴 축의 값에 따라 1차원 부분 정렬

In [102]:
arr = np.random.randn(5, 3)

In [103]:
arr

array([[-0.2726138 , -1.0636459 , -0.53710239],
       [-0.02791976,  0.78415385,  0.12229096],
       [ 0.5760902 ,  0.22996246,  0.17117404],
       [ 1.73401469,  1.66962507, -2.30924656],
       [ 1.37773607,  0.51807155,  1.3716758 ]])

In [104]:
# row sort
arr.sort(1)

In [105]:
arr

array([[-1.0636459 , -0.53710239, -0.2726138 ],
       [-0.02791976,  0.12229096,  0.78415385],
       [ 0.17117404,  0.22996246,  0.5760902 ],
       [-2.30924656,  1.66962507,  1.73401469],
       [ 0.51807155,  1.3716758 ,  1.37773607]])

In [106]:
# column sort
arr.sort(0)

In [108]:
arr

array([[-2.30924656, -0.53710239, -0.2726138 ],
       [-1.0636459 ,  0.12229096,  0.5760902 ],
       [-0.02791976,  0.22996246,  0.78415385],
       [ 0.17117404,  1.3716758 ,  1.37773607],
       [ 0.51807155,  1.66962507,  1.73401469]])