# 4. NumPy 기본: 배열과 벡터 계산

**N**umerical **P**ython의 줄임말<br />

1. 빠르고 메모리를 효율적으로 사용하며 벡터 산술연산과 세련된 브로드캐스팅 기능을 제공하는 다차원 배열인 ndarray
2. 반복문을 작성할 필요없이 전체 데이터 배열에 대해 빠른 연산을 제공하는 표준 수학 함수
3. 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용하는 도구
4. 선형대수, 난수 발생기, 푸리에 변환 기능
5. C, C++, 포트란으로 쓰여진 코드를 통합하는 도구

### 대부분의 데이터 분석 애플리케이션에서 중요하게 사용하는 기능

1. 벡터 배열상에서 데이터 개조, 정제, 부분 집합, 필터링 변형, 다른 종류 연산의 빠른 수행
2. 정렬, 유일 원소 찾기, 집합연산 같은 일반적인 배열 처리 알고리즘
3. 통계의 효과적인 표현과 데이터의 수집/요약
4. 다른 종류의 데이터 묶음을 병합하고 엮기 위한 데이터 정렬과 데이터 간의 관계 조작
5. if-elif-else를 포함하는 반복문 대신 사용할 수 있는 조건절을 표현할 수 있는 배열 표현
6. 데이터 그룹 전체에 적용할 수 있는 수집, 변형, 함수 적용같은 데이터 처리

#### 이 책에서 표준 NumPy의 컨벤션을 import numpy as np로 사용
#### 물론, from numpy import *를 사용해서 np.을 생략해도 괜찮다. 하지만 좋은 코딩 습관은 아니다.

## 4.1 NumPy ndarray: 다차원 배열 객체

### 일반적인 리스트 사용

In [1]:
data = [[0.9526, -0.246, -0.8856],
        [0.5639, 0.2379, 0.9104]]

In [2]:
data * 10

[[0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104]]

In [3]:
data + data

[[0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104],
 [0.9526, -0.246, -0.8856],
 [0.5639, 0.2379, 0.9104]]

### ndarray 사용

In [4]:
import numpy as np # numpy 라이브러리를 np이름으로 사용

In [5]:
data = [[0.9526, -0.246, -0.8856],
        [0.5639, 0.2379, 0.9104]]

In [6]:
nd_data = np.array(data) ## np.array([[0.9526, -0.246, -0.8856], [0.5639, 0.2379, 0.9104]]) 형식으로도 가능하다.

In [7]:
nd_data

array([[ 0.9526, -0.246 , -0.8856],
       [ 0.5639,  0.2379,  0.9104]])

In [8]:
nd_data * 10 ## 위의 List형식과 비교

array([[ 9.526, -2.46 , -8.856],
       [ 5.639,  2.379,  9.104]])

In [9]:
nd_data + nd_data

array([[ 1.9052, -0.492 , -1.7712],
       [ 1.1278,  0.4758,  1.8208]])

In [10]:
nd_data.shape ## numpy.ndarry.shape는 형식을 출력해주는 함수.

(2, 3)

In [11]:
nd_data.dtype

dtype('float64')

### 파이썬을 이용한 과학계산의 고수가 되는 지름길

- **배열 위주의 프로그래밍**과 **생각하는 방법**에 능숙해지는 것
- '배열', 'NumPy 배열', 'ndarray'는 아주 극소수의 예외를 제외하면 모두 ndarray 객체를 이르는 말

### 4.1.1 ndarray 생성

In [12]:
data1 = [6, 7.5, 8, 0, 1] # list

In [13]:
arr1 = np.array(data1)

In [14]:
arr1 # np.array

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [15]:
data2 = [[1,2,3,4], [5,6,7,8]]

In [16]:
arr2 = np.array(data2)

In [17]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [18]:
arr2.ndim?

In [19]:
arr2.ndim ## numpy.ndarry.ndim 배열의 차수를 출력

2

In [20]:
arr2.nbytes ## numpy.ndarry.dtype 자료형 출력

64

In [21]:
arr2.shape

(2, 4)

#### nd.array는 생성될 때 적절한 자료형을 추정한다.

In [22]:
arr1.dtype

dtype('float64')

In [23]:
arr2.dtype

dtype('int64')

#### zeros - 주어진 길이나 모양에 각각 0이 들어있는 배열 생성<br /> ones - 주어진 길이나 모양에 각각 1이 들어있는 배열 생성<br /> (3, 6) - 앞은 행, 뒤는 열

In [24]:
np.zeros(10) 

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [25]:
np.zeros((3,6)) ## 3행 6열

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [26]:
np.empty((2,3)) ## numpy.ndarry.empty 메로리를 할당하여 새로운 배열 생성

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [27]:
np.empty((2,3,4))

array([[[  6.90989703e-310,   1.86586460e-316,   6.90987484e-310,
          -3.23016048e-308],
        [  6.90987483e-310,   6.90987484e-310,  -3.38511522e+138,
           6.90987483e-310],
        [  6.90987484e-310,   6.85323017e+078,   6.90989527e-310,
           6.90987484e-310]],

       [[ -1.28944078e+236,   6.90987483e-310,   6.90987484e-310,
           0.00000000e+000],
        [  0.00000000e+000,   0.00000000e+000,   0.00000000e+000,
           0.00000000e+000],
        [  0.00000000e+000,   0.00000000e+000,   0.00000000e+000,
           0.00000000e+000]]])

In [28]:
np.empty((3,2))

array([[ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.]])

In [29]:
np.empty((1,2,3))

array([[[ 0.,  0.,  0.],
        [ 0.,  0.,  0.]]])

- np.empty는 0으로 초기화된 배열을 반환하지 않는다. 앞에서 살펴본 바와 같이 대부분의 경우 empty는 초기화되지 않은 값으로 채워진 배열을 반환

In [30]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [31]:
type(np.arange(15))

numpy.ndarray

Colons can be used to align columns.

| Tables        | Are           | Cool  |
| ------------- |:-------------:| -----:|
| col 3 is      | right-aligned | $1600 |
| col 2 is      | centered      |   $12 |
| zebra stripes | are neat      |    $1 |

The outer pipes (|) are optional, and you don't need to make the raw Markdown line up prettily. You can also use inline Markdown.

Markdown | Less | Pretty
--- | --- | ---
*Still* | `renders` | **nicely**
1 | 2 | 3

In [32]:
np.asarray(nd_data)

array([[ 0.9526, -0.246 , -0.8856],
       [ 0.5639,  0.2379,  0.9104]])

In [33]:
np.asarray(data)

array([[ 0.9526, -0.246 , -0.8856],
       [ 0.5639,  0.2379,  0.9104]])

In [34]:
d = [1,2,3,4]

In [35]:
np.asarray([1,2,3,4])

array([1, 2, 3, 4])

In [36]:
np.asarray(np.array([1,2,3,5]))

array([1, 2, 3, 5])

In [37]:
np.eye(5)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [38]:
np.identity(4)

array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

함수 | 설명
--- | ---
array | 입력 데이터(리스트, 튜플, 배열 또는 다른 순차형 데이터)를 ndarray로 변환하며 dtype이 명시되지 않은 경우에는 자료형을 추론하여 저장하낟. 기본적으로 입력 데이터는 복사된다.
asarray | 입력 데이터를 ndarray로 변환하지만 입력 데이터가 이미 ndarray일 경우, 복사가 되지 않는다.
arange | 내장 range 함수와 유사하지만 리스트 대신 ndarray를 반환한다.
ones, ones_like | 주어진 dtype과 주어진 모양을 가지는 배열을 생성하고 내용응ㄹ 모두 1로 초기화한다. ones_like는 주어진 배열과 동일한 모양과 dtype을 가지는 배열을 새로 생성하여 내용을 모두 1로 초기화한다.
zeros, zeros_like | ones, ones_like와 같지만 내용을 0으로 채운다.
empty, empty_like | 메모리를 할당하여 새로운 배열을 생성하지만 ones나 zeros처럼 값을 초기화하지는 않는다.
eye, identity | N x N 크기의 단위 행렬을 생성한다(좌상단에서 우하단을 잇는 대각선은 1로 채워지고 나머지는 0으로 채워진다).

### 4.1.2 ndarray의 자료형

dtype이 있기에 NumPy가 강력하면서도 유연한 도구가 될 수 있다.

- 대부분의 데이터는 디스크에서 데이터를 읽기 쓰기 편하도록 하위 레벨의 표현에 직접적으로 맞춰져 있으며 C나 포트란 같은 저수준 언어로 작성된 코드와 쉽게 연동
- 산술 데이터의 dtype은 float, int 같은 자료형의 이름과 하나의 원소가 차지하는 비트수로 이루어짐
- 파이썬의 float 객체에서 사용되는 표준 배정밀도 부동소수점 값은 8바이트 혹은 64바이트로 이루어짐
- [NumPy 자료형](http://docs.scipy.org/doc/numpy/user/basics.types.html)

In [39]:
arr1 = np.array([1,2,3], dtype=np.float64)

In [40]:
arr2 = np.array([1,2,3], dtype=np.int32)

In [41]:
arr1.dtype, arr2.dtype

(dtype('float64'), dtype('int32'))

#### ndarray의 astype 메소드 -> 배열의 dtype을 다른형으로 명시적 변경 가능(다른 언어의 cast와 같은 역할)

In [42]:
arr = np.array([1,2,3,4,5])

In [43]:
arr.dtype

dtype('int64')

In [44]:
float_arr = arr.astype(np.float64)

In [45]:
float_arr

array([ 1.,  2.,  3.,  4.,  5.])

In [46]:
float_arr.dtype

dtype('float64')

#### 정수형 -> 부동소수점<br /> 부동소수점 -> 정수형(소수점 아랫자리 버려짐)

In [47]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])

In [48]:
arr

array([  3.7,  -1.2,  -2.6,   0.5,  12.9,  10.1])

In [49]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

#### 숫자형 문자열 -> 정수, float

In [50]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)

In [51]:
numeric_strings

array([b'1.25', b'-9.6', b'42'], 
      dtype='|S4')

In [52]:
numeric_strings.astype(float) ## astype을 호출하면 새로운 dtype이 이전 dtype과 같아도 항상 새로운 배열을 생성(데이터를 복사

array([  1.25,  -9.6 ,  42.  ])

In [53]:
# 중간에 문자열로 넣지 않고 그냥 int로 넣었는데도 dtype을 np.string_으로 설정해주니 
# 문자열로 변경
numeric_strings = np.array(['1.25', '-9.6', 42], dtype=np.string_)

In [54]:
numeric_strings

array([b'1.25', b'-9.6', b'42'], 
      dtype='|S4')

In [55]:
numeric_strings.astype(float)

array([  1.25,  -9.6 ,  42.  ])

In [56]:
int_array = np.arange(10)

In [57]:
int_array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [58]:
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

In [59]:
calibers

array([ 0.22 ,  0.27 ,  0.357,  0.38 ,  0.44 ,  0.5  ])

In [60]:
int_array.astype(calibers.dtype)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

- 0., 1., 처럼 뒤의 0이 생략된 경우가 발생하는데 이건 뒤의 소수점이 없으면 자동으로 0을 빼주는 것으로 생각하면 된다.

#### dtype 축약코드(u4 = uint32)

In [61]:
empty_uint32 = np.empty(8, dtype='u4')

- astype을 호출하면 새로운 dtype이 이전 dtype과 같아도 항상 새로운 배열을 생성(데이터를 복사)한다.
- float64나 float32 같은 부동소수점은 근사 값이라는 사실을 염두에 두는 게 중요하다. 복잡한 연산 중에는 부동소수점 오류가 누적되어 비교를 할 때 특정 소수자리까지만 유효한 경우가 생길 수 있다.

### 4.1.3 배열과 스칼라 간의 연산

- **배열은 for 반복문을 작성하지 않고 데이터를 일괄처리하기 때문에 중요(벡터화)**
- 같은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용

In [62]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [63]:
arr

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [64]:
arr * arr

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [65]:
arr - arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

[스칼라 값 - wiki](http://ko.wikipedia.org/wiki/%EC%8A%A4%EC%B9%BC%EB%9D%BC)

스칼라(scalar)란 크기와 방향을 가지는 벡터에 대비하는 개념으로, 크기만 있고 방향을 가지지 않는 양을 말한다. 예를 들면 속도가 방향도 포함한 벡터인데 대해, 그 절대값인 속력은 방향을 가지지 않는 스칼라 값이다.

In [66]:
1 / arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

In [67]:
arr

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [68]:
# **는 square root of x
arr ** 0.5

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

#### 크기가 다른 배열 간의 연산은 브로드캐스팅

In [69]:
import math
math.sqrt(3)

1.7320508075688772

### 4.1.4 색인과 슬라이싱 기초

In [70]:
arr = np.arange(10)

In [71]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [72]:
arr[5]

5

In [73]:
arr[5:8] 

array([5, 6, 7])

In [74]:
arr[5:8] = 12

In [75]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

#### 브로드캐스팅
- arr[5:8] = 12처럼 배열 조각에 스칼라 값을 대입하면 12가 선택 영역 전체로 전파

#### 리스트와의 중요한 차이점은 배열조각은 원본 배열의 뷰라는 점

- 즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영된다는 것

#### np.array 예

In [76]:
arr_slice = arr[5:8]

In [77]:
arr_slice

array([12, 12, 12])

In [78]:
arr_slice[1] = 12341
arr_slice[0] = 12340
arr_slice[-1] = 12339

In [79]:
arr

array([    0,     1,     2,     3,     4, 12340, 12341, 12339,     8,     9])

#### Slicing :의 예

- [:]: 배열 전체
- [0:1]: 0번째부터 1번째까지, 단 1번은 포함하지 않는다. 즉, 1개의 결과값만 slicing 된다.
- [:5]: 0번째부터 5번째까지, 단 5번은 포함하지 않는다.
- [2:]: 2번째부터 끝까지
- [-1]: 제일 끝에 있는 배열값 반환
- [:-1]: 0번째부터 끝까지(-1 이라는 것은 제일 끝에 있는 숫자를 뜻함

In [80]:
arr_slice[:] = 64

In [81]:
arr_slice

array([64, 64, 64])

In [82]:
arr_slice[0:2]

array([64, 64])

In [83]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

#### Python list 예

In [84]:
l = range(10)
l

range(0, 10)

In [85]:
l_slice = l[5:8]
l_slice

range(5, 8)

In [86]:
l_slice[1] = 12345

TypeError: 'range' object does not support item assignment

In [87]:
l

range(0, 10)

In [88]:
# Python list는 브로드 캐스팅이 안됨
l_slice[:] = 64

TypeError: 'range' object does not support item assignment

In [89]:
l

range(0, 10)

In [90]:
l_slice

range(5, 8)

In [91]:
l_slice[0] = 64

TypeError: 'range' object does not support item assignment

In [92]:
l_slice

range(5, 8)

In [93]:
# l_slice의 값을 변경해도 원본 l은 영향을 받지 않는다. 복사한 값이기 때문이다.
l

range(0, 10)

- Python list는 위의 예제에서 보듯이 원본에는 영향을 미치지 않음
- Python list는 브로드 캐스팅이 안됨

### Why? NumPy does not copy?

- 대용량 데이터 처리 염두
- 만약 NumPy가 데이터 복사를 남발한다면 성능과 메모리 문제 직면
- 뷰 대신 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()를 사용해서 명시적으로 배열 복사

#### ndarray 슬라이스 복사본 명시적 정의 .copy

In [94]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [95]:
arr_slice2 = arr[5:8].copy()

In [96]:
arr_slice2

array([64, 64, 64])

In [97]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [98]:
arr_slice2[:] = 33333

In [99]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [100]:
arr_slice2

array([33333, 33333, 33333])

#### 2차원 배열 제어

In [101]:
arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])

In [102]:
arr2d[2]

array([7, 8, 9])

In [103]:
arr2d[0][2]

3

In [104]:
# ,로도 구분 가능
arr2d[0, 2]

3

[5 dot 3 dot 2](http://www.chriscoughlin.com/2012/05/more-on-nde-scans/)

In [105]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

In [106]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [107]:
arr3d.ndim

3

In [108]:
arr2d.ndim

2

In [109]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [110]:
old_values = arr3d[0].copy()

In [111]:
old_values

array([[1, 2, 3],
       [4, 5, 6]])

In [112]:
arr3d[0] = 42

In [113]:
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [114]:
old_values

array([[1, 2, 3],
       [4, 5, 6]])

In [115]:
arr3d[0] = old_values

In [116]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [117]:
arr3d[1, 0]

array([7, 8, 9])

#### 슬라이스 색인

In [118]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [119]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [120]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

#### arr2d[:2, 1:]
     행,  열

- 같은 [ ] 안에서는 행과 열 구분

In [121]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [122]:
arr2d[:2][1:]

array([[4, 5, 6]])

In [123]:
arr2d[1, :2]

array([4, 5])

In [124]:
arr2d[2, :1]

array([7])

In [125]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [126]:
arr2d[:2, 1:] = 0

In [127]:
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### 4.1.5 불리언 색인

In [128]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

#### 정규분포

- [정규분포](http://mirror.enha.kr/wiki/%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%AC)
- [(미적통, 적통) 통계 기초 개념 - 정규분포, 표준정규분포, 표준정규분포표](http://blog.naver.com/PostView.nhn?blogId=sbssbi69&logNo=90158138717)

인간과 자연 세상에서 일어나는 수많은 일을 설명하는 핵심 개념이다.

통계학에서 사용하는 각종 확률분포 중에서도 가장 중요하게 다루는 분포이다. 물리학 실험용으로 무작위 표본추출을 통해 도출시킨 확률밀도곡선에 극한값을 적용시켜 만든 것을 형태로 정립한 것인데, 그 그래프를 함수식으로 풀어쓰면
(σ:표준편차, μ:평균) 이다. 으어어어
이 식을 -∞에서 ∞까지 정적분하면 1이다. 당연하지만 확률밀도함수에서 나온 것이기 때문이다. 가장 중요한 성질.

정규분포는 특정값의 출현비율을 그렸을 때, 중심(평균값)을 기준으로 좌우 대칭 형태가 나타나며, 좌우 극단으로 갈 수록 급격하게 수치가 낮아지는 특징을 지닌다. 하지만 표준편차의 수치가 위의 이미지처럼 꼭 기계적으로 딱딱 맞아야 하는 것은 아니고 대략 저런 '종'형태로 나타난다. 식스 시그마라는 용어도 여기에서 비롯한 것이다.[2]

In [129]:
# Return a sample (or samples) from the "standard normal" distribution.
data = np.random.randn?

In [None]:
data = np.random.randn

In [130]:
data = np.random.randn

In [131]:
data = np.random.randn(7,4)

In [132]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], 
      dtype='<U4')

In [133]:
data

array([[ 0.15823949,  0.2824673 , -0.20606189, -0.31150149],
       [ 0.2973623 ,  2.27833964, -1.18163104,  0.39480329],
       [ 1.04962493,  0.24922708, -0.18035795,  0.07779794],
       [-0.5874719 , -0.06942164, -0.38598156, -0.23878179],
       [ 0.86003383,  1.87776302,  0.14948261,  1.52353089],
       [ 0.14443904, -1.62877678, -1.12517997, -0.85169322],
       [ 1.16019063, -0.4099619 , -0.43366428,  0.14149241]])

- 2차원 배열 슬라이싱(책 참고: p.132) 그림으로 설명이 잘되어 있네요.

<img src="files/images/slice.jpg" width="500" />

- img src="files/ch04/slice.jpg" width="500" 이렇게 해야 되는구나..
- 앞에 **files**를 붙여야 되는거였어.. 엄청난 삽질 끝에 얻어낸 정보

In [134]:
# names에서 보듯이 0, 3번째 열이 True
names == 'Bob'

array([ True, False, False,  True, False, False, False], dtype=bool)

In [135]:
# names에서 Bob는 0, 3번째에 존재한다.
# 그러므로 0, 3번 로우값은 True가 되어 data의 0, 3번째 로우값이 반환된다.
# 이렇게 되면 반복문을 쓸 필요도 없네..
data[names == 'Bob']

array([[ 0.15823949,  0.2824673 , -0.20606189, -0.31150149],
       [-0.5874719 , -0.06942164, -0.38598156, -0.23878179]])

#### 불리언 주의 사항

- **불리언 배열은 반드시 색인하려는 축의 길이와 동일한 길이???** 쓰기는 했는데 무슨 소리인지 나도 이해가 안간다..
- 불리언 배열 색인도 슬라이스 또는 숫자 색인과 함께 혼용

In [136]:
names2 = np.array(['Bob', 'Joe', 'Will'])

In [137]:
data[names2 == 'Bob']

  if __name__ == '__main__':


array([[ 0.15823949,  0.2824673 , -0.20606189, -0.31150149]])

In [138]:
data[names == 'Bob', 2:]

array([[-0.20606189, -0.31150149],
       [-0.38598156, -0.23878179]])

In [139]:
data[names == 'Bob', 3]

array([-0.31150149, -0.23878179])

#### !=, -, ~ 으로 부정

In [140]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True], dtype=bool)

In [141]:
data[-(names == 'Bob')]

  if __name__ == '__main__':


array([[ 0.2973623 ,  2.27833964, -1.18163104,  0.39480329],
       [ 1.04962493,  0.24922708, -0.18035795,  0.07779794],
       [ 0.86003383,  1.87776302,  0.14948261,  1.52353089],
       [ 0.14443904, -1.62877678, -1.12517997, -0.85169322],
       [ 1.16019063, -0.4099619 , -0.43366428,  0.14149241]])

In [142]:
data[~(names == 'Bob')]

array([[ 0.2973623 ,  2.27833964, -1.18163104,  0.39480329],
       [ 1.04962493,  0.24922708, -0.18035795,  0.07779794],
       [ 0.86003383,  1.87776302,  0.14948261,  1.52353089],
       [ 0.14443904, -1.62877678, -1.12517997, -0.85169322],
       [ 1.16019063, -0.4099619 , -0.43366428,  0.14149241]])

In [143]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], 
      dtype='<U4')

In [144]:
mask = (names == 'Bob') | (names == 'Will')

In [145]:
mask

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [146]:
data[mask]

array([[ 0.15823949,  0.2824673 , -0.20606189, -0.31150149],
       [ 1.04962493,  0.24922708, -0.18035795,  0.07779794],
       [-0.5874719 , -0.06942164, -0.38598156, -0.23878179],
       [ 0.86003383,  1.87776302,  0.14948261,  1.52353089]])

In [147]:
data[mask, 3:]

array([[-0.31150149],
       [ 0.07779794],
       [-0.23878179],
       [ 1.52353089]])

#### 불리언 색인시 항상 데이터 복사(바뀌지 않더라도)

- 파이썬 예약어인 and, or는 불리언 배열에서는 사용 불가

In [148]:
data[data < 0] = 0

In [149]:
data

array([[ 0.15823949,  0.2824673 ,  0.        ,  0.        ],
       [ 0.2973623 ,  2.27833964,  0.        ,  0.39480329],
       [ 1.04962493,  0.24922708,  0.        ,  0.07779794],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.86003383,  1.87776302,  0.14948261,  1.52353089],
       [ 0.14443904,  0.        ,  0.        ,  0.        ],
       [ 1.16019063,  0.        ,  0.        ,  0.14149241]])

In [150]:
data[names != 'Joe'] = 7

In [151]:
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.2973623 ,  2.27833964,  0.        ,  0.39480329],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.14443904,  0.        ,  0.        ,  0.        ],
       [ 1.16019063,  0.        ,  0.        ,  0.14149241]])

### 4.1.6 팬시 색인

- 팬시 색인: 정수 배열을 사용한 색인을 설명하기 위해 NumPy에서 차용한 단어

In [152]:
arr = np.empty((8, 4))

In [153]:
for i in range(8):
    arr[i] = i

In [154]:
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [155]:
# 특정한 순서로 로우 선택
arr[[4, 3, 0, 6]]

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

In [156]:
arr[[-3, -5, -7]]

array([[ 5.,  5.,  5.,  5.],
       [ 3.,  3.,  3.,  3.],
       [ 1.,  1.,  1.,  1.]])

In [157]:
np.arange(32)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31])

In [158]:
arr = np.arange(32).reshape((8, 4)) ## reshape 8 * 4 행렬로 형태를 잡는다.

In [159]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [160]:
# 1개만 선택하는 것
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

- 결과를 보면 (1, 0), (5, 3), (7, 1), (2, 2)에 대응하는 요소가 선택

In [161]:
# 1, 5, 7, 2 로우
# 컬럼 열에서 :,로 모든 행을 선택해 주어야 한다.
# 0, 3, 1, 2 열을 순서대로 선택
# 이건 열 순서대로 선택해서 보여주기
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [162]:
# Construct an open mesh from multiple sequences.
# 이것을 써야 우리가 예상했던 로우 열과 컬럼의 순서대로 볼 수 있다.
np.ix_

<function numpy.lib.index_tricks.ix_>

In [163]:
arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])