# Chapter 4 NumPy 기본: 배열과 벡터 연산

- NumPy는 Numerical Python의 줄임말, 파이썬에서 산술 계산을 위한 가장 중요한 필수 패키지 중 하나
- 계산 과학을 위한 대부분의 패키지는 NumPy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용

- NumPy에서 제공하는 것들  
    - 효율적인 다차원 배열인 `ndarray`는 빠른 배열 계산과 유연한 `브로드캐스팅` 기능을 제공
    - 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
    - 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
    - 선형대수, 난수 생성기, 푸리에 변환 가능
    - C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API

- NumPy의 장점
    - NumPy는 내부적으로 데이터를 다른 내장 파이썬 객체와 구분된 연속된 메모리 불록에 저장한다. 
    - NumPy의 각종 알고리즘은 모두 C로 작성되어 타입 검사나 다른 오버헤드 없이 메모리를 직접 조작할 수 있다.
    - NumPy 배열은 또한 내장 파이썬의 연속된 자료형들보다 훨씬 더 적은 메모리를 사용한다.
    - NumPy 연산은 파이썬 반복문을 사용하지 않고 전체 배열에 대한 복잡한 계싼을 수행할 수 있다.

> 성능 차이 확인 : 백만 개의 정수를 저장하는 NumPy 배열과 파이썬 리스트 비교

In [3]:
import numpy as np

my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [19]:
# 각각의 배열과 리스트 원소에 2를 곱하기
%time for _ in range(10) : my_arr2 = my_arr * 2
%time for _ in range(10) : my_list2 = [x*2 for x in my_list]

Wall time: 29.9 ms
Wall time: 833 ms


## 4.1 NumPy ndarray : 다차원 배열 객체

- ndarray 
    - N차원의 배열 객체이며 NumPy의 핵심
    - 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조.
    - 배열은 스칼라 원소간의 연산에 사용하는 문법과 비슷한 방식을 사용해 전체 데이터 블록에 수학적인 연산을 수행할 수 있게 해줌

In [30]:
import numpy as np     # numpy import convention임

data = np.random.randn(2,3)
data

array([[ -7.10188957, -17.59088192,  -1.09342313],
       [  3.4775524 ,   6.38532323,  11.47541335]])

- ndarray 객체에 스칼라 연산을 시행하면 모든 원소에 대해 연산을 수행해 줌

In [31]:
data * 10

array([[ -7.10188957, -17.59088192,  -1.09342313],
       [  3.4775524 ,   6.38532323,  11.47541335]])

In [32]:
data + data

array([[-1.42037791, -3.51817638, -0.21868463],
       [ 0.69551048,  1.27706465,  2.29508267]])

- ndarray의 모든 원소는 같은 자료형이어야 함
- np.shape : 배열의 각 차원의 크기를 알려주는 `튜플`
- np.dtype : 배열에 저장된 자료형을 알려주는 `객체`

In [35]:
data.shape

(2, 3)

In [38]:
data.dtype

dtype('float64')

### 4.1.1 ndarray 생성하기

- array 함수
    - 순차적인 객체 (다른 배열도 포함하여)를 넘겨 받음
    - 넘겨받은 데이터가 들어 있느 ㄴ새로운 NumPy 배열을 생성

In [43]:
data1 = [6,7.5,8,0,1]
data2 = [[1,2,3,4],
         [5,6,7,8]]

arr1 = np.array(data1)
arr2 = np.array(data2)

In [44]:
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [45]:
arr2           # 같은 길이를 가지는 리스트를 내포하는 순차 데이터는 다차원 배열로 변환 가능.

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [48]:
arr2.ndim      # ndim을 통하여 2차원 형태로 생성됐음을 확인

2

In [49]:
arr2.shape

(2, 4)

#### 배열 생성 함수

<details>
<summary>배열 생성 함수</summary>
<div markdown="1">

|함수|설명|
|:--|:--|
|array|입력 데이터(리스트, 튜플, 배열 또는 다른 순차형 데이터)를 ndarray로 변환하며 dtype을 명시하지 않는 경우 자료형을 추론하여 저장한다. 기본적으로 입력 데이터는 `복사`된다.|
|asarray|입력 데이터를 ndarray로 변환하지만 입력 데이터가 이미 ndarray일 경우 복사가 일어나지 않는다.|
|arange|내장 range 함수와 유사하지만 리스트대신 ndarray를 반환한다.|    
|ones|`주어진 dtype과 모양`을 가지는 배열을 생성하고 내용을 모두 1로 초기화한다.|
|ones_like|`주어진 배열`과 동일한 모양과 dtype을 가지는 배열을 새로 생성하여 내용을 모두 1로 초기화한다.|
|zeros|`주어진 dtype과 모양`을 가지는 배열을 생성하고 내용을 모두 0으로 초기화한다.|
|zeros_like|`주어진 배열`과 동일한 모양과 dtype을 가지는 배열을 새로 생성하여 내용을 모두 0으로 초기화한다.|
|empty, empty_like|메모리를 할당하여 새로운 배열을 생성하지만 ones나 zeros처럼 값을 초기화하지 않는다.|
|full, full_lik|인자로 받은 dtype과 배열의 모양을 가지는 배열을 생성하고 인자로 받은 값으로 배열을 채운다.|
|eye, identity| N x N 크기의 단위행렬을 생ㅅ어한다 (좌상단에서 우하단을 잇는 대각선은 1로 채워지고 나머지는 0으로 채워진다.)|
    
</div>
</details>

In [54]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [55]:
np.ones((3,6))

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [56]:
np.empty((2,3,2))

array([[[1.10031594e-311, 1.10031594e-311],
        [1.10031594e-311, 1.26974871e-321],
        [0.00000000e+000, 0.00000000e+000]],

       [[0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000]]])

In [58]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### 4.1.2 ndarray의 dtype

- dtype
    - ndarray가 메모리에 있는 특정 데이터를 해석하기 위해 필요한 정보 (또는 `메타데이터`)를 담고 있는 `특수한 객체`다.
    - dypte이 있어서 NumPy가 강력하면서도 유연한 도구가 될 수 있다고 함.

In [60]:
arr1 = np.array([1,2,3], dtype = np.float64)
arr2 = np.array([1,2,3], dtype = np.int32)

print('''
dtype of arr1 : {0}
dtype of arr2 : {1}'''.format(arr1.dtype, \
                              arr2.dtype))


dtype of arr1 : float64
dtype of arr2 : int32


- np.astype()
    - np.ndarray.astype 메서드를 사용해서 배열의 dtype을 다른 형으로 명시적으로 변환 (또는 캐스팅) 가능하다.

In [70]:
arr = np.array([1,2,3,4,5])
float_arr = arr.astype(np.float64)

print('''
dtype of arr : {0}
dtype of float_arr : {1}'''.format(arr.dtype, \
                                   float_arr.dtype))


dtype of arr : int32
dtype of float_arr : float64


#### NumPy 자료형

<details>
<summary>NumPy 자료형</summary>
<div markdown="1">

|자료형|자료형 코드|설명|
|:--|:--|:--|
|int8, uint8|i1, u1|부호가 있는 8비트(1바이트) 정수형과 부호가 없는 8비트 정수형|
|int16, uint16|i2, u2|부호가 있는 16비트 정수형과 부호가 없는 16비트 정수형|
|int32, uint32|i4, u4|부호가 있는 32비트 정수형과 부호가 없는 32비트 정수형|
|int64, uint64|i8, u8|부호가 있는 64비트 정수형과 부호가 없는 64비트 정수형|
|float16|f2|반정밀도 부동소수점|
|float32|f4 또는 f|단정밀도 부동소수점. C언어의 float형과 호환|
|float64|f8 또는 d|배정밀도 부동소수점. C언어의 double형과 파이썬의 float 객체와 호환|
|float129|f16 또는 g|확장정밀도 부동소수점|
|complex64,  
 complex128,  
 complex256|c8, c16, c32| 각각 2개의 32,64,128비트 부동소수점형을 가지는 복소수|
|bool|?|True와 False 값을 저장하는 불리언형|
|object|O|파이썬 객체형|
|string_|S|고정 길이 아스키 문자열형(각 문자는 1바이트). 길이가 10인 문자열 dtype은 S10이 된다.|
|unicode_|U|고정 길이 유니코드형(플랫폼에 따라 문자별 바이트 수가 다르다). string_형과 같은 형식을 쓴다(예:U10).|
    
</div>
</details>

> 숫자 형식의 문자열을 담고 있는 배열이 있다면 astype을 사용하여 숫자로 변환할 수 있다.

In [73]:
numeric_strings = np.array(['1.25','-9.634','42'], dtype = np.string_)
numeric_strings

array([b'1.25', b'-9.634', b'42'], dtype='|S6')

In [83]:
# np.float64와 파이썬 float 객체는 호환 가능함. 따라서 아래 두 코드는 같은 값을 반환
print(numeric_strings.astype(np.float64))
print(numeric_strings.astype(float))

[ 1.25  -9.634 42.   ]
[ 1.25  -9.634 42.   ]


### 4.1.3 NumPy 배열의 산술 연산

- 배열의 중요한 특징은 for 문을 작성하지 않고 데이터를 일괄 처리할 수 있다는 점. 이를 `벡터화`라고 함.
- 같은 크기의 배열 간의 산술 연산은 배열의 각 원소 단위로 적용됨.

In [105]:
arr = np.array([[1.,2.,3.],
                [4.,5.,6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [106]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [107]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [108]:
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

- 같은 크기를 가지는 배열 간의 비교 연산은 불리언 배열을 반환함.

In [111]:
arr2 = np.array([[0.,4.,1.],
                 [7.,2.,12.]])
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### 4.1.4 색인과 슬라이싱 기초

- 1차원 배열의 색인과 슬라이싱은 표면적으로는 파이선의 리스트와 유사하게 동작함
- 배열 조각에 스칼라값을 대입하면 해당 값이 선택 영역 전체로 전파 (또는 `브로드캐스팅`)됨.

In [117]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [119]:
arr[5:8]

array([5, 6, 7])

In [120]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

- 리스트와의 **중요한** 차이점은 배열 조각은 원본 배열의 `뷰`라는 점.
    - 즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영된다.
    - NumPy는 대용량의 데이터 처리를 염두에 두고 설계되었기 때문에 성능과 메모리 문제를 피하기 위해 데이터 복사를 피한다.

In [122]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [123]:
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [124]:
# 단순히 [:]로 슬라이스를 하면 배열의 모든 값을 할당한다.
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

> 만약에 뷰 대신 ndarray 슬라이스의 복사본은 얻고 싶다면 arr[5:8].copy()를 사용해서 명시적으로 배열을 `복사`해야한다.

- 2차원 배열 색인

In [129]:
arr2d = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

In [130]:
arr2d[2]

array([7, 8, 9])

In [131]:
arr2d[0][2]

3

In [132]:
arr2d[0,2]

3

- 3차원 배열 색인

In [141]:
arr3d = np.array([[[1,2,3],[4,5,6]],
                  [[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [142]:
# arr3d[0]은 2X3 크기의 배열
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [145]:
#arr3d[0]에는 스칼라값과 배열 모두 대입할 수 있다.
old_values = arr3d[0].copy()

arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [147]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [151]:
arr3d[1,0,2]

9

In [152]:
arr3d[1][0][2]

9

#### 슬라이스로 선택하기

In [154]:
arr = np.array([0,1,2,3,4,64,64,64,8,9])
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [160]:
arr2d = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

In [161]:
# 첫번째 ~ 두번째 로우까지 슬라이싱
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [163]:
# 첫번째 ~ 두번째 로우까지 슬라이싱 + 두번째 ~ 세번째 컬럼 슬라이싱
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [164]:
# 첫번째 컬럼의 값만 가지고 싶을 때
arr2d[:, :1]

array([[1],
       [4],
       [7]])

### 4.1.5 불리언값으로 선택하기

In [168]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
data = np.random.randn(7,4)      # 7X4 ndarray 배열을 표준 정규분포로부터 생성

print('''
names : {0}

data : {1}'''.format(names, data))


names : ['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe']

data : [[ 1.33704026  0.14174274 -1.59550218  0.38268523]
 [-0.97615169 -0.44986393 -0.18409171  0.40600197]
 [-1.01815827 -1.72230544  0.61339159 -1.52596255]
 [ 0.66385402 -1.03244792 -0.92960303  1.42978801]
 [-0.10154898 -0.7749967   1.50807214  1.10975645]
 [-1.07416771 -0.02281652  1.37048618  2.35115012]
 [-0.72971029  0.98322299  0.82856976  0.94091838]]


In [170]:
data[names == "Bob"]   # 첫 번째와 네 번째 로우가 반환됨

array([[ 1.33704026,  0.14174274, -1.59550218,  0.38268523],
       [ 0.66385402, -1.03244792, -0.92960303,  1.42978801]])

In [172]:
data[names == "Bob", 2:]   # 첫 번째와 네 번째 로우에서 3~4번째 컬럼이 반환

array([[-1.59550218,  0.38268523],
       [-0.92960303,  1.42978801]])

In [174]:
data[names != "Bob"]   # Bob이 아닌 로우를 반환
#data[~(names == "Bob")]  # 위 표현과 동치

array([[-0.97615169, -0.44986393, -0.18409171,  0.40600197],
       [-1.01815827, -1.72230544,  0.61339159, -1.52596255],
       [-0.10154898, -0.7749967 ,  1.50807214,  1.10975645],
       [-1.07416771, -0.02281652,  1.37048618,  2.35115012],
       [-0.72971029,  0.98322299,  0.82856976,  0.94091838]])

In [176]:
cond = names == "Bob"
data[~cond]

array([[-0.97615169, -0.44986393, -0.18409171,  0.40600197],
       [-1.01815827, -1.72230544,  0.61339159, -1.52596255],
       [-0.10154898, -0.7749967 ,  1.50807214,  1.10975645],
       [-1.07416771, -0.02281652,  1.37048618,  2.35115012],
       [-0.72971029,  0.98322299,  0.82856976,  0.94091838]])

- &(and)나 |(or) 같은 논리 연산자를 사용하는 방법
- 파이썬 예약어인 and와 or은 불리언 배열에서는 사용할 수 없다. 대신 & 와 | 를 사용한다.

In [178]:
mask = (names == "Bob") | (names == "Will")
mask

array([ True, False,  True,  True,  True, False, False])

In [179]:
data[mask]

array([[ 1.33704026,  0.14174274, -1.59550218,  0.38268523],
       [-1.01815827, -1.72230544,  0.61339159, -1.52596255],
       [ 0.66385402, -1.03244792, -0.92960303,  1.42978801],
       [-0.10154898, -0.7749967 ,  1.50807214,  1.10975645]])

In [180]:
# data에 저장된 모든 음수를 0으로 대입
data[data < 0] = 0
data

array([[1.33704026, 0.14174274, 0.        , 0.38268523],
       [0.        , 0.        , 0.        , 0.40600197],
       [0.        , 0.        , 0.61339159, 0.        ],
       [0.66385402, 0.        , 0.        , 1.42978801],
       [0.        , 0.        , 1.50807214, 1.10975645],
       [0.        , 0.        , 1.37048618, 2.35115012],
       [0.        , 0.98322299, 0.82856976, 0.94091838]])

In [181]:
# 1차원 불리언 배열을 사용해 필요한 로우의 값을 대체하기
data[names != "Joe"] = 7
data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 0.        , 0.40600197],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 1.37048618, 2.35115012],
       [0.        , 0.98322299, 0.82856976, 0.94091838]])

### 4.1.6 팬시 색인

- $팬시 색인^{\text{fancy indexing}}$은 정수 배열을 사용한 색인을 설명하기 위해 NumPy에서 차용한 단어
- 팬시 색인은 슬라이싱과는 달리 선택된 데이터를 `새로운 배열`로 복사한다.

In [184]:
arr = np.empty((8,4))

for i in range(8) :
    arr[i] = i
    
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

> 특정한 순서로 로우를 선택하고 싶다면 원하는 순서가 명시된 정수가 담긴 ndarray나 리스트를 넘기면 됨

In [185]:
arr[[4,3,0,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [186]:
arr[[-1,-5,-3]]

array([[7., 7., 7., 7.],
       [3., 3., 3., 3.],
       [5., 5., 5., 5.]])

- 다차원 색인 배열 

In [190]:
arr = np.arange(32).reshape((8,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [192]:
arr[[1,5,7,2], [0,3,1,2]]     # (1,0), (5,3), (7,1), (2,2)에 대응하는 원소들이 선택됨

array([ 4, 23, 29, 10])

In [195]:
arr[[1,5,7,2]][:,[0,3,1,2]]   # 해당하는 row의 column 위치만 바꾸고 싶은 경우

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### 4.1.7 배열 전치와 축 바꾸기

- 배열 전치는 데이터를 `복사하지 않고` 데이터의 모양이 바뀐 뷰를 반환하는 특별한 기능.
- ndarray는 transpose 메서드와 T라는 이름의 특수한 속성을 가지고 있음.

In [197]:
arr = np.arange(15).reshape((3,5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [199]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [202]:
arr.transpose()

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

- 행렬의 내적은 np.dot을 이용해서 구할 수 있다.

In [205]:
arr = np.random.randn(6,3)
arr

array([[ 1.06793397,  1.80134596, -1.92495752],
       [-0.97583389, -0.43453951,  0.50588564],
       [-0.08501478, -0.38234601, -0.93944961],
       [ 1.88293739, -0.76399729, -0.28459296],
       [-0.70415052,  1.47916783,  0.31805895],
       [ 0.4275599 , -0.11812187, -1.60369168]])

In [206]:
np.dot(arr.T, arr)

array([[ 6.32405087, -0.15035804, -3.91502712],
       [-0.15035804,  6.36544245, -2.45082507],
       [-3.91502712, -2.45082507,  7.59792895]])

- 다차원 배열의 경우
    - transpose 메서드는 튜플로 축 번호를 받아서 치환
    - swapaxes 메서드는 두 개의 축 번호를 받아서 배열을 뒤바꾼다.
    - 두 메서드 모드 데이터를 복샇자ㅣ 않고 원래 데이터에 대한 뷰를 반환

> np.ndarray.tranpose 메서드

In [208]:
arr = np.arange(16).reshape((2,2,4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [213]:
arr.transpose((1,0,2))     # 첫 번재와 두 번째 축 순서가 뒤바뀌었고 마지막 축은 그대로 남았다.

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [214]:
arr.transpose((1,0,2)).shape

(2, 2, 4)

> np.ndarray.swapaxes 메서드

In [215]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [216]:
arr.swapaxes(1,2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

In [227]:
arr.swapaxes(1,2).shape

(2, 4, 2)