# NumPy Basics 

>NumPy 는 'Numerical Python' 의 줄임말

>NumPy 제공 기능

- 빠르고 메모리를 효율적으로 사용하며 벡터 산술연산과 세련된 브로드캐스팅 기능을 제공하는 다차원 배열인 ndarray
- 반복문을 작성할 필요 없이 전체 데이터 배열에 대해 빠른 연산을 제공하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용하는 도구
- 선형대수, 난수발생기, 푸리에 변환 기능
C- , C++, FORTRAN으로 쓰여진 코드를 통합하는 도구

## 1. The NumPy ndarray: a multidimensional array object

### 다차원 배열 객체

In [2]:
from __future__ import division
from numpy.random import randn
import numpy as np
np.set_printoptions(precision=4, suppress=True)

In [2]:
data = randn(2,3)                            # 2행 3열의 구조
data

array([[-0.3054,  0.8185,  1.8874],
       [-0.1118,  0.9311,  0.3849]])

In [3]:
data * 10

array([[-3.0537,  8.1854, 18.8736],
       [-1.1181,  9.3113,  3.8488]])

In [4]:
data + data

array([[-0.6107,  1.6371,  3.7747],
       [-0.2236,  1.8623,  0.7698]])

In [5]:
data

array([[-0.3054,  0.8185,  1.8874],
       [-0.1118,  0.9311,  0.3849]])

In [6]:
data.shape

(2, 3)

In [7]:
data.dtype

dtype('float64')

### Creating ndarrays

In [8]:
data1 = [6,7.5,8,0,1]
arr1 = np.array(data1)        # array
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [9]:
data2 = [[1,2,3,4],[5,6,7,8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [10]:
arr2.ndim

2

In [11]:
arr2.shape

(2, 4)

In [12]:
arr1.dtype

dtype('float64')

In [13]:
arr2.dtype

dtype('int32')

In [14]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [15]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [16]:
np.empty((2,3,2))

array([[[1.0252e-311, 3.1620e-322],
        [0.0000e+000, 0.0000e+000],
        [1.1459e-312, 7.9683e-042]],

       [[4.5571e-037, 1.9338e-076],
        [4.3006e+174, 1.4080e-075],
        [1.2231e+161, 5.4027e-038]]])

##### [Tip] np.empty
##### np.empty는 0으로 초기화된 배열을 반환하지 않는다.
##### 대부분 empty는 초기화되지 않은 값으로 채워진 배열을 반환한다.

### Data Types for ndarrays

In [17]:
arr1 = np.array([1,2,3], dtype = np.float64)
arr1.dtype

dtype('float64')

In [18]:
arr2 = np.array([1,2,3], dtype = np.int32)
arr2.dtype

dtype('int32')

In [19]:
arr = np.array([1,2,3,4,5])
arr.dtype

dtype('int32')

In [20]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In [21]:
arr = np.array([3.7,-1.2,-2.6,0.5,12.9,10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

##### [Tip] astype
##### astype을 호출하면 새로운 dtype이 이전 dtype과 같아도 항상 새로운 배열을 생성(데이터를 복사)한다.
##### float64나 float32 같은 부동소수점은 근사값이라는 사실을 염두에 두는게 중요하다.

In [22]:
arr.astype(np.int32)             # astype() : 새로운 type 지정

array([ 3, -1, -2,  0, 12, 10])

In [23]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype = np.string_)
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

In [24]:
int_array = np.arange(10)
int_array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
calibers = np.array([.22,.270,.357,.380,.44,.50], dtype = np.float64)
calibers

array([0.22 , 0.27 , 0.357, 0.38 , 0.44 , 0.5  ])

In [26]:
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [27]:
empty_uint32 = np.empty(8, dtype = 'u4')
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

### Operations between arrays and scalars

>배열과 스칼라간의 연산

In [28]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [29]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [30]:
arr -arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [31]:
1/ arr

array([[1.    , 0.5   , 0.3333],
       [0.25  , 0.2   , 0.1667]])

In [32]:
arr ** 0.5

array([[1.    , 1.4142, 1.7321],
       [2.    , 2.2361, 2.4495]])

### Basic indexing and slicing

>색인과 슬라이싱 기초

In [33]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [34]:
arr[5]

5

In [35]:
arr[5:8]

array([5, 6, 7])

In [36]:
arr[5:8] = 12

In [37]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [38]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [39]:
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [40]:
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

##### [Tip] 슬라이스 복사본
##### 만약에 뷰 대신 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()를 사용해서 명시적으로 배열을 복사하면 된다.

### 2차원 배열

In [41]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [42]:
arr2d[0][2]

3

In [43]:
arr2d[0,2]   # 위와 동일한 결과!!!

3

### 3차원 배열

In [44]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d                                  

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [45]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [46]:
old_values = arr3d[0].copy()     # arr3d[0] 따로 저장해놓기!!!!!
old_values

array([[1, 2, 3],
       [4, 5, 6]])

In [47]:
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [48]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [49]:
arr3d[1,0]

array([7, 8, 9])

In [50]:
arr3d[1,1,0]

10

### Indexing with slices

>슬라이스 색인

In [51]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [52]:
arr2d[:2]              # [:n] 이면 (n-1)까지의 배열 불러오기!!!!!!!!

array([[1, 2, 3],
       [4, 5, 6]])

In [53]:
arr2d[:2,1:]           # [n:] 이면 n부터의 배열 불러오기!!!!!!!!

array([[2, 3],
       [5, 6]])

In [54]:
arr2d[1,:2]

array([4, 5])

In [55]:
arr2d[2,:1]

array([7])

In [56]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

In [57]:
arr2d[:2,1:] = 0

In [58]:
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

In [59]:
arr2d[1:,:2]

array([[4, 0],
       [7, 8]])

### Boolean indexing
>불리언 색인

In [61]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [62]:
data = randn(7,4)
data

array([[ 0.77  ,  0.0818, -0.5218, -1.1175],
       [-0.5748,  0.1612,  0.9525, -0.0333],
       [ 0.8013, -0.0765, -1.2555,  1.9591],
       [-0.8529, -0.0173,  0.8313,  0.1431],
       [-0.494 , -0.8374,  0.5261,  0.9374],
       [-0.6323,  0.1987,  1.7703, -0.2775],
       [ 0.6039,  0.4367, -1.6146, -0.883 ]])

In [63]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [64]:
data[names=='Bob']

array([[ 0.77  ,  0.0818, -0.5218, -1.1175],
       [-0.8529, -0.0173,  0.8313,  0.1431]])

In [65]:
data[names=='Bob',2:]

array([[-0.5218, -1.1175],
       [ 0.8313,  0.1431]])

In [66]:
data[names=='Bob',3]

array([-1.1175,  0.1431])

In [67]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [70]:
data[~(names == 'Bob')]

array([[-0.5748,  0.1612,  0.9525, -0.0333],
       [ 0.8013, -0.0765, -1.2555,  1.9591],
       [-0.494 , -0.8374,  0.5261,  0.9374],
       [-0.6323,  0.1987,  1.7703, -0.2775],
       [ 0.6039,  0.4367, -1.6146, -0.883 ]])

##### [Tip] NumPy Boolean Negative
##### '-' 연산자는 사용하지 않으며, ~ 혹은 Logical Not 함수를 대신 사용한다.

In [71]:
data[~(names != 'Bob')]

array([[ 0.77  ,  0.0818, -0.5218, -1.1175],
       [-0.8529, -0.0173,  0.8313,  0.1431]])

In [72]:
data

array([[ 0.77  ,  0.0818, -0.5218, -1.1175],
       [-0.5748,  0.1612,  0.9525, -0.0333],
       [ 0.8013, -0.0765, -1.2555,  1.9591],
       [-0.8529, -0.0173,  0.8313,  0.1431],
       [-0.494 , -0.8374,  0.5261,  0.9374],
       [-0.6323,  0.1987,  1.7703, -0.2775],
       [ 0.6039,  0.4367, -1.6146, -0.883 ]])

In [73]:
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [74]:
data[mask]

array([[ 0.77  ,  0.0818, -0.5218, -1.1175],
       [ 0.8013, -0.0765, -1.2555,  1.9591],
       [-0.8529, -0.0173,  0.8313,  0.1431],
       [-0.494 , -0.8374,  0.5261,  0.9374]])

In [75]:
data[data < 0] = 0
data

array([[0.77  , 0.0818, 0.    , 0.    ],
       [0.    , 0.1612, 0.9525, 0.    ],
       [0.8013, 0.    , 0.    , 1.9591],
       [0.    , 0.    , 0.8313, 0.1431],
       [0.    , 0.    , 0.5261, 0.9374],
       [0.    , 0.1987, 1.7703, 0.    ],
       [0.6039, 0.4367, 0.    , 0.    ]])

In [76]:
data[names != 'Joe'] = 7
data

array([[7.    , 7.    , 7.    , 7.    ],
       [0.    , 0.1612, 0.9525, 0.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [0.    , 0.1987, 1.7703, 0.    ],
       [0.6039, 0.4367, 0.    , 0.    ]])

### Fancy indexing
>팬시 색인

- 팬시 색인은 정수 배열을 사용한 색인을 설명하기 위해 NumPy에서 차용한 단어다.

In [80]:
arr = np.empty((8,4))
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

- 특정한 순서로 로우를 선택하고 싶다면, 그냥 원하는 순서가 명시된 정수가 담긴 ndarray나 리스트를 넘기면 된다.

In [82]:
arr[[4,3,0,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [83]:
arr[[-3,-5,-7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

- 다차원 색인 배열을 넘기는 것은 조금 다르게 동작
- 각각의 색인 튜를에 대응하는 1차원 배열을 선택한 후, reshape 시킨다.

In [85]:
arr = np.arange(32).reshape((8,4))   # .reshape => 재배열
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

- (1, 0), (5, 3), (7, 1), (2, 2) 에 대응하는 요소 선택

In [91]:
arr[[1,5,7,2]]

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

In [92]:
arr[[1,5,7,2],[0,3,1,2]]   # (1, 0), (5, 3), (7, 1), (2, 2) 에 대응하는 요소 선택

array([ 4, 23, 29, 10])

In [87]:
arr[[1,5,7,2]][:, [0,3,1,2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [89]:
arr[np.ix_([1,5,7,2],[0,3,1,2])]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### Transposing arrays and swapping axes
>배열 전치와 축 바꾸기

- 배열 전치는 데이터를 복사하지 않고 데이터 모양이 바뀐 뷰를 반환하는 특별한 기능
- ndarray는 transpose 메소드와 T라는 이름의 특수한 속성을 가진다.
- 다차원 배열의 경우 transpose 메소드는 튜플로 축 번호를 받아서 치환한다.

In [93]:
arr = np.arange(15).reshape((3,5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [94]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [95]:
arr = np.random.randn(6,3)
arr

array([[-0.6143,  1.6764, -0.4137],
       [-0.9892,  0.4863, -0.4787],
       [-1.187 , -0.0057, -0.5255],
       [ 0.4545, -0.2388,  0.9676],
       [-0.0007, -0.0776,  0.0936],
       [ 0.4128, -0.4634, -1.8281]])

In [96]:
np.dot(arr.T, arr)

array([[ 3.1418, -1.8037,  1.0364],
       [-1.8037,  3.3247, -0.3144],
       [ 1.0364, -0.3144,  4.9633]])

In [97]:
arr = np.arange(16).reshape((2,2,4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [98]:
arr.transpose((1,0,2))   # default 구조는 0,1,2  =>  1,0,2로 변경  / 즉, 값만 변경됨

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [99]:
arr.swapaxes(1,2)        # 구조 자체가 바뀌는 함수

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

In [3]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [8]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [9]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

In [10]:
arr3d.shape

(2, 2, 3)

In [13]:
nd = np.arange(1,6)
result = np.where(nd%2 == 0, nd*10,0)
result

array([ 0, 20,  0, 40,  0])

In [19]:
bools = np.array([False,True,False])
b_any = bools.any()
b_all = bools.all()

In [20]:
b_any

True

In [21]:
b_all

False