In [1]:
import numpy as np

# 1. ndarray :N-Dimensional Array

- numpy는 np.array 함수를 활용하여 배열을 생성함 -> ndarray <br>
- numpy는 하나의 데이터 type만 배열에 넣을 수 있음<br/>
- Dynamic typing not supported

In [3]:
test_array = np.array([1, 4, 5, 8], float)
test_array

array([1., 4., 5., 8.])

In [4]:
type(test_array[3])

numpy.float64

In [5]:
test_array.dtype # Array 전체의 데이터 type

dtype('float64')

In [6]:
test_array = np.array([1,4,5,"8"], float)
print(test_array)
print(type(test_array[3]))
print(test_array.dtype)
print(test_array.shape)

[1. 4. 5. 8.]
<class 'numpy.float64'>
float64
(4,)


## 1-1) Array Shape (matrix)
- returns tuple

### Matrix

In [7]:
matrix = [[1,2,5,8], [1,2,5,8], [1,2,5,8]]
np.array(matrix, int).shape

(3, 4)

### 3rd Order Tensor

In [8]:
tensor = [[[1,2,5,8],[1,2,5,8],[1,2,5,8]], [[1,2,5,8],[1,2,5,8],[1,2,5,8]], [[1,2,5,8],[1,2,5,8],[1,2,5,8]], [[1,2,5,8],[1,2,5,8],[1,2,5,8]]]
np.array(tensor, int).shape

(4, 3, 4)

## 1-2) Array ndim & size
- ndim : the number of dimension <br/>
- size : the number of data

In [9]:
np.array(tensor, int).ndim

3

In [10]:
np.array(tensor, int).size

48

## 1-3) Array dtype
- Ndarray의 single element가 가지는 data type<br/>
- 각 element가 차지하는 memory의 크기가 결정됨

In [11]:
np.array([[1,2,3], [4.5, 5, 6]], dtype=int)

array([[1, 2, 3],
       [4, 5, 6]])

In [12]:
np.array([[1,2,3], [4.5, "5", "6"]], dtype=np.float32)

array([[1. , 2. , 3. ],
       [4.5, 5. , 6. ]], dtype=float32)

- Compatible with data types of C

<img src="./img/ndarray_dtype.png" width="800" style="float: left">

- nbytes : returns the memory size of ndarray object

In [14]:
np.array([[1,2,3], [4.5, "5", "6"]], dtype=np.float32).nbytes # 32bits = 4bytes

24

In [15]:
np.array([[1,2,3], [4.5, "5", "6"]], dtype=np.int8).nbytes # 8bits = 1bytes

6

In [16]:
np.array([[1,2,3], [4.5, "5", "6"]], dtype=np.float64).nbytes

48

# 2. Shape Handling

## 2-1) reshape
- np.array(`array`).reshape(`shape`)  
- Resize the shape of array (the number of elements stays the same)

In [17]:
test_matrix = [[1,2,3,4], [1,2,5,8]]
np.array(test_matrix).shape

(2, 4)

In [18]:
np.array(test_matrix).reshape(8,)

array([1, 2, 3, 4, 1, 2, 5, 8])

In [19]:
np.array(test_matrix).reshape(8,).shape

(8,)

- Array의 size만 같다면 다차원으로 자유로이 변형가능

In [20]:
np.array(test_matrix).reshape(2,4).shape

(2, 4)

In [22]:
# -1 : size를 기반으로 row 개수 선정
np.array(test_matrix).reshape(-1,2).shape

(4, 2)

In [23]:
np.array(test_matrix).reshape(2,2,2)

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

In [24]:
np.array(test_matrix).reshape(2,2,2).shape

(2, 2, 2)

In [25]:
np.array(test_matrix).reshape(1,1,-1,2)

array([[[[1, 2],
         [3, 4],
         [1, 2],
         [5, 8]]]])

## 2-2) flatten
- flatten()  
- 다차원 array를 1차원 array로 변환

In [27]:
test_matrix = [[1,2,3,4], [1,2,5,8],[1,2,3,4], [1,2,5,8]]
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 8, 1, 2, 3, 4, 1, 2, 5, 8])

# 3. Indexing & Slicing

## 3-1) Indexing
- List와 달리 이차원 배열에서 [0,0] 과 같은 표기법을 제공함  
- Matrix일 경우 앞은 row 뒤는 column을 의미함

In [28]:
a = np.array([[1,2,3], [4.5, 5, 6]], int)
print(a)
print(a[0,0]) # Two dimensional array representation 1
print(a[0][0]) # Two dimensional array representation 2

[[1 2 3]
 [4 5 6]]
1
1


In [29]:
a[0,0] = 12
print(a)

[[12  2  3]
 [ 4  5  6]]


In [30]:
a[0][0] = 5
print(a)

[[5 2 3]
 [4 5 6]]


In [31]:
test_example = np.array([[1,2,3], [4.5, 5,6]], int)
test_example

array([[1, 2, 3],
       [4, 5, 6]])

In [32]:
test_example[0][0]

1

In [33]:
test_example[0,0]

1

In [34]:
test_example[0,0] = 10
test_example

array([[10,  2,  3],
       [ 4,  5,  6]])

In [35]:
test_example[0][0] = 5
test_example[0,0]

5

## 3-2) Slicing
- List와 달리 row와 column부분을 나눠서 slicing이 가능함  
- Matrix의 부분 집합을 추출할 때 유용함

In [41]:
a = np.array([[1,2,3,4,5], [6,7,8,9,10]], int)
a

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [38]:
a[:,2:] # 전체 Row의 Col2 이상

array([[ 3,  4,  5],
       [ 8,  9, 10]])

In [40]:
a[1,1:3] # Row1의 Col1~Col2

array([7, 8])

In [42]:
a[1:3] # Row1 ~ Row2 전체

array([[ 6,  7,  8,  9, 10]])

In [44]:
test_example = np.array([
    [1,2,5,8],[1,2,5,8],[1,2,5,8],[1,2,5,8]
], int)

test_example

array([[1, 2, 5, 8],
       [1, 2, 5, 8],
       [1, 2, 5, 8],
       [1, 2, 5, 8]])

In [45]:
test_example[:2,:] # 두번째 Row까지 전체 Col

array([[1, 2, 5, 8],
       [1, 2, 5, 8]])

In [46]:
test_example[:,1:3] #전체 Row, Col1~Col2

array([[2, 5],
       [2, 5],
       [2, 5],
       [2, 5]])

In [48]:
test_example[1,:2] # Row1, 두번째 Col까지

array([1, 2])

In [49]:
test_example = np.array([[1,2,3,4,5], [6,7,8,9,10]])
test_example

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [50]:
test_example[:, 2:] #전체 Row, Col2부터 전체

array([[ 3,  4,  5],
       [ 8,  9, 10]])

In [51]:
test_example[1,1:3] # Row1, Col1부터 세번째 Col까지

array([7, 8])

In [52]:
test_example[1:3] # Row1 ~ Row2 전체

array([[ 6,  7,  8,  9, 10]])

In [54]:
test_a = np.array([[0,1,2,3,4,], [5,6,7,8,9], [10,11,12,13,14]])
test_a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [55]:
test_a[:,::2] #전체 Row, 전체 Col, 한칸씩 건너뛰어서

array([[ 0,  2,  4],
       [ 5,  7,  9],
       [10, 12, 14]])

In [56]:
test_a[::2,::3] #전체 Row 한칸씩 건너뛰어서, 전체 Col 두칸씩 건너뛰어서

array([[ 0,  3],
       [10, 13]])

More Reference : https://www.slideshare.net/PyData/introduction-to-numpy


# 4. Creation Functions

## 4-1) arange
- array의 범위를 지정하여 값의 list를 생성  
- np.arange(`start`, `end`, `step`)

In [57]:
np.arange(30) # range: list의 range와 같은 효과로, int 0부터 29까지 배열 추출

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [58]:
np.arange(0, 5, 0.5) # 0부터, 5까지, 0.5씩 건너뛰어서

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [59]:
np.arange(30).reshape(5,6) #arange x reshape

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [62]:
np.arange(0, 5, 0.5).tolist() # array to list

[0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5]

## 4-2) zeros
- 0으로만 구성된 ndarray 생성  
- np.zeros(`shape`, `dtype`, `order`)

In [63]:
np.zeros(shape=(10,), dtype=np.int8) # 10개의 0으로 된 vector

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [65]:
np.zeros((2,5)) # 2 by 5 - zero matrix

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

## 4-3) ones
- 1로만 구성된 ndarray 생성  
- np.ones(`shape`, `dtype`, `order`)

In [66]:
np.ones(shape=(10,), dtype=np.int8) 

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [67]:
np.ones((2,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

## 4-4) empty
- shape만 주어지고 비어있는 ndarray 생성(memory initialization이 되지 않음)  
- np.empty(`shape`, `dtype`)

In [69]:
np.empty(shape=(10,), dtype=np.int8)

array([ 96,  56,  49, -25,  83,   2,   0,   0,   0,   0], dtype=int8)

In [70]:
np.empty((3,5))

array([[4.67296746e-307, 1.69121096e-306, 7.56593696e-307,
        8.34441742e-308, 1.78022342e-306],
       [6.23058028e-307, 9.79107872e-307, 6.89807188e-307,
        7.56594375e-307, 6.23060065e-307],
       [1.78021527e-306, 8.34454050e-308, 1.11261027e-306,
        2.04712907e-306, 3.49698923e-317]])

## 4-5) \_like
- 기존 ndarray의 shape만큼 1,0 또는 empty array를 반환  
- np.`zeros, ones, empty`\_like(`array`)

In [71]:
test_matrix = np.arange(30).reshape(5,6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

## 4-6) identity
- Identity Matrix 생성
- np.identity(`number of rows`, `dtype`)

In [72]:
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [73]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## 4-7) eye
- 대각선이 1인 matrix 만들어줌  
- starting index인 k값 변경 가능  
- np.eye(`row`, `col`, `k(start index)`)

In [75]:
np.eye(N=3, M=5, dtype=np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [76]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [77]:
np.eye(3, 5, k=2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## 4-8) diag
- 대각 행렬의 값을 추출함
- np.diag(`matrix`, `start index, k`)

In [78]:
matrix = np.arange(9).reshape(3,3)
np.diag(matrix)

array([0, 4, 8])

In [79]:
np.diag(matrix, k=1)

array([1, 5])

## 4-9) random sampling
- 데이터 분포에 따른 sampling으로 array를 생성  
- reshape과 많이 씀
- np.random.uniform(`min`, `max`, `number of element`) : 균등분포  
- np.random.normal(`average`,`standard deviation`,`number of element`): 정규분포

In [80]:
np.random.uniform(0,1,10).reshape(2,5)

array([[0.94463232, 0.56957733, 0.6727776 , 0.60233676, 0.39475849],
       [0.68944997, 0.45733711, 0.91525769, 0.90492253, 0.03740618]])

In [81]:
np.random.normal(0,1,10).reshape(2,5)

array([[ 1.1455509 , -0.79858162,  0.92407381, -0.80396203,  0.38633144],
       [ 1.22470259, -0.30165471,  1.1206826 , -1.09658798, -0.41468752]])

# 5. Operation Functions

## Important Concept : axis

<img src="./img/np_axis.png" width="700" style="float:left">

## 5-1 ) sum
- ndarray의 element들 간의 합을 구함, list의 sum 기능과 동일

In [83]:
test_array = np.arange(1,11)
test_array

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [84]:
test_array.sum(dtype=np.float)

55.0

In [85]:
test_array = np.arange(1,13).reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [87]:
test_array.sum(axis=0) # axis=0로 sum

array([15, 18, 21, 24])

In [86]:
test_array.sum(axis=1) # axis=1로 sum

array([10, 26, 42])

In [89]:
third_order_tensor = np.array([test_array, test_array, test_array])
third_order_tensor

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]])

In [90]:
third_order_tensor.sum(axis=0)

array([[ 3,  6,  9, 12],
       [15, 18, 21, 24],
       [27, 30, 33, 36]])

In [91]:
third_order_tensor.sum(axis=1)

array([[15, 18, 21, 24],
       [15, 18, 21, 24],
       [15, 18, 21, 24]])

In [92]:
third_order_tensor.sum(axis=2)

array([[10, 26, 42],
       [10, 26, 42],
       [10, 26, 42]])

## 5-2) mean & std
- ndarray의 element간의 평균 또는 표준편차를 반환

In [93]:
test_array = np.arange(1,13).reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [94]:
test_array.mean()

6.5

In [95]:
test_array.mean(axis=0)

array([5., 6., 7., 8.])

In [96]:
test_array.std()

3.452052529534663

In [97]:
test_array.std(axis=0)

array([3.26598632, 3.26598632, 3.26598632, 3.26598632])

## 5-3) Mathematical Functions

- exponential : exp, expm1, exp2, log, log10, log1p, log2, power, sqrt  
- trigonometric : sin, cos, tan, acsin, arcos, atctan  
- hyperbolic: sinh, cosh, tanh, acsinh, arccosh, atctanh

In [98]:
np.exp(test_array)

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01, 5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03],
       [8.10308393e+03, 2.20264658e+04, 5.98741417e+04, 1.62754791e+05]])

In [99]:
np.sqrt(test_array)

array([[1.        , 1.41421356, 1.73205081, 2.        ],
       [2.23606798, 2.44948974, 2.64575131, 2.82842712],
       [3.        , 3.16227766, 3.31662479, 3.46410162]])

## 5-4) Concatenate : vstack, hstack, concatenate
- Numpy array를 합치는 함수

In [100]:
# vstack 
a = np.array([1,2,3])
b = np.array([2,3,4])
np.vstack((a,b))

array([[1, 2, 3],
       [2, 3, 4]])

In [101]:
# hstack 1 column vector
a = np.array([[1], [2], [3]])
b = np.array([[2], [3], [4]])
np.hstack((a,b))

array([[1, 2],
       [2, 3],
       [3, 4]])

In [104]:
# hstack 2 column vector
a = np.array([[1,2,3]])
b = np.array([[2,3,4]])
np.hstack((a,b))

array([[1, 2, 3, 2, 3, 4]])

In [105]:
a = np.array([1,2,3])
b = np.array([2,3,4])
np.concatenate((a,b), axis=0)

array([1, 2, 3, 2, 3, 4])

In [106]:
a = np.array([[1,2], [3,4]])
b = np.array([[5,6]])
np.concatenate((a,b.T), axis=1) # transpose

array([[1, 2, 5],
       [3, 4, 6]])

# 6. Array Operations

- Numpy는 array간의 기본적인 사칙연산을 지원함

## 6-1) Element-wise Operations : +, -, *
- Array간 shape이 같을 때 일어나는 연산

In [6]:
test_a = np.array([[1,2,3], [4,5,6]], float)
test_a

array([[1., 2., 3.],
       [4., 5., 6.]])

In [3]:
test_a + test_a # Matrix + Matrix

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [4]:
test_a - test_a # Matrix - Matrix

array([[0., 0., 0.],
       [0., 0., 0.]])

In [5]:
test_a * test_a # element-wise product

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [7]:
matrix_a = np.arange(1,13).reshape(3,4)
matrix_a * matrix_a

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]])

## 6-2) Dot Product
- Dot 함수 사용

In [8]:
test_a = np.arange(1,7).reshape(2,3)
test_b = np.arange(7,13).reshape(3,2)

In [9]:
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [10]:
test_b

array([[ 7,  8],
       [ 9, 10],
       [11, 12]])

In [11]:
# dot product
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

## 6-3) Transpose
- transpose 또는 T attribute 사용

In [12]:
test_a = np.arange(1,7).reshape(2,3)
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [13]:
test_a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

In [14]:
test_a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [15]:
test_a.T.dot(test_a)

array([[17, 22, 27],
       [22, 29, 36],
       [27, 36, 45]])

## 6-4) Broadcasting
- Shape이 다른 배열 간 연산을 지원하는 기능

In [16]:
test_matrix = np.array([[1,2,3], [4,5,6]], float)
scalar = 3

In [17]:
test_matrix

array([[1., 2., 3.],
       [4., 5., 6.]])

In [18]:
test_matrix + scalar 

array([[4., 5., 6.],
       [7., 8., 9.]])

In [20]:
test_matrix - scalar 

array([[-2., -1.,  0.],
       [ 1.,  2.,  3.]])

In [25]:
test_matrix * 5

array([[ 5., 10., 15.],
       [20., 25., 30.]])

In [26]:
test_matrix / 5

array([[0.2, 0.4, 0.6],
       [0.8, 1. , 1.2]])

In [27]:
test_matrix // 0.2

array([[ 4.,  9., 14.],
       [19., 24., 29.]])

In [28]:
test_matrix ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

- vector-matrix 간의 연산도 지원  
<img src="./img/np_broadcasting.png" width="400" style="float:left">

In [29]:
test_matrix = np.arange(1,13).reshape(4,3)
test_vector = np.arange(10,40,10) # 10부터 40까지 with step 10
test_matrix, test_vector

(array([[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9],
        [10, 11, 12]]), array([10, 20, 30]))

In [30]:
test_matrix + test_vector

array([[11, 22, 33],
       [14, 25, 36],
       [17, 28, 39],
       [20, 31, 42]])

## 6-5) Numpy Performance 
- timeit : jupyter 환경에서의 코드의 퍼포먼스를 체크하는 함수

In [None]:
def scalar_vector_product(scalar, vector):
    result = []
    for value in vector:
        result.append(scalar*value)
    return result

iteration_max = 10000

vector = list(range(iteration_max))
scalar = 2

In [None]:
%timeit scalar_vector_product(scalar,vector) # for loop

In [None]:
%timeit [scalar*value for value in range(iteration_max)] # list comprehension

In [None]:
%timeit np.arange(iteration_max)*scalar # numpy

# 7. Comparisons

## 7-1) All & Any
- Array의 데이터 전부(all) 또는 일부(any)가 조건에 만족하는지 여부 반환  
- Any: 하나라도 조건에 만족한다면 True  
- All: 모두가 조건에 만족해야 True

In [33]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [36]:
a > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [34]:
np.any(a>5), np.any(a<0)

(True, False)

In [35]:
np.all(a>5), np.all(a<10)

(False, True)

## 7-2) Comparison Operation: >, <, ==
- Numpy는 Array의 크기가 동일할때 element간 비교의 결과를 bool type으로 반환해줌

In [39]:
test_a = np.array([1,3,0], float)
test_b = np.array([5,2,1], float)
test_a, test_b

(array([1., 3., 0.]), array([5., 2., 1.]))

In [40]:
test_a > test_b

array([False,  True, False])

In [41]:
test_a == test_b

array([False, False, False])

In [42]:
(test_a > test_b).any()

True

## 7-3) Comparison Operation: logical_and, logical_not, logical_or

In [43]:
a = np.array([1,3,0], float)
np.logical_and(a > 0, a < 3) # and조건의 condition

array([ True, False, False])

In [44]:
b = np.array([True, False, True], bool)
np.logical_not(b) # Not 조건의 condition

array([False,  True, False])

In [45]:
c = np.array([False, True, False], bool)
np.logical_or(b,c) # OR 조건의 condition

array([ True,  True,  True])

## 7-4) np.where, np.isnan, np.isfinite

In [46]:
np.where(a > 0, 3, 2) #where(condition, TRUE, FALSE)

array([3, 3, 2])

In [47]:
a = np.arange(10)
np.where(a > 5) # True인 값의 index값 반환

(array([6, 7, 8, 9], dtype=int64),)

In [48]:
a = np.array([1, np.NaN, np.Inf], float)
np.isnan(a) # not a number

array([False,  True, False])

In [49]:
np.isfinite(a)

array([ True, False, False])

## 7-5) argmax & argmin
- array내 max, min의 index를 반환함

In [50]:
a = np.array([1,2,4,5,8,78,23,3])
np.argmax(a), np.argmin(a)

(5, 0)

- axis 기반의 반환

In [51]:
a = np.array([[1,2,4,7], [9,88,6,45], [9,76,3,4]])
np.argmax(a, axis=1), np.argmin(a, axis=0)

(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))

# 8. Boolean & Fancy Index

## 8-1) Boolean Index
- Numpy의 Array는 특정 조건에 따른 값을 Array 형태로 추출할 수 있음  
- comparison operation 함수들도 모두 사용가능

In [53]:
test_array = np.array([1,4,0,2,3,8,9,7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [54]:
test_array[test_array > 3] # 조건이 True인 element만 추출

array([4., 8., 9., 7.])

In [55]:
condition = test_array < 3
test_array[condition]

array([1., 0., 2.])

In [56]:
A = np.arange(15).reshape(3,5)
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [59]:
B = A < 10
B

array([[ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [False, False, False, False, False]])

In [60]:
B.astype(np.int)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [0, 0, 0, 0, 0]])

## 8-2) Fancy Index
- Numpy의 array를 index value로 사용해서 값을 추출하는 방법

In [63]:
a = np.array([2,4,6,8], float)
b = np.array([0,0,1,3,2,1], int) #반드시 int로 선언
a[b] # bracket index, b-array의 값을 index로 하여 a의 값들을 추출함

array([2., 2., 4., 8., 6., 4.])

In [64]:
a.take(b) #take 함수: bracket index와 같은 효과

array([2., 2., 4., 8., 6., 4.])

- Matrix 형태의 데이터도 가능하지만 별로 안 씀

In [65]:
a = np.array([[1,4], [9,16]], float)
b = np.array([0,0,1,1,0], int)
c = np.array([0,1,1,1,1], int)
a[b,c] # b를 row, c를 column으로 해서 해당 index의 element 반환

array([ 1.,  4., 16., 16.,  4.])

# 9. Numpy Data I/O

## 9-1) loadtxt & savetxt
- Text type의 데이터를 읽고, 저장하는 기능

In [66]:
a = np.loadtxt("./resource/populations.txt")
a[:10]

array([[ 1900., 30000.,  4000., 48300.],
       [ 1901., 47200.,  6100., 48200.],
       [ 1902., 70200.,  9800., 41500.],
       [ 1903., 77400., 35200., 38200.],
       [ 1904., 36300., 59400., 40600.],
       [ 1905., 20600., 41700., 39800.],
       [ 1906., 18100., 19000., 38600.],
       [ 1907., 21400., 13000., 42300.],
       [ 1908., 22000.,  8300., 44500.],
       [ 1909., 25400.,  9100., 42100.]])

In [67]:
a_int = a.astype(int)
a_int[:3]

array([[ 1900, 30000,  4000, 48300],
       [ 1901, 47200,  6100, 48200],
       [ 1902, 70200,  9800, 41500]])

In [69]:
np.savetxt('int_data.csv', a_int, delimiter="\t")

In [70]:
np.savetxt('int_data.csv', a_int, fmt='%d', delimiter='\t')

## 9-2) Numpy Object - npy
- Numpy Object(pickle) 형태로 데이터를 저장하고 불러옴  
- Binary 파일 형태로 저장함

In [71]:
np.save('npy_test', arr=a_int)

In [72]:
npy_array = np.load(file='npy_test.npy')
npy_array[:3]

array([[ 1900, 30000,  4000, 48300],
       [ 1901, 47200,  6100, 48200],
       [ 1902, 70200,  9800, 41500]])