## Numpy 활용

In [1]:
import numpy as np

### numpy array의 생성
- 보통 list는 데이터의 주소를 포인팅하는 형식이나 numpy는 data 자체가 저장되어 있음
- 따라서 list와 달리 deep copy 등 포인터로 인한 문제는 덜한 편
- 공간을 절약할 수 있어 메모리에 효율적

In [5]:
#numpy는 하나의 리스트의 다양한 type을 허용하지 않음
test_array = np.array(["1","4",5,8], float) 
test_array

array([1., 4., 5., 8.])

In [6]:
type(test_array[3])

numpy.float64

In [9]:
test_array = np.array([1,4,5,"8"], np.float32)
test_array

array([1., 4., 5., 8.], dtype=float32)

In [10]:
test_array.dtype

dtype('float32')

In [12]:
test_array.shape #Array의 shape(dimension)을 반환

(4,)

In [14]:
#matrix일 경우:
matrix = [[1,2,5,8],[1,2,5,8],[1,2,5,8]] 
np.array(matrix,int).shape

(3, 4)

In [18]:
tensor = [[[1,2,5,8],[1,2,5,8],[1,2,5,8]],
          [[1,2,5,8],[1,2,5,8],[1,2,5,8]],
          [[1,2,5,8],[1,2,5,8],[1,2,5,8]],
          [[1,2,5,8],[1,2,5,8],[1,2,5,8]]]
print(np.array(tensor, int).ndim)
print(np.array(tensor, int).size)

3
48


### numpy reshape

In [20]:
test_matrix = [[1,2,3,4],[1,2,5,8]]
np.array(test_matrix).reshape(2,2,2)

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

In [23]:
test = np.array(test_matrix).reshape(8,)
test

array([1, 2, 3, 4, 1, 2, 5, 8])

In [22]:
np.array(test_matrix).reshape(-1,2).shape #-1: size를 기반으로 row 개수 선정

(4, 2)

### flatten
* 다차원 array를 1차원 array로 변환

In [24]:
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 8])

### indexing
- list와 달리 이차원 배열에서 [0,0] 과 같은 표기법을 제공함
- matrix일 경우 앞은 row 뒤는 column을 의미함

In [27]:
a = np.array([[1,2,3],[4.5,5,6]],int)
print(a[0,0])

1


### slicing
- list와 달리 행과 열 부분을 나눠서 slicing이 가능함
- matrix의 부분 집함을 추출할 대 유용함

In [28]:
test_example = np.array([[1,2,5,8],[1,2,5,8],[1,2,5,8],[1,2,5,8]], int)
test_example[:2,:]

array([[1, 2, 5, 8],
       [1, 2, 5, 8]])

### arange
- array의 범위를 지정하여, 값의 list를 생성하는 명령어

In [30]:
np.arange(30).reshape(-1,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [32]:
np.arange(0,5,0.5).tolist() #(시작, 끝, step), tolist(): 리스트화

[0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5]

### one, zeros and empty
- ones: 1로 가득찬 ndarray 생성
- zeros: 0으로 가득찬 ndarray 생성 | np.zeros(shape, dtype, order)
- empty: shape만 주어지고 비어있는 ndarray 생성(no memory initialization)

In [35]:
np.zeros(shape=(10,), dtype = np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [36]:
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [38]:
np.empty(shape=(10,), dtype = np.int8)

array([ 80, -48,  83,  -7, 116,   2,   0,   0,   0,   0], dtype=int8)

### something_like
- 기존 ndarray의 shape 크기 만큼 1,0 또는 empty array를 반환

In [40]:
test_matrix = np.arange(30).reshape(5,6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

### identity
- 단위 행렬 I를 생성

In [41]:
np.identity(n=3, dtype = np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

### eye
- 대각선인 1인 행렬, k값의 시작 index의 변경이 가능

In [43]:
np.eye(N = 3, M = 5, dtype = np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [44]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [45]:
np.eye(3,5, k=2) #indexr기 2일 때부터 시작

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### diag
- 대각 행렬의 값을 추출

In [47]:
matrix = np.arange(9).reshape(3,3)
np.diag(matrix)

array([0, 4, 8])

In [48]:
np.diag(matrix, k=1)

array([1, 5])

### random sampling
- 데이터 분포에 따른 sampling으로 array를 생성

In [49]:
np.random.uniform(0,1,10).reshape(2,5) #균등 분포

array([[0.88362947, 0.49331013, 0.64672943, 0.30521452, 0.08723956],
       [0.09684478, 0.09290042, 0.80739623, 0.12458657, 0.57169834]])

In [50]:
np.random.normal(0,1,10).reshape(2,5) #정규 분포

array([[-1.05385154,  1.60313544, -1.66638785,  1.10707391, -1.67014244],
       [ 0.17728584, -1.50625572,  0.22359973, -0.81391092,  0.7636629 ]])

### axis
- 모든 operation function을 실행할 때, 기준이 되는 dimension 축

In [52]:
test_array = np.arange(1,13).reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [53]:
# axis = 1: row, axis = 0: column
test_array.sum(axis = 1), test_array.sum(axis = 0)

(array([10, 26, 42]), array([15, 18, 21, 24]))

### concatenate
- numpy array를 합치는 함수

In [54]:
a = np.array([1,2,3])
b = np.array([2,3,4])
np.vstack((a,b))

array([[1, 2, 3],
       [2, 3, 4]])

In [55]:
a = np.array([[1],[2],[3]])
b = np.array([[2],[3],[4]])
np.hstack((a,b))

array([[1, 2],
       [2, 3],
       [3, 4]])

### Operations b/t arrays
- Numpy는 array간의 기본적인 사칙 연산을 지원함

In [58]:
test_a = np.array([[1,2,3],[4,5,6]], float)
test_a * test_a

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

### Element-wise operations
- Array 간 shape이 같을 때 일어나는 연산
- 같은 위치에서 연산이 이루어짐

In [60]:
matrix_a = np.arange(1,13).reshape(3,4)
matrix_a * matrix_a

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]])

### Dot product
- Matrix의 기본 연산
- dot 함수 사용

In [63]:
test_a = np.arange(1,7).reshape(2,3)
test_b = np.arange(7,13).reshape(3,2)
print(test_a.dot(test_b))
print(test_a.T.dot(test_a)) # Matrix 간 곱셈

[[ 58  64]
 [139 154]]
[[17 22 27]
 [22 29 36]
 [27 36 45]]


### transpose
- transpose 또는 T attribute 사용

In [64]:
test_a = np.arange(1,7).reshape(2,3)
print(test_a)
print(test_a.transpose())
print(test_a.T)

[[1 2 3]
 [4 5 6]]
[[1 4]
 [2 5]
 [3 6]]
[[1 4]
 [2 5]
 [3 6]]


### broadcasting
- shape이 다른 배열 간 연산을 지원하는 기능

In [66]:
test_matrix = np.array([[1,2,3],[4,5,6]], float)
scalar = 3
test_matrix + scalar

array([[4., 5., 6.],
       [7., 8., 9.]])

### All & Any
- Array의 데이터 전부(and) 또는 일부(or)가 조건에 만족 여부 반환

In [68]:
a = np.arange(10)
print(np.any(a>5), np.any(a<0))
print(np.all(a>5), np.all(a<10))

True False
False True


### Comparison operation 

In [69]:
a = np.array([1,3,0],float)
np.logical_and(a > 0,a < 3) #and 조건의 condition

array([ True, False, False])

In [70]:
b = np.array([True, False, True], bool)
np.logical_not(b) #Not 조건의 condition

array([False,  True, False])

In [71]:
c = np.array([False, True, False], bool)
np.logical_or(b,c)

array([ True,  True,  True])

### np.where : 인덱스 값, 위치 반환

In [72]:
np.where(a>0,3,2) #where(condition, TRUE,FALSE)

array([3, 3, 2])

In [73]:
a = np.arange(10)
np.where(a>5) #index 반환

(array([6, 7, 8, 9], dtype=int64),)

In [74]:
a = np.array([1, np.NaN, np.Inf], float)
np.isnan(a)

array([False,  True, False])

In [75]:
np.isfinite(a)

array([ True, False, False])

### argmax & argmin
- array 내 최대값 또는 최소값의 index를 반환

In [77]:
a = np.array([1,2,4,5,8,78,23,3])
np.argmax(a), np.argmin(a)

(5, 0)

In [80]:
a = np.array([[1,2,4,7],[9,88,6,45],[9,76,3,4]])
np.argmax(a, axis = 1), np.argmin(a, axis = 0)

(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))

### boolean index
- numpy는 배열 특정 조건에 따른 값을 배열 형태로 추출 가능
- Comparison operation 함수들도 모두 사용 가능

In [81]:
test_array = np.array([1,4,0,2,3,8,9,7],float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [83]:
test_array[test_array > 3] #조건이 true인 index의 element만 추출

array([4., 8., 9., 7.])

In [84]:
condition = test_array < 3
test_array[condition]

array([1., 0., 2.])

### fancy index
- numpy는 array를 index value로 사용해서 값을 추출하는 방법

In [85]:
a = np.array([2,4,6,8],float)
b = np.array([0,0,1,3,2,1],int) #반드시 integer로 선언
a[b] #bracket index, b 배열의 값을 index로 하여 a의 값들 추출

array([2., 2., 4., 8., 6., 4.])

In [86]:
a.take(b) #take함수: bracket index와 같은 효과

array([2., 2., 4., 8., 6., 4.])

In [87]:
a = np.array([[1,4],[9,16]], float)
b = np.array([0,0,1,1,0], int)
c = np.array([0,1,1,1,1], int)
a[b,c] #b를 row index, c를 column index로 변환하여 표시

array([ 1.,  4., 16., 16.,  4.])