In [1]:
import numpy as np

## reshape

* reshape : array의 shape의 크기를 변경함, element의 갯수는 동일

In [3]:
test_matrix = [[1,2,3,4],[1,2,5,8]]
np.array(test_matrix).shape

(2, 4)

In [4]:
np.array(test_matrix).reshape(4,2)

array([[1, 2],
       [3, 4],
       [1, 2],
       [5, 8]])

In [5]:
np.array(test_matrix).reshape(2,2,2)

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

In [6]:
np.array(test_matrix).reshape(8,)

array([1, 2, 3, 4, 1, 2, 5, 8])

* -1을 써주면 나머지 값들에 의해 자동 지정

In [7]:
np.array(test_matrix).reshape(-1,2).shape

(4, 2)

## flatten

* flatten : 다차원 array를 1차원 array로 반환

In [8]:
test_matrix = [[[1,2,3,4],[1,2,5,8]],[[1,2,3,4],[1,2,5,8]]]
np.array(test_matrix)

array([[[1, 2, 3, 4],
        [1, 2, 5, 8]],

       [[1, 2, 3, 4],
        [1, 2, 5, 8]]])

In [9]:
test_matrix = np.array(test_matrix)
test_matrix.shape

(2, 2, 4)

In [11]:
test_matrix.flatten() # 할당을 해 주지 않았기 때문에 본래 test_matrix는 변하지 않음

array([1, 2, 3, 4, 1, 2, 5, 8, 1, 2, 3, 4, 1, 2, 5, 8])

## indexing

In [12]:
test_example = np.array([[1,2,3],[4,5,6]],int)
test_example

array([[1, 2, 3],
       [4, 5, 6]])

* , 를 사용해서 indexing 가능

In [13]:
test_example[0][2], test_example[0,2]

(3, 3)

## slicing

* list와 달리 행과 열 부분을 나눠서 slicing이 가능함
* matrix의 부분집합을 추출할 때 유용함

In [14]:
test_example = np.array([[1,2,5,8],[1,2,5,8],[1,2,5,8],[1,2,5,8]],int)
test_example

array([[1, 2, 5, 8],
       [1, 2, 5, 8],
       [1, 2, 5, 8],
       [1, 2, 5, 8]])

In [15]:
test_example[:, 2:]

array([[5, 8],
       [5, 8],
       [5, 8],
       [5, 8]])

In [17]:
test_example[:,1:3].shape # (전체 행) * (1,2열)

(4, 2)

* 1:2 는 row 하나만을 의미하지만 여러 개를 호출했기 때문에 2-dimensional로 출력

In [20]:
test_example[1:2,:2] 

array([[1, 2]])

* 1번째 row 하나만을 호출했으니 1-dimensional 출력

In [22]:
test_example[1]

array([1, 2, 5, 8])

* step : [start point : end point : step]

In [23]:
test_example = np.array([[0,1,2,3,4],[5,6,7,8,9],[10,11,12,13,14]],int)
test_example

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [24]:
test_example[:,::2]

array([[ 0,  2,  4],
       [ 5,  7,  9],
       [10, 12, 14]])

In [25]:
test_example[::2,::3]

array([[ 0,  3],
       [10, 13]])

## arange

* arange : list의 range와 같은 효과

In [26]:
np.arange(0,10,2) # start, end, step

array([0, 2, 4, 6, 8])

In [27]:
np.arange(0,5,0.5) # floating point도 가능

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [28]:
np.arange(30).reshape(5,6) # reshape과 함께 자주 쓰임

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

## ones, zeros & empty

* zeros : 0으로 가득찬 ndarray 생성
  * np.zeros(shape, dtype, order)

In [60]:
np.zeros(shape=(10,),dtype = np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [61]:
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

* ones : 1로 가득찬 ndarray 생성
  * np.ones(shape, dtype, order)

In [62]:
np.ones(shape = (10,) ,dtype = np.int8)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [63]:
np.ones((2,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

* empty : shape만 주어지고 비어있는 ndarray 생성
  * 메모리 주소값만 갖는 것. 값은 바뀔 수 있음 (이전의 값)
  * memory initializtion이 되지 않음

In [64]:
np.empty(shape=(10,),dtype=np.int8) 

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [65]:
np.empty((5,3))

array([[0., 0., 1.],
       [0., 0., 0.],
       [0., 0., 1.],
       [0., 0., 0.],
       [0., 0., 1.]])

* something_like : 기존 ndarray의 shape 크기만큼 1, 0 또는 empty array를 반환

In [66]:
test_matrix = np.arange(30).reshape(5,6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

## eye, identity & diagonal

* identity : 단위행렬을 생성함

In [67]:
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

* eye : 대각선이 1인 행렬, k값의 시작 index의 변경이 가능
  * 여기서 k가 양수일땐 맨 윗줄에서, 음수일 땐 맨 밑 줄에서 시작점을 찾음

In [68]:
np.eye(N=3,M=5,k=1,dtype=np.int8) 

array([[0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0]], dtype=int8)

In [69]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [70]:
np.eye(3,5,k=2) 

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

* diag : 대각 행렬의 값을 추출함

In [71]:
matrix = np.arange(9).reshape(3,3)
matrix

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [72]:
np.diag(matrix)

array([0, 4, 8])

In [73]:
np.diag(matrix, k=1)

array([1, 5])

In [74]:
np.diag(matrix, k=-1)

array([3, 7])

## numpy.random

* 데이터 분포에 따른 sampling으로 array를 생성

In [75]:
np.random.normal(0,1,10).reshape(2,5)

array([[-0.8130742 ,  0.03851634,  0.05405675, -0.73702705,  0.30135074],
       [-0.45214994, -1.2386138 , -1.25678805,  1.32956964, -1.85367935]])

> `np.random.` 여기까지만 치고 tab누르면 분포 종류 뜸

In [76]:
np.random.exponential(scale=2, size=10)

array([0.21820064, 1.27244337, 2.34188332, 0.04568258, 6.53346022,
       3.80505846, 4.6580493 , 3.0858565 , 1.84427734, 5.8975679 ])

## operation in array

In [77]:
test_array = np.arange(1,11)
test_array

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

* sum()

In [78]:
test_array.sum()

55

* axis : 모든 operation function을 실행할 때 기준이 되는 dimension 축
  * shape이 (3,3,4) 일 때 순서대로 axis = 0,1,2가 됨

In [79]:
test_array = np.arange(1,13).reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [80]:
test_array.sum(axis=1) # (가로로, 열 방향)

array([10, 26, 42])

In [81]:
test_array.sum(axis=0) # (세로로, 행 방향)

array([15, 18, 21, 24])

In [82]:
third_order_tensor = np.array([test_array,test_array,test_array])
third_order_tensor

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]])

In [83]:
third_order_tensor.sum(axis=2)

array([[10, 26, 42],
       [10, 26, 42],
       [10, 26, 42]])

In [84]:
third_order_tensor.sum(axis=0)

array([[ 3,  6,  9, 12],
       [15, 18, 21, 24],
       [27, 30, 33, 36]])

* mean, std, sqrt, exp

In [85]:
test_array.mean(axis=1)

array([ 2.5,  6.5, 10.5])

In [86]:
test_array.std(axis=0), test_array.std(axis=1)

(array([3.26598632, 3.26598632, 3.26598632, 3.26598632]),
 array([1.11803399, 1.11803399, 1.11803399]))

In [87]:
np.sqrt(test_array)

array([[1.        , 1.41421356, 1.73205081, 2.        ],
       [2.23606798, 2.44948974, 2.64575131, 2.82842712],
       [3.        , 3.16227766, 3.31662479, 3.46410162]])

In [88]:
np.exp(test_array) # e의 몇승

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01, 5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03],
       [8.10308393e+03, 2.20264658e+04, 5.98741417e+04, 1.62754791e+05]])

## concatenate

* numpy array를 합치는 함수

* vstack, hstack도 있음

In [94]:
# vstack : 가로 방향으로 붙임 (vertically)
a = np.array([1,2,3])
b = np.array([4,5,6])
np.vstack((a,b))

array([[1, 2, 3],
       [4, 5, 6]])

In [95]:
# hstack : 세로 방향으로 붙임 (horizontally)
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
np.hstack((a,b))

array([[1, 4],
       [2, 5],
       [3, 6]])

* concatenate 는 axis로 방향을 지정함

In [96]:
a = np.array([[1,2,3]])
b = np.array([[4,5,6]])
np.concatenate((a,b),axis = 0)

array([[1, 2, 3],
       [4, 5, 6]])

In [97]:
a = np.array([[1,2],[4,5]])
b = np.array([[3],[6]])
np.concatenate((a,b),axis = 1)

array([[1, 2, 3],
       [4, 5, 6]])

In [100]:
a = np.array([[1,2],[4,5]])
b = np.array([3,6])
b = b[np.newaxis, :] 

# np.newaxis : 축을 하나 새로 추가 시킬 때 사용
# vector가 matrix가 됨
np.concatenate((a,b.T),axis=1)

array([[1, 2, 3],
       [4, 5, 6]])

## Array operations

* element-wise operations : array간 shape이 같을 때 일어나는 연산
  * 같은 위치의 데이터끼리 연산이 일어 남

In [101]:
test_a = np.array([[1,2,3],[4,5,6]],float)
test_a

array([[1., 2., 3.],
       [4., 5., 6.]])

In [102]:
test_a + test_a # Matrix + Matrix 연산

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [103]:
test_a - test_a # Matrix - Matrix 연산

array([[0., 0., 0.],
       [0., 0., 0.]])

In [104]:
test_a * test_a # Matrix 내 element들 간 같은 위치에 있는 값들끼리 연산

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

## dot product

* Matrix의 기본 연산, dot함수 사용

In [105]:
test_a = np.arange(1,7).reshape(2,3)
test_b = np.arange(7,13).reshape(3,2)

In [106]:
test_a.dot(test_b) # (2x3) * (3x2) = (2x2)

array([[ 58,  64],
       [139, 154]])

* transpose 또는 T attribute 사용 (전치행렬)

In [107]:
test_a, test_a.transpose()

(array([[1, 2, 3],
        [4, 5, 6]]),
 array([[1, 4],
        [2, 5],
        [3, 6]]))

In [108]:
test_a.T.dot(test_a) #(3x2)*(2x3)

array([[17, 22, 27],
       [22, 29, 36],
       [27, 36, 45]])

## broadcasting

In [110]:
test_matrix = np.array([[1,2,3],[4,5,6]],float)
scalar = 3
test_matrix

array([[1., 2., 3.],
       [4., 5., 6.]])

* +, -, *, /, //, ** 이외 모두 가능

In [112]:
test_matrix + scalar

array([[4., 5., 6.],
       [7., 8., 9.]])

* rank가 다른 array끼리도 연산 가능 (자동으로 broadcasting 됨)

In [118]:
test_matrix = np.arange(1,13).reshape(4,3)
test_vector = np.array([10,20,30])

In [120]:
test_vector.reshape(-1,3).T + test_vector # (3x1) + (3,) : matrix + vector

# (3,)이었던 test_vector를 (1,3)으로 만들고, .T 를 이용해 (3,1)로 만듦.
# vector가 더 높은 차원인 matrix로 임시로 만들어져서 연산됨

array([[20, 30, 40],
       [30, 40, 50],
       [40, 50, 60]])

## numpy performance

* 일반적으로 연산 속도는 for loop < list comprehension < numpy 순서임
* 100,000,000번 loop이 돌 때 약 4배 이상의 성능 차이를 보임
* numpy는 C로 구현되어 있어, 성능을 확보하는 대신 파이썬의 가장 큰 특징인 dynamic typing을 포기함
* 대용량 계산에서는 가장 흔히 사용됨
* concatenate처럼 계산이 아닌 할당에서는 연산 속도의 이점은 없음