In [1]:
import numpy as np

**reshape**: Array의 shape의 크기를 변경한다. element의 갯수는 동일하다.

In [2]:
test_matrix = [[1, 2, 3, 4], [1, 2, 5, 8]]
np.array(test_matrix).shape

(2, 4)

In [3]:
np.array(test_matrix).reshape(4, 2)

array([[1, 2],
       [3, 4],
       [1, 2],
       [5, 8]])

In [4]:
np.array(test_matrix).reshape(2, 2, 2)

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

In [5]:
np.array(test_matrix).reshape(8)

array([1, 2, 3, 4, 1, 2, 5, 8])

**인자로 -1을 넘겨주면 알아서 크기가 설정된다.**

In [6]:
np.array(test_matrix).reshape(1, -1).shape

(1, 8)

In [7]:
np.array(test_matrix).reshape(1, -1, 2).shape

(1, 4, 2)

**flatten**: 다차원 array를 1차원 array로 변환한다.

In [8]:
test_matrix = [[[1, 2, 3, 4], [1, 2, 5, 8]], [[1, 2, 3, 4], [1, 2, 5, 8]]]
np.array(test_matrix)

array([[[1, 2, 3, 4],
        [1, 2, 5, 8]],

       [[1, 2, 3, 4],
        [1, 2, 5, 8]]])

In [9]:
np.array(test_matrix).flatten().size

16

In [10]:
np.array(test_matrix).flatten().shape

(16,)

<h3> Indexing / Slicing </h3>

list와 달리 이차원 배열에서 **[0 ,0] 표기법**을 제공한다. ([0][0]도 사용할 수 있다.) <br>
matrix일 경우 앞은 row, 뒤는 column을 의미한다.

In [11]:
a = np.array([[1, 2, 3], [4.5, 5, 6]], int)
print(a)
print(a[0, 0]) # Two dimensional array representation #1
print(a[0][0]) # Two dimensional array representation #2

a[0, 0] = 12
print(a)
a[0][0] = 5
print(a)

[[1 2 3]
 [4 5 6]]
1
1
[[12  2  3]
 [ 4  5  6]]
[[5 2 3]
 [4 5 6]]


list와 달리 **행과 열 부분을 나눠서 slicing**이 가능하다. <br>
matrix의 부분집합을  추출할 때 유용하다.

In [12]:
a = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]], int)
a[:, 2:]

array([[ 3,  4,  5],
       [ 8,  9, 10]])

In [13]:
a[1, 1:3]

array([7, 8])

In [15]:
a[1:3]

array([[ 6,  7,  8,  9, 10]])

In [16]:
a[1:2, :2]

array([[6, 7]])

<h3> creation function </h3>

<h4> arange </h4>

array의 범우를 지정해 값의 list를 생성한다.

In [17]:
np.arange(30)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [20]:
np.arange(0, 5, 0.5) 
# (시작, 끝, step)
# step값으로 floating point도 가능하다.

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [21]:
np.arange(30).reshape(5,6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

<h4> ones, zeors, empty </h4>

**zeros**: 0으로 가득찬 ndarray를 생성한다.
* **np.zeros(shape, dtype, order)**

In [22]:
 np.zeros(shape = (10,), dtype = np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [23]:
np.zeros((2, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

**ones**: 1로 가득찬 ndarray를 생성한다.
* **np.ones(shape, dtype, order)**

In [24]:
np.ones(shape = (10,), dtype = np.int8)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [25]:
np.ones((2, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

**empty**: shape만 주어지고 비어있는 ndarray를 생성한다. <br> memory initialization이 되지 않는다.

In [31]:
# 실행마다 값이 계속 바뀜
np.empty(shape = (10,), dtype = np.int8)

array([ -96, -104,    1,  -22,  110,   85,    0,    0,   -8,   29],
      dtype=int8)

In [32]:
np.empty((3, 5))

array([[4.64099877e-310, 1.03977794e-312, 1.03977794e-312,
        9.54898106e-313, 1.14587773e-312],
       [1.01855798e-312, 1.23075756e-312, 1.20953760e-312,
        1.06099790e-312, 9.76118064e-313],
       [1.20953760e-312, 1.16709769e-312, 1.16709769e-312,
        3.44981226e+175, 4.66642136e-072]])

**something_like**: 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환한다.

In [28]:
test_matrix = np.arange(30).reshape(5, 6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

**identity**: 단위 행렬(i 행렬)을 생성한다.

In [33]:
np.identity(n = 3, dtype = np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [34]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

**eye**: 대각선이 1인 행렬, k값의 시작 index의 변경이 가능하다.

In [35]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [37]:
np.eye(3, 5, k = 2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [38]:
np.eye(N = 3, M = 5, dtype = np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

**diag**: 대각 행렬의 값을 추출한다.

In [39]:
matrix = np.arange(9).reshape(3, 3)
matrix

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [44]:
np.diag(matrix, k = 1)

array([1, 5])

In [45]:
np.diag(matrix, k = -1)

array([3, 7])

<h4> random sampling(numpy.random) </h4>

데이터 분포에 따른 sampling으로 array를 생성한다.
* np.random.uniform(시작 값, 끝 값, 데이터 개수) (균등분포)
* np.random.normal(시작 값, 끝 값, 데이터 개수)  (정규분포)


In [46]:
np.random.uniform(0, 1, 10).reshape(2, 5)

array([[0.80812752, 0.09373739, 0.01942502, 0.43619607, 0.93084849],
       [0.31140467, 0.0142916 , 0.1190888 , 0.47863354, 0.84247093]])

In [48]:
np.random.normal(0, 1, 10).reshape(2, 5)

array([[ 1.63480181, -0.19430011, -2.17630403, -1.95666673,  0.7834084 ],
       [ 0.88834848,  1.86278017,  1.47655073, -0.12817112, -0.83292018]])

<h4> operation function </h4>

**sum**: ndarray의 element들 간의 합을 구한다. list의 sum 기능과 동일하다.

In [49]:
test_array = np.arange(1, 11)
test_array

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [50]:
test_array.sum(dtype = np.float)

55.0

**axis**: 모든 operation function을 실행할 때 기준이 되는 dimension 축이다.

(3, 4) -> 3: axis = 0, 4: axis = 1

In [51]:
test_array = np.arange(1, 13). reshape(3, 4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [53]:
test_array.sum()

78

In [54]:
# col 단위로 생성됨
test_array.sum(axis = 0)

array([15, 18, 21, 24])

In [55]:
# row 단위로 생성됨
test_array.sum(axis = 1)

array([10, 26, 42])

**mean, std**: ndarray의 element들 간의 평균 또는 표준 편차를 반환한다.

이외에도 다양한 수학 연산자를 제공한다.<br>
np.something을 호출하면 확인할 수 있다.

In [56]:
test_array.mean()

6.5

In [57]:
test_array.mean(axis = 0)

array([5., 6., 7., 8.])

In [58]:
test_array.mean(axis = 1)

array([ 2.5,  6.5, 10.5])

**concatenate**: numpy array를 합치는 함수이다. **두 array는 튜플로 전달해야 한다.**
* np.vstack((a, b)) = np.concatenate((a, b), axis = 0) 
* np.hstack((a, b)) = np.concatenate((a, b), axis = 1) 

In [59]:
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
np.vstack((a, b))

array([[1, 2, 3],
       [2, 3, 4]])

In [60]:
a = np.array([[1], [2], [3]])
b = np.array([[2], [3], [4]])
np.hstack((a, b))

array([[1, 2],
       [2, 3],
       [3, 4]])

In [68]:
a = np.array([[1, 2, 3]])
b = np.array([[2, 3, 4]])
np.concatenate((a, b), axis = 0)

array([[1, 2, 3],
       [2, 3, 4]])

In [65]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5], [6]])
np.concatenate((a, b), axis = 1)

array([[1, 2, 5],
       [3, 4, 6]])

In [70]:
a = np.array([[1, 2], [3, 4]])
b = np.array([5, 6])
# np.newaxis로 축을 추가할 수 있다.
b = b[np.newaxis, :]
print(b)

[[5 6]]


In [71]:
np.concatenate((a, b.T), axis = 1)

array([[1, 2, 5],
       [3, 4, 6]])

<h4> array operations </h4> 

numpy는 array간의 기본적인 사칙 연산을 지원한다.
이때 기본적으로 **Element-wise operations**을 지원한다.

* Element-wise operations: Array간 shape가 같을 때 일어나는 연산

In [72]:
test_a = np.array([[1, 2, 3], [4, 5, 6]], float)

In [73]:
test_a + test_a

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [74]:
test_a - test_a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [75]:
test_a * test_a

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

**Dot Product**: Matrix의 기본 연산인 dot 함수를 사용한다.(행렬의 곱셈)

* **matrix1.dot(matrix2)**

In [76]:
test_a = np.arange(1, 7).reshape(2, 3)
test_b = np.arange(7, 13).reshape(3, 2)

In [77]:
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

**transpose(전치 행렬)**: transpose 혹은 T attribute를 사용한다.

* **matrix.transpose() or matrix.T**

In [78]:
test_a = np.arange(1, 7).reshape(2, 3)
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [79]:
test_a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

In [80]:
test_a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

**broadcasting**: Shape가 다른 배열 간 연산을 지원하는 기능이다.

In [81]:
test_matrix = np.array([[1, 2, 3], [4, 5, 6]], float)
scalar = 3

In [82]:
test_matrix + scalar # Matrix + Scalar

array([[4., 5., 6.],
       [7., 8., 9.]])

In [83]:
test_matrix - scalar # Matrix - Scalar

array([[-2., -1.,  0.],
       [ 1.,  2.,  3.]])

In [84]:
test_matrix * 5 # Matrix * Scalar

array([[ 5., 10., 15.],
       [20., 25., 30.]])

In [86]:
test_matrix / 5 # Matrix / Scalar

array([[0.2, 0.4, 0.6],
       [0.8, 1. , 1.2]])

In [89]:
test_matrix // 5 # Matrix // Scalar

array([[0., 0., 0.],
       [0., 1., 1.]])

In [90]:
test_matrix ** 2 # Matrix ** Scalar

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

Vector-Scalar, Matrix-Scalar 외에도 **Matrix-Vector 연산도 가능하다**.

In [92]:
test_matrix = np.arange(1, 13).reshape(4, 3)
test_vector = np.arange(10, 40, 10)
test_matrix + test_vector

array([[11, 22, 33],
       [14, 25, 36],
       [17, 28, 39],
       [20, 31, 42]])

**timeit**: jupyter 환경에서 코드의 퍼포컨스를 체크하는 함수

In [94]:
def scalar_vector_product(scalar, vector):
  result = []
  for value in vector:
    result.append(scalar * value)
  return result

iteration_max = 100000000

vector = list(range(iteration_max))
scalar = 2

%timeit scalar_vector_product(scalar, vector) # for loop를 이용한 성능
%timeit [scalar * value for value in range(iteration_max)] # list comprehenstion을 사용한 성능
%timeit np.arange(iteration_max) * scalar # numpy를 이용한 성능


1 loop, best of 5: 14.2 s per loop
1 loop, best of 5: 11.8 s per loop
1 loop, best of 5: 296 ms per loop


일반적으로 속도는 아래 순서로 빠르다.

* for loop < list comprehension < numpy

100,000,000 번의 loop를 돌 때 약 4배 이상의 성능 차이를 보인다.<br>
Numpy는 C로 구현되어 있어, 성능을 확보하는 대신 파이썬의 가장 큰 특징인 dynamic typing을 포기한다. <br>
하지만 빠른 속도 때문에 대용량 계산에서 가장 흔히 사용된다. 단, Concatenate처럼 계산이 아닌 할당에서는 연산 속도의 이점이 없다.