# Numpy
- Numerical Python
- 파이썬의 고성능 과학 계산용 패키지
- Matrix와 Vector와 같은 Array 연산의 사실상의 표준

- 일반 List에 비해 빠르고, 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원
- 선형대수와 관련된 다양한 기능 제공

$$ 2x_1 + 2x_2 + x_3 = 9 $$
$$ 2x_1 - x_2 + 2x_3 = 6 $$
$$ x_1 - x_2 + 2x_3 = 5 $$

## 코드로 방정식 표현하기
coefficient_matrix = [[2, 2, 1], [2, -1, 2], [1, -1, 2]]

constant_vector = [9, 6, 5]

- 다양한 Matrix 계산을 어떻게 활용할 것인가
- 굉장히 큰 Matrix에 대한 표현
- 처리 속도 문제 - python은 interpreter 언어

# ndarray
![](2021-11-16-09-03-42.png)
![](2021-11-16-09-04-21.png)

In [1]:
import numpy as np

test_array = np.array([1, 4, 5, 8], float)
print(test_array)
type(test_array[3])
# numpy는 np.array 함수를 활용 배열을 생성
# numpy는 '하나의 데이터 type'만 배열에 넣을 수 있음
# List와 가장 큰 차이점 -> dynamic typing not supported
# C의 Array를 사용하여 배열을 생성함

[1. 4. 5. 8.]


numpy.float64

In [3]:
# array creation
# shape : numpy array의 dimension 구성을 반환함
# dtype : numpy array의 데이터 type을 반환함
test_array = np.array([1, 4, 5, "8"], float)    # string type의 데이터를 입력해도
print(test_array)
print(type(test_array[3]))  # Float type으로 자동 형 변환 실시
print(test_array.dtype)     # Array 전체의 데이터 Type을 반환
print(test_array.shape)     # Array의 shape를 반환함

[1. 4. 5. 8.]
<class 'numpy.float64'>
float64
(4,)


In [5]:
# matrix
matrix = [[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]]
np.array(matrix, int).shape

(3, 4)

In [6]:
# tensor
tensor = [[[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]],
          [[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]],
          [[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]],
          [[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]]]
np.array(tensor, int).shape

(4, 3, 4)

# Handling shape

In [7]:
# reshape : Array의 shape의 크기를 변경함. element 갯수는 동일
test_matrix = [[1, 2, 3, 4], [1, 2, 5, 8]]
print(np.array(test_matrix).shape)  # 기존 shape
print(np.array(test_matrix).reshape(8,))    # shape의 크기 변경
print(np.array(test_matrix).reshape(8,).shape)  # 변경된 shape

(2, 4)
[1 2 3 4 1 2 5 8]
(8,)


In [9]:
# flatten : 다차원 array를 1차원 array로 변환
test_matrix = [[[1, 2, 3, 4], [1, 2, 5, 8]], [[1, 2, 3, 4], [1, 2, 5, 8]]]
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 8, 1, 2, 3, 4, 1, 2, 5, 8])

# indexing & slicing

In [10]:
# indexting for numpy array
test_example = np.array([[1, 2, 3], [4.5, 5, 6]], int)
test_example

array([[1, 2, 3],
       [4, 5, 6]])

In [12]:
print(test_example[0][0])
print(test_example[0, 0])

1
1


In [13]:
test_example[0, 0] = 12     # matrix 0, 0에 12 할당
test_example

array([[12,  2,  3],
       [ 4,  5,  6]])

In [None]:
# slicing for numpy array
test_example = np.array([[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]], int)
test_example[ : 2, :]

array([[1, 2, 5, 8],
       [1, 2, 5, 8]])

# creation function

In [16]:
# arange - array의 범위를 지정하여, 값의 list를 생성하는 명령어
np.arange(30)   # range: List의 range와 같은 효과, integer로 0부터 29까지 배열 추출

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [17]:
np.arange(0, 5, 0.5)    # floating point도 표시 가능함

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [18]:
np.arange(30).reshape(5, 6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [19]:
# ones, zeros and empty
np.zeros(shape = (10, ), dtype = np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [20]:
np.zeros((2, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [22]:
# ones
print(np.ones(shape = (10, )))
print(np.ones((2, 5)))

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [28]:
# empty - shape만 주어지고 비어있는 ndarray 생성 (memory initialization이 되지 않음)
print(np.empty(shape = (10, ), dtype = np.int8))
print(np.empty((3, 5)))

[ 64 -32  75 -93   0   2   0   0   0   0]
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [29]:
# something_like - 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환
test_matrix = np.arange(30).reshape(5, 6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

In [30]:
# identity - 단위행렬(i 행렬)을 생성함
np.identity(n = 3, dtype = np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [31]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [32]:
# eye - 대각선이 1인 행렬, k 값의 시작 index의 변경이 가능
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [33]:
np.eye(3, 5, k = 2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [34]:
np.eye(3, 5, dtype = np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [35]:
# diag - 대각 행렬의 값을 추출함
matrix = np.arange(9).reshape(3, 3)
np.diag(matrix)

array([0, 4, 8])

In [2]:
# random sampling - 데이터 분포에 따른 sampling으로 array를 생성
np.random.uniform(0, 1, 10).reshape(2, 5)   # 균등분포

array([[0.69106649, 0.93175377, 0.45907609, 0.41927616, 0.36879098],
       [0.92071467, 0.86459926, 0.52425922, 0.8067202 , 0.58885066]])

In [3]:
np.random.normal(0, 1, 10).reshape(2, 5)    # 정규분포

array([[ 1.36196267,  0.27949261,  1.11669741,  0.48781017, -0.11836079],
       [-1.68313148,  0.64023147,  1.55262056, -0.88486596,  0.3448548 ]])

# operation functions

In [4]:
# sum - ndarray의 element들 간의 합을 구함, list의 sum 기능과 동일
test_array = np.arange(1, 11)
test_array

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [6]:
test_array.sum(dtype = np.float)

55.0

In [8]:
# axis - 모든 operation function을 실행할 때 기준이 되는 dimension 축
test_array = np.arange(1, 13).reshape(3, 4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [9]:
test_array.sum(axis = 1), test_array.sum(axis = 0)

(array([10, 26, 42]), array([15, 18, 21, 24]))

In [10]:
# mean & std - ndarray의 element들 간의 평균 또는 표준편차를 반환
test_array.mean(), test_array.mean(axis = 0)

(6.5, array([5., 6., 7., 8.]))

In [11]:
test_array.std(), test_array.std(axis = 0)

(3.452052529534663, array([3.26598632, 3.26598632, 3.26598632, 3.26598632]))

In [12]:
# concatenate - numpy array를 합치는 함수
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
np.vstack((a, b))

array([[1, 2, 3],
       [2, 3, 4]])

In [13]:
a = np.array([[1], [2], [3]])
b = np.array([[2], [3], [4]])
np.hstack((a, b))

array([[1, 2],
       [2, 3],
       [3, 4]])

In [16]:
a = np.array([[1, 2, 3]])
b = np.array([[2, 3, 4]])
np.concatenate((a, b), axis = 0)

array([[1, 2, 3],
       [2, 3, 4]])

In [18]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
np.concatenate((a, b.T), axis = 1)

array([[1, 2, 5],
       [3, 4, 6]])

# array operations

In [19]:
# Operations b/t arrays - numpy는 array간의 기본적인 사칙 연산을 지원함
test_a = np.array([[1, 2, 3], [4, 5, 6]], float)
test_a + test_a


array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [20]:
test_a - test_a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [21]:
test_a * test_a

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [22]:
# Element-wise operations - Array간 shape가 같을 때 일어나는 연산
matrix_a = np.arange(1, 13).reshape(3, 4)
matrix_a * matrix_a

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]])

In [24]:
# Dot product - Matrix의 기본 연산, dot 함수 사용
test_a = np.arange(1, 7).reshape(2, 3)
test_b = np.arange(7, 13).reshape(3, 2)
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

In [26]:
# transpose - transpose 또는 T attribute 사용
test_a = np.arange(1, 7).reshape(2, 3)
test_a.T, test_a.transpose()    # 같은 결과

(array([[1, 4],
        [2, 5],
        [3, 6]]),
 array([[1, 4],
        [2, 5],
        [3, 6]]))

In [30]:
# broadcasting - shape이 다른 배열 간 연산을 지원하는 기능
test_matrix = np.array([[1, 2, 3], [4, 5, 6]], float)
scalar = 3
print('scalar - vector')
print(test_matrix + scalar)
print(test_matrix - scalar)
print(test_matrix * scalar)
print(test_matrix / scalar)
print(test_matrix ** scalar)
print(test_matrix // scalar)

# scalar - vector연산 외에도 vector - matrix 간의 연산도 지원함
test_matrix = np.arange(1, 13).reshape(4, 3)
test_vector = np.arange(10, 40, 10)
print('vector - matrix')
print(test_matrix + test_vector)

scalar - vector
[[4. 5. 6.]
 [7. 8. 9.]]
[[-2. -1.  0.]
 [ 1.  2.  3.]]
[[ 3.  6.  9.]
 [12. 15. 18.]]
[[0.33333333 0.66666667 1.        ]
 [1.33333333 1.66666667 2.        ]]
[[  1.   8.  27.]
 [ 64. 125. 216.]]
[[0. 0. 1.]
 [1. 1. 2.]]
vector - matrix
[[11 22 33]
 [14 25 36]
 [17 28 39]
 [20 31 42]]


## numpy performance #1
timeit : jupyter 환경에서 코드의 퍼포먼스를 체크하는 함수

In [31]:
def sclar_vector_product(scalar, vector):
    result = []
    for value in vector:
        result.append(scalar * value)
    return result

iternation_max = 100000000
vector = list(range(iternation_max))
scalar = 2

%timeit sclar_vector_product(scalar, vector) # for loop을 이용한 성능
%timeit [scalar * value for value in range(iternation_max)]
# list comprehension을 이용한 성능
%timeit np.arange(iternation_max) * scalar # numpy를 이용한 성능

14.1 s ± 3.45 s per loop (mean ± std. dev. of 7 runs, 1 loop each)
9.73 s ± 446 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
259 ms ± 20.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


- 일반적으로 속도는
    - for loop < list comprehension < numpy
- 100,000,000번의 loop이 돌 때, 약 4배 이상의 성능 차이를 보임
- numpy는 c로 구현되어 있어, 성능을 확보하는 대신 파이썬의 가장 큰 특징인 dynamic typing을 포기함
- 대용량 계산에서는 가장 흔히 사용됨
- Concatenate처럼 계산이 아닌 할당에서는 연산속도의 이점이 없음

# comparisions

In [32]:
# All & Any - Array의 데이터 전부(and) 또는 일부(or)가 조건에 만족 여부 반환
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [33]:
np.any(a > 5), np.any(a < 0)    # 하나라도 조건에 만족한다면 true

(True, False)

In [34]:
np.all(a > 5), np.all(a < 10)   # 모두가 조건에 만족한다면 true

(False, True)

In [35]:
# comparison operation #1 - numpy는 배열의 크기가 동일 할 때 element간 비교의 결과를 Boolean type으로 반환
test_a = np.array([1, 3, 0], float)
test_b = np.array([5, 2, 1], float)
test_a > test_b

array([False,  True, False])

In [36]:
test_a == test_b

array([False, False, False])

In [37]:
(test_a > test_b).any()

True

In [38]:
# comparision operation #2
a = np.array([1, 3, 0], float)
np.logical_and(a > 0, a < 3)    # and 조건의 condition

array([ True, False, False])

In [39]:
b = np.array([True, False, True], bool)
np.logical_not(b) # NOT 조건의 condition

array([False,  True, False])

In [40]:
c = np.array([False, True, False], bool)
np.logical_or(b, c) # OR 조건의 condition

array([ True,  True,  True])

In [41]:
# argmax & argmin - array 내 최대값 또는 최소값의 index를 반환함
a = np.array([1, 2, 4, 5, 8, 78, 23, 3])
np.argmax(a), np.argmin(a)

(5, 0)

# boolean