# 1. 벡터, 행렬,배열

## 1.1 벡터 만들기

In [122]:
import numpy as np

# 행이 하나인 벡터
vector_row = np.array([1, 2, 3])

# 열이 하나인 벡터
vector_column = np.array([[1],
                         [2],
                         [3]])

* 넘파이의 핵심 데이터 구조 : 다차원 배열
    * 벡터 : 1차원 배열
    * 수평(행) 혹은 수직(열) 구성 가능

In [123]:
# 넘파이 배열은 ndarray 클래스의 객체
print(type(vector_row))

<class 'numpy.ndarray'>


In [124]:
# ndarray 사용하는 방법이 있지만 권장하지 않는다.
bad = np.ndarray((3,))

In [125]:
bad

array([ 3.47535395,  1.84536862, 12.62998534])

In [126]:
# asarray로 배열 제작 가능하지만 새로운 배열을 만들지 않는다.(옛날것임)
new_row = np.asarray([1, 2, 3])

In [127]:
new_row = np.asarray(vector_row)

In [128]:
new_row is vector_row

True

In [129]:
# array 함수는 입력 배열을 복사할지 선택하는 copy 매개변수(기본이 True)
# 그래서 입력하면 새로운 배열이 생성된다.
new_row = np.array(vector_row)
new_row is vector_row

False

In [130]:
# asarray 함수도 array 사용하지만 copy 매개변수를 False로 지정한다.
# copy 매개변수를 정확하게 지정할 필요가 있다.

new_row = vector_row.copy()
new_row is vector_row

False

## 1.2 행렬 만들기

* 넘파이로 2차원 배열을 만든다.


In [131]:
# 라이브러리 임포트
import numpy as np

# 행렬 제작
matrix = np.array([[1, 2],
                  [1, 2],
                  [1, 2]])

In [132]:
matrix

array([[1, 2],
       [1, 2],
       [1, 2]])

In [133]:
# 넘파이의 2차원 배열을 활용해 행렬 만들기
matrix = np.mat([[1,2],
                [1,2],
                [1,2]])

In [134]:
# empty 함수 : 초깃값 대신 크기만 지정해서 임의의 값이 채워진 배열을 만든다.
zero_matrix = np.zeros((3,2))

In [135]:
zero_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [136]:
one_matrix = np.ones((3,2))
one_matrix

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

* 특정 값으로 채운 배열은 full 함수 이용

In [137]:
# 영행렬 만든 후 7을 더한다.
seven_matrix = np.zeros((3,2)) +7

In [138]:
# full 함수가 더 효율 적이다.
# 처음에는 배열의 크기, 다음에 채울 숫자 넣는다.
seven_matrix = np.full((3,2), 7)

## 1.3 희소 행렬 만들기

In [139]:
# 데이터에 0이 아닌 값이 매우 적을 때 효율적으로 표현한다.
# 희소행렬
import numpy as np
from scipy import sparse

# 행렬 제작
matrix = np.array([[0,0],
                  [0,1],
                  [3,0]])

# CSR 행렬을 제작한다.
matrix_sparse = sparse.csr_matrix(matrix)

In [140]:
matrix_sparse

<3x2 sparse matrix of type '<class 'numpy.intc'>'
	with 2 stored elements in Compressed Sparse Row format>

* 머신러닝에서 대용량 데이터를 많이 다루는데, 대부분 원소가 0이다.
* 수백만 행과 수만 열이 있어도 0이 대부분이다.
* 희소행렬은 **0이 아닌 원소만 저장**한다.

In [141]:
# 희소행렬 출력은 반드시 print를 쓴다.
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


* 여러 종류의 희소 행렬이 있다.
    * CSR (compressed sparse row) 행렬에서 (1,1), (2,0)은 0이 아닌 값인 1과 3의 인덱스를 나타낸다.

In [142]:
# 큰 행렬을 만든다.
matrix_large = np.array([[0,0,0,0,0,0,0,0,0,0,0,0,0],
                        [0,1,0,0,0,0,0,0,0,0,0,0,0],
                        [3,0,0,0,0,0,0,0,0,0,0,0,0]])

In [143]:
matrix_large_sparse = sparse.csr_matrix(matrix_large)

In [144]:
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


In [145]:
print(matrix_large_sparse)

  (1, 1)	1
  (2, 0)	3


* 0을 많이 추가하여 큰 행렬을 만들었다.
    * 그러나 희소 행렬의 표현은 원래의 희소 행렬과 같다.
    * 0인 원소를 추가해도 희소 행렬 크기도 바뀌지 않는다.

* 희소 행렬의 종류 : CSC(cmopressed sparse column), 리스트, 키의 딕셔너리 등

* 밀집 배열로부터 희소 행렬을 만드는 일은 드물다. 원소의 행과 열의 인덱스를 직접 지정하여 희소 행렬 제작 가능하다.

In [146]:
# (data, (row_index, column_index))로 구성된 튜플을 전달한다.
# shape 매개변수에서 0을 포함한 행렬의 전체 크기 지정

In [147]:
matrix_sparse_2 = sparse.csr_matrix(([1,3], ([1,2],[1,0])), shape=(3,10))

In [148]:
print(matrix_sparse_2)

  (1, 1)	1
  (2, 0)	3


In [149]:
# 희소 행렬을 밀집 배열로 변환 : toarray 메서드
print(matrix_sparse_2.toarray())

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]


In [150]:
# todense는 다시 np.matrix 객체 반환
matrix_sparse_2.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [3, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int32)

## 1.4 원소 선택하기
* 벡터나 행렬에서 원소를 하나 이상 선택한다.

In [151]:
# 넘파이 배열 사용
import numpy as np

vector = np.array([1,2,3,4,5,6])

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

In [152]:
# vector의 세 번째 원소
vector[2]

3

In [153]:
# matrix의 두번째 행, 두번째 열의 원소 선택
matrix[1,1]

5

In [154]:
# 벡터에 있는 모든 원소 선택
vector[:]

array([1, 2, 3, 4, 5, 6])

* 넘파이는 파이썬처럼 넘파이 배열의 인덱스는 0부터 시작한다. 첫 번째 원소의 인덱스는 1이 아니라 0이다.

In [155]:
# 세 번째 원소를 포함하여 이전의 모든 원소 선택
vector[:3]

array([1, 2, 3])

In [156]:
# 세 번째 원소 이후 모든 원소 선택
vector[3:]

array([4, 5, 6])

In [157]:
# 마지막 원소
vector[-1]

6

In [158]:
# 행렬에서 첫 번째 두 행과 모든 열 선택
matrix[:2, :]

array([[1, 2, 3],
       [4, 5, 6]])

In [159]:
# 모든 행과 두 번째 열 선택
matrix[:, 1:2]

array([[2],
       [5],
       [8]])

* 인덱싱 : 행과 열의 리스트를 전달해서 배열의 원소 선택

In [160]:
# 첫 번째 행과 세 번째 행 선택
matrix[[0,2]]

array([[1, 2, 3],
       [7, 8, 9]])

In [161]:
# (0,1), (2, 0) 위치의 원소를 선택
matrix[[0,2], [1,0]]

array([2, 7])

* 불리언 마스크(boolean mask) 배열을 만들어 원소를 선택할 수 있다.

In [162]:
# matrix 각 원소에 비교 연산자 적용
mask = matrix > 5

In [163]:
mask

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

In [164]:
# 불리언 마스크를 활용해서 원소를 선택 가능하다. 편리해보인다.
matrix[mask]

array([6, 7, 8, 9])

## 1.5 행렬 정보 확인하기
* 행렬 크기, 원소 개수, 차원 : shape, size, ndim

In [165]:
import numpy as np

matrix = np.array([[1,2,3,4],
                  [5,6,7,8],
                  [9,10,11,12]])

In [166]:
# 행렬 크기
matrix.shape

(3, 4)

In [167]:
# 행렬 내 원소 개수( 행곱하기열)
matrix.size

12

In [168]:
# 행렬의 차원
matrix.ndim

2

In [169]:
# 원소의 데이터 타입도 확인 가능하다.
# dtype
print(matrix.dtype)

int32


In [170]:
# 원소 하나가 차지하는 바이트 크기 : itemsize
print(matrix.itemsize)

4


In [171]:
# 배열 전체가 차지하는 바이트 크기 : nbyptes
print(matrix.nbytes)

48


## 1.6 벡터화 연산 적용하기

* 배열의 여러 원소에 함수 적용 : vectorize

In [172]:
# 넘파이의 vectorize
import numpy as np

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

add_100 = lambda i: i + 100

In [173]:
# 벡터화된 함수를 만든다.
vectorized_add_100 = np.vectorize(add_100)

In [174]:
# 행렬의 모든 원소에 벡터화된 함수 적용 가능하다.
vectorized_add_100(matrix)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [175]:
# 브로드캐스팅
# 모든 원소에 100 더하기
matrix + 100

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

* 브로드캐스팅 : 배열에 차원을 추가하거나 반복해서 배열 크기 맞추기

In [176]:
# (3,3) 행렬에 (3, ) 크기 벡터 더하면, (1,3) 크기가 된 다음 행을 따라 반복한다.
matrix + [100,100,100]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [177]:
# (3, 1) 크기 벡터를 더하게 되면 열을 따라 반복한다.
matrix + [[100,100,100]]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

## 1.7 최댓값, 최솟값 찾기

* 배열에서 최댓값이나 최솟값 찾는다.
    * 넘파이 max, min 함수 활용

In [178]:
import numpy as np

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

np.max(matrix)

9

In [179]:
np.min(matrix)

1

In [180]:
# 각 열에서 최댓값?
np.max(matrix, axis=0)

array([7, 8, 9])

In [181]:
# 각 행에서 최댓값?
np.max(matrix, axis=1)

array([3, 6, 9])

* keepdims 매개변수 True : 원본 배열의 차원과 동일한 결과 제작 가능
    * 원본 배열과 안전하게 브로드캐스팅 연산 가능

In [182]:
# 이전 예와 다르게 (3, 1) 열 벡터 제작
vector_column = np.max(matrix, axis=1, keepdims=True)

In [183]:
vector_column

array([[3],
       [6],
       [9]])

In [184]:
# 열 벡터는 브로드캐스팅으로 각 행의 최댓값을 뺄 수 있다.
matrix - vector_column

array([[-2, -1,  0],
       [-2, -1,  0],
       [-2, -1,  0]])

## 1.8 평균, 분산, 표준편차 계산하기
* 배열의 특징을 설명하는 일부 통곗값 계산
    * 넘파이의 mean, var, std 함수 사용

In [185]:
import numpy as np

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

np.mean(matrix)

5.0

In [186]:
np.var(matrix)

6.666666666666667

In [187]:
np.std(matrix)

2.581988897471611

In [188]:
np.mean(matrix, axis=0)

array([4., 5., 6.])

* 통계학에서는 종종 모집단에서 추출한 샘플의 자유도를 고려하여, 편향되지 않은 분산과 표준편차를 계산
    * 훈련 데이터의 독립적인 햄플 수 = 전체 샘플 수 - 1
    * ddof = 1 : 편향되지 않은 추정값 얻는다(기본 0)

In [189]:
np.std(matrix, ddof =1)

2.7386127875258306

In [190]:
# 넘파이와 다르게 다음 장에서 배울 판다스(pandas)  데이터 프레임은 기본적으로 ddof = 1 로 설정되어 있다.
import pandas as pd

df = pd.DataFrame(matrix.flatten())
df.std()

0    2.738613
dtype: float64

* 실제 머신러닝 모델 훈련시, 자유도가 크게 영향을 주지 않는다. 그래서 np.std 기본값을 주로 사용한다.
* 다만, PCA 클래스는 자유도를 고려하므로 ddof=1 로 설정한다.

* 넘파이 mean, std, var 함수도 keepdims 매개변수 지원한다.

## 1.9 배열 크기 바꾸기

* 원소의 값은 변경하지 않고 배열 크기(행과 열의 수)를 바꾸려고 합니다.

* 넘파이의 reshape 함수를 사용한다.

In [191]:
import numpy as np

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9],
                  [10,11,12]])

In [192]:
matrix.reshape(2,6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

* reshape : 데이터를 동일하나 배열의 구조를 변경하여 행과 열의 수 다르게 조직 가능하다.
    * 새로운 행렬은 원래 행렬과 원소 개수는 동일해야 한다. size를 이용하여 파악한다.

In [193]:
matrix.size

12

In [194]:
# reshape의 -1 은 가능한 많이라는 뜻이다.
# reshape(1,-1) : 행 하나에 열은 많이

matrix.reshape(1,-1)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [195]:
# 저러면 flatten 같다.
matrix.flatten()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [196]:
# reshape에 정수 하나 입력하면 그 길이의 1차원 배열 반환
matrix.reshape(12)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [197]:
# 배열의 전체 길이 모르면 -1을 넣어본다.
matrix.reshape(-1)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [198]:
# ravel도 동일하다.
matrix.ravel()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

## 1.10 벡터나 행렬 전치하기

* 전치(Transpose) : T 메서드를 활용한다.

In [199]:
import numpy as np

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

matrix.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

* 선형대수학과 다르게 1차원 값의 모음인 벡터의 전치는 불가능하다.

In [200]:
np.array([1,2,3,4,5,6]).T

array([1, 2, 3, 4, 5, 6])

In [201]:
# 다만, 행 벡터를 열 벡터로 변환하거나 그 반대로, 대 괄호를 2번 사용한 2차원 벡터는 전치가 가능하다.
np.array([[1,2,3,4,5,6]]).T

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [202]:
# 전치는 배열의 차원을 바꾸므로 1차원 배열에는 영향을 주지 않는다.
# T 대신 transpose 메서드도 가능하다.
matrix.transpose()

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [203]:
# transpose 메서드 : 튜플로 바꿀 차원을 직접 지정할 수도 있다.
# 2*3*2행렬 제작
matrix = np.array([[[1,2],
                   [3,4],
                   [5,6]],
                  [[7,8],
                  [9,10],
                  [11,12]]])

In [204]:
# 두 번째와 세 번째 차원 변경하여 2*2*3 행렬로 제작
matrix.transpose((0,2,1))

array([[[ 1,  3,  5],
        [ 2,  4,  6]],

       [[ 7,  9, 11],
        [ 8, 10, 12]]])

## 1.11 행렬 펼치기
* 행렬을 1차원으로 펼치기 : flatten

In [205]:
import numpy as np

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

matrix.flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [206]:
matrix.reshape(1,-1)

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

* reshape 메서드 : 넘파이 배열의 뷰(view)를 반환하지만 flatten 메서드는 새로운 배열을 만든다.

In [207]:
vector_reshaped = matrix.reshape(-1)
vector_flattened = matrix.flatten()

In [208]:
# (0,0) 위치 원소를 바꿔본다.
matrix[0][0] = -1

In [209]:
vector_reshaped

array([-1,  2,  3,  4,  5,  6,  7,  8,  9])

In [210]:
# flatten 메서드 : 배열을 복사하여 새로운 배열을 만드므로 원본 배열에는 영향 주지 않는다.
vector_flattened

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

## 1.12 행렬의 랭크 구하기

* 행렬의 랭크(rank) : 넘파이의 선형대수 메서드 matrix_rank 활용한다.

In [211]:
import numpy as np

matrix = np.array([[1,1,1],
                  [1,1,10],
                  [1,1,15]])

In [212]:
# 행렬의 랭크 반환
np.linalg.matrix_rank(matrix)

2

* 행렬의 랭크 : 행이나 열이 만든 벡터 공간의 차원
    * 넘파이는 위의 matrix_rank 메서드로 행렬의 랭크를 쉽게 찾는다.

* 행렬의 차원을 계산하는 rank 함수는 행렬의 랭크가 아니다. 1.18 버전에서 삭제되었다.
    * 행렬의 차원은 이제 ndim 함수를 사용한다.

In [213]:
# 2D 배열은 2가 반환된다.
np.ndim(matrix)

2

* matrix_rank : 함수는 특잇값 분해(SVD) 방식으로 랭크를 계산한다.
    * linalg 모듈의 svd 함수로 특잇값을 구한 다음에 0 이 아닌 값의 수를 헤아린다.

In [214]:
# svd 함수로 특잇값만 계산
s = np.linalg.svd(matrix, compute_uv=False)

# 오차를 고려해서 0에 아주 가까운 작은 값을 지정한다.
np.sum(s > 1e-10)

2

## 1.13 행렬식 계산하기
* 행렬의 행렬식(determinant)
    * 넘파이 선형대수 메서드 det 사용

In [215]:
import numpy as np

matrix = np.array([[1,2,3],
                  [2,4,6],
                  [3,8,9]])

# 행렬의 행렬식 반환
np.linalg.det(matrix)

0.0

* 행렬식은 정방행렬에 의한 선형 변환의 특징을 갖는 스칼라 값이다.
    * 2*2 보다 더 큰 행렬은 라플라스 전개로 재귀적으로 작은 행렬식으로 표현할 수 있다.

## 1.14 행렬의 대각원소 추출하기

In [216]:
# diagonal 메서드 활용한다.
import numpy as np

matrix = np.array([[1,2,3],
                  [2,4,6],
                  [3,8,9]])

matrix.diagonal()

array([1, 4, 9])

In [217]:
# 주 대각선 하나 위 대각 원소 반환
matrix.diagonal(offset=1)

array([2, 6])

In [218]:
# 주 대각선 하나 아래 대각 원소 반환
matrix.diagonal(offset=-1)

array([2, 8])

In [219]:
# diagonal 넘파이 메서드는 1.9 버전부터 뷰를 반환한다. 반환된 배열의 원소를 바꾸려면 카피하여 써야한다.
a = matrix.diagonal().copy()

In [220]:
# numpy diag 함수도 대각원소 추출. 
a = np.diag(matrix)

In [221]:
a

array([1, 4, 9])

In [222]:
#특히 1차원 배열이 주어질 때 역으로 대각행렬을 만든다.
np.diag(a)

array([[1, 0, 0],
       [0, 4, 0],
       [0, 0, 9]])

## 1.15 행렬의 대각합 계산하기
* trace 메서드 활용한다.

In [223]:
import numpy as np

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

In [224]:
matrix.trace()

15

In [225]:
# 직접 대각원소를 더할 수도 있다.
sum(matrix.diagonal())

15

In [226]:
# trace 메서드도 offset 매개변수 지원
matrix.trace(offset=1)

8

In [227]:
matrix.trace(offset=-1)

12

## 1.16 고윳값과 고유벡터 찾기
* 정방행렬의 고윳값과 고유벡터 찾는다.

In [228]:
import numpy as np

matrix = np.array([[1, -1, 3],
                  [1,1,6],
                  [3,8,9]])

In [229]:
matrix

array([[ 1, -1,  3],
       [ 1,  1,  6],
       [ 3,  8,  9]])

In [230]:
# 고유값과 고유벡터를 계산한다.
eigenvalues, eigenvectors = np.linalg.eig(matrix)

In [231]:
eigenvalues

array([13.55075847,  0.74003145, -3.29078992])

In [232]:
eigenvectors

array([[-0.17622017, -0.96677403, -0.53373322],
       [-0.435951  ,  0.2053623 , -0.64324848],
       [-0.88254925,  0.15223105,  0.54896288]])

$$A\mathbf{v} = \lambda \mathbf{v}$$

In [233]:
# 대칭행렬은 linalg.eigh 쓰면 된다. 더빠르게 고윳값과 고유벡터를 계산해준다.
matrix = np.array([[1,-1,3],
                  [-1,1,6],
                  [3,6,9]])

eigenvalues, eigenvectors = np.linalg.eigh(matrix)

In [234]:
eigenvalues

array([-3.47535395,  1.84536862, 12.62998534])

In [235]:
eigenvectors

array([[-0.48107069, -0.85602522,  0.18918723],
       [-0.73926367,  0.51210152,  0.43731139],
       [ 0.47123265, -0.07051844,  0.87918538]])

## 1.17 점곱 계산하기(dot product)

* 넘파이 dot 함수 사용한다.

In [236]:
import numpy as np

vector_a = np.array([1,2,3])
vector_b = np.array([4,5,6])

np.dot(vector_a, vector_b)

32

$$\sum_{i=1}^n a_i b_i$$

In [237]:
# 점곱 계산
vector_a @ vector_b # > 3.5 python

32

* @ 연산자는 사실 np.dot 이 아니라 np.matmul 함수이다.
* np.dot과 달리 **넘파이 스칼라 배열**에는 적용되지 않는다.

In [238]:
scalar_a = np.array(1)
scalar_b = np.array(2)

In [239]:
np.dot(scalar_a, scalar_b)

2

In [240]:
scalar_a @ scalar_b

ValueError: matmul: Input operand 0 does not have enough dimensions (has 0, gufunc core with signature (n?,k),(k,m?)->(n?,m?) requires 1)

## 1.18 행렬 덧셈과 뺄셈
* 넘파이 add, subtract 메서드 활용

In [241]:
import numpy as np

matrix_a = np.array([[1,1,1],
                    [1,1,1],
                    [1,1,2]])

matrix_b = np.array([[1,3,1],
                    [1,3,1],
                    [1,3,8]])

np.add(matrix_a, matrix_b)

array([[ 2,  4,  2],
       [ 2,  4,  2],
       [ 2,  4, 10]])

In [242]:
np.subtract(matrix_a, matrix_b)

array([[ 0, -2,  0],
       [ 0, -2,  0],
       [ 0, -2, -6]])

In [243]:
# 간단하게 +, - 연산자도 쓸 수 있다.
matrix_a + matrix_b

array([[ 2,  4,  2],
       [ 2,  4,  2],
       [ 2,  4, 10]])

In [244]:
matrix_a - matrix_b

array([[ 0, -2,  0],
       [ 0, -2,  0],
       [ 0, -2, -6]])

## 1.19 행렬 곱셈
* 넘파이 dot 함수

In [245]:
import numpy as np

matrix_a = np.array([[1,1],
                    [1,2]])

matrix_b = np.array([[1,3],
                    [1,2]])

In [246]:
np.dot(matrix_a, matrix_b)

array([[2, 5],
       [3, 7]])

In [247]:
# python > 3.5
matrix_a @ matrix_b

array([[2, 5],
       [3, 7]])

In [248]:
# 원소별 곱셈은 * 연산자활용
matrix_a * matrix_b

array([[1, 3],
       [1, 4]])

* np.dot 함수 : 다차원 배열에도 적용할 수 있다.

* 점곱에서 첫 번째 배열의 마지막 차원 == 두 번째 배열의 끝에서 두번째 차원
    * (a,b,c,D) , (e,f,D,h) == (a,b,c,e,f,h)
* np.matmul, @ 연산자 : 다차원 배열을 마지막 두 차원이 단순히 쌓인 것이다.
    * (a,b,c,D), (e,f,D,h) : 반드시 a == e 이거나 둘 중 하나가 1이어야 한다.
    * 연산의 결과 : (a',b',c,h)
    * a' == a와 e 중에서 1이 아닌 값
    * b' == b와 f 중에서 1이 아닌 값

In [250]:
a = np.random.rand(2,1,4,5)
b = np.random.rand(1,3,5,6)
np.dot(a, b).shape

(2, 1, 4, 1, 3, 6)

In [251]:
np.matmul(a,b).shape

(2, 3, 4, 6)

## 1.20 역행렬
* 정방행렬의 역행렬 : 넘파이 선형대수 모듈의 inv 함수

In [252]:
import numpy as np

matrix = np.array([[1,4],
                  [2,5]])

np.linalg.inv(matrix)

array([[-1.66666667,  1.33333333],
       [ 0.66666667, -0.33333333]])

$$\mathbf{A}\mathbf{A}^{-1} = \mathbf{I}$$

In [253]:
# 행렬과 역행렬의 곱
matrix @ np.linalg.inv(matrix)

array([[1., 0.],
       [0., 1.]])

In [254]:
# pinv 함수 : 정방행렬 아닌 역행렬 구한다.
# 유사 역행렬
matrix = np.array([[1,4,7],
                  [2,5,8]])

np.linalg.pinv(matrix)

array([[-1.16666667,  1.        ],
       [-0.33333333,  0.33333333],
       [ 0.5       , -0.33333333]])

## 1.21 난수 생성하기
* 의사 난수(pseudo-random values)
    * 넘파이의 random 모듈

In [255]:
import numpy as np

np.random.seed(0)
np.random.random(3)

array([0.5488135 , 0.71518937, 0.60276338])

In [256]:
# 정수 난수 : randint

np.random.randint(0, 11, 3)

array([3, 7, 9])

In [257]:
# 평균이 0.0, 표준편차 1.0 정규분포에서 3개 수
np.random.normal(0,1,3)

array([-1.42232584,  1.52006949, -0.29139398])

In [258]:
# Logistic
np.random.logistic(0,1,3)

array([-0.98118713, -0.08939902,  1.46416405])

In [259]:
# 1보다 크고 2보다 작은 3개 수
np.random.uniform(1,2,3)

array([1.47997717, 1.3927848 , 1.83607876])

In [260]:
# 같은 값은 초기값(정수) 설정해야 한다.
# random 함수와 sample 함수 : random_sample 함수의 단순 별칭
# 이는 uniform에 최솟값 0, 최댓값 1 지정한 것과 동일

np.random.random_sample((2,3))

array([[0.33739616, 0.64817187, 0.36824154],
       [0.95715516, 0.14035078, 0.87008726]])

In [262]:
np.random.uniform(0,1,(2,3))

array([[0.67887953, 0.72063265, 0.58201979],
       [0.53737323, 0.75861562, 0.10590761]])

In [263]:
# rand : 튜플이 아니라 크기를 매개변수로 입력한다.
np.random.rand(2,3)

array([[0.47360042, 0.18633234, 0.73691818],
       [0.21655035, 0.13521817, 0.32414101]])

In [264]:
# randint는 최솟값 포함하고 최댓값을 포함하지 않는 정수 난수 생성
np.random.randint(0,1,10)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [265]:
# random_integers : 최댓값도 포함해서 정수 난수 생성되나 곧 삭제될 것이다.
np.random.random_integers(0,1,10)

  


array([1, 0, 0, 0, 1, 1, 0, 1, 0, 0])

In [266]:
# standard_normal 함수로 평균이 0.0이고 표준편차가 1.0인 정규분포의 난수 생성 가능
np.random.standard_normal((2,3))

array([[-0.13309028,  0.81526991,  0.22909795],
       [-1.02617878,  0.47752547,  1.29269823]])

In [267]:
# randn 역시 크기가 개별적인 매개변수로 지정한다.
# rand와 비슷하나 normal을 따른다.
# np.random.normal(0.0,1.0,(2,3))
np.random.randn(2,3)

array([[-0.73145824, -1.60540226,  0.98947618],
       [ 0.11081461, -0.38093141,  0.11495917]])

* choice 함수
    * 배열의 원소 중에서 랜덤하게 지정된 횟수만큼 샘플 제작
    * 또는 0~정수 -1 원소 중에서 랜덤하게 샘플 선택

In [268]:
# 0~2 사이 정수 중 랜덤하게 5번 뽑기
# np.random.choice(3,5)와 동일하다.

np.random.choice([0,1,2],5)

array([0, 0, 0, 0, 0])

In [269]:
np.random.choice(3,5)

array([2, 0, 2, 1, 1])

In [270]:
# shuffle : 입력된 배열을 섞는다.
a = np.array([0,1,2,3,4])
np.random.shuffle(a)
a

array([4, 2, 3, 1, 0])

In [271]:
# permutation 함수 : 입력된 배열의 복사본을 만들어 섞은 후 반환한다.
# 정수 입력시 0부터 (정수-1)까지 숫자 섞은 후 반환한다.
np.random.permutation(a)

array([3, 0, 2, 4, 1])

In [272]:
a

array([4, 2, 3, 1, 0])

In [273]:
np.random.permutation(5)

array([3, 4, 2, 1, 0])