In [1]:
import numpy as np

# 1.1 벡터 만들기

In [8]:
vector_row = np.array([1, 2, 3]) # 행이 하나인 벡터 만들기
vector_row.shape

(3,)

In [9]:
vector_column = np.array([[1],
                          [2],
                          [3]]) # 열이 하나인 벡터 만들기
vector_column.shape

(3, 1)

In [11]:
new_row = np.asarray(vector_row) # 입력이 넘파이일 땐 새로운 배열을 생성하지 않는다.
new_row is vector_row

True

In [13]:
new_row = np.array(vector_row) # array는 배열이 입력되면 새로운 배열을 만든다.
new_row is vector_row

False

In [15]:
new_row = vector_row.copy() # 새로운 배열을 복사
new_row is vector_row

False

# 1.2 행렬 만들기

In [18]:
matrix = np.array([[1,2],
                 [1,2],
                 [1,2]])
matrix

array([[1, 2],
       [1, 2],
       [1, 2]])

In [21]:
empty_matrix = np.empty((3, 2)) # 초깃값 대신 크기만 지정하여 임의의 값이 채워진 배열
empty_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [24]:
zero_matrix = np.zeros((3, 2)) # 0으로 채워진 행렬
zero_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [25]:
one_matrix = np.ones((3, 2)) # 1로 채워진 행렬
one_matrix

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [32]:
# 특정 값으로 모두 채우기
# 2가지 방법(zero행렬에 +, full 함수 사용하기)

zero_matrix = np.zeros((3, 2)) + 7
print(zero_matrix)

print('\n')

seven_matrix = np.full((3, 2), 7)
print(seven_matrix)

[[7. 7.]
 [7. 7.]
 [7. 7.]]


[[7 7]
 [7 7]
 [7 7]]


# 1.3 희소 행렬 만들기

In [33]:
import numpy as np
from scipy import sparse

In [35]:
matrix = np.array([[0,0],
                 [0,1],
                 [3,0]])

matrix

array([[0, 0],
       [0, 1],
       [3, 0]])

In [37]:
matrix_sparse = sparse.csr_matrix(matrix)
matrix_sparse

<3x2 sparse matrix of type '<class 'numpy.intc'>'
	with 2 stored elements in Compressed Sparse Row format>

희소 행렬은 대용량 데이터를 다룰 때 주로 사용된다.\
희소 행렬은 0이 아닌 원소만 저장한다. 다른 모든 원소는 0이라 가정하므로 계산 비용이 크게 절감된다.

In [38]:
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


In [39]:
matrix_large = np.array([[0,0,0,0,0,0,0,0,0],
                        [0,1,0,0,0,0,0,0,1],
                        [3,0,0,0,0,0,0,0,0]])

In [41]:
matrix_large_sparse = sparse.csr_matrix(matrix_large)
print(matrix_large_sparse)

  (1, 1)	1
  (1, 8)	1
  (2, 0)	3


In [44]:
# 직접 희소 행렬을 지정해주기
# (data , (row_index, col_index))로 구성된 튜플을 전달한다.
# shape 매개변수에서 0을 포함한 행렬의 전체 크기를 저장한다.

matrix_sparse_2 = sparse.csr_matrix(([1, 3], ([1, 2], [1, 0])), shape = (3, 10))

print(matrix_sparse_2)

  (1, 1)	1
  (2, 0)	3


In [45]:
# 희소 행렬로 변환하려면 toarray 메서드를 사용한다.

print(matrix_sparse_2.toarray())

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]


In [46]:
# todense 메서드는 1.2절에서 소개한 bp.matrix 객체를 반환한다.
matrix_sparse_2.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [3, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int32)

# 1.4 원소 선택하기

In [47]:
vector = np.array([1, 2, 3, 4, 5, 6])

In [48]:
matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])

In [50]:
vector[2] # 첫번째 인덱스는 0부터 시작함

3

In [51]:
matrix[1, 1]

5

In [52]:
vector[:] # 모든 벡터

array([1, 2, 3, 4, 5, 6])

In [53]:
vector[:3] # 세 번째 원소를 포함하여 그 이전의 모든 원소를 선택한다.

array([1, 2, 3])

In [55]:
vector[3:] # 세 번째 이후의 모든 원소를 선택한다.

array([4, 5, 6])

In [57]:
vector[-1] # 마지막 원소 선택한기.

6

In [58]:
matrix[:2, :] # 행렬에서 첫 번째 두 행과 모든 열을 선택한다.

array([[1, 2, 3],
       [4, 5, 6]])

In [59]:
matrix[:, 1:2] # 모든 행과 두 번째 열을 선택한다.

array([[2],
       [5],
       [8]])

In [61]:
matrix[[0, 2]] # 첫 번째 행과 세 번째 행을 선택한다.

array([[1, 2, 3],
       [7, 8, 9]])

In [62]:
matrix[[0, 2], [1, 0]] # (0, 1), (2, 0) 위치의 원소를 선택한다.

array([2, 7])

In [63]:
# matrix의 각 원소에 비교 연산자가 적용된 것 출력
mask = matrix > 5
mask

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

In [64]:
matrix[mask]

array([6, 7, 8, 9])

# 1.5 행렬 정보 확인하기

In [65]:
matrix = np.array([[1, 2, 3, 4],
                  [5, 6, 7, 8],
                  [9, 10, 11, 12]])

matrix.shape

(3, 4)

In [69]:
matrix.size # 행렬의 원소의 개수를 확인하기 (행 * 열)

12

In [68]:
matrix.ndim # 차원의 수 확인하기

2

In [70]:
print(matrix.dtype) # 원소의 데이터 타입 확인하기

int32


In [72]:
print(matrix.itemsize) # 원소 하나가 차지하는 바이트 크기

4


In [73]:
print(matrix.nbytes) # 배열 전체가 차지하는 바이트 크기

48


# 1.6 벡터화 연산 적용하기

In [74]:
matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])

In [76]:
# 100을 더하는 함수 만들기
add_100 = lambda i: i+100

In [77]:
# 벡터화된 함수 만들기
vectorized_add_100 = np.vectorize(add_100)

In [79]:
# 행렬의 모든 원소에 함수 적용하기
vectorized_add_100(matrix)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

함수를 만들고 -> 이것을 벡터화 -> 본 메트릭스에 적용

In [80]:
# 브로드캐스팅을 통해 간단하게 적용
matrix + 100

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [81]:
# (3, 3) 크기 행렬에 (3, ) 크기 벡터를 더하면
# (1, 3) 크기가 된 다음 행을 따라 반복한다.

matrix + [100, 100, 100]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [82]:
# (3, 3) 크기 행렬에 (3, 1) 크기 벡터를 더하면 열을 따라 반복한다.
matrix + [[100], [100], [100]]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

# 1.7 최댓값, 최솟값 찾기

In [83]:
matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8 ,9]])

In [84]:
np.max(matrix)

9

In [85]:
np.min(matrix)

1

In [86]:
# 특정축에 따라 최대, 최소 알기

np.max(matrix, axis = 0)

array([7, 8, 9])

In [87]:
np.max(matrix, axis = 1)

array([3, 6, 9])

In [88]:
# keepdims 매개변수를 True로 지정하면 원본 배열의 차원과 동일한 결과를 만든다.
# 이전 예와 달리 (3, 1) 크기와 열 벡터가 만들어진다.

vector_column = np.max(matrix, axis = 1, keepdims = True)
vector_column

array([[3],
       [6],
       [9]])

In [90]:
# 열 벡터이므로 브로드캐스팅을 이용하여 각 행의 최댓값을 뺄 수 있었다.
matrix - vector_column

array([[-2, -1,  0],
       [-2, -1,  0],
       [-2, -1,  0]])

# 1.8 평균, 분산, 표준편차 계산하기

In [3]:
matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8 ,9]])

In [4]:
np.mean(matrix)

5.0

In [5]:
np.var(matrix)

6.666666666666667

In [6]:
np.std(matrix)

2.581988897471611

In [7]:
# 각 열의 평균을 계산 (행끼리 연산됨)
np.mean(matrix, axis = 0)

array([4., 5., 6.])

In [8]:
# 자유도를 고려하여 샘플에서 편향되지 않는 값을 추출하기 위해 n-1을 시행한다.
# 이는 ddof 매개변수를 1로 지정하면 된다.
# 여기서는 defalut 값이 0이다.

np.std(matrix, ddof = 1)

2.7386127875258306

In [9]:
import pandas as pd

df = pd.DataFrame(matrix.flatten())
df.std() # 판다스를 활용한 데이터프레임에선 자유도 1이 디폴트 값이다.

0    2.738613
dtype: float64

# 1.9 배열 크기 바꾸기

In [102]:
matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8 ,9],
                  [10, 11, 12]])

In [104]:
matrix.reshape(2, 6) # 2x6  행렬로 크기 바꾸기

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [105]:
# reshape은 원소 개수가 같아야 한다.
# size로 항상 파악하기

matrix.size

12

In [106]:
# 매개변수 -1은 가능한 많이라는 뜻
# reshape(1, -1)은 행 하나에 열은 가능한 많게라는 뜻

matrix.reshape(1, -1)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [107]:
# 그냥 1차원을 바꾸고 싶을 때

matrix.reshape(-1)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [109]:
# ravel도 같은 작업을 수행한다.
matrix.ravel()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

# 1.10 벡터나 행렬 전치하기

In [110]:
matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8 ,9]])

In [112]:
matrix.T # 각 행과 열의 인덱스를 바꿔줌

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [113]:
np.array([[1, 2, 3, 4, 5, 6]]).T

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [114]:
# 전치는 배열의 차원을 바꾸는 것이므로 1차원 배열에는 영향을 미치지 않는다.
# T 메서드 대신 transpose 메서드를 사용할 수 있다.

matrix.transpose()

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [115]:
# transopose 메서드는 튜플로 바꿀 차원을 직접 지정할 수도 있다.

# 2x3x2 행렬을 만든다.
matrix = np.array([[[1,2],
                   [3, 4],
                   [5, 6]],
                  
                  [[7, 8],
                  [9, 10],
                  [11, 12]]])

In [116]:
# 두 번째와 세 번째 차원을 바꾸어 2x2x3 행렬로 만든다.
matrix.transpose((0, 2, 1))

array([[[ 1,  3,  5],
        [ 2,  4,  6]],

       [[ 7,  9, 11],
        [ 8, 10, 12]]])

# 1.11 행렬 펼치기

In [120]:
matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                   [7, 8 ,9]])

In [122]:
# 행렬 펼치기
matrix.flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [123]:
matrix.reshape(1, -1)

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [124]:
# reshape은 view를 반환하지만 flatten 메서드는 새로운 배열을 만든다.

vector_reshaped = matrix.reshape(-1)
vector_flattened = matrix.flatten()

In [126]:
# (0, 0) 위치의 원소를 바꾼다.
matrix[0][0]

matrix[0][0] = -1

In [127]:
# 배열의 뷰는 원본 배열의 변경 사항을 반영한다.
vector_reshaped

array([-1,  2,  3,  4,  5,  6,  7,  8,  9])

In [129]:
# 복사된 배열에는 영향이 미치지 않는다.
vector_flattened

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

# 1.12 행렬의 랭크 구하기

In [10]:
matrix = np.array([[1, 1, 1],
                  [1, 1, 10],
                  [1, 1, 15]])

In [11]:
# 행렬의 랭크를 반환한다.
np.linalg.matrix_rank(matrix)

2

In [12]:
# 행렬의 랭크는 행이나 열이 만든 벡터 공간의 차원이다.
# np.ndim(matrix)를 사용하여 구할수도 있다.

np.ndim(matrix)

2

In [13]:
# matrix_rank 함수는 특잇값 분해 방식으로 랭크를 계산한다.
# svd 함수로 특잇값만 계산한다.

s = np.linalg.svd(matrix, compute_uv = False)
# 오차를 고려하여 0에 가까운 아주 작은 값을 지정한다.
np.sum(s > 1e-10)

2

# 1.13 행렬식 계산하기

In [14]:
matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                   [7, 8 ,9]])

In [15]:
# 행렬의 행렬식을 반환하기

np.linalg.det(matrix)

6.66133814775094e-16

행렬식은 정방행렬에 의한 선형 변환의 특징을 나타내는 스칼라값이다.\
(2, 2) 크기의 행렬 A = [[a, b], [c, d]] 가 있다면 행렬식은 det(A) = ad - bc 와 같이 계산한다.

# 1.14 행렬의 대각원소 추출하기

In [16]:
matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                   [7, 8 ,9]])

In [18]:
# 대각원소를 반환
matrix.diagonal()

array([1, 5, 9])

In [20]:
# 주 대각선 하나 위의 대각원소를 반환
matrix.diagonal(offset = 1)

array([2, 6])

In [21]:
# 주 대각선 하나 아래의 대각원소를 반환
matrix.diagonal(offset = -1)

array([4, 8])

In [24]:
# 반환된 배열을 변경하려면 복사해야 한다.
a = matrix.diagonal().copy()
print(a)

[1 5 9]


In [26]:
# diag 함수도 대각행렬을 만들어준다.
a = np.diag(matrix)
print(a)

[1 5 9]


In [27]:
# 1차원 배열이 주어지면 2차원 대각행렬을 만든다.
np.diag(a)

array([[1, 0, 0],
       [0, 5, 0],
       [0, 0, 9]])

# 1.15 행렬의 대각합 계산하기

In [28]:
matrix = np.array([[1, 2, 3],
                  [2, 4, 6],
                  [3, 8, 9]])

In [29]:
# trace 함수를 사용하여 대각합 반환
matrix.trace()

14

In [30]:
# 대각원소를 사용하여 합을 구한다.
sum(matrix.diagonal())

14

In [31]:
# 주 대각선 하나 위의 대각원소의 합을 반환한다.
matrix.trace(offset = 1)

8

In [32]:
# 주 대각선 하나 아래의 대각원소의 합을 반환한다.
matrix.trace(offset = -1)

10

# 1.16 고윳값과 고유벡터 찾기

In [33]:
matrix = np.array([[1, -1, 3],
                  [1, 1, 6],
                  [3, 8, 9]])

In [34]:
# 고윳값과 고유벡터를 계산한다.
eigenvalues, eigenvectors = np.linalg.eig(matrix)

In [35]:
eigenvalues

array([13.55075847,  0.74003145, -3.29078992])

In [36]:
eigenvectors

array([[-0.17622017, -0.96677403, -0.53373322],
       [-0.435951  ,  0.2053623 , -0.64324848],
       [-0.88254925,  0.15223105,  0.54896288]])

행렬 A로 표현되는 선형 변환을 적용할 때 고유벡터는 스케일만 바뀌는 벡터이다\
공식 : Av = ㅅv(ㅅ은 람다)

# 1.17 점곱 계산하기

In [38]:
vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])

In [39]:
# 점곱을 계산한다.
np.dot(vector_a, vector_b)

32

점곱 공식: ∑(a*b)

In [40]:
# 점곱을 계산한다.
vector_a @ vector_b

32

In [42]:
# @ 연산자는 np.dot이 아니라 np.matmul 함수를 나타낸다. np.matmul 함수는 np.dot 함수와 달리 넘파이 스칼라 배열에 적용되지 않는다.

scalar_a = np.array(1)
scalar_b = np.array(2)
np.dot(scalar_a, scalar_b)

2

In [44]:
scalar_a @ scalar_b # 실패오류가 뜬다.

ValueError: matmul: Input operand 0 does not have enough dimensions (has 0, gufunc core with signature (n?,k),(k,m?)->(n?,m?) requires 1)

# 1.18 행렬 덧셈과 뺄셈

In [46]:
matrix_a = np.array([[1, 1, 1],
                  [1, 1, 1],
                  [1, 1, 2]])

matrix_b = np.array([[1, 3, 1],
                    [1, 3, 1],
                    [1, 3, 8]])

In [47]:
np.add(matrix_a, matrix_b)

array([[ 2,  4,  2],
       [ 2,  4,  2],
       [ 2,  4, 10]])

In [48]:
np.subtract(matrix_a, matrix_b)

array([[ 0, -2,  0],
       [ 0, -2,  0],
       [ 0, -2, -6]])

In [49]:
# 간단하게
matrix_a + matrix_b

array([[ 2,  4,  2],
       [ 2,  4,  2],
       [ 2,  4, 10]])

# 1.19 행렬 곱셈

In [50]:
matrix_a = np.array([[1, 1],
                    [1, 2]])

matrix_b = np.array([[1, 3],
                    [1, 2]])

In [51]:
np.dot(matrix_a, matrix_b)

array([[2, 5],
       [3, 7]])

In [52]:
matrix_a @ matrix_b

array([[2, 5],
       [3, 7]])

In [53]:
# 원소별 곱셈
matrix_a * matrix_b

array([[1, 3],
       [1, 4]])

# 1.20 역행렬

In [54]:
matrix = np.array([[1, 4],
                  [2, 5]])

In [55]:
# 역행렬 계산하기

np.linalg.inv(matrix)

array([[-1.66666667,  1.33333333],
       [ 0.66666667, -0.33333333]])

A * (A의 역행렬) = I

In [56]:
matrix @ np.linalg.inv(matrix)

array([[1., 0.],
       [0., 1.]])

# 1.21 난수 생성하기

In [58]:
# 초깃값 설정하기
np.random.seed(0)

In [60]:
# 0.0과 1.0 사이에서 세 개의 실수 난수를 생성한다.
np.random.random(3)

array([0.5488135 , 0.71518937, 0.60276338])

In [61]:
# 1과 10 사이에서 세 개의 정수 난수를 생성한다.
np.random.randint(0, 11, 3)

array([3, 7, 9])

In [62]:
# 평균이 0.0이고 표준편차가 1.0인 정규분포에서 세 개의 수를 뽑는다.
np.random.normal(0.0, 1.0, 3)

array([-1.42232584,  1.52006949, -0.29139398])

In [63]:
# 1.0보다 크거나 같고 2.0보다 작은 세 개의 수를 뽑는다.
np.random.uniform(1.0, 2.0, 3)

array([1.27265629, 1.47766512, 1.81216873])

동일한 결과를 얻으려면 같은 난수를 생성해야 한다.\
이렇게 하려면 의사 난수 생성기의 '초깃값(정수)' 을 설정한다.

In [64]:
np.random.random_sample((2, 3))

array([[0.47997717, 0.3927848 , 0.83607876],
       [0.33739616, 0.64817187, 0.36824154]])

In [65]:
# 위와 같은 것
np.random.rand(2, 3)

array([[0.95715516, 0.14035078, 0.87008726],
       [0.47360805, 0.80091075, 0.52047748]])

In [66]:
# randit 함수는 최솟값을 포함하고 최댓값은 포함하지 않는 정수 난수를 생성한다.
np.random.randint(0, 1, 10)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [68]:
# np.random.normal(0.0, 1.0, (2, 3))과 동일하다
np.random.standard_normal((2, 3))

# 위와 같음
np.random.randn(2, 3)

array([[-0.82719653, -0.4157447 , -0.52451219],
       [ 0.81310127, -0.22925063,  2.16171737]])

In [69]:
# 0~2 사이의 정수 중 랜덤하게 5번을 뽑는다.
# np.random.choice(3, 5)와 동일하다.

np.random.choice([0, 1, 2], 5)

array([1, 1, 1, 1, 2])

In [71]:
# 입력된 배열을 섞는다.
a = np.array([0, 1, 2, 3, 4])
np.random.shuffle(a)
a

array([3, 4, 1, 2, 0])

In [72]:
# permutation 함수는 입력된 배열의 복사본을 만들어 섞은 후 반환한다.
# a는 변경되지 않는다.

np.random.permutation(a)

array([2, 0, 3, 1, 4])

In [73]:
np.random.permutation(5)

array([3, 1, 0, 2, 4])

In [74]:
a

array([3, 4, 1, 2, 0])