# 1장 벡터, 행렬 그리고 배열

## 1.1 벡터 만들기

In [1]:
# 라이브러리를 임포트합니다.
import numpy as np

In [2]:
np.__version__

'1.15.4'

In [3]:
# 하나의 행으로 벡터를 만듭니다.
vector_row = np.array([1, 2, 3])

In [4]:
vector_row

array([1, 2, 3])

In [5]:
# 하나의 열로 벡터를 만듭니다.
vector_column = np.array([[1],
                          [2],
                          [3]])

In [6]:
vector_column

array([[1],
       [2],
       [3]])

### 불임

In [7]:
# 넘파이 배열의 클래스를 출력합니다.
print(type(vector_row))

<class 'numpy.ndarray'>


In [8]:
# ndarray를 사용하는 것은 권장되지 않습니다.
bad_way = np.ndarray((3,))

In [9]:
new_row = np.asarray([1, 2, 3])
# asarray()는 새로운 배열을 만들지 않습니다.
new_row = np.asarray(vector_row)
new_row is vector_row

True

In [10]:
# array()는 배열이 입력되면 새로운 배열을 만듭니다.
new_row = np.array(vector_row)
new_row is vector_row

False

In [11]:
# copy() 메서드를 사용하면 의도가 분명해집니다.
new_row = vector_row.copy()
new_row is vector_row

False

## 1.2 행렬 만들기

In [12]:
# 라이브러리를 임포트합니다.
import numpy as np

matrix = np.array([[1, 2],
                   [1, 2],
                   [1, 2]])
matrix

array([[1, 2],
       [1, 2],
       [1, 2]])

In [13]:
matrix_object = np.mat([[1, 2],
                        [1, 2],
                        [1, 2]])
matrix_object

matrix([[1, 2],
        [1, 2],
        [1, 2]])

### 붙임

In [14]:
# 임의의 값이 채워진 배열을 만듭니다.
empty_matrix = np.empty((3, 2))
empty_matrix

array([[4.65329826e-310, 6.93363467e-310],
       [6.93363232e-310, 6.93363232e-310],
       [6.93363368e-310, 6.93363232e-310]])

In [15]:
zero_matrix = np.zeros((3, 2))
zero_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [16]:
one_matrix = np.ones((3, 2))
one_matrix

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [17]:
# 0 행렬을 만든 후 7을 더합니다.
seven_matrix = np.zeros((3, 2)) + 7
# full() 함수를 사용하는 것이 효율적입니다.
seven_matrix = np.full((3, 2), 7)
seven_matrix

array([[7, 7],
       [7, 7],
       [7, 7]])

## 1.3 희소 행렬 만들기

In [1]:
# 라이브러리를 임포트합니다.
import numpy as np
from scipy import sparse

# 행렬을 만듭니다. 
matrix = np.array([[0, 0],
                   [0, 1],
                   [3, 0]])

# CSR 행렬을 만듭니다.
matrix_sparse = sparse.csr_matrix(matrix)

In [2]:
# 희소 행렬을 출력합니다.
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


In [3]:
# 큰 행렬을 만듭니다.
matrix_large = np.array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
                         [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
                         [3, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

# CSR 행렬을 만듭니다.
matrix_large_sparse = sparse.csr_matrix(matrix_large)

# 원래 희소 행렬을 출력합니다.
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


In [4]:
# 큰 희소 행렬을 출력합니다.
print(matrix_large_sparse)

  (1, 1)	1
  (2, 0)	3


### 붙임

In [5]:
# (data, (row_index, col_index))로 구성된 튜플을 전달합니다.
# shape 매개변수에서 0을 포함한 행렬의 전체 크기를 지정합니다.  
matrix_sparse_2 = sparse.csr_matrix(([1, 3], ([1, 2], [1, 0])), shape=(3, 10))

print(matrix_sparse_2)

  (1, 1)	1
  (2, 0)	3


In [6]:
print(matrix_sparse_2.toarray())

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]


In [158]:
matrix_sparse_2.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [3, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

## 1.4 원소 선택

In [7]:
# 라이브러리를 임포트합니다.
import numpy as np

# 행 벡터를 만듭니다.
vector = np.array([1, 2, 3, 4, 5, 6])

# 행렬을 만듭니다.
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# vector의 세 번째 원소를 선택합니다.
vector[2]

3

In [8]:
# matrix의 두 번째 행, 두 번째 열의 원소를 선택합니다.
matrix[1,1]

5

In [9]:
# 벡터에 있는 모든 원소를 선택합니다.
vector[:]

array([1, 2, 3, 4, 5, 6])

In [10]:
# 세 번째 원소를 포함하여 그 이전의 모든 원소를 선택합니다.
vector[:3]

array([1, 2, 3])

In [11]:
# 세 번째 이후의 모든 원소를 선택합니다.
vector[3:]

array([4, 5, 6])

In [12]:
# 마지막 원소를 선택합니다.
vector[-1]

6

In [13]:
# 행렬에서 첫 번째 두 개의 행과 모든 열을 선택합니다.
matrix[:2,:]

array([[1, 2, 3],
       [4, 5, 6]])

In [14]:
# 모든 행과 두 번째 열을 선택합니다.
matrix[:,1:2]

array([[2],
       [5],
       [8]])

### 붙임

In [15]:
# 첫 번째 행과 세 번째 행을 선택합니다.
matrix[[0,2]]

array([[1, 2, 3],
       [7, 8, 9]])

In [16]:
# (0, 1), (2, 0) 위치의 원소를 선택합니다.
matrix[[0,2], [1,0]]

array([2, 7])

In [17]:
# matrix의 각 원소에 비교 연산자가 적용됩니다.
mask = matrix > 5

print(mask)

[[False False False]
 [False False  True]
 [ True  True  True]]


In [18]:
# 불리언 마스크 배열을 사용하여 원소를 선택합니다.
matrix[mask]

array([6, 7, 8, 9])

## 1.5 행렬 정보 확인

In [19]:
# 라이브러리를 임포트합니다.
import numpy as np

# 행렬을 만듭니다.
matrix = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12]])

# 행렬의 크기를 확인합니다.
matrix.shape

(3, 4)

In [20]:
# 행렬의 원소 개수를 확인합니다(행 * 열).
matrix.size

12

In [21]:
# 차원 수를 확인합니다.
matrix.ndim

2

### 붙임

In [22]:
# 원소의 데이터 타입을 확인합니다.
print(matrix.dtype)

int64


In [23]:
# 원소 하나가 차지하는 바이트 크기입니다. 
print(matrix.itemsize)

8


In [24]:
# 배열 전체가 차지하는 바이트 크기입니다.
print(matrix.nbytes)

96


## 1.6 벡터화 연산 적용하기

In [25]:
# 라이브러리를 임포트합니다.
import numpy as np

# 행렬을 만듭니다.
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# 100을 더하는 함수를 만듭니다.
add_100 = lambda i: i + 100

# 벡터화된 함수를 만듭니다.
vectorized_add_100 = np.vectorize(add_100)

# 행렬의 모든 원소에 함수를 적용합니다.
vectorized_add_100(matrix)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [26]:
# 모든 원소에 100을 더합니다.
matrix + 100

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

### 붙임

In [29]:
# (3, 3) 크기 행렬에 (3, ) 벡터를 더하면 
# (1, 3) 크기가 된다음 행을 따라 반복됩니다.
matrix + [100, 100, 100]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [30]:
# (3, 3) 크기 행렬에 (3, 1) 벡터를 더하면 열을 따라 반복됩니다.
matrix + [[100], [100], [100]]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

## 1.7 최댓값, 최솟값 찾기

In [31]:
# 라이브러리를 임포트합니다.
import numpy as np

# 행렬을 만듭니다.
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# 가장 큰 원소를 반환합니다.
np.max(matrix)

9

In [32]:
# 가장 작은 원소를 반환합니다.
np.min(matrix)

1

In [33]:
# 각 열에서 최댓값을 찾습니다.
np.max(matrix, axis=0)

array([7, 8, 9])

In [34]:
# 각 행에서 최댓값을 찾습니다.
np.max(matrix, axis=1)

array([3, 6, 9])

### 붙임

In [76]:
# 이전 예와 달리 (3, 1) 크기의 열 벡터가 만들어 집니다.
vector_column = np.max(matrix, axis=1, keepdims=True)

vector_column

array([[3],
       [6],
       [9]])

In [77]:
# 열 벡터이므로 브로드캐스팅을 이용하여 각 행의 최댓값을 뺄 수 있습니다.
matrix - vector_column

array([[-2, -1,  0],
       [-2, -1,  0],
       [-2, -1,  0]])

## 1.8 평균, 분산, 표준 편차 계산하기

In [56]:
# 라이브러리를 임포트합니다.
import numpy as np

# 행렬을 만듭니다.
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# 평균을 반환합니다.
np.mean(matrix)

5.0

In [57]:
# 분산을 반환합니다.
np.var(matrix)

6.666666666666667

In [58]:
# 표준 편차를 반환합니다.
np.std(matrix)

2.581988897471611

In [59]:
# 각 열의 평균을 계산합니다.
np.mean(matrix, axis=0)

array([4., 5., 6.])

### 붙임

In [60]:
np.std(matrix, ddof=1)

2.7386127875258306

In [69]:
import pandas as pd

df = pd.DataFrame(matrix.flatten())
df.std()

0    2.738613
dtype: float64

## 1.9 배열 크기 바꾸기

In [78]:
# 라이브러리를 임포트합니다.
import numpy as np

# 4x3 행렬을 만듭니다.
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [10, 11, 12]])

# 2x6 행렬로 크기를 바꿉니다.
matrix.reshape(2, 6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [79]:
matrix.size

12

In [80]:
matrix.reshape(1, -1)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [81]:
matrix.reshape(12)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

### 붙임

In [82]:
matrix.reshape(-1)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [83]:
matrix.ravel()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

## 1.10 벡터나 행렬을 전치하기

In [86]:
# 라이브러리를 임포트합니다.
import numpy as np

# 행렬을 만듭니다.
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# 행렬을 전치합니다.
matrix.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [87]:
# 벡터를 전치합니다.
np.array([1, 2, 3, 4, 5, 6]).T

array([1, 2, 3, 4, 5, 6])

In [88]:
# 행 벡터를 전치합니다.
np.array([[1, 2, 3, 4, 5, 6]]).T

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

### 붙임

In [89]:
matrix.transpose()

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [100]:
# 2x3x2 행렬을 만듭니다.
matrix = np.array([[[ 1,  2],
                    [ 3,  4],
                    [ 5,  6]],

                   [[ 7,  8],
                    [ 9, 10],
                    [11, 12]]])

# 두 번째와 세 번째 차원을 바꾸어 2x2x3 행렬로 만듭니다.
matrix.transpose((0, 2, 1))

array([[[ 1,  3,  5],
        [ 2,  4,  6]],

       [[ 7,  9, 11],
        [ 8, 10, 12]]])

## 1.11 행렬 펼치기

In [129]:
# 라이브러리를 임포트합니다.
import numpy as np

# 행렬을 만듭니다.
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# 행렬을 펼칩니다.
matrix.flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [126]:
matrix.reshape(1, -1)

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

### 붙임

In [130]:
vector_reshaped = matrix.reshape(-1)
vector_flattened = matrix.flatten()

# (0, 0) 위치의 원소를 바꿉니다.
matrix[0][0] = -1

# 배열의 뷰는 원본 배열의 변경 사항을 반영합니다.
vector_reshaped

array([-1,  2,  3,  4,  5,  6,  7,  8,  9])

In [131]:
# 복사된 배열에는 영향이 미치지 않습니다.
vector_flattened

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

## 1.12 행렬의 랭크 구하기

In [146]:
# 라이브러리를 임포트합니다.
import numpy as np

# 행렬을 만듭니다.
matrix = np.array([[1, 1, 1],
                   [1, 1, 10],
                   [1, 1, 15]])

# 행렬의 랭크를 반환합니다.
np.linalg.matrix_rank(matrix)

2

### 붙임

In [147]:
# 2D 배열이므로 2가 반환됩니다.
np.rank(matrix)

  


2

In [149]:
# svd 함수로 특잇값만 계산합니다.
s = np.linalg.svd(matrix, compute_uv=False)
# 오차를 고려하여 0에 가까운 아주 작은 값을 지정합니다.
np.sum(s > 1e-10)

2