# 벡터, 행렬, 배열

<br>

## 벡터 만들기
넘파이의 핵심 구조는 다차원 배열. 벡터는 1차원 배열로 만든다.

In [1]:
# 라이브러리 임포트
import numpy as np

In [2]:
# 행이 하나인 벡터
vector_row = np.array([1, 2, 3])
vector_row

array([1, 2, 3])

In [3]:
# 열이 하나인 벡터
vector_column = np.array([[1],
                          [2],
                          [3]])
vector_column

array([[1],
       [2],
       [3]])

In [4]:
# 넘파이 배열은 ndarray 클래스의 객체
print(type(vector_row))

<class 'numpy.ndarray'>


<br>

**asarray & array**

In [5]:
# asarray 함수를 사용해 배열 만들 수 있음. 입력이 넘파이 배열이면 새로운 배열을 생성하지 않는다.
new_row = np.asarray(vector_column)
print(new_row)
new_row is vector_column

[[1]
 [2]
 [3]]


True

In [6]:
# array 함수는 입력 배열을 목사할지 선택하는 copy 매개변수가 있음(기본 값 True)
new_row = np.array(vector_row)
new_row is vector_row # new_row는 vector_row 의 복사본이기 때문에 False 출력

False

In [7]:
# 하지만 배열을 복사하려면 의도가 명확하게 나타나도록 copy 메서드를 사용하는 것을 권장
new_row = vector_row.copy()
new_row is vector_row

False

<br><br>

## 행렬 만들기

In [8]:
matrix = np.array([[1, 2],
                   [3, 4],
                   [5, 6]])
print(matrix)
print(type(matrix))
matrix

[[1 2]
 [3 4]
 [5 6]]
<class 'numpy.ndarray'>


array([[1, 2],
       [3, 4],
       [5, 6]])

In [9]:
matrix_obj = np.mat([[1, 2],
                     [3, 4],
                     [5, 6]])
print(matrix_obj)
print(type(matrix_obj))
matrix_obj # 배열(ndarray)이 넘파이 표준 데이터 구조. 대부분 넘파이 함수는 배열을 반환하므로 행렬 객체인 np.matrix 는 권장 x

[[1 2]
 [3 4]
 [5 6]]
<class 'numpy.matrix'>


matrix([[1, 2],
        [3, 4],
        [5, 6]])

In [10]:
# empty 함수는 초깃값 대신 크기만 지정하여 임의의 값이 채워진 배열 생성
empty_matrix = np.empty((3, 2))
empty_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [11]:
# zeros 는 0으로 채운 배열 생성
zero_matrix = np.zeros((3, 2))
zero_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [12]:
# ones 는 1로 채운 배열 생성
one_matrix = np.ones((3, 2))
one_matrix

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [13]:
# 특정 값으로 채운 배열을 만드는 방법
seven_matrix = np.full((3, 2), 7)
seven_matrix

array([[7, 7],
       [7, 7],
       [7, 7]])

<br><br>

## 희소 행렬 만들기
머신러닝에서 대용량의 데이터를 다루는 경우는 흔하다. 희소 행렬은 0이 아닌 원소만 저장하므로 계산 비용이 크게 절감됨

In [14]:
# 희소 행렬을 만드는 데 필요한 라이브러리 임포트
from scipy import sparse

In [15]:
# 행렬 생성
matrix = np.array([[0, 0],
                   [0, 1],
                   [3, 0]])

# CSR 행렬 생성
matrix_sparse = sparse.csr_matrix(matrix)

In [35]:
print(type(matrix))
print(type(matrix_sparse))

<class 'numpy.ndarray'>
<class 'scipy.sparse.csr.csr_matrix'>


In [16]:
# 0이 아닌 원소가 2개인 넘파이 배열을 생성한 후 희소 행렬로 변환
print(matrix_sparse) # 0이 아닌 값인 1 과 3 의 인덱스를 각각 나타낸다.
print(type(matrix_sparse))
matrix_sparse

  (1, 1)	1
  (2, 0)	3
<class 'scipy.sparse.csr.csr_matrix'>


<3x2 sparse matrix of type '<class 'numpy.intc'>'
	with 2 stored elements in Compressed Sparse Row format>

In [17]:
# 0을 많이 추가하여 더 큰 행렬의 희소 행렬을 만들어 보았지만, 희소 행렬의 크기는 바뀌지 않음.
large_matrix = np.array([[0, 0, 0, 0, 0, 0, 0],
                         [0, 1, 0, 0, 0, 0, 0],
                         [3, 0, 0, 0, 0, 0, 0]])

# CSR 행렬 생성
matrix_large_sparse = sparse.csr_matrix(large_matrix)

In [18]:
print(matrix_large_sparse)

  (1, 1)	1
  (2, 0)	3


In [19]:
# 원소의 행과 열의 인덱스를 직접 지정하여 희소 행렬 생성 가능
# (data, (row_index, column_index)) 로 구성된 튜플 전달
# shape 매개변수에서 0을 포함한 행렬의 전체 크기 지정
matrix_sparse_2 = sparse.csr_matrix(([1, 3], ([1, 2], [1, 0])), shape=(3, 10))
print(matrix_sparse_2)

  (1, 1)	1
  (2, 0)	3


In [31]:
# 희소 배열을 밀집 배열로 변환
# toarray 메서드는 np.ndarray 객체 반환
print(matrix_sparse_2.toarray())
print(type(matrix_sparse_2.toarray()))

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]
<class 'numpy.ndarray'>


In [33]:
print(matrix_sparse_2.todense())
print(type(matrix_sparse_2.todense()))

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]
<class 'numpy.matrix'>


<br><br>

## 원소 선택하기
벡터나 행렬에서 원소를 하나 이상 선택해보자

In [36]:
# 행 벡터
vector = np.array([1, 2, 3, 4, 5])

# 행렬
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [37]:
vector[1]

2

In [38]:
matrix[1]

array([4, 5, 6])

In [39]:
matrix[1][0]

4

In [41]:
# 벡터의 모든 원소 선택
vector[:]

array([1, 2, 3, 4, 5])

In [44]:
# 행렬에서 첫 번째부터 2개의 행의 모든 열을 선택. matrix[행, 열]
matrix[:2, :]

array([[1, 2, 3],
       [4, 5, 6]])

In [47]:
# 모든 행과 두 번째 열 선택
matrix[:,1:2]

array([[2],
       [5],
       [8]])

팬시 인덱싱 : 행과 열의 인덱스 리스트를 전달해 배열의 원소 선택

In [48]:
# 첫 번째 행과 세 번째 행을 선택
matrix[[0, 2]]

array([[1, 2, 3],
       [7, 8, 9]])

In [49]:
# (0, 1), (2, 0) 위치의 원소 선택
matrix[[0, 2], [1, 0]]

array([2, 7])

<br>

불리언 마스크를 만들어 원소를 선택

In [50]:
# matrix 의 각 원소에 비교 연산자 적용
mask = matrix > 5

In [51]:
mask

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

In [52]:
matrix[mask]

array([6, 7, 8, 9])

<br><br>

## 행렬 정보 확이하기
행렬 크기, 원소 개수, 차원을 알아보자

In [53]:
matrix = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12]])

In [55]:
# shape : 행렬 크기 확인
matrix.shape

(3, 4)

In [56]:
# size : 행렬의 원소 개수
matrix.size

12

In [57]:
# ndim : 행렬의 차원 수
matrix.ndim

2

<br><br> 

## 벡터화 연산 적용하기
배열의 여러 원소에 함수를 적용해보자

In [2]:
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

**vectorize** <br>
넘파이 vectorize 클래스는 배열의 일부나 전체에 적용하도록 함수를 변환시킨다.<br>
기본적으로 원소를 순회하는 for 루프를 구현한 것이므로 성능이 향상되지 않는다.

In [3]:
# 100을 더하는 함수를 만든다.
add_100 = lambda i: i + 100

In [4]:
# 벡터화된 함수를 만든다.
vectorized_add_100 = np.vectorize(add_100)

In [7]:
# 행렬의 모든 원소에 함수를 적용
vectorized_add_100(matrix)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

<br><br>  

## 최댓값, 최솟값 찾기
배열에서 최댓값이나 최솟값을 찾아보자

In [3]:
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [5]:
# 가장 큰 원소 반환
np.max(matrix)

9

In [6]:
# 가장 작은 원소 반환
np.min(matrix)

1

<br>

배열의 일부나 전체에서 최대, 최소값을 알아야 할때, axis 매개변수를 사용하면 특정 축을 따라서 연산 가능

In [7]:
# 각 열에서 최댓값을 찾아보자
np.max(matrix, axis=0)

array([7, 8, 9])

In [12]:
# 각 행에서 최댓값을 찾아보자
np.max(matrix, axis=1)

array([3, 6, 9])

**keepdims** 매개변수를 True로 지정하면 원본 배열의 차원과 동일한 결과를 만든다.

In [16]:
# keepdims 를 사용하면 (3, 1) 크기의 열 벡터가 만들어진다.
vector_column = np.max(matrix, axis=1, keepdims=True)
vector_column

array([[3],
       [6],
       [9]])

In [17]:
# 열 벡터이므로 브로드캐스팅을 이용하여 각 행의 최댓값을 뺄 수 있다.
matrix - vector_column

array([[-2, -1,  0],
       [-2, -1,  0],
       [-2, -1,  0]])

<br><br>

## 평균, 분산, 표준편차 계산하기
배열의 특징을 설명하는 일부 통계값을 계산해보자
- mean
- bar
- std

In [18]:
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [20]:
# 평균
np.mean(matrix)

5.0

In [22]:
# 분산
np.var(matrix)

6.666666666666667

In [23]:
# 표준편차
np.std(matrix)

2.581988897471611

max 나 min 처럼 전체 행렬 또는 한 축을 따라 통계값을 구할 수 있다.

In [24]:
# 각 열의 평균 계산
np.mean(matrix, axis=0)

array([4., 5., 6.])

<br><br>

## 배열 크기 바꾸기
원소의 값은 변경하지 않고 배열 크기를 바꿔보자

In [26]:
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [10, 11, 12]])

In [28]:
# 2x6 행렬로 크기를 바꾼다.
matrix.reshape(2, 6) # 새로운 행렬은 원래 행렬과 원소 개수가 같아야 함

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [29]:
# reshape 의 매개변수 -1 은 가능한 많이 라는 뜻으로 사용됨
matrix.reshape(1, -1) # 행 하나에 열은 가능한 많게

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

원본을 1차원 배열로 reshape 하는 방법

In [34]:
# reshape 에 정수 하나(size -> 원소 개수)를 입력하면 그 길이의 1차원 배열 반환
matrix.reshape(12)

# reshape 에 -1 입력 시에도 마찬가지로 1차원 배열 반환 (size를 통해 길이를 확인할 필요가 없음)
matrix.reshape(-1)

# ravel 메서드
matrix.ravel()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

<br><br>

## 벡터나 행렬 전치하기

In [35]:
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [36]:
# T 메서드를 사용해 행렬 전치
matrix.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [37]:
np.array([1, 2, 3, 4, 5, 6]).T

array([1, 2, 3, 4, 5, 6])

## check point
1. np.ndarray 와 np.matrix 의 차이를 알고 있는가?
2. 희소 행렬이란 무엇이며, 왜 쓰는가?

1. ndarray는 numpy 의 다차원 행렬 자료구조 클래스