# 1. 벡터, 행렬,배열

## 1.1 벡터 만들기

In [3]:
import numpy as np

# 행이 하나인 벡터
vector_row = np.array([1, 2, 3])

# 열이 하나인 벡터
vector_column = np.array([[1],
                         [2],
                         [3]])

* 넘파이의 핵심 데이터 구조 : 다차원 배열
    * 벡터 : 1차원 배열
    * 수평(행) 혹은 수직(열) 구성 가능

In [4]:
# 넘파이 배열은 ndarray 클래스의 객체
print(type(vector_row))

<class 'numpy.ndarray'>


In [5]:
# ndarray 사용하는 방법이 있지만 권장하지 않는다.
bad = np.ndarray((3,))

In [6]:
bad

array([0., 0., 0.])

In [7]:
# asarray로 배열 제작 가능하지만 새로운 배열을 만들지 않는다.(옛날것임)
new_row = np.asarray([1, 2, 3])

In [8]:
new_row = np.asarray(vector_row)

In [9]:
new_row is vector_row

True

In [10]:
# array 함수는 입력 배열을 복사할지 선택하는 copy 매개변수(기본이 True)
# 그래서 입력하면 새로운 배열이 생성된다.
new_row = np.array(vector_row)
new_row is vector_row

False

In [11]:
# asarray 함수도 array 사용하지만 copy 매개변수를 False로 지정한다.
# copy 매개변수를 정확하게 지정할 필요가 있다.

new_row = vector_row.copy()
new_row is vector_row

False

## 1.2 행렬 만들기

* 넘파이로 2차원 배열을 만든다.


In [12]:
# 라이브러리 임포트
import numpy as np

# 행렬 제작
matrix = np.array([[1, 2],
                  [1, 2],
                  [1, 2]])

In [13]:
matrix

array([[1, 2],
       [1, 2],
       [1, 2]])

In [14]:
# 넘파이의 2차원 배열을 활용해 행렬 만들기
matrix = np.mat([[1,2],
                [1,2],
                [1,2]])

In [15]:
# empty 함수 : 초깃값 대신 크기만 지정해서 임의의 값이 채워진 배열을 만든다.
zero_matrix = np.zeros((3,2))

In [16]:
zero_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [17]:
one_matrix = np.ones((3,2))
one_matrix

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

* 특정 값으로 채운 배열은 full 함수 이용

In [18]:
# 영행렬 만든 후 7을 더한다.
seven_matrix = np.zeros((3,2)) +7

In [19]:
# full 함수가 더 효율 적이다.
# 처음에는 배열의 크기, 다음에 채울 숫자 넣는다.
seven_matrix = np.full((3,2), 7)

## 1.3 희소 행렬 만들기

In [20]:
# 데이터에 0이 아닌 값이 매우 적을 때 효율적으로 표현한다.
# 희소행렬
import numpy as np
from scipy import sparse

# 행렬 제작
matrix = np.array([[0,0],
                  [0,1],
                  [3,0]])

# CSR 행렬을 제작한다.
matrix_sparse = sparse.csr_matrix(matrix)

In [21]:
matrix_sparse

<3x2 sparse matrix of type '<class 'numpy.intc'>'
	with 2 stored elements in Compressed Sparse Row format>

* 머신러닝에서 대용량 데이터를 많이 다루는데, 대부분 원소가 0이다.
* 수백만 행과 수만 열이 있어도 0이 대부분이다.
* 희소행렬은 **0이 아닌 원소만 저장**한다.

In [22]:
# 희소행렬 출력은 반드시 print를 쓴다.
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


* 여러 종류의 희소 행렬이 있다.
    * CSR (compressed sparse row) 행렬에서 (1,1), (2,0)은 0이 아닌 값인 1과 3의 인덱스를 나타낸다.

In [23]:
# 큰 행렬을 만든다.
matrix_large = np.array([[0,0,0,0,0,0,0,0,0,0,0,0,0],
                        [0,1,0,0,0,0,0,0,0,0,0,0,0],
                        [3,0,0,0,0,0,0,0,0,0,0,0,0]])

In [24]:
matrix_large_sparse = sparse.csr_matrix(matrix_large)

In [25]:
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


In [26]:
print(matrix_large_sparse)

  (1, 1)	1
  (2, 0)	3


* 0을 많이 추가하여 큰 행렬을 만들었다.
    * 그러나 희소 행렬의 표현은 원래의 희소 행렬과 같다.
    * 0인 원소를 추가해도 희소 행렬 크기도 바뀌지 않는다.

* 희소 행렬의 종류 : CSC(cmopressed sparse column), 리스트, 키의 딕셔너리 등

* 밀집 배열로부터 희소 행렬을 만드는 일은 드물다. 원소의 행과 열의 인덱스를 직접 지정하여 희소 행렬 제작 가능하다.

In [27]:
# (data, (row_index, column_index))로 구성된 튜플을 전달한다.
# shape 매개변수에서 0을 포함한 행렬의 전체 크기 지정

In [28]:
matrix_sparse_2 = sparse.csr_matrix(([1,3], ([1,2],[1,0])), shape=(3,10))

In [29]:
print(matrix_sparse_2)

  (1, 1)	1
  (2, 0)	3


In [30]:
# 희소 행렬을 밀집 배열로 변환 : toarray 메서드
print(matrix_sparse_2.toarray())

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]


In [33]:
# todense는 다시 np.matrix 객체 반환
matrix_sparse_2.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [3, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int32)

## 1.4 원소 선택하기
* 벡터나 행렬에서 원소를 하나 이상 선택한다.

In [34]:
# 넘파이 배열 사용
import numpy as np

vector = np.array([1,2,3,4,5,6])

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

In [35]:
# vector의 세 번째 원소
vector[2]

3

In [36]:
# matrix의 두번째 행, 두번째 열의 원소 선택
matrix[1,1]

5

In [37]:
# 벡터에 있는 모든 원소 선택
vector[:]

array([1, 2, 3, 4, 5, 6])

* 넘파이는 파이썬처럼 넘파이 배열의 인덱스는 0부터 시작한다. 첫 번째 원소의 인덱스는 1이 아니라 0이다.

In [38]:
# 세 번째 원소를 포함하여 이전의 모든 원소 선택
vector[:3]

array([1, 2, 3])

In [39]:
# 세 번째 원소 이후 모든 원소 선택
vector[3:]

array([4, 5, 6])

In [40]:
# 마지막 원소
vector[-1]

6

In [41]:
# 행렬에서 첫 번째 두 행과 모든 열 선택
matrix[:2, :]

array([[1, 2, 3],
       [4, 5, 6]])

In [42]:
# 모든 행과 두 번째 열 선택
matrix[:, 1:2]

array([[2],
       [5],
       [8]])

* 인덱싱 : 행과 열의 리스트를 전달해서 배열의 원소 선택

In [43]:
# 첫 번째 행과 세 번째 행 선택
matrix[[0,2]]

array([[1, 2, 3],
       [7, 8, 9]])

In [44]:
# (0,1), (2, 0) 위치의 원소를 선택
matrix[[0,2], [1,0]]

array([2, 7])

* 불리언 마스크(boolean mask) 배열을 만들어 원소를 선택할 수 있다.

In [45]:
# matrix 각 원소에 비교 연산자 적용
mask = matrix > 5

In [46]:
mask

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

In [48]:
# 불리언 마스크를 활용해서 원소를 선택 가능하다. 편리해보인다.
matrix[mask]

array([6, 7, 8, 9])

## 1.5 행렬 정보 확인하기
* 행렬 크기, 원소 개수, 차원 : shape, size, ndim

In [50]:
import numpy as np

matrix = np.array([[1,2,3,4],
                  [5,6,7,8],
                  [9,10,11,12]])

In [54]:
# 행렬 크기
matrix.shape

(3, 4)

In [55]:
# 행렬 내 원소 개수( 행곱하기열)
matrix.size

12

In [56]:
# 행렬의 차원
matrix.ndim

2

In [57]:
# 원소의 데이터 타입도 확인 가능하다.
# dtype
print(matrix.dtype)

int32


In [58]:
# 원소 하나가 차지하는 바이트 크기 : itemsize
print(matrix.itemsize)

4


In [60]:
# 배열 전체가 차지하는 바이트 크기 : nbyptes
print(matrix.nbytes)

48


## 1.6 벡터화 연산 적용하기

* 배열의 여러 원소에 함수 적용 : vectorize

In [61]:
# 넘파이의 vectorize
import numpy as np

matrix = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])

add_100 = lambda i: i + 100

In [62]:
# 벡터화된 함수를 만든다.
vectorized_add_100 = np.vectorize(add_100)

In [63]:
# 행렬의 모든 원소에 벡터화된 함수 적용 가능하다.
vectorized_add_100(matrix)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [64]:
# 브로드캐스팅
# 모든 원소에 100 더하기
matrix + 100

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

* 브로드캐스팅 : 배열에 차원을 추가하거나 반복해서 배열 크기 맞추기

In [65]:
# (3,3) 행렬에 (3, ) 크기 벡터 더하면, (1,3) 크기가 된 다음 행을 따라 반복한다.
matrix + [100,100,100]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [66]:
# (3, 1) 크기 벡터를 더하게 되면 열을 따라 반복한다.
matrix + [[100,100,100]]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])