# Chapter1 벡터, 행렬, 배열

In [2]:
import numpy as np

### 1.1 벡터 만들기

**벡터:** 1차원 배열, 수평(행)/수직(열) 모두 가능

* **벡터만들기**

In [3]:
# 행이 한 개인 벡터 만들기
vector_row = np.array([1, 2, 3])

vector_row

array([1, 2, 3])

In [4]:
# 열이 한 개인 벡터 만들기
vector_column = np.array([[1],
                          [2],
                          [3]])

vector_column

array([[1],
       [2],
       [3]])

In [5]:
# 넘파이 배열은 ndarray 클래스의 객체!

print(type(vector_row))

<class 'numpy.ndarray'>


In [6]:
# ndarray를 사용해도 되지만 권장하지 않음

bad_way = np.ndarray((3,))

* **배열 복사하기**

In [7]:
#방법1
new_row1 = np.array(vector_row)

#방법2
new_row2 = vector_row.copy()

In [9]:
new_row1 is vector_row

False

In [10]:
new_row2 is vector_row

False

### 1.2 행렬 만들기

* **행렬 만들기**

In [11]:
# 행렬 만들기 - 2차원 배열

matrix = np.array([[1, 2],
                   [1, 2],
                   [1, 2]])
matrix

array([[1, 2],
       [1, 2],
       [1, 2]])

In [12]:
# 행렬 만들기 - 행렬 데이터 구조 자체를 사용 (권장하지 않음)

matrix_object = np.mat([[1, 2],
                        [1, 2],
                        [1, 2]])
matrix_object

matrix([[1, 2],
        [1, 2],
        [1, 2]])

* **특정 값으로 채운 배열 만들기**

In [13]:
# 임의의 값으로 채운 배열 만들기

empty_matrix = np.empty((3, 2))
empty_matrix

array([[ 1.49166815e-154, -1.49457603e-154],
       [ 1.48219694e-323,  0.00000000e+000],
       [ 0.00000000e+000,  4.17201348e-309]])

In [14]:
# zeros - 0으로 채우기

zero_matrix = np.zeros((3, 2))
zero_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [15]:
# ones - 1로 채우기

one_matrix = np.ones((3, 2))
one_matrix

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [18]:
# 연산도 가능!

seven_matrix = np.zeros((3, 2)) + 7
seven_matrix

array([[7., 7.],
       [7., 7.],
       [7., 7.]])

In [19]:
# 그 외 - full 함수 사용

seven_matrix = np.full((3, 2), 7)
seven_matrix

array([[7, 7],
       [7, 7],
       [7, 7]])

### 1.3 희소 행렬 만들기

**희소행렬:** 행렬의 값이 대부분 0인 경우를 가리키는 표현 -> 0이 아닌 원소만 저장한다! -> 계산 비용 절감

In [20]:
from scipy import sparse

In [22]:
# 테스트 행렬 만들기
matrix = np.array([[0, 0],
                   [0, 1],
                   [3, 0]])

# CSR 행렬 만들기
matrix_sparse = sparse.csr_matrix(matrix)
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


**=> (위치) 값**

In [23]:
# 보다 큰 행렬 만들기
matrix_large = np.array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
                         [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
                         [3, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

# CSR 행렬 만들기
matrix_large_sparse = sparse.csr_matrix(matrix_large)
print(matrix_large_sparse)

  (1, 1)	1
  (2, 0)	3


**=> 0인 원소를 추가해도 희소행렬의 크기는 바뀌지 않는다!**

In [27]:
# 희소행렬 -> 밀집행렬

matrix_sparse_2 = sparse.csr_matrix(([1, 3], ([1, 2], [1, 0])), shape=(3, 10))

print(matrix_sparse_2.toarray()) # 배열 반환
print('-------------------------')
print(matrix_sparse_2.todense()) # np.matrix 반환


[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]
-------------------------
[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]


### 1.4 원소 선택하기

* **테스트 데이터 생성**

In [29]:
# 행 벡터 생성
vector = np.array([1, 2, 3, 4, 5, 6])

# 행렬 생성
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

* **벡터에서의 선택**

In [30]:
# vector의 세 번째 원소 선택
vector[2]

3

In [31]:
# 벡터에 있는 모든 원소 선택
vector[:]

array([1, 2, 3, 4, 5, 6])

In [32]:
# 세 번째 원소를 포함하여 그 이전의 모든 원소 선택
vector[:3]

array([1, 2, 3])

In [33]:
# 세 번째 이후의 모든 원소 선택
vector[3:]

array([4, 5, 6])

In [34]:
# 마지막 원소 선택
vector[-1]

6

* **행렬에서의 선택**

In [35]:
# matrix의 두 번째 행, 두 번째 열의 원소 선택
matrix[1,1]

5

In [36]:
# 행렬에서 첫 번째 두 개의 행과 모든 열 선택
matrix[:2,:]

array([[1, 2, 3],
       [4, 5, 6]])

In [37]:
# 모든 행과 두 번째 열 선택
matrix[:,1:2]

array([[2],
       [5],
       [8]])

In [38]:
# 첫 번째 행과 세 번째 행 선택
matrix[[0,2]]

array([[1, 2, 3],
       [7, 8, 9]])

In [39]:
# (0, 1), (2, 0) 위치의 원소 선택
matrix[[0,2], [1,0]]

array([2, 7])

In [40]:
# matrix의 각 원소에 비교 연산자 적용
mask = matrix > 5

mask

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

In [41]:
# 마스크 배열을 사용하여 원소 선택
matrix[mask]

array([6, 7, 8, 9])

### 1.5 행렬정보 확인

In [42]:
# 테스트 행렬 생성
matrix = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12]])

In [43]:
# 크기 확인
matrix.shape

(3, 4)

In [44]:
# 원소개수 확인
matrix.size

12

In [45]:
# 차원 수 확인
matrix.ndim

2

In [46]:
# 원소의 데이터 타입 확인
print(matrix.dtype)

int64


In [47]:
# 원소 하나가 차지하는 바이트 크기
print(matrix.itemsize)

8


In [48]:
# 배열 전체가 차지하는 바이트 크기
print(matrix.nbytes)

96


### 1.6 벡터화 연산 적용하기

In [49]:
# 테스트 행렬 만들기
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# 100을 더하는 함수 생성
add_100 = lambda i: i + 100

# 벡터화된 함수 생성
vectorized_add_100 = np.vectorize(add_100)

# 행렬의 모든 원소에 함수 적용
vectorized_add_100(matrix)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

* **브로드캐스팅**

In [50]:
# 브로드캐스팅을 이용하여 위 예제를 간단하게 구현할 수 있음!

matrix + 100

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [None]:
# (3, 3) 크기 행렬에 (3, ) 벡터를 더하면 (1, 3) 크기가 된 다음 행을 따라 반복
matrix + [100, 100, 100]

In [None]:
# (3, 3) 크기 행렬에 (3, 1) 벡터를 더하면 열을 따라 반복
matrix + [[100], [100], [100]]

**=> 브로드캐스팅은 배열에 차원을 추가하거나 반복해서 크기를 맞춤!**

### 1.7 최댓값, 최솟값 찾기

In [51]:
# 테스트 행렬
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [52]:
# 가장 큰 원소를 반환
np.max(matrix)

9

In [53]:
# 가장 작은 원소를 반환
np.min(matrix)

1

In [54]:
# 각 열에서 최댓값 찾기
np.max(matrix, axis=0)

array([7, 8, 9])

In [55]:
# 각 행에서 최댓값 찾기
np.max(matrix, axis=1)

array([3, 6, 9])

In [56]:
# keepdims 매개변수를 True로 설정함으로써 원붠 배열의 차원과 동일한 결과를 만들 수 있음! 

vector_column = np.max(matrix, axis=1, keepdims=True)

vector_column

array([[3],
       [6],
       [9]])

In [57]:
# 원본 배열과 안전하게 브로드캐스팅 연산을 수행할 수 있게 됨
matrix - vector_column

array([[-2, -1,  0],
       [-2, -1,  0],
       [-2, -1,  0]])

### 1.8 평균, 분산, 표준편차 계산

In [58]:
# 테스트 행렬
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

In [59]:
# 평균
np.mean(matrix)

5.0

In [60]:
# 분산
np.var(matrix)

6.666666666666667

In [61]:
# 표준편차
np.std(matrix)

2.581988897471611

In [62]:
# 각 열의 평균 계산
np.mean(matrix, axis=0)

array([4., 5., 6.])

* **ddof**

In [63]:
# 자유도를 고려하지 않은(편향되지 않은) 추정값 계산 -> ddof=1 인자 추가
np.std(matrix, ddof=1)

2.7386127875258306

**=>numpy에서는 ddof의 기본값이 0이지만 pandas에서는 1임!**

### 1.9 배열 크기 바꾸기

In [64]:
# 테스트 행렬 4x3
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [10, 11, 12]])

In [65]:
# 2x6으로 reshape
matrix.reshape(2, 6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [66]:
# 원소 수 확인
matrix.size

12

In [67]:
# '-1' -> 가능한 많이
matrix.reshape(1, -1)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [68]:
# 정수 하나만 입력하는 경우 -> 1차원 배열 반환
matrix.reshape(12)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [69]:
# 배열 전체 길이를 몰라도 -1 입력하면 알아서 1차원 배열 반환해줌!
matrix.reshape(-1)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [70]:
# 위와 동일
matrix.ravel()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])