#### 1.1 벡터만들기

In [1]:
# 라이브러리 임포트
import numpy as np

In [2]:
# 행이 하나인 벡터 만들기
vector_row = np.array([1,2,3])
print(vector_row)

# 열이 하나인 벡터 만들기
vector_columns = np.array([[1],
                           [2],
                           [3]])
print(vector_columns)

[1 2 3]
[[1]
 [2]
 [3]]


In [3]:
# 넘파이 배열은 ndarray클래스의 객체
print(type(vector_row))

<class 'numpy.ndarray'>


In [4]:
# ndarray 클래스 첫번째 매개변쉐 배열크기를 정수 튜플로 지정하여 넘파이를 만들 수는 있으나 권장되지 않음
bad_way = np.ndarray((3,))
bad_way

array([1.38588047e-311, 0.00000000e+000, 6.47591605e-319])

In [5]:
# asarray() : 복사본 반환
new_row = np.asarray(vector_row)
new_row is vector_row

True

In [6]:
new_row = np.array(vector_row)
new_row is vector_row

False

배열을 만드는 방식은
1. np.array()로 만들기 : 참조본
2. np.asarray()로 만들기 : 복사본 -> .copy()와 유사
3. np.ndarray(())로 만들기 : 비추천  
이 있음

#### 1.2 행렬만들기

In [7]:
# 2차원 배열 만들기

matrix = np.array([[1,2],
                   [1,2],
                   [1,2]])

matrix

array([[1, 2],
       [1, 2],
       [1, 2]])

In [8]:
# mat() : 2차원 배열에 특화된 데이터구조 행렬
matrix_object = np.mat([[1,2],
                        [1,2],
                        [1,2]])

matrix_object

matrix([[1, 2],
        [1, 2],
        [1, 2]])

하지만 행렬은 자주 사용되지 않고 배열이 넘파이의 표준 데이터 구조이므로 matrix객체 대신 __2차원 array__ 를 사용하자

In [9]:
# empty(()) : 초깃값이 모두 0인 2차원 array 생성, 매개인자로 크기를 전달

empty_matrix = np.empty((3,2))
empty_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [10]:
# zeros(()) : empty(()) 와 동일
zero_matrix = np.zeros((3,2))
zero_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [11]:
# ones(()) : 초깃값이 모두 1인 2차원 array 생성, 매개인자로 크기 전달

one_matrix = np.ones((3,2))
one_matrix

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [12]:
# full() : 초깃값을 모두 원하는 숫자로 채워놓은 2차원 array 생성
seven_matrix = np.full((3,2),7)
seven_matrix

array([[7, 7],
       [7, 7],
       [7, 7]])

#### 1.3 희소행렬을 밀집배열로 만들기

__희소행렬(sparse matrix)__ : 배열의 value가 대부분 0으로 이뤄져 있는 행렬  
__밀집배열(density array)__ : 희소행렬에서 값이 있는 위치를 저장하는 방식 -> for __계산비용 절감__

In [13]:
import numpy as np
from scipy import sparse

matrix = np.array([[0,0],
                   [0,1],
                   [3,0]])

# CSR행렬을 만듭니다
matrix_sparse = sparse.csr_matrix(matrix)

In [14]:
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


In [15]:
matrix_large = np.array([[0,0,0,0,0,0,0,0,0,0],
                         [0,1,0,0,0,0,0,0,0,0],
                         [3,0,0,0,0,0,0,0,0,0]])
                         
matrix_sparse_large = sparse.csr_matrix(matrix_large)
print(matrix_sparse_large)

  (1, 1)	1
  (2, 0)	3


행렬의 크기가 클수록 CSR의 위력이 강해진다!

In [16]:
# 밀집배열에서 희소행렬을 만드는 것도 가능
# sparse.csr_matrix()에 매개인자로 (data, (row_index, col_index))로 구성된 튜플을 전달

matrix_sparse_2 = sparse.csr_matrix(([1,3], ([1,2], [1,0])), shape=(3,10))
print(matrix_sparse_2)

  (1, 1)	1
  (2, 0)	3


In [17]:
# toarray() 메서드로 밀집배열을 희소행렬로 변환
print(matrix_sparse_2.toarray())
print(type(matrix_sparse_2.toarray()))

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]
<class 'numpy.ndarray'>


In [18]:
# todense() 메서드는 matrix객체를 반환
print(matrix_sparse_2.todense())
print(type(matrix_sparse_2.todense()))

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]
<class 'numpy.matrix'>


#### 1.4 원소 선택하기

In [19]:
vector = np.array([1,2,3,4,5,6])
matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

# 파이썬의 인덱싱과 동일하게 첫번째 원소의 인덱스는 0
## 벡터의 3번째 원소를 가져올 것
print(vector[2])
## 행렬의 2행 2열의 원소를 가져올 것
print(matrix[1,1])

3
5


In [20]:
# 벡터의 모든 원소를 선택할 것
print(vector[:])

# 세번째 원소를 포함하여 그 이전의 모든 원소를 선택할 것
print(vector[:3])

# 세번째 이후의 원소를 선택할 것
print(vector[3:])

# 마지막 원소를 선택할 것
print(vector[-1])

# 1,2행을 모두 선택할 것
print(matrix[:2,:])

# 2열을 선택할 것
print(matrix[:,1:2])

[1 2 3 4 5 6]
[1 2 3]
[4 5 6]
6
[[1 2 3]
 [4 5 6]]
[[2]
 [5]
 [8]]


In [21]:
# 팬시 인덱싱 : 행과 열의 인덱스 리스트를 전달하여 배열의 원소 선택

# 1행과 3행을 선택할 것
matrix[[0,2]]

# (0,1), (2,0) 원소를 선택할 것
matrix[[0,2], [1,0]]

array([2, 7])

In [22]:
# 불린 인덱싱 : 불린을 이용하여 원소 선택
mask = matrix > 5
print(mask)

matrix[mask]

[[False False False]
 [False False  True]
 [ True  True  True]]


array([6, 7, 8, 9])

#### 1.5 행렬정보 확인하기

In [23]:
matrix = np.array([[1,2,3,4],
                   [5,6,7,8],
                   [9,10,11,12]])

# 행렬의 크기확인
print(matrix.shape)

# 행렬의 원소 개수 확인
print(matrix.size)

# 차원의 수 확인
print(matrix.ndim)

# 데이터 타입 확인
print(matrix.dtype)

# 원소 하나가 차지하는 바이트 크기
print(matrix.itemsize)

# 배열 전체가 차지하는 바이트 크기
print(matrix.nbytes)

(3, 4)
12
2
int32
4
48


#### 1.6 벡터화 연산 적용하기

In [24]:
# vectorize() : 함수를 벡터 전체에 적용할 수 있도록 벡터화해주는 메서드

matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

add_100 = lambda i : i+100

# 벡터화된 함수를 만듭니다.
vectorized_add_100 = np.vectorize(add_100)

# 행렬의 모든 원소에 함수를 적용합니다.
vectorized_add_100(matrix)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [25]:
# 사실 vectorize() 메서드는 단순히 for루프를 구현한 것이므로 특별한 성능의 향상이 있는 것은 아님
# 해당 작업은 브로드캐스팅을 통해 간단히 수행 가능
matrix + 100

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [26]:
# (3,3) 행렬에 (3,) 크기 벡터를 더하면 (1,3)크기가 된 다음 행을 따라 반복 (첫번째 행에만 적용되는 것이 아님)
matrix + [100,100,100]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [27]:
# (3,1)크기 벡터를 더해도 마찬가지
matrix + [[100], [100], [100]]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

#### 1.7 최댓값, 최솟값 찾기

In [28]:
matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

# 최댓값/최솟값을 반환하는 두가지 방법
print(np.max(matrix))
print(matrix.max())

print(np.min(matrix))
print(matrix.min())

9
9
1
1


In [29]:
# 각 열에서 최댓값 찾기
print(np.max(matrix, axis=0))

# 각 행에서 최댓값 찾기
print(np.max(matrix, axis=1))

[7 8 9]
[3 6 9]


In [30]:
# 매개변수 'keepdims=True'를 지정하면 원본 배열을 차원과 동일한 모양으로 반환
vector_column = np.max(matrix, axis=1, keepdims=True)
matrix - vector_column

array([[-2, -1,  0],
       [-2, -1,  0],
       [-2, -1,  0]])

#### 1.8 평균, 분산, 표준편차 계산하기

In [31]:
matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

# 평균값 계산
print(np.mean(matrix))

# 분산값 계산
print(np.var(matrix))

# 표준편차값 계산
print(np.std(matrix))

5.0
6.666666666666667
2.581988897471611


In [32]:
# 매개인자로 axis 를 전달하면 동일하게 행/열 단위 기초통계량 계산 가능
np.mean(matrix, axis=1, keepdims=True)

array([[2.],
       [5.],
       [8.]])

In [33]:
# 통계학에서 샘플을 추출할 때 자유도를 고려하여 모집단의 수(N)에서 1을 뺀 값으로 샘플의 수(n)를 결정
# 매개변수로 'ddof = 1'을 전달하면 해당 작업을 알아서 수행

np.std(matrix, ddof=1)

2.7386127875258306

In [34]:
import pandas as pd
df = pd.DataFrame(matrix.flatten())
df.std()

0    2.738613
dtype: float64

넘파이에서는 'ddof = 0'이 디폴트이지만 판다스의 데이터프레임에서는 'ddof = 1'이 디폴트임에 주의

#### 1.9 배열크기 바꾸기

In [35]:
matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9],
                   [10,11,12]])

# 2*6 행렬로 크기를 바꿉니다.
matrix.reshape(2,6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

reshape() 함수는 데이터를 동일하게 유지하면서 배열의 구조를 변경, 행과 열의 수를 다르게 조직.  
단 기존 배열과 바뀐 배열의 __원소의 개수__ 는 동일해야함

In [36]:
# size로 원소의 수 확인
matrix.size

12

In [37]:
# reshape의 매개변수 -1은 가능한 많이라는 뜻.

# 열의 개수를 가능한 많이 반환할 것
matrix.reshape(1, -1)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [38]:
# 정수 하나만 매개변수로 입력하면 1차원 배열 반환
print(matrix.reshape(12))

# -1만 전달하면 무조건 1차원 배열
print(matrix.reshape(-1))

# ravel() 메서드 = -1을 전달한 reshape() 메서드
print(matrix.ravel())

[ 1  2  3  4  5  6  7  8  9 10 11 12]
[ 1  2  3  4  5  6  7  8  9 10 11 12]
[ 1  2  3  4  5  6  7  8  9 10 11 12]


#### 1.10 벡터나 행렬 전치하기

In [39]:
matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

# T 메서드로 전치가능
matrix.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [40]:
# 다만 선형대수학과 달리 파이썬의 특성상 벡터(array)는 전치 불가능
print(np.array([1,2,3,4,5,6]).T)

# 행벡터의 전치가 필요하면 2차원 배열로 만들어서 전치
print(np.array([[1,2,3,4,5,6]]).T)

[1 2 3 4 5 6]
[[1]
 [2]
 [3]
 [4]
 [5]
 [6]]


In [41]:
# transpose 메서드도 동일한 기능 수행
print(matrix.transpose(), '\n')

# 물론 transpose 메서드로도 1차원 행벡터를 1차원 열벡터로 바꾸는 것은 불가능
print(np.array([1,2,3,4,5,6]).transpose(), '\n')

# transpose() 메서드는 튜플로 바꿀 차원을 직접 지정할 수도 있음
matrix = np.array([[[1,2],
                    [3,4],
                    [5,6]],
                  
                   [[7,8],
                    [9,10],
                    [11,12]]])

print(matrix.transpose((0,2,1)))

[[1 4 7]
 [2 5 8]
 [3 6 9]] 

[1 2 3 4 5 6] 

[[[ 1  3  5]
  [ 2  4  6]]

 [[ 7  9 11]
  [ 8 10 12]]]


#### 1.11 행렬 펼치기

In [42]:
matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

# 행렬을 1차원 배열로 변환합니다.
print(matrix.flatten())

# flatten() 메서드가 1차원 배열이라면 reshape는 행벡터
print(matrix.reshape(1,-1))

[1 2 3 4 5 6 7 8 9]
[[1 2 3 4 5 6 7 8 9]]


In [43]:
# reshape() 메서드는 넘파이 배열 참조, flatten() 메서드는 복사

vector_reshaped = matrix.reshape(-1)
vector_flattened = matrix.flatten()

matrix[0][0] = -1

print(vector_reshaped)
print(vector_flattened)

[-1  2  3  4  5  6  7  8  9]
[1 2 3 4 5 6 7 8 9]


#### 1.12 행렬의 랭크 구하기

__랭크__ : 선형 독립적인 행 혹은 열의 개수

In [44]:
matrix = np.array([[1,1,1],
                   [1,1,10],
                   [1,1,15]])

np.linalg.matrix_rank(matrix)

2

matrix_rank 함수는 특잇값 분해(SVD) 방식으로 랭크를 게싼. linalg 모듈의 svd함수로 특잇값을 구한 다음 0이 아닌 값 수를 헤아림

In [45]:
s = np.linalg.svd(matrix, compute_uv = False)
# 오차를 고려하여 0에 가까운 아주 작은 값을 지정
np.sum(s > 1e-10)

2

#### 1.13 행렬식(determinant) 계산하기

A = [[a,b], [c,d]] 일때
det(A) = ad-bc

B = [[a,b,c], [d,e,f], [g,h,i]] 일때  
det(B) = aei + cfg + cdi - ceg - bdi - ahf

In [46]:
matrix = np.array([[1,2,3],
                   [2,4,6],
                   [3,8,9]])

np.linalg.det(matrix)

0.0

#### 1.14 행렬의 대각원소 추출하기

In [47]:
# diagonal()메서드 : 주대각선의 대각원소를 반환
matrix.diagonal()

array([1, 4, 9])

In [49]:
# offset 매개변수로 주대각 원소를 벗어난 대각원소를 구할 수 있음

# 주대각선의 하나 위 대각선
print(matrix.diagonal(offset = 1))
# 주대각선의 하나 밑 대각선
print(matrix.diagonal(offset = -1))

[2 6]
[2 8]


In [54]:
# 반환된 배열의 원소를 바꾸고 싶으면 copy() 메서드를 활용해야함
a = matrix.diagonal()
a[2] = 3

ValueError: assignment destination is read-only

In [55]:
b = matrix.diagonal().copy()
b[2] = 3
b

array([1, 4, 3])

In [60]:
# diag() 메서드도 동일한 기능을 수행. 추가적으로 1차원 배열이 주어지면 대각행렬을 반환

a = np.diag(matrix)
print(a)

print(np.diag(a))

[1 4 9]
[[1 0 0]
 [0 4 0]
 [0 0 9]]


#### 1.15 행렬의 대각합 계산하기

In [66]:
matrix = np.array([[1,2,3],
                   [2,4,6],
                   [3,8,9]])

# trace() : 행렬 대각선의 합을 반환하는 메서드
print(matrix.trace())

# 대각원소를 구하는 메서드 diag()로도 구할 수 있음
np.diag(matrix).sum()

14


14

In [67]:
# offset 매개변수 지원(주 대각선 위 아래의 대각선의 합)

print(matrix.trace(offset = 1))
print(matrix.trace(offset = -1))

8
10


#### 1.16 고윳값과 고유벡터 찾기

__고유벡터(eigenvectors)__ : 행렬 A에 대해 방향은 바뀌지 않고 스케일만 바뀌는 벡터

In [75]:
matrix = np.array([[1,-1,3],
                   [1,1,6],
                   [3,8,9]])

# 고윳값과 고유벡터를 계산합니다.
%time eigenvalues, eigenvectors = np.linalg.eig(matrix)

print(eigenvalues, '\n')
print(eigenvectors)

Wall time: 1 ms
[13.55075847  0.74003145 -3.29078992] 

[[-0.17622017 -0.96677403 -0.53373322]
 [-0.435951    0.2053623  -0.64324848]
 [-0.88254925  0.15223105  0.54896288]]


In [76]:
# linalg.eigh() : 만약 행렬이 대칭행렬이라면 해당 메서드를 사용하면 더 빠른 계산 가능
# 단, 행렬이 실제 대칭행렬인지는 판단하지 않기 때문에 대칭일 때만 사용할 것

matrix = np.array([[1,-1,3],
                   [-1,1,6],
                   [3,6,9]])
%time eigenvalues, eigenvectors = np.linalg.eigh(matrix)

print(eigenvalues, '\n')
print(eigenvectors)

Wall time: 0 ns
[-3.47535395  1.84536862 12.62998534] 

[[-0.48107069 -0.85602522  0.18918723]
 [-0.73926367  0.51210152  0.43731139]
 [ 0.47123265 -0.07051844  0.87918538]]


#### 1.17 행렬의 점곱(dot product) 계산하기

__점곱(dot product)__ : size가 같은 두 행렬에서 같은 위치에 있는 원소끼리 곱한 후 합한 값

In [79]:
vector_a = np.array([1,2,3])
vector_b = np.array([4,5,6])

print(np.dot(vector_a, vector_b))

# @ 연산자로 점곱 계산 가능
print(vector_a @ vector_b)

32
32


In [80]:
# 사실 @ 연산자는 np.dot()가 아닌 np.matmul()함수를 나타냄
# np.matmul() 함수는 np.dot()와 동일하나 스칼라 배열에는 적용불가

vector_c = np.array(1)
vector_d = np.array(2)

print(vector_a @ vector_b)
print(vector_c @ vector_d)

32


ValueError: matmul: Input operand 0 does not have enough dimensions (has 0, gufunc core with signature (n?,k),(k,m?)->(n?,m?) requires 1)

#### 1.18 행렬 덧셈과 뺄셈

In [82]:
matrix_a = np.array([[1,1,1],
                     [1,1,1],
                     [1,1,2]])

matrix_b = np.array([[1,3,1],
                     [1,3,1],
                     [1,3,8]])

# np.add() : 두 행렬의 합
print(np.add(matrix_a, matrix_b))

# np.subtracct() : 두 행렬의 차
print(np.subtract(matrix_a, matrix_b))

[[ 2  4  2]
 [ 2  4  2]
 [ 2  4 10]]
[[ 0 -2  0]
 [ 0 -2  0]
 [ 0 -2 -6]]


In [83]:
# 물론 그냥 연산자 +, - 를 사용해도 상관없음
print(matrix_a + matrix_b)
print(matrix_a - matrix_b)

[[ 2  4  2]
 [ 2  4  2]
 [ 2  4 10]]
[[ 0 -2  0]
 [ 0 -2  0]
 [ 0 -2 -6]]


#### 1.19 행렬 곱셈

In [84]:
matrix_a = np.array([[1,2],
                     [3,4]])

matrix_b = np.array([[1,3],
                     [1,2]])

np.dot(matrix_a, matrix_b)

array([[ 3,  7],
       [ 7, 17]])

In [85]:
# @ 연산자를 활용하여 행렬곱을 나타낼 수 있음
print(matrix_a @ matrix_b)

# * 연산자를 활용하면 각 원소별 곱하기 가능
print(matrix_a * matrix_b)

[[ 3  7]
 [ 7 17]]
[[1 6]
 [3 8]]


In [86]:
# np.dot() 함수는 다차원 배열에도 적용 가능

#### 1.20 역행렬

In [87]:
matrix = np.array([[1,4],
                   [2,5]])

# linalg.inv() : 역행렬 계산 메서드
np.linalg.inv(matrix)

array([[-1.66666667,  1.33333333],
       [ 0.66666667, -0.33333333]])

In [88]:
# 행렬과 역행렬의 곱은 항상 단위행렬
matrix @ np.linalg.inv(matrix)

array([[1., 0.],
       [0., 1.]])

In [91]:
# linalg.pinv() 함수를 사용하면 정방행렬이 아닌 행렬의 역행렬(유사 역행렬) 계산가능

matrix = np.array([[1,4,7],
                   [2,5,7]])

print(np.linalg.pinv(matrix))

print(matrix @ np.linalg.pinv(matrix))

[[-0.59813084  0.57009346]
 [-0.40186916  0.42990654]
 [ 0.45794393 -0.3271028 ]]
[[1.00000000e+00 2.22044605e-15]
 [0.00000000e+00 1.00000000e+00]]


#### 1.21 난수 생성하기

In [100]:
# 초깃값 설정 : 난수의 초깃값을 성정하면 코드실행마다 계속 같은 난수가 생성.
np.random.seed(0)

# 0과 1사이에서 세개의 실수 난수를 생성합니다.
np.random.random(3)

array([0.5488135 , 0.71518937, 0.60276338])

In [109]:
# np.random.randint() : 정수 난수 생성 메서드

# 0부터 11사이에서 3개의 정수 난수 생성
print(np.random.randint(0,11,3))

# 이때 randint()는 최솟값은 포함하고 최댓값은 포함하지 않음
print(np.random.randint(0,1,10))

[5 5 6]
[0 0 0 0 0 0 0 0 0 0]


In [97]:
# 설정한 분포에서 난수 생성

# np.random.normal() : 정규분포에서 난수 생성
print(np.random.normal(0,1,3))

# np.random.logistic() : 로지스틱분포에서 난수 생성
print(np.random.logistic(0,1,3))

# np.random.uniform() : 균일분포에서 난수생성 (정해진 범위에서 아무거나 3개 뽑음)
print(np.random.uniform(0,1,3))

[ 1.62715982 -0.44423283 -0.34518616]
[-0.73480583 -1.7371534  -1.25218931]
[0.38648898 0.90259848 0.44994999]


In [107]:
# np.random.random_sample() : 0과 1사이에서 실수 난수 생성, 인자로 (n,m) 튜플을 전달하면 n행 m열개의 난수생성
print(np.random.random_sample((2,3)))

# np.random.rand() : np.random.random_sample()과 동일하나 매개 변수로 튜플이 아닌 그냥 n,m을 전달
print(np.random.rand(2,3))

[[0.80091075 0.52047748 0.67887953]
 [0.72063265 0.58201979 0.53737323]]
[[0.75861562 0.10590761 0.47360042]
 [0.18633234 0.73691818 0.21655035]]


In [115]:
# np.random.choie() : 배열의 원소 중에서 랜덤하게 지정된 횟수만큼 샘플을 만듦
print(np.random.choice([0,1,2], 10))

a = [1,2,3,4,5,6,7]
print(np.random.choice(a, 10))

[0 0 0 0 0 2 0 2 1 1]
[6 1 2 6 2 4 1 6 7 1]


In [120]:
# np.random.shuffle() : 입력된 배열을 섞음 (본 행렬이 바뀜)
a = [1,2,3,4,5,6,7]
b = [1,2,3,4,5,6,7]
np.random.shuffle(a)
print(a)

# np.random.permutation() : 입력된 배열의 복사본을 만들어 섞은 후 반환 (본 행렬은 바뀌지 않음)
permutation_b = np.random.permutation(b)
print(permutation_b)
print(b)

[1, 6, 7, 4, 3, 2, 5]
[1 6 4 7 5 2 3]
[1, 2, 3, 4, 5, 6, 7]
