In [1]:
import numpy as np

#행이 하나인 벡터
vector_row=np.array([1,2,3])

#열이 하나인 벡터
vector_col=np.array([[1],[2],[3]])

In [2]:
vector_row

array([1, 2, 3])

In [3]:
vector_col

array([[1],
       [2],
       [3]])

In [10]:
#넘파이로 2차원 배열 만들기

matrix = np.array([[1,2],[1,2],[1,2]])
matrix

array([[1, 2],
       [1, 2],
       [1, 2]])

넘파이는 행렬보다 배열 사용을 권장, 대부분의 넘파이 함수는 배열을 반환하기 때문

In [15]:
empty_mat=np.empty((3,2))
empty_mat

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [18]:
zero_mat=np.zeros((3,2))
zero_mat

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [19]:
one_mat=np.ones((3,2))
one_mat

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [21]:
full_mat=np.full((3,2),5)
full_mat

array([[5, 5],
       [5, 5],
       [5, 5]])

In [23]:
#희소행렬 만들기

from scipy import sparse

matrix=np.array([[0,0],[0,1],[3,0]])
matrix

array([[0, 0],
       [0, 1],
       [3, 0]])

In [25]:
sparse_mat=sparse.csr_matrix(matrix)
print(sparse_mat)

  (1, 1)	1
  (2, 0)	3


본래의 행렬의 0이 아닌 값의 인덱스 위치와 값을 나타내는 희소행렬

In [27]:
sparse_mat2=sparse.csr_matrix(([2,4],([0,1],[2,1])),shape=(4,5))
print(sparse_mat2)

  (0, 2)	2
  (1, 1)	4


In [28]:
print(sparse_mat2.toarray())  # 밀집배열로 반환

[[0 0 2 0 0]
 [0 4 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]


In [29]:
print(sparse_mat2.todense()) #밀집행렬로 반환

[[0 0 2 0 0]
 [0 4 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]


In [30]:
mat=np.array([[1,2,3],[4,5,6],[7,8,9]])
mat

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [31]:
mat[:,:2]

array([[1, 2],
       [4, 5],
       [7, 8]])

In [33]:
mat[1:,:2]

array([[4, 5],
       [7, 8]])

In [34]:
mat[[0,2]]

array([[1, 2, 3],
       [7, 8, 9]])

In [37]:
mat[[0,2],[1]]

array([2, 8])

In [38]:
mat_bool=mat>6
mat_bool

array([[False, False, False],
       [False, False, False],
       [ True,  True,  True]])

In [39]:
mat[mat_bool]

array([7, 8, 9])

In [40]:
matrix=np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
matrix

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [41]:
#행렬의 크기 확인

matrix.shape

(3, 4)

In [42]:
#행렬의 원소 개수 확인 (행*열)

matrix.size

12

In [43]:
#차원 수 확인

matrix.ndim

2

In [44]:
#원소의 데이터 타입

print(matrix.dtype)

int32


In [45]:
#원소 하나가 차지하는 바이트 크기

print(matrix.itemsize)

4


In [46]:
# 배열 전체가 차지하는 바이트 크기

print(matrix.nbytes)

48


## 배열에 함수 적용하기

In [50]:
add_10=lambda i: i+10

In [51]:
matrix_added=np.vectorize(add_10)
matrix_added(matrix)

array([[11, 12, 13, 14],
       [15, 16, 17, 18],
       [19, 20, 21, 22]])

브로드캐스팅

In [52]:
matrix+10

array([[11, 12, 13, 14],
       [15, 16, 17, 18],
       [19, 20, 21, 22]])

In [55]:
matrix+[10,100,1000,10000]

array([[   11,   102,  1003, 10004],
       [   15,   106,  1007, 10008],
       [   19,   110,  1011, 10012]])

In [57]:
matrix+[[10],[100],[1000]]

array([[  11,   12,   13,   14],
       [ 105,  106,  107,  108],
       [1009, 1010, 1011, 1012]])

## 기초통계량 계산

In [58]:
np.max(matrix)

12

In [59]:
np.min(matrix)

1

In [60]:
#각 열에서 최대값 찾기

np.max(matrix, axis=0)

array([ 9, 10, 11, 12])

In [61]:
#각 행에서 최대값 찾기

np.max(matrix, axis=1)

array([ 4,  8, 12])

In [62]:
#원본 배열의 차원과 동일한 결과 반환하는 법 - keepdims

vector_col=np.max(matrix, axis=1, keepdims=True)
vector_col

array([[ 4],
       [ 8],
       [12]])

In [63]:
matrix + vector_col

array([[ 5,  6,  7,  8],
       [13, 14, 15, 16],
       [21, 22, 23, 24]])

In [64]:
#평균

np.mean(matrix)

6.5

In [65]:
#분산

np.var(matrix)

11.916666666666666

In [66]:
#표준편차

np.std(matrix)

3.452052529534663

In [67]:
np.mean(matrix, axis=0)

array([5., 6., 7., 8.])

In [68]:
np.mean(matrix,axis=1)

array([ 2.5,  6.5, 10.5])

모집단에서 추출한 샘플의 자유도를 고려하여 편향되지 않은 분산과 표준편차 계산 필요

In [69]:
# np.std(표준편차) 와 np.var(분산) 의 함수에서 ddof(매개변수) 를 1로 지정함으로써 편향되지 않은 값을 구할 수 있음

np.std(matrix, ddof=1)

3.605551275463989

In [71]:
import pandas as pd   # Pandas 모듈은 ddof 의 Default 값이 1이다

df=pd.DataFrame(matrix.flatten())
df.std()

0    3.605551
dtype: float64

In [72]:
matrix.reshape(2,6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [81]:
matrix.reshape(1,-1)   #행은 1이고 열은  가능한 많이 생성

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [82]:
matrix.reshape(-1)   # 1차원 배열로 반환

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [83]:
matrix.ravel()  #1차원 배열로 반환

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [85]:
# 전치행렬    , 단 벡터는 전치 불가능

matrix.T

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

In [86]:
np.array([1,2,3,4,5]).T

array([1, 2, 3, 4, 5])

In [87]:
np.array([[1,2,3,4,5,6]]).T

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [88]:
matrix.transpose()

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

In [91]:
matrix.flatten()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [92]:
vec_reshape=matrix.reshape(-1)
vec_reshape

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [93]:
vec_flatten=matrix.flatten()
vec_flatten

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [94]:
matrix[0][0]=-1

In [97]:
vec_reshape   # 원본 배열의 변경사항 반영

array([-1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [98]:
vec_flatten   # 원본 배열과 독립적인 배열 생성

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [104]:
# 행렬식 계산

matrix=np.array([[1,2,3],[2,4,6],[3,8,9]])
matrix

array([[1, 2, 3],
       [2, 4, 6],
       [3, 8, 9]])

In [106]:
np.linalg.det(matrix)   # det :  행렬 A[[a,b],[c,d]] 가 있을 때, det(A)= ad - bc

0.0

In [108]:
matrix.diagonal()  #대각원소 반환

array([1, 4, 9])

In [109]:
matrix.diagonal(offset=1) # 대각선 하나 위의 원소 반환

array([2, 6])

In [110]:
matrix.diagonal(offset=-2)

array([3])

In [111]:
a=np.diag(matrix)
print(a)

[1 4 9]


In [112]:
np.diag(a)

array([[1, 0, 0],
       [0, 4, 0],
       [0, 0, 9]])

In [113]:
#대각의 합 반환

matrix.trace()

14

#### 고유값, 고유벡터

In [114]:
matrix=np.array([[1,2,3],[4,5,6],[7,8,9]])
matrix

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [115]:
eigenvalues, eigenvectors=np.linalg.eig(matrix)

In [116]:
eigenvalues

array([ 1.61168440e+01, -1.11684397e+00, -9.75918483e-16])

In [117]:
eigenvectors

array([[-0.23197069, -0.78583024,  0.40824829],
       [-0.52532209, -0.08675134, -0.81649658],
       [-0.8186735 ,  0.61232756,  0.40824829]])

In [118]:
#벡터, 행렬의 곱 연산

a_vec=np.array([1,2,3])
b_vec=np.array([4,6,6])

np.dot(a_vec, b_vec)

34

In [124]:
a_vec @ b_vec   # np.matmul 함수와 동일한 결과 제공

34

In [125]:
a_scal=np.array(1)
b_scal=np.array(2)

np.dot(a_scal, b_scal)

2

In [135]:
# 행렬의 덧셈 뺼셈

a_mat=np.full([3,3],1)
b_mat=np.full([3,3],4)

In [136]:
a_mat

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [137]:
b_mat

array([[4, 4, 4],
       [4, 4, 4],
       [4, 4, 4]])

In [129]:
np.add(a_mat,b_mat)

array([[5, 5, 5],
       [5, 5, 5],
       [5, 5, 5]])

In [130]:
a_mat+b_mat

array([[5, 5, 5],
       [5, 5, 5],
       [5, 5, 5]])

In [132]:
np.subtract(a_mat,b_mat)

array([[-3, -3, -3],
       [-3, -3, -3],
       [-3, -3, -3]])

In [133]:
b_mat-a_mat

array([[3, 3, 3],
       [3, 3, 3],
       [3, 3, 3]])

In [134]:
# 원소별 곱셈

a_mat*b_mat

array([[4, 4, 4],
       [4, 4, 4],
       [4, 4, 4]])

In [138]:
# 역행렬 계산

matrix=np.array([[1,2],[3,4]])
matrix

array([[1, 2],
       [3, 4]])

In [139]:
np.linalg.inv(matrix)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

In [140]:
matrix @ np.linalg.inv(matrix)

array([[1.00000000e+00, 1.11022302e-16],
       [0.00000000e+00, 1.00000000e+00]])

## 난수생성

In [141]:
np.random.seed(0)

In [142]:
np.random.random(3)    # 0~3 사이에서 3개의 실수 난수 생성

array([0.5488135 , 0.71518937, 0.60276338])

In [144]:
np.random.randint(0,10,3)   # 0~10사이에서 3개의 정수 난수 생성

array([3, 5, 2])

In [148]:
np.random.normal(0.0,1.0,3)  #평균이 0, 표준편차가 1 인 정규분포에서 3개의 수 뽑기

array([0.4105985 , 0.44386323, 0.33367433])

In [146]:
np.random.logistic(0,1,3)   #평균이 0, 스케일이 1인 로지스틱분포에서 3개의 수 뽑기

array([1.33535502, 0.1157086 , 0.27387744])

In [147]:
np.random.uniform(1,2,3)   #1보다 크거나 같고, 2보다 작은 3개의 수 뽑기

array([1.92559664, 1.07103606, 1.0871293 ])

In [151]:
np.random.random_sample((2,4))  #0보다 크거나 같고, 1보다 작은 (2,4) 모양의 배열 생성

array([[0.97861834, 0.79915856, 0.46147936, 0.78052918],
       [0.11827443, 0.63992102, 0.14335329, 0.94466892]])

In [152]:
np.random.rand(2,4)  # 튜플이 아니라 개별적인 매개변수로 전달 가능

array([[0.52184832, 0.41466194, 0.26455561, 0.77423369],
       [0.45615033, 0.56843395, 0.0187898 , 0.6176355 ]])

In [153]:
np.random.standard_normal((2,3))   # 평균이 0 이고, 표준편차가 1인 정규분포에서 난수 생성

array([[ 1.53277921,  1.46935877,  0.15494743],
       [ 0.37816252, -0.88778575, -1.98079647]])

In [154]:
np.random.randn(2,3)   # 평균이 0 이고, 표준편차가 1인 정규분포에서 튜플이 아니라 개별적인 매개변수로 전달 가능

array([[-0.34791215,  0.15634897,  1.23029068],
       [ 1.20237985, -0.38732682, -0.30230275]])

In [155]:
np.random.choice([0,1,2],5)  #배열에서 지정된 횟수 만큼 랜덤으로 샘플 생성

array([2, 1, 0, 1, 2])

In [156]:
a=np.array([1,2,3,4,5])
a

array([1, 2, 3, 4, 5])

In [161]:
np.random.shuffle(a)  # 랜덤하게 배열을 섞음
a

array([1, 3, 2, 4, 5])

In [162]:
b=np.array([5,4,3,2,1])
b

array([5, 4, 3, 2, 1])

In [165]:
np.random.permutation(b)

array([1, 3, 2, 4, 5])

In [167]:
b  # permutation 함수는 입력된 배열의 복사본을 만들어 섞은 후 반환, 원래 배열에 영향 x

array([5, 4, 3, 2, 1])