# Machine Learning with Python Cookbook

- 학습일: 2020.09.16 ~

## 1. 벡터, 행렬, 배열

In [2]:
import numpy as np

empty_metrix = np.empty((3,2))
empty_metrix

array([[0.e+000, 0.e+000],
       [2.e-323, 0.e+000],
       [0.e+000, 0.e+000]])

In [3]:
np.zeros((3,2))

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [4]:
np.ones((3,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [5]:
# 3행2열 값은 7로 채워라
np.full((3,2),7)

array([[7, 7],
       [7, 7],
       [7, 7]])

### 희소행렬 만들기

In [11]:
import numpy as np 
from scipy import sparse 

matrix = np.array([[0,0],[0,1],[3,0]])

matrix_sparse = sparse.csr_matrix(matrix)

matrix_large = np.array([[0,0,0,0,0,0,0,0,0,0],
                        [0,1,0,0,0,0,0,0,0,0],
                        [3,0,0,0,0,0,0,0,0,0]])

matrix_large_sparse = sparse.csr_matrix(matrix_large)

# 본래 행렬 크기가 달라도 희소행렬 크기는 변하지 않음.
print(matrix_sparse,'\n')
print(matrix_large_sparse)

  (1, 1)	1
  (2, 0)	3 

  (1, 1)	1
  (2, 0)	3


In [13]:
matrix_sparse_2 = sparse.csr_matrix(([1,3], ([1,2],[1,0])), shape=(3,10))
print(matrix_sparse_2)

# 희소행렬 밀집배열로 변환
print(matrix_sparse_2.toarray())

  (1, 1)	1
  (2, 0)	3
[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]


### 행렬 정보 확인하기

In [2]:
import numpy as np 

matrix = np.array([[1,2,3,4],
                   [5,6,7,8],
                   [9,10,11,12]])

print(matrix.shape)
print(matrix.size)
print(matrix.ndim)
print(matrix.dtype)

(3, 4)
12
2
int64


### 벡터화 연산 적용하기

In [3]:
import numpy as np 

matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

# 100 더하는 함수 만들기 
add_100 = lambda i: i + 100

# 벡터화된 함수 만들기 
vectorized_add_100 = np.vectorize(add_100)

# 행렬의 모든 원소에 함수 적용
vectorized_add_100(matrix)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

#### 브로드캐스팅 

넘파이 배열은 차원이 달라도 배열 간의 연산 수행 가능

In [4]:
matrix + 100

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [5]:
matrix + [[100], [200], [300]]

array([[101, 102, 103],
       [204, 205, 206],
       [307, 308, 309]])

### 최댓값, 최솟값 찾기

In [7]:
# 각 열에서 최댓값
np.max(matrix, axis=0)

array([7, 8, 9])

In [8]:
# 각 행에서 최댓값 
np.max(matrix, axis=1)

array([3, 6, 9])

In [9]:
# 원본 배열의 차원과 동일한 결과가 되도록! 
vector_column = np.max(matrix, axis=1, keepdims=True)
vector_column

array([[3],
       [6],
       [9]])

### 평균, 분산, 표준편차 계산하기

In [10]:
np.mean(matrix)

5.0

In [11]:
np.var(matrix)

6.666666666666667

In [12]:
np.std(matrix)

2.581988897471611

In [13]:
np.mean(matrix, axis=0)

array([4., 5., 6.])

In [14]:
# ddof: Delta Degree of Freedom: N - ddof
np.std(matrix, ddof=1)

2.7386127875258306

### 난수 생성하기

In [1]:
import numpy as np 

# 0.0과 1.0 사이에서 세개의 실수 난수 생성 
np.random.seed(0)
np.random.random(3)

array([0.5488135 , 0.71518937, 0.60276338])

In [2]:
# 1과 10 사이 세개의 정수 난수 생성 
np.random.randint(1,11,3)

array([ 4,  8, 10])

In [3]:
# 평균 0.0, 표준편차 1.0인 정규분포에서 3개의 수 
np.random.normal(0.0, 1.0, 3)

array([-1.42232584,  1.52006949, -0.29139398])

In [4]:
# 평균 0.0, 스케일 1.0인 로지스틱 분포에서 3개의 수 
np.random.logistic(0.0, 1.0, 3)

array([-0.98118713, -0.08939902,  1.46416405])

In [5]:
# 1.0보다 크거나 같고 2.0보다 작은 3개의 수 선정 
np.random.uniform(1.0, 2.0, 3)

array([1.47997717, 1.3927848 , 1.83607876])

In [6]:
# 표준정규분포 난수 생성 
np.random.standard_normal((2,3))

array([[-0.13309028,  1.2206081 , -1.33949555],
       [ 0.42837337, -0.12346315,  1.41437719]])