# Chapter 1

## vector

벡터 만들기  
넘파이는 다차원 배열. 벡터는 1차원 배열로 만듬. 넘파이 배열은 ndarray 클래스의 객체. asarray함수 사용하여 배열 만들수 있음. asarray함수 입력 넘파이 배열일 경우 새 배열 생성하지 **않음**. 

In [3]:
# import library
import numpy as np

# one row행 vector
vector_row = np.array([1, 2, 3])

# one column열 vector
vector_column =  np.array([[1],[2],[3]])

print(type(vector_row))

new_row = np.asarray([1, 2, 3])

# asarray는 새 배열 만들지 않음
new_row = np.asarray(vector_row)
print(new_row is vector_row)

<class 'numpy.ndarray'>
True


- array함수는 copy매개변수 있음. 기본값은 True, 배열 입력시 복사본 만듬. 그러나, 배열 복사시 배열 객체의 copy 메서드 사용할 것.  의도 명확

In [4]:
new_row = np.array(vector_row)
new_row is vector_row

False

In [6]:
# copy method 사용하면 의도 분명해짐. 위 셀과 비교
new_row = vector_row.copy()
new_row is vector_row

False

## 행렬 만들기

넘파이로 2차원 배열 만든다

In [9]:
import numpy as np

# 3row * 2col matrix
matrix = np.array([[1, 2],
                  [1, 2],
                  [1, 2]])
# 혹은,
# numpy 행렬 특화 데이터 구조 존재
matrix_object = np.mat([[1, 2],
                       [1, 2],
                       [1, 2]])
matrix_object

matrix([[1, 2],
        [1, 2],
        [1, 2]])

### 단, 위 방식 비권장. 배열이 넘파이 표준 데이터 구조이기 때문임. 또한 대부분 넘파이 함수는 행렬 객체가 아니라, 배열을 반환

In [13]:
# empty 함수는 초기값 대신 크기만 지정, random값으로 채워짐
empty_matrix = np.empty((3,2))
print(empty_matrix)

# zeros는 0으로 채운 배열, ones는 1로 채운 배열 만듬
zero_matrix = np.zeros((3,2))
print(zero_matrix)

one_matrix = np.ones((3,2))
one_matrix

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[0. 0.]
 [0. 0.]
 [0. 0.]]


array([[1., 1.],
       [1., 1.],
       [1., 1.]])

- 특정 값으로 채운 배열은 full함수 사용. 첫번째 매개변수로 배열 크기, 두번째로 채울값 지정

In [15]:
# zero matrix만들고 7 더한다
seven_matrix = np.zeros((3,2)) + 7

# 이보다 full함수 사용 더 효율적
seven_matrix = np.full((3,2), 7)
seven_matrix

array([[7, 7],
       [7, 7],
       [7, 7]])

## 데이터 0아닌 값이 매우 적음을 표현

희소 행렬을 만든다

In [18]:
import numpy as np
from scipy import sparse

matrix = np.array([[0, 0],
                  [0, 1],
                  [3, 0]])

# CSR 행렬 만든다 (Compressed sparse row, CSR)
matrix_sparse = sparse.csr_matrix(matrix)
matrix_sparse

<3x2 sparse matrix of type '<class 'numpy.int64'>'
	with 2 stored elements in Compressed Sparse Row format>

- sparse matrix는 0아닌 원소만 저장.계산 비용 절감가능. 

In [19]:
# 본 희소 행렬에서 (1,1), (2,0) 원소는 0아닌값 1, 3을 가짐
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


In [20]:
# 1을 (1,1)에, 3을 (2,0)에, 전체크기는 3*10
matrix_sparse_2 = sparse.csr_matrix(([1, 3], ([1, 2], [1, 0])), shape=(3, 10))
print(matrix_sparse_2)

  (1, 1)	1
  (2, 0)	3


In [21]:
# 희소 행렬을 밀집 배열로 변환시 toarray 메서드 사용
print(matrix_sparse_2.toarray())

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]


In [22]:
# todense 메서드는 np.matrix 객체 반환
matrix_sparse_2.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [3, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

## vector, array에서 원소 선택하기

넘파이 배열 사용

In [25]:
import numpy as np

# 행벡터 만든다
vector = np.array([1, 2, 3, 4, 5, 6])

# 행렬 만든다
matrix = np.array([[1, 2, 3], 
                   [4, 5, 6],
                  [7, 8, 9]])
print(vector[2])
print(matrix[1,1])

3
5


In [27]:
# 벡터 모든 원소 선택
vector[:]
# matrix[:]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [28]:
# 세번째 원소 포한 그 이전 모든 원소 선택
vector[:3]

array([1, 2, 3])

In [29]:
# 세번째 이후 모든 원소(세번째 포함 안함)
vector[3:]

array([4, 5, 6])

In [31]:
vector[-1]
matrix[-1]

array([7, 8, 9])

In [32]:
# 행렬에서 두번째 행까지 선택
matrix[:2,:]

array([[1, 2, 3],
       [4, 5, 6]])

In [34]:
# 행렬에서 두번째 열 선택
matrix[:, 1:2]

array([[2],
       [5],
       [8]])

In [37]:
# fancy indexing. 행과 열 인덱스 리스트 전달하여 원소 선택하기
print(matrix[[0, 2]])
print([[0, 2], [1, 0]])

[[1 2 3]
 [7 8 9]]
[[0, 2], [1, 0]]


In [39]:
# boolean mask 배열, 원소를 선택, 행렬의 각 원소에 비교 연산자를 적용.
mask = matrix > 5
print(mask)
mask_2 = matrix == 3
print(mask_2)

[[False False False]
 [False False  True]
 [ True  True  True]]
[[False False  True]
 [False False False]
 [False False False]]


## 행렬 크기, 원소 개수, 차원 얻기

shape와 size, ndim**속성** 사용한다.

- shape: 크기
- size: 원소 개수

계산 완료후 확인하는 용도로 사용 가능

In [44]:
import numpy as np

matrix = np.array([[1, 2, 3, 4],
                  [5, 6, 7, 8],
                  [9, 10, 11, 12]])

# 행렬 크기 확인
print(matrix.shape)

# 행렬 원소 개수(행 * 열)
print(matrix.size)

# 행렬 차원 수
print(matrix.ndim)

matrix_2 = np.array([[[1],[2],[3]],[[4],[5],[6]]])
print(matrix_2.ndim)

(3, 4)
12
2
3


In [46]:
# 원소 데이터 타입 출력
print(matrix.dtype)

# 원소 바이트 크기 출력
print(matrix.itemsize)

# 배열 전체 바이트 크기 출력
print(matrix.nbytes)

int64
8
96


## 벡터화 연산 적용

### 배열 여러 원소에 함수 적용하기

numpy의 vectorize사용한다.vectorize 클래스는 배열에 적용하도록 함수를 변환시킨다. for loop 구현이다. 성능 향상 없다. 단 넘파이 배열은 broadcasting 가능하다. 더욱 간단하다

In [49]:
import numpy as np

matrix = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])

# 100 더하는 함수 만든다
add_100 = lambda i: i + 100

# 벡터화된 함수 만든다
vectorized_add_100 = np.vectorize(add_100)

# 행렬 모든 원소에 함수 적용한다

print(vectorized_add_100(matrix))

[[101 102 103]
 [104 105 106]
 [107 108 109]]


In [51]:
# broadcasting
print(matrix + 100)

# (3, 3)에 (3, )크기 벡터 연산하면 (1, 3)크기가 되어 반복
# (3, 1)크기로(열)로 반복도 가능
print(matrix + [100, 100, 100])

[[101 102 103]
 [104 105 106]
 [107 108 109]]
[[101 102 103]
 [104 105 106]
 [107 108 109]]


## 배열에서 최대/최소값찾기

numpy max, min 함수 사용한다. 

In [59]:
import numpy as np

matrix = np.array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

print(np.max(matrix))
print(np.min(matrix))

# axis 매개변수로 특정 축에대해서 연산가능
# 각 열에서 최대값 출력
print(np.max(matrix, axis=0))

# 각 행에서 최대값 출력
print(np.max(matrix, axis=1))

# keepdims parameter True로 지정, 원본 배열과 동일 결과, 안전하게 브로드캐스팅 가능
vector_column = np.max(matrix, axis=1, keepdims=True)
print(vector_column)

# 열벡터이므로 브로드캐스팅 이용, 각 행 최대값 뺄셈 연산 가능
print(matrix)
print(matrix - vector_column)

9
1
[7 8 9]
[3 6 9]
[[3]
 [6]
 [9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[-2 -1  0]
 [-2 -1  0]
 [-2 -1  0]]


## 배열 통계값인 평균, 분산, 표준편차 계산하기

numpy의 mean, var, std 함수 사용한다.

In [60]:
print(matrix)

# 평균 반환한다
print(np.mean(matrix))

# 분산 반환한다
print(np.var(matrix))

# 표준편차 반환
print(np.std(matrix))

# axis 매개변수로 특정축 통계값 계산도 가능
print(np.mean(matrix, axis=0))

[[1 2 3]
 [4 5 6]
 [7 8 9]]
5.0
6.666666666666667
2.581988897471611
[4. 5. 6.]


In [63]:
# 무편향 분산, 표준편차 계산하기
# np.std, np.var 함수에서 ddof 매개변수 1로 지정하면 무편향 추정값 얻는다
# ddof 매개변수 기본값은 0
print(np.std(matrix, ddof=1))

# pandas dataframe std메서드는 ddof 매개변수 기본값 1이다
import pandas as pd

df = pd.DataFrame(matrix.flatten())
df.std()

# 실제 머신러닝 모델 훈련시 자유도 영향 비교적 적어 고려안한다 

2.7386127875258306


0    2.738613
dtype: float64

## 원소값 그대로 배열 크기만 변경

numpy reshape 함수 사용한다

In [74]:
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [10, 11, 12]])
print(matrix.size)
print(matrix)
print(matrix.reshape(2, 6))

# reshape중 매개변수 -1은 가능한 많이 의미한다
print(matrix.reshape(1, -1))

# reshape 정수 하나 입력시 그 길이의 1차원 배열 반환
print(matrix.reshape(12))

# 배열 전체길이 고려없이 reshape method -1 입력하면 1차원 배열로 변환
print(matrix.reshape(-1))

# ravel method 동일 작업 수행
print(matrix.ravel())

12
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]]
[[ 1  2  3  4  5  6  7  8  9 10 11 12]]
[ 1  2  3  4  5  6  7  8  9 10 11 12]
[ 1  2  3  4  5  6  7  8  9 10 11 12]
[ 1  2  3  4  5  6  7  8  9 10 11 12]


## 벡터 및 행렬 transpose

T method 사용한다