#### 1.1 벡터만들기

In [2]:
# 라이브러리 임포트
import numpy as np

In [3]:
# 행이 하나인 벡터 만들기
vector_row = np.array([1,2,3])
print(vector_row)

# 열이 하나인 벡터 만들기
vector_columns = np.array([[1],
                           [2],
                           [3]])
print(vector_columns)

[1 2 3]
[[1]
 [2]
 [3]]


In [4]:
# 넘파이 배열은 ndarray클래스의 객체
print(type(vector_row))

<class 'numpy.ndarray'>


In [5]:
# ndarray 클래스 첫번째 매개변쉐 배열크기를 정수 튜플로 지정하여 넘파이를 만들 수는 있으나 권장되지 않음
bad_way = np.ndarray((3,))
bad_way

array([0., 0., 0.])

In [6]:
# asarray() : 복사본 반환
new_row = np.asarray(vector_row)
new_row is vector_row

True

In [7]:
new_row = np.array(vector_row)
new_row is vector_row

False

배열을 만드는 방식은
1. np.array()로 만들기 : 참조본
2. np.asarray()로 만들기 : 복사본 -> .copy()와 유사
3. np.ndarray(())로 만들기 : 비추천  
이 있음

#### 1.2 행렬만들기

In [9]:
# 2차원 배열 만들기

matrix = np.array([[1,2],
                   [1,2],
                   [1,2]])

matrix

array([[1, 2],
       [1, 2],
       [1, 2]])

In [11]:
# mat() : 2차원 배열에 특화된 데이터구조 행렬
matrix_object = np.mat([[1,2],
                        [1,2],
                        [1,2]])

matrix_object

matrix([[1, 2],
        [1, 2],
        [1, 2]])

하지만 행렬은 자주 사용되지 않고 배열이 넘파이의 표준 데이터 구조이므로 matrix객체 대신 __2차원 array__ 를 사용하자

In [12]:
# empty(()) : 초깃값이 모두 0인 2차원 array 생성, 매개인자로 크기를 전달

empty_matrix = np.empty((3,2))
empty_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [16]:
# zeros(()) : empty(()) 와 동일
zero_matrix = np.zeros((3,2))
zero_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [18]:
# ones(()) : 초깃값이 모두 1인 2차원 array 생성, 매개인자로 크기 전달

one_matrix = np.ones((3,2))
one_matrix

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [19]:
# full() : 초깃값을 모두 원하는 숫자로 채워놓은 2차원 array 생성
seven_matrix = np.full((3,2),7)
seven_matrix

array([[7, 7],
       [7, 7],
       [7, 7]])

#### 1.3 희소행렬을 밀집배열로 만들기

__희소행렬(sparse matrix)__ : 배열의 value가 대부분 0으로 이뤄져 있는 행렬  
__밀집배열(density array)__ : 희소행렬에서 값이 있는 위치를 저장하는 방식 -> for __계산비용 절감__

In [20]:
import numpy as np
from scipy import sparse

matrix = np.array([[0,0],
                   [0,1],
                   [3,0]])

# CSR행렬을 만듭니다
matrix_sparse = sparse.csr_matrix(matrix)

In [21]:
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


In [23]:
matrix_large = np.array([[0,0,0,0,0,0,0,0,0,0],
                         [0,1,0,0,0,0,0,0,0,0],
                         [3,0,0,0,0,0,0,0,0,0]])
                         
matrix_sparse_large = sparse.csr_matrix(matrix_large)
print(matrix_sparse_large)

  (1, 1)	1
  (2, 0)	3


행렬의 크기가 클수록 CSR의 위력이 강해진다!

In [24]:
# 밀집배열에서 희소행렬을 만드는 것도 가능
# sparse.csr_matrix()에 매개인자로 (data, (row_index, col_index))로 구성된 튜플을 전달

matrix_sparse_2 = sparse.csr_matrix(([1,3], ([1,2], [1,0])), shape=(3,10))
print(matrix_sparse_2)

  (1, 1)	1
  (2, 0)	3


In [28]:
# toarray() 메서드로 밀집배열을 희소행렬로 변환
print(matrix_sparse_2.toarray())
print(type(matrix_sparse_2.toarray()))

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]
<class 'numpy.ndarray'>


In [27]:
# todense() 메서드는 matrix객체를 반환
print(matrix_sparse_2.todense())
print(type(matrix_sparse_2.todense()))

[[0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [3 0 0 0 0 0 0 0 0 0]]
<class 'numpy.matrix'>


#### 1.4 원소 선택하기

In [30]:
vector = np.array([1,2,3,4,5,6])
matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

# 파이썬의 인덱싱과 동일하게 첫번째 원소의 인덱스는 0
## 벡터의 3번째 원소를 가져올 것
print(vector[2])
## 행렬의 2행 2열의 원소를 가져올 것
print(matrix[1,1])

3
5


In [34]:
# 벡터의 모든 원소를 선택할 것
print(vector[:])

# 세번째 원소를 포함하여 그 이전의 모든 원소를 선택할 것
print(vector[:3])

# 세번째 이후의 원소를 선택할 것
print(vector[3:])

# 마지막 원소를 선택할 것
print(vector[-1])

# 1,2행을 모두 선택할 것
print(matrix[:2,:])

# 2열을 선택할 것
print(matrix[:,1:2])

[1 2 3 4 5 6]
[1 2 3]
[4 5 6]
6
[[1 2 3]
 [4 5 6]]
[[2]
 [5]
 [8]]


In [36]:
# 팬시 인덱싱 : 행과 열의 인덱스 리스트를 전달하여 배열의 원소 선택

# 1행과 3행을 선택할 것
matrix[[0,2]]

# (0,1), (2,0) 원소를 선택할 것
matrix[[0,2], [1,0]]

array([2, 7])

In [41]:
# 불린 인덱싱 : 불린을 이용하여 원소 선택
mask = matrix > 5
print(mask)

matrix[mask]

[[False False False]
 [False False  True]
 [ True  True  True]]


array([6, 7, 8, 9])

#### 1.5 행렬정보 확인하기

In [48]:
matrix = np.array([[1,2,3,4],
                   [5,6,7,8],
                   [9,10,11,12]])

# 행렬의 크기확인
print(matrix.shape)

# 행렬의 원소 개수 확인
print(matrix.size)

# 차원의 수 확인
print(matrix.ndim)

# 데이터 타입 확인
print(matrix.dtype)

# 원소 하나가 차지하는 바이트 크기
print(matrix.itemsize)

# 배열 전체가 차지하는 바이트 크기
print(matrix.nbytes)

(3, 4)
12
2
int32
4
48


#### 1.6 벡터화 연산 적용하기

In [50]:
# vectorize() : 함수를 벡터 전체에 적용할 수 있도록 벡터화해주는 메서드

matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

add_100 = lambda i : i+100

# 벡터화된 함수를 만듭니다.
vectorized_add_100 = np.vectorize(add_100)

# 행렬의 모든 원소에 함수를 적용합니다.
vectorized_add_100(matrix)

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [52]:
# 사실 vectorize() 메서드는 단순히 for루프를 구현한 것이므로 특별한 성능의 향상이 있는 것은 아님
# 해당 작업은 브로드캐스팅을 통해 간단히 수행 가능
matrix + 100

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [53]:
# (3,3) 행렬에 (3,) 크기 벡터를 더하면 (1,3)크기가 된 다음 행을 따라 반복 (첫번째 행에만 적용되는 것이 아님)
matrix + [100,100,100]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

In [54]:
# (3,1)크기 벡터를 더해도 마찬가지
matrix + [[100], [100], [100]]

array([[101, 102, 103],
       [104, 105, 106],
       [107, 108, 109]])

#### 1.7 최댓값, 최솟값 찾기

In [60]:
matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

# 최댓값/최솟값을 반환하는 두가지 방법
print(np.max(matrix))
print(matrix.max())

print(np.min(matrix))
print(matrix.min())

9
9
1
1


In [65]:
# 각 열에서 최댓값 찾기
print(np.max(matrix, axis=0))

# 각 행에서 최댓값 찾기
print(np.max(matrix, axis=1))

[7 8 9]
[3 6 9]


In [68]:
# 매개변수 'keepdims=True'를 지정하면 원본 배열을 차원과 동일한 모양으로 반환
vector_column = np.max(matrix, axis=1, keepdims=True)
matrix - vector_column

array([[-2, -1,  0],
       [-2, -1,  0],
       [-2, -1,  0]])

#### 1.8 평균, 분산, 표준편차 계산하기

In [71]:
matrix = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])

# 평균값 계산
print(np.mean(matrix))

# 분산값 계산
print(np.var(matrix))

# 표준편차값 계산
print(np.std(matrix))

5.0
6.666666666666667
2.581988897471611


In [75]:
# 매개인자로 axis 를 전달하면 동일하게 행/열 단위 기초통계량 계산 가능
np.mean(matrix, axis=1, keepdims=True)

array([[2.],
       [5.],
       [8.]])

In [76]:
# 통계학에서 샘플을 추출할 때 자유도를 고려하여 모집단의 수(N)에서 1을 뺀 값으로 샘플의 수(n)를 결정
# 매개변수로 'ddof = 1'을 전달하면 해당 작업을 알아서 수행

np.std(matrix, ddof=1)

2.7386127875258306

In [82]:
import pandas as pd
df=pd.DataFrame(matrix.flatten())
df.std()

0    2.738613
dtype: float64

넘파이에서는 'ddof = 0'이 디폴트이지만 판다스의 데이터프레임에서는 'ddof = 1'이 디폴트임에 주의