# Numpy

* C언어로 구현된 라이브러리로, 고성능 수치계산을 위한 기능 제공
* 행렬 기반 계산에 유용한 라이브러리
* PyTorch의 문법은 numpy와 유사하고, numpy도 데이터 과학을 위해 꼭 정리해야 하는 라이브러리

### 파이썬 리스트와 numpy

* 파이썬 리스트는 행렬 기반 계산에는 활용하기 어려움
* numpy 행렬 연산은 C언어로 구현된 내부 코드로 실행되므로, 파이썬에 비해 속도가 빠름
* 머신러닝 및 딥러닝에서는 행렬 기반 데이터 가공 및 연산이 필요하므로, numpy와 같은 라이브러리가 유용하게 쓰일 수 있음

In [2]:
data1 = [1, 2, 3]
data2 = [4, 5, 6]

print(data1 + data2)  # List concatenation

[1, 2, 3, 4, 5, 6]


### numpy의 일반적인 import 형태

In [2]:
import numpy as np

### ndarray

* numpy의 핵심은 ndarray 클래스
* ndarray는 다차원 행렬 자료 구조 지원
* ndarray와 파이썬 리스트 차이점

  * 파이썬 리스트
    * 리스트내에 각 원소의 타입이 다를 수 있음
    * 내부 연결 리스트로 구현되어, 각 원소의 저장 위치가 다를 수 있음
  
  * numpy ndarray
    * 각 원소의 타입이 동일함
    * 각 원소가 이어진 메모리 공간에 배치됨
    * 메모리 및 계산 속도 최적화
    

### ndarray 생성

In [None]:
data3 = np.array([1, 2, 3]) # 1차원 배열 생성
print(data3, type(data3))

[1 2 3] <class 'numpy.ndarray'>


In [8]:
print(data3.shape) # 형태 확인

(3,)


In [11]:
print(data3.ndim) # 차원 확인

1


In [None]:
data4 = np.array([[1, 2, 3], [4, 5, 6]]) # 2차원 배열 생성
print(data4.shape, data4.ndim)

(2, 3) 2


### reshape() : 배열 구조 변경

In [16]:
data5 = np.array([1,2,3,4,5,6])
print(data5)
data5 = data5.reshape(3, 2) # 2차원 배열로 변환
print(data5)
data5 = data5.reshape(3, -1) # -1은 자동 계산
print(data5)

[1 2 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]]
[[1 2]
 [3 4]
 [5 6]]


### numpy 데이터 타입 정리

* numpy에서 지원하는 다양한 데이터 타입이 있음
  * 주로, int와 float를 사용하지만, 데이터 타입이 무엇이 있는지 참고로 정리하기로 함
  * 데이터 타입은 numpy 버전에 따라 다를 수 있지만, 기본적인 데이터 타입은 동일함
  

#### numpy 데이터 타입

* 크게는 정수형(int), 실수형(float), 복소수형(complex), 논리형(bool)으로 분류 할 수 있음
  
  * 숫자형
      
      * 정수형 (int8, 16, 32, 64)
      * 부호 없는 정수형 (uint8, 16, 32, 64)
      * 부동소수형 (float 16, 32, 64)
      * 복소수형 (complex64, 128)
  
  * 문자형 (string)
  * 부울형 (bool)


##### 데이터 타입 지정 방법 1 : dtype = np.Type 으로 지정하는 방법

In [20]:
data6 = np.array([[1,2,3], [4,5,6]], dtype=np.float64) # 데이터 타입 지정
print(data6.shape, data6.ndim, data6.dtype, data6.size)

(2, 3) 2 float64 6


##### 데이터 타입 지정 방법 2 : np.Type([xx, xx]) 으로 지정하는 방법

In [19]:
data7 = np.float64([[1,2,3], [4,5,6]]) # 데이터 타입 지정
print(data7.shape, data7.ndim, data7.dtype, data7.size)

(2, 3) 2 float64 6


##### 참고 : 데이터 타입 지정 방법 3 : dtype = Type Code로 지정하는 방법

In [21]:
data8 = np.array([[1,2,3], [4,5,6]], dtype='f8') # 데이터 타입 지정
print(data8.shape, data8.ndim, data8.dtype, data8.size)

(2, 3) 2 float64 6


#### 데이터 타입 변환 (astype)

In [22]:
data9 = np.array([[1,2,3], [4,5,6]], dtype=np.int32) # 데이터 타입 지정
print(data9.shape, data9.ndim, data9.dtype, data9.size)
data9 = data9.astype(np.float64) # 데이터 타입 변환
print(data9.shape, data9.ndim, data9.dtype, data9.size)

(2, 3) 2 int32 6
(2, 3) 2 float64 6


#### T: 전치(transpose) 행렬

* 행과 열을 교환하여 얻는 행렬을 의미, $A^T$로 표현

In [23]:
data10 = np.float64([[1,2,3], [4,5,6]]) # 데이터 타입 지정
print(data10)
data10 = data10.T # 전치 행렬
print(data10)

[[1. 2. 3.]
 [4. 5. 6.]]
[[1. 4.]
 [2. 5.]
 [3. 6.]]


### numpy.transpose()

* 원하는 대로 축을 한번에 여러개를 변경

In [29]:
data11 = np.arange(6).reshape(1, 2, 3)
print(data11)
print("\n")
print(np.transpose(data11)) # 전치 행렬
print("\n")
print(np.transpose(data11, (1, 2, 0))) # 다차원 배열 전치

[[[0 1 2]
  [3 4 5]]]


[[[0]
  [3]]

 [[1]
  [4]]

 [[2]
  [5]]]


[[[0]
  [1]
  [2]]

 [[3]
  [4]
  [5]]]


### arange() 배열 생성

* np.arrange(start, stop, step)

In [31]:
np.arange(5)


array([0, 1, 2, 3, 4])

In [32]:
np.arange(1, 5)

array([1, 2, 3, 4])

In [33]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

### linspace() : 범위 내 균등 생성

* np.linspace(start, stop, count)

In [34]:
np.linspace(1, 5, 4)

array([1.        , 2.33333333, 3.66666667, 5.        ])

### zeros(), ones(), full() : 특정 값으로 배열 생성

* np.zeros(shape) : 0 값으로 shape 모양의 배열 생성
* np.ones(shape) : 1 값으로 shape 모양의 배열 생성
* np.full(shape, fill_value) : 지정한 값(fill_value)으로 shape 모양의 배열 생성

In [36]:
np.zeros(shape=(2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [3]:
np.ones(shape=(2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [4]:
np.full(shape=(2, 3), fill_value=7)

array([[7, 7, 7],
       [7, 7, 7]])

### random.rand() 와 random.randn()

* np.random.rand(shape) : 0부터 1 사이에 균일한 확률 분포로 실수 난수로 shape 모양의 배열 생성
* np.random.randn(shape) : 기댓값이 0이고, 표준편차가 1인 가우시안 표준 정규 분포를 따르는 실수 난수로 shape 모양의 배열 생성

In [5]:
print(np.random.rand(3, 2)) # 균등 분포 난수 생성
print(np.random.randn(3, 2)) # 정규 분포 난수 생성

[[0.97012131 0.35596751]
 [0.99547497 0.78668162]
 [0.29725829 0.92362325]]
[[-0.39949006  1.55547978]
 [-0.65035434  0.96393053]
 [-0.1826639  -0.55633934]]


### ndarray 연산

* 본래 행렬 곱셈은 앞 행렬의 행의 갯수와 뒷 행렬의 열의 갯수가 같아야 행렬간 곱셈이 가능하지만,
* ndarray 연산은 shape가 동일해야 하고, 행과 열이 같은 값끼리 연산이 됨

data1 = np.random.randn(3, 2)
data2 = np.random.randn(2, 3)
data1 * data2 # shape가 다르므로 연산이 안됨

In [7]:
data1 = np.array([[1, 2, 3], [4, 5, 6]])
data2 = np.array([[7, 8, 9], [10, 11, 12]])

print(data1 + data2)  # 요소별 덧셈
print(data1 - data2)  # 요소별 뺄셈
print(data1 * data2)  # 요소별 곱셈
print(data1 / data2)  # 요소별 나눗셈
print(data1 // data2)  # 요소별 몫
print(data1 % data2)  # 요소별 나머지
print(data1 ** data2)  # 요소별 제곱

[[ 8 10 12]
 [14 16 18]]
[[-6 -6 -6]
 [-6 -6 -6]]
[[ 7 16 27]
 [40 55 72]]
[[0.14285714 0.25       0.33333333]
 [0.4        0.45454545 0.5       ]]
[[0 0 0]
 [0 0 0]]
[[1 2 3]
 [4 5 6]]
[[         1        256      19683]
 [   1048576   48828125 2176782336]]


### ndarray 연산 (브로드 캐스팅)

* 두 배열간의 브로드캐스팅이 가능하기 위한 조건이 있음
  
  * 두 배열에 있는 각 차원에 대해, 끝쪽 차원부터 다음 조건을 비교하며, 앞쪽 방향으로 진행
  
    * 각 차원의 원소 수가 똑같거나
    * 둘 중의 하나의 차원의 원소 수는 1인 경우


In [12]:
data12 = np.array([[1, 2], [3, 4], [5, 6]])
print("data12", data12, data12.shape, '\n')
print(data12 + 1 , '\n') # 스칼라와의 덧셈

data13 = np.array([[1], [2], [3]])
print("data13", data13, data13.shape, '\n')
print(data12 + data13 , '\n') # 브로드캐스팅 덧셈

data14 = np.array([[1, 2, 3]])
print("data14", data14, data14.shape, '\n')
print(data13 + data14 , '\n') # 브로드캐스팅 덧셈


data12 [[1 2]
 [3 4]
 [5 6]] (3, 2) 

[[2 3]
 [4 5]
 [6 7]] 

data13 [[1]
 [2]
 [3]] (3, 1) 

[[2 3]
 [5 6]
 [8 9]] 

data14 [[1 2 3]] (1, 3) 

[[2 3 4]
 [3 4 5]
 [4 5 6]] 



### 행렬 곱셈 @

* 앞 행렬의 행의 갯수와 뒷 행렬의 열의 갯수가 같아야 행렬간 곱셈 가능

In [None]:
data15 = np.random.randn(3, 2)
data16 = np.random.randn(2, 3)
data15 @ data16  # 행렬 곱

array([[ 0.20002769,  2.11989116,  1.19435522],
       [ 1.81818469,  3.05227378,  0.9140479 ],
       [ 1.1500639 ,  0.63049404, -0.21894608]])

### ndarray 원소 접근 방법 (indexing)

* 배열의 특정 데이터를 가져오는 기능을 indexing이라고 함

In [17]:
data17 = np.array([[1, 2, 3], [4, 5, 6]])
print(data17)
print(data17[1,1]) # 요소 접근
print(data17[:, 1]) # 2번째 열 접근
print(data17[:, :]) # 모든 요소 접근
print(data17[:1, :2]) # 부분 요소 접근

[[1 2 3]
 [4 5 6]]
5
[2 5]
[[1 2 3]
 [4 5 6]]
[[1 2]]


### boolean indexing

* 조건 필터링과 검색을 동시에 할수 있어서, 유용하게 쓰이는 인덱싱 기법

In [22]:
data18 = np.array([ [1, 2, 3], [4, 5, 6]])
data19 = data18 > 3
print(data19) # 조건에 따른 불리언 배열 생성
print(data18[data19]) # 불리언 인덱싱
print(data18[(data18 > 3) & (data18 < 5)]) # 복합 조건 불리언 인덱싱

[[False False False]
 [ True  True  True]]
[4 5 6]
[4]


### fancy indexing

* 다른 배열로 배열을 인덱싱할 수 있는 기능
* 이를 통해, 복잡한 배열 값의 하위 집합을 빠르게 접근할 수 있음

In [26]:
data20 = np.random.randn(4,3)
print(data20)
print('\n')

# 특정 행 배열 추출하기
print(data20[[0,2], :])
print('\n')

# 특정 열 배열 추출하기
print(data20[:, [0,2]])

[[ 1.71817359  0.60491269  1.2179518 ]
 [ 0.35582473 -1.15516668  0.30131396]
 [-0.26154436  0.81638078 -1.299874  ]
 [ 1.44926626 -1.14665363  0.21806824]]


[[ 1.71817359  0.60491269  1.2179518 ]
 [-0.26154436  0.81638078 -1.299874  ]]


[[ 1.71817359  1.2179518 ]
 [ 0.35582473  0.30131396]
 [-0.26154436 -1.299874  ]
 [ 1.44926626  0.21806824]]


### 배열 복사 : copy()

In [33]:
data21 = np.array([[1, 2, 3], [4, 5, 6]])
print(data21)
print('\n')

data22 = data21[:2, :2]
print(data22)
print('\n')

data22[0, 0] = 99
print(data21)  # 원본 배열도 변경됨
print('\n')

[[1 2 3]
 [4 5 6]]


[[1 2]
 [4 5]]


[[99  2  3]
 [ 4  5  6]]




In [35]:
# 깊은 복사

data23 = np.array([[1, 2, 3], [4, 5, 6]])
print(data23)
print('\n')

data24 = data23[:2, :2].copy()
print(data24)
print('\n')

data24[0, 0] = 99
print(data23)  # 원본 배열은 변경되지 않음
print('\n')

[[1 2 3]
 [4 5 6]]


[[1 2]
 [4 5]]


[[1 2 3]
 [4 5 6]]




### 배열 조건 연산 : where()

* np.where(조건, 참 일때의 배열, 거짓일 때의 배열)

In [36]:
# 조건에 맞는 값 indexing

data25 = np.array([7, 2, 0, 4, 1])
index = np.where(data25 < 3) # 조건에 맞는 인덱스 반환
print(index)
print(data25[index]) # 조건에 맞는 값 반환

(array([1, 2, 4]),)
[2 0 1]


In [37]:
# 조건에 맞는 값 특정 다른 값으로 변환

print(data25)
data26 = np.where(data25 < 3, -1, 1) # 조건에 맞는 값은 -1, 나머지는 1로 변환
print(data26)

[7 2 0 4 1]
[ 1 -1 -1  1 -1]


In [None]:
# 다차원 배열에도 적용 가능

data27 = np.array([[7, 2, 0], [4, 1, 9]])
data28 = np.where(data27 < 3, -1, 1) # 조건에 맞는 값은 -1, 나머지는 1로 변환
print(data28)

[[ 1 -1 -1]
 [ 1 -1  1]]


### 배열 데이터 분석

* min(), max(), mean(), var(), std() : 최대값, 최소값, 합계값, 평균값, 분산값, 표준편차값
* argmin(), argmax() : 최소값의 인덱스 번호, 최대값의 인덱스 번호

In [None]:
data29 = np.array([[1, 2, 3], [4, 5, 6]])
print(data29.min())
print(data29.max())
print(data29.sum())
print(data29.mean())
print(data29.std())
print(data29.var())
print(data29.argmin()) # 최소값 인덱스 반환
print(data29.argmax()) # 최대값 인덱스 반환

1
6
21
3.5
1.707825127659933
2.9166666666666665
0
5


### 배열을 파일로 저장하고, 불러오기

In [None]:
# 한개의 배열 저장
# save()로 파일로 저장 가능
# .npy 확장자로 파일명 생성
data30 = np.array([[1, 2, 3], [4, 5, 6]])
np.save('data30.npy', data30)

# load()로 파일에서 불러오기
data31 = np.load('data30.npy')
print(data31)

# 한개이상의 배열 저장
# savez()로 파일로 저장 가능
data32 = np.array([[1, 2, 3], [4, 5, 6]])
data33 = np.array([[7, 8, 9], [10, 11, 12]])
np.savez('data32_33.npz', data32=data32, data33=data33)

# load()로 파일에서 불러오기
loaded = np.load('data32_33.npz')
data32_loaded = loaded['data32']
data33_loaded = loaded['data33']


[[1 2 3]
 [4 5 6]]


: 