# NumPy 한번에 제대로 배우기
> by 이수안 컴퓨터 연구소 https://mangastorytelling.tistory.com/entry/%EC%9D%B4%EC%88%98%EC%95%88%EC%BB%B4%ED%93%A8%ED%84%B0%EC%97%B0%EA%B5%AC%EC%86%8C-NumPy-%ED%95%9C%EB%B2%88%EC%97%90-%EC%A0%9C%EB%8C%80%EB%A1%9C-%EB%B0%B0%EC%9A%B0%EA%B8%B0

numpy : https://codetorial.net/numpy/functions/index.html
한국어 doc



---



## NumPy 특징

* Numerical Python의 약자
* 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
* 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
* 정교한 브로드캐스팅(broadcasting) 기능
* 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
* 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
* 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음

In [1]:
import numpy as np

In [2]:
np.__version__

'1.20.1'



---



## 배열 생성

### 리스트로 배열 만들기


In [2]:
a1 = np.array([1, 2, 3, 4, 5])
print(a1)
print(a1.shape)
a1[0] = 3
print(a1)

[1 2 3 4 5]
(5,)
[3 2 3 4 5]


In [3]:
a2 = np.array([[1, 2, 3],[ 4, 5, 6], [7, 8, 9]])
print(a2)
print(a2.shape)
print(a2[0, 0], a2[1, 0], a2[2, 0])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 4 7


In [4]:
a3 = np.array([[ [1, 2, 3], [4, 5, 6], [7, 8, 9] ], 
               [ [1, 2, 3], [4, 5, 6], [7, 8, 9] ], 
               [ [1, 2, 3], [4, 5, 6], [7, 8, 9] ]])
print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


### 배열 생성 및 초기화

* `zeros()`: 모든 요소를 0으로 초기화

In [28]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* `ones()`: 모든 요소를 1로 초기화

In [30]:
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

* `full()`: 모든 요소를 지정한 값으로 초기화

In [33]:
np.full((3,3), 10)

array([[10, 10, 10],
       [10, 10, 10],
       [10, 10, 10]])

* `eye()`: 단위행렬(identity matrix) 생성
  + 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [34]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

* `tri()`: 삼각행렬 생성

In [35]:
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

* `empty()`: 초기화되지 않은 배열 생성
  + 초기화가 없어서 배열 생성비용 저렴하고 빠름
  + 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [7]:
np.empty(10)

array([1.21787437e-311, 1.77863633e-322, 0.00000000e+000, 0.00000000e+000,
       1.33511018e-306, 2.27194277e+184, 3.21442614e-057, 6.56208205e-091,
       2.17767181e-076, 1.60205348e-306])

* `_like()`: 지정된 배열과 shape가 같은 행렬 생성
  + `np.zeros_like()`
  + `np.ones_like()`
  + `np.full_like()`
  + `np.empty_like()`

In [40]:
np.zeros_like(a1)

array([0, 0, 0, 0, 0])

In [42]:
np.full_like(a3, 3)

array([[[3, 3, 3],
        [3, 3, 3],
        [3, 3, 3]],

       [[3, 3, 3],
        [3, 3, 3],
        [3, 3, 3]],

       [[3, 3, 3],
        [3, 3, 3],
        [3, 3, 3]]])

### 생성한 값으로 배열 생성

* `arange()`: 정수 범위로 배열 생성

In [43]:
np.arange(0, 30, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

* `linspace()`: 범위 내에서 균등 간격의 배열 생성

In [44]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

* `logspace()`: 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [47]:
np.logspace(0.1, 1, 20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

### 랜덤값으로 배열 생성


* `random.random()`: 랜덤한 수의 배열 생성

In [49]:
np.random.random((3, 3))

array([[0.35639316, 0.43237147, 0.61325922],
       [0.54051065, 0.76553902, 0.2378899 ],
       [0.6355741 , 0.68936709, 0.04369241]])

* `random.randint()`: 일정 구간의 랜덤 정수의 배열 생성

In [52]:
np.random.randint(0, 10, (3, 3))

array([[4, 8, 0],
       [6, 2, 2],
       [5, 3, 7]])

* `random.normal()`: 정규분포(normal distribution)를 고려한 랜덤한 수의 배열 생성
* 평균=0, 표준편차=1, 3 x 3 배열

In [53]:
np.random.normal(0, 2, (3, 3))

array([[-2.57909045e+00, -7.59205649e-04, -2.13954147e+00],
       [-7.32123862e-01,  2.93092014e+00, -3.58369871e-01],
       [ 1.77654731e+00,  2.73996181e-01,  1.61438519e+00]])

* `random.rand()`: 균등분포(uniform distribution)를 고려한 랜덤한 수의 배열 생성

In [57]:
np.random.rand(3, 3)

array([[0.84344411, 0.2626795 , 0.9744802 ],
       [0.66779967, 0.89534945, 0.56671549],
       [0.37541589, 0.34663024, 0.55893192]])

* `random.randn()`: 표준 정규 분포(standard normal distribution)를 고려한 랜덤한 수의 배열 생성

In [61]:
np.random.randn(3, 3)

array([[-0.36083994, -1.43089773,  1.1426903 ],
       [ 0.48466606,  0.21106975,  0.80758568],
       [ 0.77177719,  1.28001317,  0.93510955]])

### 표준 데이터 타입

In [63]:
np.zeros(20, dtype = int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [65]:
np.ones((3, 3), dtype = bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [66]:
np.full((3, 3), 1.0, dtype = float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

### 날짜/시간 배열 생성


In [68]:
date = np.array('2020-01-01', dtype = np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [70]:
date + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [71]:
datetime = np.datetime64('2021-09-29 20:00')
datetime

numpy.datetime64('2021-09-29T20:00')

In [72]:
datetime = np.datetime64('2021-09-29 20:00:12.34', 'ns') # ns - 나노s
datetime

numpy.datetime64('2021-09-29T20:00:12.340000000')



---



## 배열 조회

### 배열 속성 정보

In [8]:
def array_info(array):
        print(array)
        print('ndim: ', array.ndim)
        print('shape: ', array.shape)
        print('dtype: ', array.dtype)
        print('size: ', array.size)
        print('itemsize: ', array.itemsize) # 각 아이템의 사이즈(dtype에 의거)
        print('nbytes: ', array.nbytes) # 아이템 사이즈 * 개수 = 총 크기
        print('strides: ', array.strides) # 엘리먼트 간 간격

In [74]:
array_info(a1)

[3 2 3 4 5]
ndim:  1
shape:  (5,)
dtype:  int32
size:  5
itemsize:  4
nbytes:  20
strides:  (4,)


In [75]:
array_info(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim:  2
shape:  (3, 3)
dtype:  int32
size:  9
itemsize:  4
nbytes:  36
strides:  (12, 4)


In [76]:
array_info(a3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
ndim:  3
shape:  (3, 3, 3)
dtype:  int32
size:  27
itemsize:  4
nbytes:  108
strides:  (36, 12, 4)


### 인덱싱(Indexing)

In [79]:
print(a1)
print(a1[0])
print(a1[3])
print(a1[-1])

[3 2 3 4 5]
3
4
5


In [82]:
print(a2)
print(a2[0, 0])
print(a2[1, 1])
print(a2[2, -1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
5
9


In [84]:
print(a3)
print(a3[0, 1, 1])

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
5


### 슬라이싱(Slicing)

* 슬라이싱 구문: `a[start:stop:step]`
* 기본값: start=0, stop=ndim, step=1

In [88]:
print(a1)
print(a1[0:2])
print(a1[1:])
print(a1[::2])
print(a1[::-1])

[3 2 3 4 5]
[3 2]
[2 3 4 5]
[3 3 5]
[5 4 3 2 3]


In [92]:
print(a2)
print(a2[1])
print(a2[2, :])
print(a2[1:, ::-1])
print(a2[::-1, ::-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[4 5 6]
[7 8 9]
[[6 5 4]
 [9 8 7]]
[[9 8 7]
 [6 5 4]
 [3 2 1]]


### 불리언 인덱싱(Boolean Indexing)

* 배열 각 요소의 선택 여부를 불리언(True or False)로 지정
* True 값인 인덱스의 값만 조회

In [101]:
print(a1)
bi = [False, True, False, False, True]
print(a1[bi])

[3 2 3 4 5]
[2 5]


In [106]:
print(a2)
bi = np.random.randint(0, 2, (3, 3), dtype = bool)
print(bi)
print(a2[bi])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False  True False]
 [ True False  True]
 [False False  True]]
[2 4 6 9]


#### np.where
- np.where(조건, x, y) : 조건이 True면 해당 값을 x로, False면 y로 바꿔줌
- np.where(조건) : 조건이 True인 인덱스 번호를 리턴
    - 리턴 형태: np.array

In [4]:
a = np.random.randint(1, 10, size = 10)
a

array([9, 2, 7, 9, 9, 7, 7, 9, 3, 4])

In [5]:
#1
np.where(a == 9, '참', '거짓')

array(['참', '거짓', '거짓', '참', '참', '거짓', '거짓', '참', '거짓', '거짓'],
      dtype='<U2')

In [7]:
np.where(a == 9, '참', np.where(a == 7, '참2', '거짓2'))

array(['참', '거짓2', '참2', '참', '참', '참2', '참2', '참', '거짓2', '거짓2'],
      dtype='<U3')

In [8]:
#2
np.where(a == 9)

(array([0, 3, 4, 7], dtype=int64),)

### 팬시 인덱싱(Fancy Indedxing)

In [113]:
print(a1)
print([a1[0], a1[2]])
ind = [0, 2]
print(a1[ind])
print()
ind = np.array([[0,1], [1, 2]])
print(a1[ind])

[3 2 3 4 5]
[3, 3]
[3 3]

[[3 2]
 [2 3]]


In [118]:
print(a2)
row = np.array([0, 2])
col = np.array([1, 2])
print()
print(a2[row, col])
print()
print(a2[row, :])

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[2 9]

[[1 2 3]
 [7 8 9]]




---



## 배열 값 삽입/수정/삭제/복사

### 배열 값 삽입

* `insert()`: 배열의 특정 위치에 값 삽입
* axis를 지정하지 않으면 1차원 배열로 변환
* 추가할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [9]:
print(a1)
b1 = np.insert(a1, 0, 10)
print(b1)
print(a1)

[3 2 3 4 5]
[10  3  2  3  4  5]
[3 2 3 4 5]


In [128]:
print(a2)
b2 = np.insert(a2, 1, 10, axis = 0)
print(b2)
c2 = np.insert(a2, 1, 10, axis = 1)
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]
[[ 1 10  2  3]
 [ 4 10  5  6]
 [ 7 10  8  9]]


### 배열 값 수정

* 배열의 인덱싱으로 접근하여 값 수정

In [129]:
print(a1)
a1[0] = 1
print(a1)

[3 2 3 4 5]
[1 2 3 4 5]


In [135]:
print(a2)
a2[0, 0] = 2
a2[1, 1] = 3
print(a2)
a2[1:, 2] = 5
print(a2)

[[10  2  3]
 [ 4 10  3]
 [ 7  8  3]]
[[2 2 3]
 [4 3 3]
 [7 8 3]]
[[2 2 3]
 [4 3 5]
 [7 8 5]]


### 배열 값 삭제

* `delete()`: 배열의 특정 위치에 값 삭제
* axis를 지정하지 않으면 1차원 배열로 변환
* 삭제할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [137]:
print(a1)
b1 = np.delete(a1, 1)
print(b1)
print(a1)

[1 2 3 4 5]
[1 3 4 5]
[1 2 3 4 5]


In [139]:
print(a2)
b2 = np.delete(a2, 1, axis = 0)
print(b2)
print(a2)

[[2 2 3]
 [4 3 5]
 [7 8 5]]
[[2 2 3]
 [7 8 5]]
[[2 2 3]
 [4 3 5]
 [7 8 5]]


### 배열 복사

* 리스트 자료형과 달리 배열의 슬라이스는 복사본이 아님

In [147]:
print(a2)
a2_sub = a2[:2, :2]
print(a2_sub)
a2_sub[0, 0] = 3
print(a2_sub)
print(a2) # 변경됨. 

[[1 2 3]
 [4 3 5]
 [7 8 5]]
[[1 2]
 [4 3]]
[[3 2]
 [4 3]]
[[3 2 3]
 [4 3 5]
 [7 8 5]]



* `copy()`: 배열이나 하위 배열 내의 값을 명시적으로 복사

In [151]:
print(a2)
a2_sub_copy = a2[:2, :2].copy()
print(a2_sub_copy)
a2_sub_copy[0, 0] = 3
print(a2_sub_copy)
print(a2) # 변경 안 됨

[[2 2 3]
 [4 3 5]
 [7 8 5]]
[[2 2]
 [4 3]]
[[3 2]
 [4 3]]
[[2 2 3]
 [4 3 5]
 [7 8 5]]




---



## 배열 변환

### 배열 전치 및 축 변경

In [12]:
print(a2)
print(a2.T)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 4 7]
 [2 5 8]
 [3 6 9]]


In [13]:
print(a3)
print(a3.T)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
[[[1 1 1]
  [4 4 4]
  [7 7 7]]

 [[2 2 2]
  [5 5 5]
  [8 8 8]]

 [[3 3 3]
  [6 6 6]
  [9 9 9]]]


In [15]:
print(a2)
print(a2.T)
print(a2.swapaxes(1, 0))

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 4 7]
 [2 5 8]
 [3 6 9]]
[[1 4 7]
 [2 5 8]
 [3 6 9]]


In [21]:
print(a3)
print(a3.transpose())
print(a3.transpose(1, 2, 0))

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
[[[1 1 1]
  [4 4 4]
  [7 7 7]]

 [[2 2 2]
  [5 5 5]
  [8 8 8]]

 [[3 3 3]
  [6 6 6]
  [9 9 9]]]
[[[1 1 1]
  [2 2 2]
  [3 3 3]]

 [[4 4 4]
  [5 5 5]
  [6 6 6]]

 [[7 7 7]
  [8 8 8]
  [9 9 9]]]


- 축 변환 관련 글
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=sooftware&logNo=221577171997

### 배열 재구조화


* `reshape()`: 배열의 형상을 변경

In [24]:
n1 = np.arange(1, 12, 2)
print(n1)
print(n1.reshape(3, 2))

[ 1  3  5  7  9 11]
[[ 1  3]
 [ 5  7]
 [ 9 11]]


* `newaxis()`: 새로운 축 추가

In [27]:
print(n1)
print(n1[np.newaxis, :3])
print(n1[:3, np.newaxis])

[ 1  3  5  7  9 11]
[[1 3 5]]
[[1]
 [3]
 [5]]


### 배열 크기 변경

* 배열 모양만 변경

In [31]:
n2 = np.random.randint(0, 10, (2, 5))
print(n2)
n2.resize((5,2))
print(n2)

[[3 3 6 3 5]
 [1 8 2 1 7]]
[[3 3]
 [6 3]
 [5 1]
 [8 2]
 [1 7]]


* 배열 크기 증가
* 남은 공간은 0으로 채워짐

In [33]:
print(n2)
n2.resize((5, 5))
print(n2)

[[3 3]
 [6 3]
 [5 1]
 [8 2]
 [1 7]]
[[3 3 6 3 5]
 [1 8 2 1 7]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]


* 배열 크기 감소
* 포함되지 않은 값은 삭제됨

In [34]:
print(n2)
n2.resize((3, 3))
print(n2)

[[3 3 6 3 5]
 [1 8 2 1 7]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]
[[3 3 6]
 [3 5 1]
 [8 2 1]]


### 배열 추가

* `append()`: 배열의 끝에 값 추가

In [37]:
a2 = np.arange(1, 10).reshape((3, 3))
print(a2)
b2 = np.arange(1, 10).reshape((3, 3))
print(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9]


* axis 지정이 없으면 1차원 배열 형태로 변형되어 결합

In [39]:
c2 = np.append(a2, b2)
print(c2)

[1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9]


* axis를 0으로 지정
* shape[0]을 제외한 나머지 shape은 같아야 함

In [40]:
c2 = np.append(a2, b2, axis = 0)
c2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

* axis를 1로 지정
* shape[1]을 제외한 나머지 shape은 같아야 함

In [42]:
c2 = np.append(a2, b2, axis = 1)
c2

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6],
       [7, 8, 9, 7, 8, 9]])

### 배열 연결

* `concatenate()`: 튜플이나 배열의 리스트를 인수로 사용해 배열 연결

In [43]:
a1 = np.array([1, 3, 5])
b1 = np.array([2, 4, 6])
np.concatenate([a1, b1])

array([1, 3, 5, 2, 4, 6])

In [44]:
a2 = np.array([[1, 2, 3], 
              [4, 5, 6]])
np.concatenate((a2, a2))

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [46]:
np.concatenate((a2, a2), axis = 1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

* `vstack()`: 수직 스택(vertical stack), 1차원으로 연결

In [47]:
np.vstack((a2, a2))

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

* `hstack()`: 수평 스택(horizontal stack), 2차원으로 연결

In [48]:
np.hstack((a2, a2))

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

* `dstack()`: 깊이 스택(depth stack), 3차원으로 연결

In [49]:
np.dstack((a2, a2))

array([[[1, 1],
        [2, 2],
        [3, 3]],

       [[4, 4],
        [5, 5],
        [6, 6]]])

* `stack()`: 새로운 차원으로 연결

In [50]:
np.stack((a2, a2))

array([[[1, 2, 3],
        [4, 5, 6]],

       [[1, 2, 3],
        [4, 5, 6]]])

### 배열 분할

* `split()`: 배열 분할

In [52]:
a1 = np.arange(0, 10)
print(a1)
b1, c1 = np.split(a1, [5])
print(b1, c1)

[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4] [5 6 7 8 9]


* `vsplit()`: 수직 분할, 1차원으로 분할

In [56]:
a2 = np.arange(1, 10).reshape(3, 3)
print(a2)
b2, c2 = np.vsplit(a2, [1])
print(b2)
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]]
[[4 5 6]
 [7 8 9]]


* `hsplit()`: 수평 분할, 2차원으로 분할

In [57]:
a2 = np.arange(1, 10).reshape(3, 3)
print(a2)
b2, c2 = np.hsplit(a2, [1])
print(b2)
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1]
 [4]
 [7]]
[[2 3]
 [5 6]
 [8 9]]


* `dsplit()`: 깊이 분할, 3차원으로 분할

In [58]:
a3 = np.arange(1, 28).reshape(3, 3, 3)
print(a3)
b3, c3 = np.dsplit(a3, [2]) # horizontal
print(b3)
print(c3)

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[19 20 21]
  [22 23 24]
  [25 26 27]]]
[[[ 1  2]
  [ 4  5]
  [ 7  8]]

 [[10 11]
  [13 14]
  [16 17]]

 [[19 20]
  [22 23]
  [25 26]]]
[[[ 3]
  [ 6]
  [ 9]]

 [[12]
  [15]
  [18]]

 [[21]
  [24]
  [27]]]




---



## 배열 연산

* NumPy의 배열 연산은 벡터화(vectorized) 연산을 사용
* 일반적으로 NumPy의 범용 함수(universal functions)를 통해 구현
* 배열 요소에 대한 반복적인 계산을 효율적으로 수행

### 브로드캐스팅(Broadcasting)

In [61]:
a1 = np.array((1, 2, 3))
print(a1)
print(a1+5)

[1 2 3]
[6 7 8]


In [62]:
a2 = np.arange(1, 10).reshape(3, 3)
print(a2)
print(a2 + 3)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


### 산술 연산(Arithmetic Operators)

|함수|설명|연산자|
|---|---|---|
|`np.add` | 덧셈 |+|
|`np.subtract` | 뺄셈 |-|
|`np.negative` | 단항 음수 |-|
|`np.multiply` | 곱셈 |*|
|`np.divide` | 나눗셈 |/|
|`np.floor_divide` | 나눗셈 내림 |//|
|`np.power` | 지수 연산 |**|
|`np.mod` | 나머지 연산 |%|

In [63]:
a1 = np.arange(1, 10)
print(a1)
print(a1+1)
print(np.add(a1, 10))

[1 2 3 4 5 6 7 8 9]
[ 2  3  4  5  6  7  8  9 10]
[11 12 13 14 15 16 17 18 19]


#### 절대값 함수(Absolute Function)

* `absolute()`, `abs()`: 내장된 절대값 함수

In [65]:
a1 = np.random.randint(-10, 10, 5)
print(a1)
print(np.abs(a1))

[-2 -7  8 -6  9]
[2 7 8 6 9]


#### 제곱/제곱근 함수

* `square`, `sqrt`: 제곱, 제곱근 함수

In [68]:
a1 = np.random.randint(1, 10, 5)
print(a1)
print(np.square(a1))
print(np.sqrt(a1))

[2 9 4 5 2]
[ 4 81 16 25  4]
[1.41421356 3.         2.         2.23606798 1.41421356]


#### 지수와 로그 함수 (Exponential and Log Function)

In [69]:
a1 = np.random.randint(1, 10, size = 5)
print(a1)
print(np.exp(a1))
print(np.exp2(a1))
print(np.power(a1, 2))

[9 9 6 3 8]
[8103.08392758 8103.08392758  403.42879349   20.08553692 2980.95798704]
[512. 512.  64.   8. 256.]
[81 81 36  9 64]


In [71]:
print(a1)
print(np.log(a1))
print(np.log2(a1))
print(np.log10(a1))

[9 9 6 3 8]
[2.19722458 2.19722458 1.79175947 1.09861229 2.07944154]
[3.169925  3.169925  2.5849625 1.5849625 3.       ]
[0.95424251 0.95424251 0.77815125 0.47712125 0.90308999]


#### 삼각 함수(Trigonometrical Function)


|함수|설명|
|---|---|
|`np.sin()`|요소 별 사인|
|`np.cos()`|요소 별 코사인|
|`np.tan()`|요소 별 탄젠트|
|`np.arcsin()`|아크 사인|
|`np.arccos()`|아크 코사인|
|`np.arctan()`|아크 탄젠트|
|`np.arctan2(array1, array2)`|요소 별 아크 탄젠트 array1/array2|
|`np.sinh()`|요소별 하이퍼볼릭 사인|
|`np.cosh()`|요소별 하이퍼볼릭 코사인|
|`np.tanh()`|하이퍼볼릭 탄젠트|
|`np.arcsinh()`|하이퍼볼릭 아크 사인|
|`np.arccosh()`|요소별 하이퍼볼릭 아크 코사인|
|`np.arctanh()`|하이퍼볼릭 아크 탄젠트|
|`np.deg2rad()`|요소 별 각도에서 라디안 변환|
|`np.rad2deg()`|요소 별 라디안에서 각도 변환|
|`np.hypot(array1, array2)`|요소 별 유클리드 거리 계산|

In [72]:
t = np.linspace(0, np.pi, 3)
print(t)
print(np.sin(t))
print(np.cos(t))
print(np.tan(t))

[0.         1.57079633 3.14159265]
[0.0000000e+00 1.0000000e+00 1.2246468e-16]
[ 1.000000e+00  6.123234e-17 -1.000000e+00]
[ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


### 집계 함수(Aggregate Functions)

|함수|NaN 안전 모드|설명|
|--|--|--|
|`np.sum`|`np.nansum`|요소의 합 계산|
|`np.cumsum`|`np.nancumsum`|요소의 누적 합|
|`np.diff`|N/A|요소의 차분|
|`np.prod`|`np.nanprod`|요소의 곱|
|`np.cimprod`|`np.nancumprod`|요소의 누적 곱|
|`np.dot`|N/A|점 곱|
|`np.matmul`|N/A|행렬 곱 @|
|`np.tensordot`|N/A|텐서 곱|
|`np.cross`|N/A|백터 곱|
|`np.inner`|N/A|내적|
|`np.outer`|N/A|외적|
|`np.mean`|`np.nanmean`|요소의 평균 계산|
|`np.std`|`np.nanstd`|표준편차 계산|
|`np.var`|`np.nanvar`|분산 계산|
|`np.min`|`np.nanmin`|최소값|
|`np.max`|`np.nanmax`|최대값|
|`np.argmin`|`np.nanargmin`|최소값 인덱스|
|`np.argmax`|`np.nanargmax`|최대값 인덱스|
|`np.median`|`np.nanmedian`|중앙값|
|`np.percentile`|`np.nanpercentile`|요소의 순위 기반 백분위 수 계싼|
|`np.any`|N/A|요소 중 참이 있는지 평가|
|`np.all`|N/A|모든 요소가 참인지 평가|
|`np.linalg.inv()`|N/A|역행렬 구하기|
|`np.linalg.pinv()`|N/A|유사역행렬 구하기|  

- 유사역행렬
    - 행 >= 열 : $A^+A = I$
    - 행 <= 열 : $AA^+ = I$

#### sum(): 합 계산

In [79]:
a2 = np.random.randint(1, 10, (3, 3))
print(a2)
print(a2.sum(), np.sum(a2))
print(a2.sum(axis = 0), np.sum(a2, axis = 0))
print(a2.sum(axis = 1), np.sum(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
49 49
[10 20 19] [10 20 19]
[13 16 20] [13 16 20]


#### cumsum(): 누적합 계산

In [80]:
print(a2)
print(np.cumsum(a2))
print(np.cumsum(a2, axis = 0))
print(np.cumsum(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
[ 1 10 13 17 21 29 34 41 49]
[[ 1  9  3]
 [ 5 13 11]
 [10 20 19]]
[[ 1 10 13]
 [ 4  8 16]
 [ 5 12 20]]


#### diff(): 차분 계산

In [82]:
print(a2)
print(np.diff(a2))
print(np.diff(a2, axis = 0))
print(np.diff(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
[[ 8 -6]
 [ 0  4]
 [ 2  1]]
[[ 3 -5  5]
 [ 1  3  0]]
[[ 8 -6]
 [ 0  4]
 [ 2  1]]


#### prod(): 곱 계산

In [83]:
print(a2)
print(np.prod(a2))
print(np.prod(a2, axis = 0))
print(np.prod(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
967680
[ 20 252 192]
[ 27 128 280]


#### cumprod(): 누적곱 계산

In [84]:
print(a2)
print(np.cumprod(a2))
print(np.cumprod(a2, axis = 0))
print(np.cumprod(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
[     1      9     27    108    432   3456  17280 120960 967680]
[[  1   9   3]
 [  4  36  24]
 [ 20 252 192]]
[[  1   9  27]
 [  4  16 128]
 [  5  35 280]]


#### dot()/matmul(): 점곱/행렬곱 계산

In [86]:
print(a2)
b2 = np.ones_like(a2)
print(b2)
print(np.dot(a2, b2))
print(np.matmul(a2, b2))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
[[1 1 1]
 [1 1 1]
 [1 1 1]]
[[13 13 13]
 [16 16 16]
 [20 20 20]]
[[13 13 13]
 [16 16 16]
 [20 20 20]]


#### tensordot(): 텐서곱 계산

In [92]:
print(a2)
print(b2)
print(np.tensordot(a2, b2))
print(np.tensordot(a2, b2, axes = 0))
print(np.tensordot(a2, b2, axes = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
[[1 1 1]
 [1 1 1]
 [1 1 1]]
49
[[[[1 1 1]
   [1 1 1]
   [1 1 1]]

  [[9 9 9]
   [9 9 9]
   [9 9 9]]

  [[3 3 3]
   [3 3 3]
   [3 3 3]]]


 [[[4 4 4]
   [4 4 4]
   [4 4 4]]

  [[4 4 4]
   [4 4 4]
   [4 4 4]]

  [[8 8 8]
   [8 8 8]
   [8 8 8]]]


 [[[5 5 5]
   [5 5 5]
   [5 5 5]]

  [[7 7 7]
   [7 7 7]
   [7 7 7]]

  [[8 8 8]
   [8 8 8]
   [8 8 8]]]]
[[13 13 13]
 [16 16 16]
 [20 20 20]]


#### cross(): 벡터곱

In [93]:
x = [1, 2, 3]
y = [4, 5, 6]
print(np.cross(x, y))

[-3  6 -3]


#### inner()/outer(): 내적/외적

In [95]:
print(a2)
print(b2)
print(np.inner(a2, b2))
print(np.outer(a2, b2))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
[[1 1 1]
 [1 1 1]
 [1 1 1]]
[[13 13 13]
 [16 16 16]
 [20 20 20]]
[[1 1 1 1 1 1 1 1 1]
 [9 9 9 9 9 9 9 9 9]
 [3 3 3 3 3 3 3 3 3]
 [4 4 4 4 4 4 4 4 4]
 [4 4 4 4 4 4 4 4 4]
 [8 8 8 8 8 8 8 8 8]
 [5 5 5 5 5 5 5 5 5]
 [7 7 7 7 7 7 7 7 7]
 [8 8 8 8 8 8 8 8 8]]


#### mean(): 평균 계산

In [98]:
print(a2)
print(np.mean(a2))
print(np.mean(a2, axis = 0))
print(np.mean(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
5.444444444444445
[3.33333333 6.66666667 6.33333333]
[4.33333333 5.33333333 6.66666667]


#### std(): 표준 편차 계산

In [99]:
print(a2)
print(np.std(a2))
print(np.std(a2, axis = 0))
print(np.std(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
2.543449587168799
[1.69967317 2.05480467 2.3570226 ]
[3.39934634 1.88561808 1.24721913]


#### var(): 분산 계산

In [100]:
print(a2)
print(np.var(a2))
print(np.var(a2, axis = 0))
print(np.var(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
6.469135802469135
[2.88888889 4.22222222 5.55555556]
[11.55555556  3.55555556  1.55555556]


#### min(): 최소값

In [101]:
print(a2)
print(np.min(a2))
print(np.min(a2, axis = 0))
print(np.min(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
1
[1 4 3]
[1 4 5]


#### max(): 최대값

In [102]:
print(a2)
print(np.max(a2))
print(np.max(a2, axis = 0))
print(np.max(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
9
[5 9 8]
[9 8 8]


#### argmin(): 최소값 인덱스

In [103]:
print(a2)
print(np.argmin(a2))
print(np.argmin(a2, axis = 0))
print(np.argmin(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
0
[0 1 0]
[0 0 0]


#### argmax(): 최대값 인덱스

In [104]:
print(a2)
print(np.argmax(a2))
print(np.argmax(a2, axis = 0))
print(np.argmax(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
1
[2 0 1]
[1 2 2]


#### median(): 중앙값

In [105]:
print(a2)
print(np.median(a2))
print(np.median(a2, axis = 0))
print(np.median(a2, axis = 1))

[[1 9 3]
 [4 4 8]
 [5 7 8]]
5.0
[4. 7. 8.]
[3. 4. 7.]


#### percentile(): 백분위 수



![image.png](attachment:eb48ed41-4287-4f14-81fc-c4b4df5dd631.png)

In [109]:
a1 = np.array([0, 1, 2, 3])
print(a1)
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation = 'linear'))
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation = 'higher'))
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation = 'lower'))
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation = 'nearest'))
print(np.percentile(a1, [0, 20, 40, 60, 80, 100], interpolation = 'midpoint'))

[0 1 2 3]
[0.  0.6 1.2 1.8 2.4 3. ]
[0 1 2 2 3 3]
[0 0 1 1 2 3]
[0 1 1 2 2 3]
[0.  0.5 1.5 1.5 2.5 3. ]


#### any() 
- 하나라도 True면 True

In [111]:
a2 = np.array([[False, False, False], 
              [False, True, True], 
              [False, True, True]])
print(a2)
print(np.any(a2))
print(np.any(a2, axis = 0))
print(np.any(a2, axis = 1))

[[False False False]
 [False  True  True]
 [False  True  True]]
True
[False  True  True]
[False  True  True]


#### all()
- 다 True여야 True

In [113]:
a2 = np.array([[False, False, True], 
              [True, True, True], 
              [False, True, True]])
print(a2)
print(np.all(a2))
print(np.all(a2, axis = 0))
print(np.all(a2, axis = 1))

[[False False  True]
 [ True  True  True]
 [False  True  True]]
False
[False False  True]
[False  True False]


### 비교 연산(Comparison Operators)


In [114]:
a1 = np.arange(1, 10)
print(a1)
print(a1 == 5)

[1 2 3 4 5 6 7 8 9]
[False False False False  True False False False False]


In [119]:
a2 = np.arange(1, 10).reshape(3, 3)
print(a2)
print(np.sum(a2))
print(np.count_nonzero(a2 > 5))
print(np.sum(a2 > 5))
print(np.sum(a2 > 5, axis = 0))
print(np.sum(a2 > 5, axis = 1))

[[1 2 3]
 [4 5 6]
 [7 8 9]]
45
4
4
[1 1 2]
[0 1 3]


|비교 함수|설명|
|--|--|
|`np.isclose`|배열 두 개가 (z*1e+02)% 내외로 가까우면 True|
|`np.isinf`|배열이 inf이면 True|
|`np.isfinite` | 배열이 inf, nan이면 False|
|`np.isnan` | 배열이 nan이면 True|

In [124]:
a1 = np.array([1, 2, 3, 4, 5])
print(a1)
b1 = np.array([1, 2, 3, 3, 4])
print(b1)
print(np.isclose(a1, b1))

[1 2 3 4 5]
[1 2 3 3 4]
[ True  True  True False False]


In [128]:
a1 = np.array([np.nan, 2, np.inf, 4, np.NINF])
print(a1)
print(np.isnan(a1))
print(np.isinf(a1))
print(np.isfinite(a1))

[ nan   2.  inf   4. -inf]
[ True False False False False]
[False False  True False  True]
[False  True False  True False]


#### 불리언 연산자(Boolean Operators)


In [132]:
a2 = np.arange(1, 10).reshape(3, 3)
print(a2)
print((a2 > 5) & (a2 < 8))
print(a2[(a2 > 5) & (a2 < 8)])
# | : or
# ^ : xor
# ~ : npt

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False False False]
 [False False  True]
 [ True False False]]
[6 7]


### 배열 정렬

In [137]:
a1 = np.random.randint(1, 10, size = 10)
print(a1)
print(np.sort(a1))
print(a1)
print(np.argsort(a1))
print(a1)
a1.sort()
print(a1)

[7 5 8 6 5 4 9 7 8 2]
[2 4 5 5 6 7 7 8 8 9]
[7 5 8 6 5 4 9 7 8 2]
[9 5 1 4 3 0 7 2 8 6]
[7 5 8 6 5 4 9 7 8 2]
[2 4 5 5 6 7 7 8 8 9]


In [139]:
a2 = np.random.randint(1, 10, size = (3, 3))
print(a2)
print(np.sort(a2, axis = 0))
print(np.sort(a2, axis = 1))

[[8 3 7]
 [1 9 1]
 [4 4 2]]
[[1 3 1]
 [4 4 2]
 [8 9 7]]
[[3 7 8]
 [1 1 9]
 [2 4 4]]


#### 부분 정렬

* `partition()`: 배열에서 k개의 작은 값을 반환

In [142]:
a1 = np.random.randint(1, 10, 10)
print(a1)
print(np.partition(a1, 3))

[7 2 7 4 8 9 4 1 9 4]
[1 2 4 4 4 7 9 7 9 8]


## 배열 입출력


|함수|설명|파일종류|
|--|--|--|
|`np.save()`|NumPy 배열 객체 1개를 파일에 저장|바이너리|
|`np.savez()`|NumPy 배열 객체 여러 개를 파일에 저장|바이너리|
|`np.load()`|NumPy 배열 저장 파일로부터 객체 로딩|바이너리|
|`np.loadtxt()`|텍스트 파일로부터 배열 로딩|텍스트|
|`np.savetxt()`|텍스트 파일에 NumPy 배열 객체 저장|텍스트|

In [143]:
a2 = np.random.randint(1, 10, size = (5, 5))
print(a2)
np.save("a", a2)

[[3 3 3 9 2]
 [1 8 9 3 6]
 [5 6 1 4 8]
 [9 1 4 1 7]
 [4 2 5 2 2]]


In [146]:
b2 = np.random.randint(1, 10, size = (5, 5))
print(b2)
np.savez("ab", a2, b2)

[[1 6 5 4 2]
 [1 6 7 3 3]
 [5 7 5 7 5]
 [4 9 3 5 7]
 [4 7 6 6 1]]


In [147]:
npy = np.load("a.npy")
print(npy)

[[3 3 3 9 2]
 [1 8 9 3 6]
 [5 6 1 4 8]
 [9 1 4 1 7]
 [4 2 5 2 2]]


In [149]:
npz = np.load("ab.npz")
print(npz.files)
print(npz['arr_0'])
print(npz['arr_1'])

['arr_0', 'arr_1']
[[3 3 3 9 2]
 [1 8 9 3 6]
 [5 6 1 4 8]
 [9 1 4 1 7]
 [4 2 5 2 2]]
[[1 6 5 4 2]
 [1 6 7 3 3]
 [5 7 5 7 5]
 [4 9 3 5 7]
 [4 7 6 6 1]]


In [150]:
print(a2)
np.savetxt("a.csv", a2, delimiter = ',')

[[3 3 3 9 2]
 [1 8 9 3 6]
 [5 6 1 4 8]
 [9 1 4 1 7]
 [4 2 5 2 2]]


In [152]:
csv = np.loadtxt("a.csv", delimiter = ',')
print(csv)

[[3. 3. 3. 9. 2.]
 [1. 8. 9. 3. 6.]
 [5. 6. 1. 4. 8.]
 [9. 1. 4. 1. 7.]
 [4. 2. 5. 2. 2.]]


In [153]:
%ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 2E6B-7B15

 C:\Users\user\Documents\Data-Science\Data Analysis 디렉터리

2021-09-30  오후 06:30    <DIR>          .
2021-09-30  오후 06:30    <DIR>          ..
2021-09-29  오후 07:44    <DIR>          .ipynb_checkpoints
2021-09-30  오후 06:29               630 a.csv
2021-09-30  오후 06:24               228 a.npy
2021-09-30  오후 06:26               706 ab.npz
2021-09-28  오후 02:10            40,674 Data Analysis.ipynb
2021-09-30  오후 06:30           114,359 NumPy.ipynb
2021-09-29  오후 07:44            36,830 NumPy_exercise.ipynb
               6개 파일             193,427 바이트
               3개 디렉터리  208,482,263,040 바이트 남음


# 미분관련 : sympy
- `import sympy as sym`
- `from sympy.abc import x`
- `sym.poly` 함수는 함수식을 정의해줍니다.
- `sym.subs` 함수는 변수를 다른변수로 치환하거나 값을 대입해줍니다.
- `sym.diff` 함수는 도함수를 구해줍니다.

In [4]:
# poly
import sympy as sym
from sympy.abc import x

f = sym.poly(x**2 + 2*x + 3)
f

Poly(x**2 + 2*x + 3, x, domain='ZZ')

In [5]:
# subs
f.subs(x, 3)  # x에 3 대입

18

In [9]:
# diff
#sym.diff(f, x)
diff = sym.diff(f)
print(diff)  # 미분식
print(diff.subs(x, 3))  # 미분 값

Poly(2*x + 2, x, domain='ZZ')
8




---

