<a href="https://colab.research.google.com/github/juhee3199/Data-Analysis/blob/main/Data_Handling/_NumPy_%ED%95%9C%EB%B2%88%EC%97%90_%EC%A0%9C%EB%8C%80%EB%A1%9C_%EB%B0%B0%EC%9A%B0%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NumPy 한번에 제대로 배우기



---



## NumPy 특징

* Numerical Python의 약자
* 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
* 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
* 정교한 브로드캐스팅(broadcasting) 기능
* 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
* 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
* 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음

In [2]:
import numpy as np
np.__version__

'1.21.5'



---



## 1. 배열 생성

### 리스트로 배열 만들기


In [5]:
# 1D array
a1 = np.array([1,2,3,4,5])
print(a1)
print(type(a1))
print(a1.shape)   # 5개의 element를 가진 1차원 배열

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)


리스트처럼 인덱스로 접근, 수정 가능

In [7]:
print(a1[0])

a1[0]=4
print(a1)

4
[4 2 3 4 5]


In [106]:
# 2D array

a2 = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(a2)
print(a2.shape)  # 3*3 array 생성

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)


In [12]:
a2[0,2]

3

In [15]:
# 3Darray

a3 = np.array([[[1,2,3], [4,5,6], [7,8,9]],
          [[1,2,3], [4,5,6], [7,8,9]],
          [[1,2,3], [4,5,6], [7,8,9]]])
print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


### 배열 생성 및 초기화

* `zeros()`: 모든 요소를 0으로 초기화

In [16]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* `ones()`: 모든 요소를 1로 초기화

In [17]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [18]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

* `full()`: 모든 요소를 지정한 값으로 초기화
    - full(shpae, 초기화할 지정 값)

In [19]:
np.full((3,3), 1.25)

array([[1.25, 1.25, 1.25],
       [1.25, 1.25, 1.25],
       [1.25, 1.25, 1.25]])

* `eye()`: 단위행렬(identity matrix) 생성
  + 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [21]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

* `tri()`: 삼각행렬 생성. 삼각 모양으로 1이 생성

In [22]:
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

* `empty()`: 초기화되지 않은 배열 생성
  + 초기화가 없어서 배열 생성비용 저렴하고 빠름
  + 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음
  + 그래서 어떤 값이 나올지 모름

In [23]:
np.empty(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

* `_like()`: 지정된 배열과 shape가 같은 행렬 생성
  + `np.zeros_like()`
  + `np.ones_like()`
  + `np.full_like()`
  + `np.empty_like()`

In [24]:
print(a1)
np.zeros_like(a1) # a1과 같은 shape의 0으로 채워진 배열

[4 2 3 4 5]


array([0, 0, 0, 0, 0])

In [25]:
print(a2)
np.ones_like(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [26]:
print(a3)
np.full_like(a3, 10)  # a3와 같은 shape의 10으로 채워진 배열

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

### 생성한 값으로 배열 생성

* `arange()`: 정수 범위로 배열 생성

In [27]:
np.arange(0, 30, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [28]:
np.arange(0, 30, 3)

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

* `linspace()`: 범위 내에서 균등 간격의 배열 생성

In [29]:
np.linspace(0, 1, 5)  # 0~1 사이를 균등하게 5개로 나누기

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

* `logspace()`: 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [30]:
np.logspace(0.1, 1, 20)  # 0.1~1 사이를 균등하게 20개의 로그 스케일로 나누기

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

### 랜덤값으로 배열 생성


* `random.random()`: 랜덤한 수의 배열 생성

In [31]:
np.random.random((3,3))  # 3*3 shape의 실수 값으로 채워진 배열

array([[0.12905439, 0.94119788, 0.78045009],
       [0.28525939, 0.53084837, 0.49496821],
       [0.87894093, 0.8642912 , 0.46046367]])

* `random.randint()`: 일정 구간의 랜덤 정수의 배열 생성

In [34]:
np.random.randint(0, 10, (3,3))  # 정수 랜덤

array([[8, 3, 4],
       [3, 9, 9],
       [6, 4, 0]])

* `random.normal()`: 정규분포(normal distribution)를 고려한 랜덤한 수의 배열 생성
* 평균=0, 표준편차=1, 3 x 3 배열

In [35]:
np.random.normal(0, 1, (3,3))

array([[ 0.66482325, -0.16226699, -0.69875393],
       [-0.40298559,  0.51471147, -0.76737843],
       [ 0.99397916, -0.60403124, -0.19612661]])

* `random.rand()`: 균등분포(uniform distribution)를 고려한 랜덤한 수의 배열 생성

In [36]:
np.random.rand(3,3)

array([[0.45386426, 0.28500709, 0.74442084],
       [0.68218959, 0.67106396, 0.99245481],
       [0.65760158, 0.21201783, 0.11192793]])

* `random.randn()`: 표준 정규 분포(standard normal distribution)를 고려한 랜덤한 수의 배열 생성

In [37]:
np.random.randn(3,3)

array([[ 0.30162145,  0.22965299,  0.2457151 ],
       [-0.71752739,  0.40312985, -1.06699227],
       [ 0.59085702,  0.33616027,  0.97218205]])

### 표준 데이터 타입

In [38]:
np.zeros(20, dtype=int)  # dtype이 int인 0으로 채워진 배열

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [40]:
np.zeros((3,3), dtype=bool)  # 0 = False 이므로

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

In [39]:
np.ones((3,3), dtype=bool)  # 1 = True

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [41]:
np.full((3,3), 1.0, dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

### 날짜/시간 배열 생성


문자열로 배열을 만들었지만, dtype을 datetime으로 줌으로써 날짜 표현 가능

In [42]:
date = np.array('2020-01-01', dtype = np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [44]:
date + np.arange(12)  # date인 기존 날짜에 arange 각각을 더해줌

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [46]:
# 시간 표현

datetime = np.datetime64('2020-06-01 12:00')
datetime

numpy.datetime64('2020-06-01T12:00')

In [47]:
# 나노 초 표현
datetime = np.datetime64('2020-06-01 12:00:12.34', 'ns')
datetime

numpy.datetime64('2020-06-01T12:00:12.340000000')



---



## 2. 배열 조회

### 배열 속성 정보

In [55]:
# 배열 속성 정보를 출력하는 함수
def array_info(array):
  print(array)
  print("ndim: ", array.ndim)
  print("shape: ", array.shape)
  print("dtype: ", array.dtype)
  print("size: ", array.size)  # element 개수
  print("itemsize: ", array.itemsize) # 하나의 아이템이 가지는 사이즈 8byte=int 64bit
  print("nbytes: ", array.nbytes)     # 전체 배열의 바이트 크기.  8*5=40   size * itemsize  
  print("strides: ", array.strides)   # 다음 차원으로 넘어가기 위해서 필요한 바이트

In [57]:
array_info(a1)

[4 2 3 4 5]
ndim:  1
shape:  (5,)
dtype:  int64
size:  5
itemsize:  8
nbytes:  40
strides:  (8,)


In [58]:
array_info(a2)    # 다음 차원으로 넘어갈 때 24byte가 필요  3*8=24byte

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim:  2
shape:  (3, 3)
dtype:  int64
size:  9
itemsize:  8
nbytes:  72
strides:  (24, 8)


In [59]:
array_info(a3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
ndim:  3
shape:  (3, 3, 3)
dtype:  int64
size:  27
itemsize:  8
nbytes:  216
strides:  (72, 24, 8)


### 인덱싱(Indexing)

In [62]:
print(a1)
print(a1[0])
print(a1[-1])

[4 2 3 4 5]
4
5


In [63]:
print(a2)
print(a2[0, 0])
print(a2[2, -1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
9


In [66]:
print(a3)
print(a3[0, 0, 0])
print(a3[2, -1, -1])

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
1
9


### 슬라이싱(Slicing)

* 슬라이싱 구문: `a[start:stop:step]`
* 기본값: start=0, stop=ndim, step=1

In [67]:
print(a1)
print(a1[0:2])
print(a1[0:])
print(a1[:1])
print(a1[::2])  # step=1
print(a1[::-1]) # 역으로 접근.

[4 2 3 4 5]
[4 2]
[4 2 3 4 5]
[4]
[4 3 5]
[5 4 3 2 4]


In [74]:
print(a2)
print(a2[1], '\n')
print(a2[1, :], '\n')
print(a2[:2, :2], '\n')
print(a2[:2, ::2], '\n')
print(a2[1:, ::2], '\n')  # step=1
print(a2[1:, ::-1], '\n')  # 역으로 접근.
print(a2[::-1, ::-1], '\n') 

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[4 5 6] 

[4 5 6] 

[[1 2]
 [4 5]] 

[[1 3]
 [4 6]] 

[[4 6]
 [7 9]] 

[[6 5 4]
 [9 8 7]] 

[[9 8 7]
 [6 5 4]
 [3 2 1]] 



### 불리언 인덱싱(Boolean Indexing)

* 배열 각 요소의 선택 여부를 불리언(True or False)로 지정
* True 값인 인덱스의 값만 조회

In [76]:
print(a1)
bi = [False, True, True, False, True]
print(a1[bi])

bi = [True, False, True, True, False]
print(a1[bi])

[4 2 3 4 5]
[2 3 5]
[4 3 4]


In [77]:
print(a2)
bi = np.random.randint(0, 2, (3,3), dtype=bool) # 랜덤으로 True, False가 생성되도록 
print(bi)
print(a2[bi])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False  True False]
 [False False  True]
 [False False False]]
[2 6]


### 팬시 인덱싱(Fancy Indedxing)
- 인덱스를 묶어서 전달해주면 해당 인덱스의 값만 출력
- 인덱스에 따라 결과의 shape이 결정됌

In [79]:
print(a1)
print([a1[0], a1[2]])

ind = [0, 2]
print(a1[ind])

[4 2 3 4 5]
[4, 3]
[4 3]


In [81]:
# 1차원 배열이지만 2차원 인덱스를 주었기 때문에 2차원 배열 형태로 출력됌

ind = np.array([[0,1],
                [2,0]])

print(a1[ind])

[[4 2]
 [3 4]]


In [85]:
print(a2, '\n')
row = np.array([0, 2])
col = np.array([1, 2])
print(a2[row, col], '\n')

print(a2[row, :], '\n')
print(a2[:, col], '\n')
print(a2[row, 1], '\n')
print(a2[2, col], '\n')
print(a2[row, 1:], '\n')
print(a2[1:, col], '\n')

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

[2 9] 

[[1 2 3]
 [7 8 9]] 

[[2 3]
 [5 6]
 [8 9]] 

[2 8] 

[8 9] 

[[2 3]
 [8 9]] 

[[5 6]
 [8 9]] 





---



## 3. 배열 값 삽입/수정/삭제/복사

### 배열 값 삽입

* `insert()`: 배열의 특정 위치에 값 삽입
* axis를 지정하지 않으면 1차원 배열로 변환
* 추가할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [86]:
print(a1)
b1 = np.insert(a1, 0, 10)  # a1의 0번째에 10을 넣기
print(b1)  
print(a1)

# 원본 배열은 그대로. 새로운 배열을 반환함

[4 2 3 4 5]
[10  4  2  3  4  5]
[4 2 3 4 5]


In [89]:
print(a2, '\n')
b2 = np.insert(a2, 1, 10, axis=0)  # 2차원 배열이므로 축 지정.  axis 0 은 row
print(b2, '\n')

c2 = np.insert(a2, 1, 10, axis=1) # axis=1 = col
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]] 

[[ 1 10  2  3]
 [ 4 10  5  6]
 [ 7 10  8  9]]


### 배열 값 수정

* 배열의 인덱싱으로 접근하여 값 수정

In [90]:
print(a1)
a1[0] = 1
a1[1] = 2
print(a1)

[4 2 3 4 5]
[1 2 3 4 5]


In [97]:
# 슬라이싱
print(a1)
a1[:2] = 9
print(a1)

[1 2 3 4 5]
[9 9 3 4 5]


In [99]:
i = np.array([1,3,4])  # 지정된 index의 값을 0으로
a1[i] = 0
print(a1)

[9 0 3 0 0]


In [100]:
a1[i]+=4
print(a1)

[9 4 3 4 4]


In [107]:
print(a2, '\n')
a2[0, 0] = 1
a2[1, 1] = 2
a2[2, 2] = 3
print(a2, '\n')  

a2[0] = 1      # 0번째 row를 모두 1로
print(a2, '\n')

a2[1:, 2] = 9
print(a2, '\n')

row = np.array([0,1])
col = np.array([1,2])
a2[row, col] = 0
print(a2, '\n')

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

[[1 2 3]
 [4 2 6]
 [7 8 3]] 

[[1 1 1]
 [4 2 6]
 [7 8 3]] 

[[1 1 1]
 [4 2 9]
 [7 8 9]] 

[[1 0 1]
 [4 2 0]
 [7 8 9]] 



### 배열 값 삭제

* `delete()`: 배열의 특정 위치에 값 삭제
* axis를 지정하지 않으면 1차원 배열로 변환
* 삭제할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [109]:
print(a1)
b1 = np.delete(a1, 1)
print(b1)
print(a1)

[9 4 3 4 4]
[9 3 4 4]
[9 4 3 4 4]


In [112]:
print(a2, '\n')
b2 = np.delete(a2, 1, axis=0)
print(b2, '\n')
print(a2, '\n')

[[1 0 1]
 [4 2 0]
 [7 8 9]] 

[[1 0 1]
 [7 8 9]] 

[[1 0 1]
 [4 2 0]
 [7 8 9]] 



### 배열 복사

* 리스트에서 슬라이스를 통한 복사는 원본과 다른 복사본.
* 반면 numpy 배열의 슬라이스는 원본 배열과 같음. (복사본의 값 수정 시, 원본도 수정됌)

In [117]:
print(a2)
print(a2[:2, :2], '\n')

# 복사
a2_sub = a2[:2, :2] 
print(a2_sub, '\n')
a2_sub[:, 1] = 0    # 1열을 전부 0으로 변경
print(a2_sub, '\n')
print(a2)          # 원본 배열도 변경됌

[[1 0 1]
 [4 0 0]
 [7 8 9]]
[[1 0]
 [4 0]] 

[[1 0]
 [4 0]] 

[[1 0]
 [4 0]] 

[[1 0 1]
 [4 0 0]
 [7 8 9]]



* `copy()`: 배열이나 하위 배열 내의 값을 명시적으로 복사

In [119]:
print(a2, '\n')
a2_sub_copy = a2[:2, :2].copy()
print(a2_sub_copy, '\n')  # 원본 카피

a2_sub_copy[:, 1] = 1
print(a2_sub_copy, '\n')  # 수정
print(a2, '\n')  # 원본은 수정되지 않음

[[1 0 1]
 [4 0 0]
 [7 8 9]] 

[[1 0]
 [4 0]] 

[[1 1]
 [4 1]] 

[[1 0 1]
 [4 0 0]
 [7 8 9]] 





---



##4. 배열 변환

### 배열 전치 및 축 변경

### 배열 재구조화


* `reshape()`: 배열의 형상을 변경

* `newaxis()`: 새로운 축 추가

### 배열 크기 변경

* 배열 모양만 변경

* 배열 크기 증가
* 남은 공간은 0으로 채워짐

* 배열 크기 감소
* 포함되지 않은 값은 삭제됨

### 배열 추가

* `append()`: 배열의 끝에 값 추가

* axis 지정이 없으면 1차원 배열 형태로 변형되어 결합

* axis를 0으로 지정
* shape[0]을 제외한 나머지 shape은 같아야 함

* axis를 1로 지정
* shape[1]을 제외한 나머지 shape은 같아야 함

### 배열 연결

* `concatenate()`: 튜플이나 배열의 리스트를 인수로 사용해 배열 연결

* `vstack()`: 수직 스택(vertical stack), 1차원으로 연결

* `hstack()`: 수평 스택(horizontal stack), 2차원으로 연결

* `dstack()`: 깊이 스택(depth stack), 3차원으로 연결

* `stack()`: 새로운 차원으로 연결

### 배열 분할

* `split()`: 배열 분할

* `vsplit()`: 수직 분할, 1차원으로 분할

* `hsplit()`: 수평 분할, 2차원으로 분할

* `dsplit()`: 깊이 분할, 3차원으로 분할



---



## 배열 연산

* NumPy의 배열 연산은 벡터화(vectorized) 연산을 사용
* 일반적으로 NumPy의 범용 함수(universal functions)를 통해 구현
* 배열 요소에 대한 반복적인 계산을 효율적으로 수행

### 브로드캐스팅(Broadcasting)

### 산술 연산(Arithmetic Operators)

#### 절대값 함수(Absolute Function)

* `absolute()`, `abs()`: 내장된 절대값 함수

#### 제곱/제곱근 함수

* `square`, `sqrt`: 제곱, 제곱근 함수

#### 지수와 로그 함수 (Exponential and Log Function)

#### 삼각 함수(Trigonometrical Function)


### 집계 함수(Aggregate Functions)

#### sum(): 합 계산

#### cumsum(): 누적합 계산

#### diff(): 차분 계산

#### prod(): 곱 계산

#### cumprod(): 누적곱 계산

#### dot()/matmul(): 점곱/행렬곱 계산

#### tensordot(): 텐서곱 계산

#### cross(): 벡터곱

#### inner()/outer(): 내적/외적

#### mean(): 평균 계산

#### std(): 표준 편차 계산

#### var(): 분산 계산

#### min(): 최소값

#### max(): 최대값

#### argmin(): 최소값 인덱스

#### argmax(): 최대값 인덱스

#### median(): 중앙값

#### percentile(): 백분위 수



#### any()

#### all()

### 비교 연산(Comparison Operators)


#### 불리언 연산자(Boolean Operators)


### 배열 정렬

#### 부분 정렬

* `partition()`: 배열에서 k개의 작은 값을 반환

## 배열 입출력


sample_data




---

