# NumPy 한번에 제대로 배우기



---



## NumPy 특징

* Numerical Python의 약자
* 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
* 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
* 정교한 브로드캐스팅(broadcasting) 기능
* 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
* 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
* 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음



---



## 배열 생성

### 리스트로 배열 만들기


In [None]:
import numpy as np

In [38]:
a1 = np.array([1,2,3,4,5])

In [None]:
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0],a1[1])

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2


In [39]:
a2 = np.array([[1,2,3],[4,5,6]])
print(type(a2))
print(a2.shape)
print(a2[0],a2[1])
print(a2[0][0])

<class 'numpy.ndarray'>
(2, 3)
[1 2 3] [4 5 6]
1


In [40]:
a3 = np.array([[[0,1,2],[3,4,5],[6,7,8]],[[9,10,11],[12,13,14],[15,16,17]],[[18,19,20],[21,22,23],[24,25,26]]])
print(a3)
print(type(a3))
print(a3.shape)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]
<class 'numpy.ndarray'>
(3, 3, 3)


### 배열 생성 및 초기화

* `zeros()`: 모든 요소를 0으로 초기화

In [None]:
# 2행, 3열, 데이터타입은 실수
print(np.zeros([2,3],dtype=float))

# 데이터타입 정수형
print(np.zeros([2,3],dtype=int))

[[0. 0. 0.]
 [0. 0. 0.]]
[[0 0 0]
 [0 0 0]]


* `ones()`: 모든 요소를 1로 초기화

In [None]:
np.ones([3,3],dtype=int)

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

* `full()`: 모든 요소를 지정한 값으로 초기화

In [None]:
# 두번째 인자로 초기화
np.full([3,2],0)

array([[0, 0],
       [0, 0],
       [0, 0]])

* `eye()`: 단위행렬(identity matrix) 생성
  + 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [None]:
np.eye(3,dtype=int)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

* `tri()`: 삼각행렬 생성

In [None]:
np.tri(3,3,dtype=int)

array([[1, 0, 0],
       [1, 1, 0],
       [1, 1, 1]])

* `empty()`: 초기화되지 않은 배열 생성
  + 초기화가 없어서 배열 생성비용 저렴하고 빠름
  + 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [None]:
np.empty([2,3])
np.empty([3,2])

array([[4.67933055e-310, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000]])

* `_like()`: 지정된 배열과 shape가 같은 행렬 생성
  + `np.zeros_like()`
  + `np.ones_like()`
  + `np.full_like()`
  + `np.empty_like()`

In [None]:
np.zeros_like(a1)

array([0, 0, 0, 0, 0])

In [None]:
np.ones_like(a2)

array([[1, 1, 1],
       [1, 1, 1]])

In [None]:
np.full_like(a3,1)

array([[[1, 1, 1],
        [1, 1, 1],
        [1, 1, 1]],

       [[1, 1, 1],
        [1, 1, 1],
        [1, 1, 1]],

       [[1, 1, 1],
        [1, 1, 1],
        [1, 1, 1]]])

In [None]:
np.empty_like(a2)

array([[94710704755968,              0,              0],
       [             0,              0,              0]])

### 생성한 값으로 배열 생성

In [3]:
import numpy as np


* `arange()`: 정수 범위로 배열 생성

In [4]:
np.arange(0,30,2)
# 0~ 30, step = 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

* `linspace()`: 범위 내에서 균등 간격의 배열 생성

In [5]:
np.linspace(0.1,1,20)
# 0.1 부터 1까지 균등 간격으로 20개

array([0.1       , 0.14736842, 0.19473684, 0.24210526, 0.28947368,
       0.33684211, 0.38421053, 0.43157895, 0.47894737, 0.52631579,
       0.57368421, 0.62105263, 0.66842105, 0.71578947, 0.76315789,
       0.81052632, 0.85789474, 0.90526316, 0.95263158, 1.        ])

* `logspace()`: 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [6]:
np.logspace(0.1,1,20)

# log10 = 1

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

### 랜덤값으로 배열 생성


* `random.random()`: 랜덤한 수의 배열 생성

In [7]:
np.random.random((3,3))
# 3x3 배열에 랜덤한 수로 생성

array([[0.99089504, 0.30916001, 0.16702613],
       [0.34241742, 0.76602092, 0.15496769],
       [0.38425186, 0.87457514, 0.29866823]])

* `random.randint()`: 일정 구간의 랜덤 정수의 배열 생성

In [10]:
np.random.randint(0,10,(2,2))
# 0~10 까지 랜덤, 2x2 배열

array([[3, 6],
       [3, 7]])

* `random.normal()`: 정규분포(normal distribution)를 고려한 랜덤한 수의 배열 생성
* 평균=0, 표준편차=1, 3 x 3 배열

In [12]:
np.random.normal(0,1,(3,3))

array([[-1.8097397 ,  0.18201643,  1.28225378],
       [ 0.33426054, -1.52961161,  0.89005022],
       [ 1.06228019,  0.39731502,  1.28701353]])

* `random.rand()`: 균등분포(uniform distribution)를 고려한 랜덤한 수의 배열 생성

In [13]:
np.random.rand(3,3)

array([[0.6364804 , 0.97491006, 0.84471278],
       [0.68374057, 0.74368412, 0.65909612],
       [0.12237678, 0.21111572, 0.14691861]])

* `random.randn()`: 표준 정규 분포(standard normal distribution)를 고려한 랜덤한 수의 배열 생성

In [14]:
np.random.randn(3,3)

array([[ 0.24904007,  0.00412394,  0.18956459],
       [-1.59188537,  1.00040969,  0.28515766],
       [ 2.27774093, -1.27971721,  0.64313667]])

### 표준 데이터 타입

In [15]:
np.zeros(20,dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [17]:
np.ones(20,dtype=bool)

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True])

In [20]:
np.full((3,3),1.0,dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

### 날짜/시간 배열 생성


In [25]:
date = np.array('2020-01-01',dtype=np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [27]:
date + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [29]:
datetime = np.datetime64('2020-06-01 12:00')
datetime

numpy.datetime64('2020-06-01T12:00')

In [33]:
datetime = np.datetime64('2020-06-01 12:00:12.34','ns')
datetime

numpy.datetime64('2020-06-01T12:00:12.340000000')



---



## 배열 조회

### 배열 속성 정보

In [34]:
def array_info(array):
    print(array)
    print("ndim : ",array.ndim)
    print("shape : ",array.shape)
    print("dtype : ",array.dtype)
    print("size : ", array.size)
    print("itemsize : ",array.itemsize)
    print("nbytes : ",array.nbytes)
    print("strides : ",array.strides)

In [37]:
a1 = np.array([4,5,6,7,8])
array_info(a1)

[4 5 6 7 8]
ndim :  1
shape :  (5,)
dtype :  int64
size :  5
itemsize :  8
nbytes :  40
strides :  (8,)


In [41]:
array_info(a2)

[[1 2 3]
 [4 5 6]]
ndim :  2
shape :  (2, 3)
dtype :  int64
size :  6
itemsize :  8
nbytes :  48
strides :  (24, 8)


In [42]:
array_info(a3)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]
ndim :  3
shape :  (3, 3, 3)
dtype :  int64
size :  27
itemsize :  8
nbytes :  216
strides :  (72, 24, 8)


### 인덱싱(Indexing)

In [44]:
print(a1)
print(a1[0])
print(a1[2])

[1 2 3 4 5]
1
3


In [48]:
print(a2)
print(a2[0,0])
print(a2[0,2])
print(a2[1,-1])

[[1 2 3]
 [4 5 6]]
1
3
6


In [50]:
print(a3)
print(a3[0,0,0])
print(a3[2,-1,-1])

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]
0
26


### 슬라이싱(Slicing)

* 슬라이싱 구문: `a[start:stop:step]`
* 기본값: start=0, stop=ndim, step=1

In [53]:
print(a1)
print(a1[0:2])
print(a1[::2])
print(a1[::-1])

[1 2 3 4 5]
[1 2]
[1 3 5]
[5 4 3 2 1]


In [58]:
print(a2)
print(a2[1])
print(a2[1,:])
print()
print(a2[:2,:2])
print()
print(a2[1:,::-1])
print()
print(a2[::-1,::-1])

[[1 2 3]
 [4 5 6]]
[4 5 6]
[4 5 6]

[[1 2]
 [4 5]]

[[6 5 4]]

[[6 5 4]
 [3 2 1]]


### 불리언 인덱싱(Boolean Indexing)

* 배열 각 요소의 선택 여부를 불리언(True or False)로 지정
* True 값인 인덱스의 값만 조회

In [59]:
print(a1)
bi = [False,True,True,False,True]
print(a1[bi])

[1 2 3 4 5]
[2 3 5]


In [62]:
a2
b2 = np.array([[False,True,True],[False,True,True]])
print(a2[b2])

[2 3 5 6]


### 팬시 인덱싱(Fancy Indedxing)

In [65]:
rand = np.random.RandomState(42)
x= rand.randint(100, size=10)
print(x)

[51 92 14 71 60 20 82 86 74 74]


In [74]:
print(a1)
print(a1[0],a1[2])
ind = [0,2]
print(a1[ind])
print()
ind = np.array([[0,1],[2,0]])
print(a1[ind])

[1 2 3 4 5]
1 3
[1 3]

[[1 2]
 [3 1]]


In [77]:
print(a2)
row = np.array([0,1])
col = np.array([1,1])
print(a2[row,col])

[[1 2 3]
 [4 5 6]]
[2 5]




---



## 배열 값 삽입/수정/삭제/복사

### 배열 값 삽입

* `insert()`: 배열의 특정 위치에 값 삽입
* axis를 지정하지 않으면 1차원 배열로 변환
* 추가할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

In [78]:
b1 = np.insert(a1,2,100)
b1

array([  1,   2, 100,   3,   4,   5])

In [84]:
print(a2)
b2 = np.insert(a2,0,10,axis=1)
print(b2)

[[1 2 3]
 [4 5 6]]
[[10  1  2  3]
 [10  4  5  6]]


### 배열 값 수정

* 배열의 인덱싱으로 접근하여 값 수정

### 배열 값 삭제

* `delete()`: 배열의 특정 위치에 값 삭제
* axis를 지정하지 않으면 1차원 배열로 변환
* 삭제할 방향을 axis로 지정
* 원본 배열 변경없이 새로운 배열 반환

### 배열 복사

* 리스트 자료형과 달리 배열의 슬라이스는 복사본이 아님


* `copy()`: 배열이나 하위 배열 내의 값을 명시적으로 복사



---



## 배열 변환

### 배열 전치 및 축 변경

### 배열 재구조화


* `reshape()`: 배열의 형상을 변경

* `newaxis()`: 새로운 축 추가

### 배열 크기 변경

* 배열 모양만 변경

* 배열 크기 증가
* 남은 공간은 0으로 채워짐

* 배열 크기 감소
* 포함되지 않은 값은 삭제됨

### 배열 추가

* `append()`: 배열의 끝에 값 추가

* axis 지정이 없으면 1차원 배열 형태로 변형되어 결합

* axis를 0으로 지정
* shape[0]을 제외한 나머지 shape은 같아야 함

* axis를 1로 지정
* shape[1]을 제외한 나머지 shape은 같아야 함

### 배열 연결

* `concatenate()`: 튜플이나 배열의 리스트를 인수로 사용해 배열 연결

* `vstack()`: 수직 스택(vertical stack), 1차원으로 연결

* `hstack()`: 수평 스택(horizontal stack), 2차원으로 연결

* `dstack()`: 깊이 스택(depth stack), 3차원으로 연결

* `stack()`: 새로운 차원으로 연결

### 배열 분할

* `split()`: 배열 분할

* `vsplit()`: 수직 분할, 1차원으로 분할

* `hsplit()`: 수평 분할, 2차원으로 분할

* `dsplit()`: 깊이 분할, 3차원으로 분할



---



## 배열 연산

* NumPy의 배열 연산은 벡터화(vectorized) 연산을 사용
* 일반적으로 NumPy의 범용 함수(universal functions)를 통해 구현
* 배열 요소에 대한 반복적인 계산을 효율적으로 수행

### 브로드캐스팅(Broadcasting)

### 산술 연산(Arithmetic Operators)

#### 절대값 함수(Absolute Function)

* `absolute()`, `abs()`: 내장된 절대값 함수

#### 제곱/제곱근 함수

* `square`, `sqrt`: 제곱, 제곱근 함수

#### 지수와 로그 함수 (Exponential and Log Function)

#### 삼각 함수(Trigonometrical Function)


### 집계 함수(Aggregate Functions)

#### sum(): 합 계산

#### cumsum(): 누적합 계산

#### diff(): 차분 계산

#### prod(): 곱 계산

#### cumprod(): 누적곱 계산

#### dot()/matmul(): 점곱/행렬곱 계산

#### tensordot(): 텐서곱 계산

#### cross(): 벡터곱

#### inner()/outer(): 내적/외적

#### mean(): 평균 계산

#### std(): 표준 편차 계산

#### var(): 분산 계산

#### min(): 최소값

#### max(): 최대값

#### argmin(): 최소값 인덱스

#### argmax(): 최대값 인덱스

#### median(): 중앙값

#### percentile(): 백분위 수



#### any()

#### all()

### 비교 연산(Comparison Operators)


#### 불리언 연산자(Boolean Operators)


### 배열 정렬

#### 부분 정렬

* `partition()`: 배열에서 k개의 작은 값을 반환

## 배열 입출력


sample_data




---

