NumPy 특징
- Numerical Python의 약자
- 고성능 과학 계산용 패키지로 강력한 N차원 배열 만들 수 있음
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너이다.
- 정교한 브로드캐스팅 기능이 있다.
- 파이썬의 리스트와 비슷하지만 더 빠르고 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 빠르게 처리 가능
- 데이터 과학 분야에서의 핵심 패키지 중 하나

In [1]:
import numpy as np
np.__version__

'1.20.3'

### 배열 생성
##### 리스트로 배열 만들기

In [2]:
# 1차원 배열

a1 = np.array([1, 2, 3, 4, 5])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0], a1[1], a1[2], a1[3], a1[4])

a1[0] = 4
a1[1] = 5
a1[2] = 6
print(a1)

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3 4 5
[4 5 6 4 5]


In [3]:
# 2차원 배열

a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(a2)
print(a2.shape)
print(a2[0,0], a2[1,1], a2[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 5 9


In [4]:
# 3차원 배열

a3 = np.array([ [[1,2,3],[4,5,6],[7,8,9]],
                [[1,2,3],[4,5,6],[7,8,9]],
                [[1,2,3],[4,5,6],[7,8,9]] ])
print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


##### 배열 생성 및 초기화

In [5]:
np.zeros(10)  # 0으로 초기화 된 10개의 요소를 갖는 배열 만들어 줌

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [6]:
np.ones(10)  # 1로 초기화 된 10개의 요소를 갖는 배열 만듬

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [7]:
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [8]:
np.full((3,3), 1.23)  # 모든 요소를 지정한 값으로 채워줌

array([[1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23]])

In [9]:
np.eye(3)  # 단위 행렬(주대각선 원소 모두 1이고 나머지 원소는 0인 정사각 행렬) 만들어줌, 인자로 size만 설정해주면 됨

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [10]:
np.tri(3)  # 삼각 행렬 생성

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

In [11]:
np.empty(10)  # 초기화되지 않은 배열 생성

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

- 초기화가 없으므로 배열 생성 비용 저렴하고 빠름
- 초기화되지 않아서, 배열이 할당된 위치에 이미 그 메모리에 있던 기존의 값들이 들어감

In [12]:
print(a1)
np.zeros_like(a1)

[4 5 6 4 5]


array([0, 0, 0, 0, 0])

In [13]:
print(a2)
np.ones_like(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [14]:
print(a3)
np.full_like(a3, 10)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

##### 생성한 값으로 배열 생성

In [15]:
np.arange(0, 30, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [16]:
np.linspace(0, 1, 5)  # 범위 내에서 균등 간격 배열

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [17]:
np.logspace(0.1, 1, 20)  # 범위 내에서 균등 간격으로 로그 스케일로 배열

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

##### 랜덤값으로 배열 생성

In [18]:
np.random.random((3, 3))

array([[0.66223403, 0.36775825, 0.90957026],
       [0.26507196, 0.92090899, 0.74002082],
       [0.49501448, 0.95383018, 0.48051876]])

In [19]:
np.random.randint(0, 10, (3, 3))  # 범위를 지정해주고, 사이즈도 지정, 정수 랜덤

array([[7, 6, 5],
       [1, 1, 1],
       [6, 2, 9]])

In [20]:
np.random.normal(0, 1, (3, 3))  # 정규분포를 고려한(?) 랜덤한 수의 배열 생성

array([[ 1.05802718,  0.87336263, -0.49507617],
       [ 0.71910099, -1.11525769,  1.77303925],
       [ 0.09240533, -0.24446086,  0.20358675]])

In [21]:
np.random.rand(3, 3)  # 균등 분포를 고려한 랜덤한 수의 배열 생성

array([[0.77036679, 0.37052957, 0.59437456],
       [0.70688296, 0.81078299, 0.93076051],
       [0.57946743, 0.45729792, 0.80120897]])

In [22]:
np.random.randn(3, 3)  # 표준 정규분포를 고려한 랜덤한 수의 배열 생성

array([[ 0.16911029, -1.28252273, -0.52377039],
       [ 0.90543862,  0.20259169,  0.70240742],
       [ 0.96950271, -1.0331306 ,  1.98307643]])

### 표준 데이터 타입

In [23]:
np.zeros(20, dtype = int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [24]:
np.ones((3, 3), dtype = bool)  # 1 또는 0으로 

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [25]:
np.full((3, 3), 1.0, dtype = float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

### 날짜/시간 배열 생성

In [26]:
date = np.array('2022-09-16', dtype = np.datetime64)
date

array('2022-09-16', dtype='datetime64[D]')

In [27]:
date + np.arange(12)

array(['2022-09-16', '2022-09-17', '2022-09-18', '2022-09-19',
       '2022-09-20', '2022-09-21', '2022-09-22', '2022-09-23',
       '2022-09-24', '2022-09-25', '2022-09-26', '2022-09-27'],
      dtype='datetime64[D]')

In [28]:
datetime = np.datetime64('2022-09-16 12:00')
datetime

numpy.datetime64('2022-09-16T12:00')

In [29]:
datetime = np.datetime64('2022-09-16 12:00:12.34', 'ns')
datetime

numpy.datetime64('2022-09-16T12:00:12.340000000')

In [30]:
print(datetime)

2022-09-16T12:00:12.340000000


In [31]:
type(datetime)

numpy.datetime64

### 배열 조회
##### 배열 속성 정보

In [32]:
def array_info(array):
    print(array)
    print("ndim:", array.ndim) # 몇 차원 인가
    print("shape:", array.shape)
    print("dtype:", array.dtype)
    print("size:", array.size)  # 원소 개수
    print("itemsize:", array.itemsize) # 각 하나의 아이템이 가지는 사이즈, 4 바이트
    print("nbytes:", array.nbytes)
    print("strides:", array.strides)  # 다음으로 넘어갈 때의 크기

In [33]:
array_info(a1)

[4 5 6 4 5]
ndim: 1
shape: (5,)
dtype: int32
size: 5
itemsize: 4
nbytes: 20
strides: (4,)


In [34]:
array_info(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim: 2
shape: (3, 3)
dtype: int32
size: 9
itemsize: 4
nbytes: 36
strides: (12, 4)


In [35]:
array_info(a3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
ndim: 3
shape: (3, 3, 3)
dtype: int32
size: 27
itemsize: 4
nbytes: 108
strides: (36, 12, 4)


### 인덱싱(indexing)

In [36]:
print(a1)
print(a1[0])
print(a1[2])
print(a1[-1])
print(a1[-2])

[4 5 6 4 5]
4
6
5
4


In [37]:
print(a2)
print(a2[0, 0])
print(a2[0, 2])
print(a2[1, 1])
print(a2[2, -1])   # [행, 열]

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
3
5
9


In [38]:
print(a3)
print(a3[0, 0, 0])
print(a3[1, 1, 1])
print(a3[2, 2, 2])
print(a3[2, -1, -1])

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
1
5
9
9


### 슬라이싱

In [39]:
print(a1)
print(a1[0:2])
print(a1[0:])
print(a1[:1])
print(a1[::2])
print(a1[::-1])  # step이 -1이면 뒤에서부터 역으로 출력

[4 5 6 4 5]
[4 5]
[4 5 6 4 5]
[4]
[4 6 5]
[5 4 6 5 4]


In [40]:
print(a2)
print(a2[1])
print(a2[1, :])
print(a2[:2, :2])
print(a2[1:, ::-1])
print(a2[::-1, ::-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[4 5 6]
[4 5 6]
[[1 2]
 [4 5]]
[[6 5 4]
 [9 8 7]]
[[9 8 7]
 [6 5 4]
 [3 2 1]]


### 불리언 인덱싱

In [41]:
print(a1)
bi = [False, True, True, False, True]
print(a1[bi])
bi = [True, False, True, True, False]
print(a1[bi])

[4 5 6 4 5]
[5 6 5]
[4 6 4]


In [42]:
print(a2)
bi = np.random.randint(0, 2, (3,3), dtype = bool)
print(bi)
print(a2[bi])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False False  True]
 [ True False False]
 [ True  True  True]]
[3 4 7 8 9]


### 팬시 인덱싱

In [43]:
print(a1)
print(a1[0], a1[2])
ind = [0, 2]
print(a1[ind])
ind = np.array([[0, 1],[2, 0]])
print(a1[ind])

[4 5 6 4 5]
4 6
[4 6]
[[4 5]
 [6 4]]


In [44]:
print(a2)
row = np.array([0, 2])
col = np.array([1, 2])
print(a2[row, col])
print(a2[row, :])
print(a2[:, col])
print(a2[row, 1])
print(a2[2, col])
print(a2[row, 1:])
print(a2[1:, col])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[2 9]
[[1 2 3]
 [7 8 9]]
[[2 3]
 [5 6]
 [8 9]]
[2 8]
[8 9]
[[2 3]
 [8 9]]
[[5 6]
 [8 9]]


### 배열 값 삽입/수정/ 삭제/복사

##### 배열 값 삽입

In [45]:
print(a1)

[4 5 6 4 5]


In [46]:
b1 = np.insert(a1, 0, 10)
print(b1)

[10  4  5  6  4  5]


In [47]:
print(a1)  # a1은 값이 바뀌지 않았다.

[4 5 6 4 5]


In [48]:
c1 = np.insert(a1, 2, 10)
print(c1)

[ 4  5 10  6  4  5]


In [49]:
print(a1)

[4 5 6 4 5]


In [50]:
print(a2)
b2 = np.insert(a2, 1, 10, axis = 0)   # 행 방향으로 삽입
print(b2)
c2 = np.insert(a2, 1, 10, axis = 1)   # 열 방향으로 삽입
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]
[[ 1 10  2  3]
 [ 4 10  5  6]
 [ 7 10  8  9]]


##### 배열 값 수정

In [51]:
print(a1)
a1[0] = 1
a1[1] = 2
a1[2] = 3
print(a1)

[4 5 6 4 5]
[1 2 3 4 5]


In [52]:
a1[:1] = 9
print(a1)

[9 2 3 4 5]


In [53]:
i = np.array([1, 3, 4])
a1[i] = 0
print(a1)

[9 0 3 0 0]


In [54]:
a1[i] += 4
print(a1)

[9 4 3 4 4]


In [55]:
print(a2)
a2[0, 0] = 1
a2[1, 1] = 2
a2[2, 2] = 3
a2[0] = 1  # 2차원 배열에서 인덱스 하나만 지정하면 전체 행에 대해서 수정이 된다.
print(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 1 1]
 [4 2 6]
 [7 8 3]]


In [56]:
a2[1:, 2] = 9
print(a2)

row = np.array([0, 1])
col = np.array([1, 2])
a2[row, col] = 0
print(a2)

[[1 1 1]
 [4 2 9]
 [7 8 9]]
[[1 0 1]
 [4 2 0]
 [7 8 9]]


##### 배열 값 삭제

In [57]:
print(a1)
b1 = np.delete(a1, 1)
print(b1)
print(a1)  # 이것도 원본 배열이 변경 X

[9 4 3 4 4]
[9 3 4 4]
[9 4 3 4 4]


In [58]:
print(a2)
b2 = np.delete(a2, 1, axis = 0)  # axis = 0 : 인덱스 1 행 삭제
print(b2)
c2 = np.delete(a2, 1, axis = 1)
print(c2)

[[1 0 1]
 [4 2 0]
 [7 8 9]]
[[1 0 1]
 [7 8 9]]
[[1 1]
 [4 0]
 [7 9]]


##### 배열 복사
- 리스트 자료형과 달리 배열의 슬라이스는 복사본이 아님

In [59]:
print(a2)
print(a2[:2, :2])
a2_sub = a2[:2, :2]
print(a2_sub)
a2_sub[:, 1] = 0
print(a2_sub)
print(a2)   # 슬라이싱 해서 받아온 배열은 원본 배열에 영향을 준다. 메모리 위치가 동일하다.

[[1 0 1]
 [4 2 0]
 [7 8 9]]
[[1 0]
 [4 2]]
[[1 0]
 [4 2]]
[[1 0]
 [4 0]]
[[1 0 1]
 [4 0 0]
 [7 8 9]]


In [60]:
print(a2)
a2_sub_copy = a2[:2, :2].copy()
print(a2_sub_copy)
a2_sub_copy[:, 1] = 1
print(a2_sub_copy)
print(a2)       # copy 함수를 쓰면 원본 영향 X

[[1 0 1]
 [4 0 0]
 [7 8 9]]
[[1 0]
 [4 0]]
[[1 1]
 [4 1]]
[[1 0 1]
 [4 0 0]
 [7 8 9]]


### 배열 변환
##### 배열 전치 및 축 변환

In [61]:
print(a2)
print(a2.T)

[[1 0 1]
 [4 0 0]
 [7 8 9]]
[[1 4 7]
 [0 0 8]
 [1 0 9]]


In [62]:
print(a3)
print(a3.T)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
[[[1 1 1]
  [4 4 4]
  [7 7 7]]

 [[2 2 2]
  [5 5 5]
  [8 8 8]]

 [[3 3 3]
  [6 6 6]
  [9 9 9]]]


In [63]:
print(a2)
print(a2.swapaxes(1,0))

[[1 0 1]
 [4 0 0]
 [7 8 9]]
[[1 4 7]
 [0 0 8]
 [1 0 9]]


In [64]:
print(a3)
print(a3.swapaxes(0, 1))
print(a3.swapaxes(1, 2))    # 이 부분 잘 이해 안감

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
[[[1 2 3]
  [1 2 3]
  [1 2 3]]

 [[4 5 6]
  [4 5 6]
  [4 5 6]]

 [[7 8 9]
  [7 8 9]
  [7 8 9]]]
[[[1 4 7]
  [2 5 8]
  [3 6 9]]

 [[1 4 7]
  [2 5 8]
  [3 6 9]]

 [[1 4 7]
  [2 5 8]
  [3 6 9]]]


### 배열 재구조화

In [66]:
n1 = np.arange(1,10)
print(n1)
print(n1.reshape(3, 3))

[1 2 3 4 5 6 7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [67]:
print(n1)
print(n1[np.newaxis, :5])
print(n1[:5, np.newaxis])

[1 2 3 4 5 6 7 8 9]
[[1 2 3 4 5]]
[[1]
 [2]
 [3]
 [4]
 [5]]


### 배열 크기 변경

In [None]:
n2 = np.random.randint(0, 10)  # 1:06 ~