# Numpy 특징
- 고성능 과학 계산용 패키지로 다양한 N차원 배열 객체
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
- 정교한 브로드캐스팅 기능
- 파이썬의 자료형 list와 비슷하지만 더 빠르고 메모리가 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편함
- 데이터 과학 동구에 대한 생태계의 핵심을 이루고 있음

In [1]:
import numpy as np
np.__version__

'2.0.2'

In [2]:
# 배열 만들기
a1 = np.array([1,2,3,4,5])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0],a1[1],a1[2],a1[3],a1[4])
a1[0] = 4
a1[1] = 5
a1[2] = 6
print(a1)

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3 4 5
[4 5 6 4 5]


In [3]:
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(a2)
print(a2.shape)
print(a2[0,0],a2[1,1],a2[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 5 9


In [4]:
a3 = np.array([[[1,2,3],[4,5,6],[7,8,9]],
               [[1,2,3],[4,5,6],[7,8,9]],
               [[1,2,3],[4,5,6],[7,8,9]]])

print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


## 배열 생성 및 초기화

In [5]:
# 모든 요소를 0으로 초기화
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [6]:
# 모든 요소를 1으로 초기화
np.ones(3)
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [7]:
# 모든 요소를 지정한 값으로 초기화

np.full((3,3),1.23)

array([[1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23]])

In [8]:
# 단위 행렬 생성
# 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [9]:
# 삼각행렬

np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

In [10]:
# 초기회되지 않은 배열 생성
# 초기화가 없어서 배열 생성비용 저렴
# 초기화되지 않아서 기존 메모리 위치에 존재하는 값

np.empty(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [11]:
# 지정된 배열과 shape가 같은 행렬 생성
print(a1)
np.zeros_like(a1)

[4 5 6 4 5]


array([0, 0, 0, 0, 0])

In [12]:
print(a2)
np.ones_like(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [13]:
print(a3)
np.full_like(a3,10)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

## 생성한 값으로 배열 생성


In [14]:
# 정수 범위로 배열 생성

np.arange(0,30,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [15]:
# 범위 내에서 균등 간격의 배열 생성

np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [16]:
# 범위 내에서 균등한 간격으로 로그 스케일로 배열 생성

np.logspace(0.1,1,20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

## 랜덤값으로 배열 생성

In [17]:
# 랜덤한 수의 배열 생성
np.random.random((3,3))

array([[0.03240632, 0.89549305, 0.05314407],
       [0.63872411, 0.79493168, 0.11363488],
       [0.5649587 , 0.46494292, 0.95709132]])

In [18]:
# 일정 구간의 랜덤 정수의 배열 생성

np.random.randint(0,10,(3,3))

array([[5, 4, 3],
       [7, 9, 2],
       [1, 4, 5]])

In [19]:
# 정규분포를 고려한 랜덤한 수의 배열 생성
# 평균 = 0, 표준편차=1, 3x3배열

np.random.normal(0,1,(3,3))

array([[-0.9254545 ,  0.9956688 , -1.12618168],
       [-0.71716231, -0.16369685, -0.34289888],
       [-1.45679038, -1.89799586, -0.68874358]])

In [20]:
# 균등분포를 고려한 랜덤한 수의 배열 생성

np.random.rand(3,3)

array([[0.57187048, 0.6253752 , 0.18802948],
       [0.54796875, 0.05755283, 0.79717389],
       [0.36209413, 0.49304942, 0.2823894 ]])

In [21]:
# 표준 정규 분포를 고려한 랜덤한 수의 배열 생성

np.random.randn(3,3)

array([[-1.16472824,  0.51983273,  1.6994309 ],
       [ 1.25523613,  0.46408203,  0.13019552],
       [ 0.47319556, -1.15793214, -0.89296878]])

## 표준 데이터 타입

In [22]:
np.zeros(20, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [23]:
np.ones((3,3), dtype=bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [24]:
np.full((3,3),1.0,dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## 날짜/시간 배열 생성

In [25]:
date = np.array('2020-01-01',dtype=np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [26]:
date + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [27]:
datetime = np.datetime64('2020-06-01 12:00')
datetime

np.datetime64('2020-06-01T12:00')

In [28]:
datetime = np.datetime64('2020-06-01T12:00:12.34','ns')
datetime

np.datetime64('2020-06-01T12:00:12.340000000')

# 배열 조회

## 배열 속성 정보

In [29]:
def array_info(array):
    # 배열 자체를 출력
    print(array)

    # 배열의 차원 수(ndim): 1차원, 2차원 등
    print(f'ndim : {array.ndim}')

    # 배열의 형태(shape): 각 차원의 크기를 튜플로 표시
    print(f'shape : {array.shape}')

    # 배열의 데이터 타입(dtype): 예) int32, float64 등
    print(f'dtype : {array.dtype}')

    # 배열에 포함된 전체 원소 개수(size)
    print(f'size : {array.size}')

    # 각 원소의 바이트 크기(itemsize)
    print(f'itemsize : {array.itemsize}')

    # 배열 전체가 차지하는 메모리 바이트 수(nbytes)
    print(f'nbytes : {array.nbytes}')

    # strides: 다음 원소로 이동하기 위해 건너뛰는 바이트 수
    # (즉, 메모리 상에서의 배열 구조를 보여줌)
    print(f'strides : {array.strides}')


In [30]:
array_info(a1)

[4 5 6 4 5]
ndim : 1
shape : (5,)
dtype : int64
size : 5
itemsize : 8
nbytes : 40
strides : (8,)


In [31]:
array_info(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim : 2
shape : (3, 3)
dtype : int64
size : 9
itemsize : 8
nbytes : 72
strides : (24, 8)


In [32]:
array_info(a3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
ndim : 3
shape : (3, 3, 3)
dtype : int64
size : 27
itemsize : 8
nbytes : 216
strides : (72, 24, 8)


## 인덱싱

In [33]:
print(a1)
print(a1[0])
print(a1[2])
print(a1[-1])
print(a1[-2])

[4 5 6 4 5]
4
6
5
4


In [34]:
print(a2)
print(a2[0,0])
print(a2[0,2])
print(a2[1,1])
print(a2[2,-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
3
5
9


In [35]:
print(a3)
print(a3[0,0,0])
print(a3[1,1,1])
print(a3[2,2,2])
print(a3[2,-1,-1])

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
1
5
9
9


## 슬라이싱
- 슬라이싱구문 : a[start:stop:step]
- 기본값 : start=0,stop=ndim,step=1

In [36]:
print(a1)
print(a1[0:2])
print(a1[0:])
print(a1[:1])
print(a1[::2])
print(a1[::-1])

[4 5 6 4 5]
[4 5]
[4 5 6 4 5]
[4]
[4 6 5]
[5 4 6 5 4]


In [37]:
print(a2)
print('-'*10)

print(a2[1])
print('-'*10)

print(a2[1,:])
print('-'*10)

print(a2[:2, :2])
print('-'*10)

print(a2[1: , ::-1])
print('-'*10)

print(a2[::-1, ::-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
----------
[4 5 6]
----------
[4 5 6]
----------
[[1 2]
 [4 5]]
----------
[[6 5 4]
 [9 8 7]]
----------
[[9 8 7]
 [6 5 4]
 [3 2 1]]


## 불리언 인덱싱
- 배열의 각 요소의 선택 여부를 불리언으로 지정
- True값인 인덱스의 값만 조회

In [38]:
print(a1)
bi = [False, True, True, False, True]
print(a1[bi])

bi = [True, False, True, True, False]
print(a1[bi])

[4 5 6 4 5]
[5 6 5]
[4 6 4]


In [39]:
print(a2)
bi = np.random.randint(0,2,(3,3),dtype=bool)
print(bi)
print(a2[bi])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ True False  True]
 [False  True  True]
 [False False False]]
[1 3 5 6]


# 펜시 인덱싱

In [40]:
print(a1)
print('-'*10)

print(a1[0],a1[2])
print('-'*10)

ind = [0,2]
print(a1[ind])
print('-'*10)

ind = np.array([[0,1],[2,0]])
print(a1[ind])

[4 5 6 4 5]
----------
4 6
----------
[4 6]
----------
[[4 5]
 [6 4]]


In [41]:
print(a2)
print('-'*10)

row = np.array([0,2])
col = np.array([1,2])
print(a2[row,col])
print('-'*10)

print(a2[row, :])
print('-'*10)

print(a2[:,col])
print('-'*10)

print(a2[2,col])
print('-'*10)

print(a2[row,1:])
print('-'*10)

print(a2[1:, col])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
----------
[2 9]
----------
[[1 2 3]
 [7 8 9]]
----------
[[2 3]
 [5 6]
 [8 9]]
----------
[8 9]
----------
[[2 3]
 [8 9]]
----------
[[5 6]
 [8 9]]


# 배열 값 삽입/수정/삭제/복사

## 배열 값 삽입
- `insert()` : 배열의 특정 위치에 값 삽입
- axis를 지정하지 않으면 1차원 배열로 변함
- 추가할 방향을 axis로 지정
- 원본 배열 변경없이 새로운 배열 반환

In [42]:
print(a1)
b1 = np.insert(a1, 0, 10)
print(b1)
c1 = np.insert(a1,2,10)
print(c1)

[4 5 6 4 5]
[10  4  5  6  4  5]
[ 4  5 10  6  4  5]


In [43]:
print(a2)
print('-'*20)

b2 = np.insert(a2,1,10,axis=0)
print(b2)
print('-'*20)

c2 = np.insert(a2,1,10,axis=1)
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
--------------------
[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]
--------------------
[[ 1 10  2  3]
 [ 4 10  5  6]
 [ 7 10  8  9]]


## 배열 값 수정
- 배열의 인덱싱으로 접근하여 값 수정

In [44]:
print(a1)

a1[0] = 1
a1[1] = 2
a1[2] = 3
a1[3] = 4
a1[4] = 5
print(a1)

a1[:1] = 9
print(a1)

i = np.array([1,3,4])
a1[i] = 0
print(a1)

a1[i] += 4
print(a1)

[4 5 6 4 5]
[1 2 3 4 5]
[9 2 3 4 5]
[9 0 3 0 0]
[9 4 3 4 4]


In [47]:
print(a2)
print('-'*20)

a2[0,0] = 1
a2[1,1] = 2
a2[2,2] = 3
print(a2)
print('-'*20)

a2[0] = 1
print(a2)
print('-'*20)

a2[1:,2] = 9
print(a2)
print('-'*20)

row = np.array([0,1])
col = np.array([1,2])
a2[row,col] = 0
print(a2)

[[1 1 1]
 [4 2 9]
 [7 8 9]]
--------------------
[[1 1 1]
 [4 2 9]
 [7 8 3]]
--------------------
[[1 1 1]
 [4 2 9]
 [7 8 3]]
--------------------
[[1 1 1]
 [4 2 9]
 [7 8 9]]
--------------------
[[1 0 1]
 [4 2 0]
 [7 8 9]]


# 배열 값 삭제
- `delect()` : 배열의 특정 위치에 값 삭제
- axis를 지정하지 않으면 1차원 배열로 변환
- 삭제할 방향을 axis로 지정
- 원본 배열 변경없이 새로운 배열 반환