# Numpy
- 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
- 정교한 브로드캐스팅 기능
- 반복문 없이 데이터 배열에 대한 처리를 지원
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너

In [2]:
import numpy as np
np.__version__

'1.20.3'

In [3]:
a1 = np.array([1,2,3,4,5])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0], a1[1],a1[2])
a1[0] = 4
a1[1] = 5 
a1[2] = 6
print(a1)


[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3
[4 5 6 4 5]


In [4]:
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(a2)
print(a2.shape)
print(a2[0,0],a2[1,1],a2[2,2,])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 5 9


In [5]:
a3 = np.array([[[1,2,3],[4,5,6],[7,8,9]],
               [[1,2,3],[4,5,6],[7,8,9]],
               [[1,2,3],[4,5,6],[7,8,9]]])
print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


In [6]:
# 배열 생성 및 초기화

In [7]:
# zeros() : 모든 요소를 0으로 초기화
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [8]:
# ones() : 모든 요소를 1로 초기화
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [9]:
# full() : 모든 요소를 지정한 값으로 초기화
np.full((3,3),1.23)

array([[1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23]])

In [10]:
# eye() : 단위 행렬 > 정사각형 모양
np.eye(2)

array([[1., 0.],
       [0., 1.]])

In [11]:
# tri : 삼각행렬
np.tri(4)

array([[1., 0., 0., 0.],
       [1., 1., 0., 0.],
       [1., 1., 1., 0.],
       [1., 1., 1., 1.]])

In [12]:
# empty() : 초기화되지 않은 배열 생성 / 초기화가 없어서 배열 생성비용 처렴하고 빠름 / 기존 메모리 위치에 존재하는 값이 있음

np.empty(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [13]:
# _like(): 지정된 배열과 shape가 같은 행렬
print(a1)
np.zeros_like(a2)

[4 5 6 4 5]


array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [14]:
np.ones_like(a2)

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [15]:
np.full_like(a3, 234)

array([[[234, 234, 234],
        [234, 234, 234],
        [234, 234, 234]],

       [[234, 234, 234],
        [234, 234, 234],
        [234, 234, 234]],

       [[234, 234, 234],
        [234, 234, 234],
        [234, 234, 234]]])

In [16]:
# arange() : 정수 범위로 배열 생성
np.arange(0,32,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30])

In [17]:
# linspace() : 범위 내에서 균등 간격의 배열 생성
np.linspace (0 , 1, 5 )

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [18]:
# logspace() : 범위 내에서 균등 간격의 로그 스케일로 배열 생성
np.logspace(0.1,1,20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

In [19]:
# random.random() : 랜덤한 수의 배열 생섯
np.random.random((3,3))

array([[0.95470241, 0.52192813, 0.58007626],
       [0.35784181, 0.16457724, 0.34707534],
       [0.551012  , 0.16947315, 0.5539968 ]])

In [20]:
# random.randint() : 일정 구간의 랜덤 정수의 배열 생성
np.random.randint(0,10,(3,3))


array([[4, 0, 3],
       [1, 7, 9],
       [0, 8, 3]])

In [21]:
# random.normal() : 정규 분포를 고려한 랜덤한 수의 배열 생성
np.random.normal(0,1,(3,3))

array([[-0.75369211, -0.24573986,  0.44824099],
       [-1.35192572, -0.50149085, -0.89006769],
       [ 1.17960333, -0.09593436,  0.14012743]])

In [22]:
# random.rand() : 균등 분포를 고려한 랜덤한 수의 배열 생성
np.random.rand(3,3)

array([[0.24277417, 0.36970317, 0.51728869],
       [0.75954307, 0.55654203, 0.57375244],
       [0.92713621, 0.55105175, 0.70394557]])

In [23]:
# random.randn() : 표준 정규 분포를 고려한 랜덤한 수의 배열 생성
np.random.randn(3,3)

array([[-0.29265187, -1.73800248, -0.14945235],
       [-0.42209783, -1.40979532,  0.96971725],
       [-1.5507872 ,  0.53340674, -0.55185261]])

In [24]:
np.zeros(20,dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [25]:
np.ones((3,3), dtype= bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [26]:
np.full((3,3),1.0,dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [27]:
# 날짜 / 시간배열 생성
data = np.array('2020-01-01', dtype=np.datetime64)
data 
# array('2020-01-01', dtype='datetime64[D]')

array('2020-01-01', dtype='datetime64[D]')

In [28]:
data + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [29]:
datetime = np.datetime64('2020-06-01 13:00')
datetime

numpy.datetime64('2020-06-01T13:00')

In [30]:
datatime = np.datetime64('2020-06-01 12:00:12.34', 'ns')
datatime

numpy.datetime64('2020-06-01T12:00:12.340000000')

In [31]:
def array_info(array):
    print(array)
    print('ndim :', array.ndim)
    print('shape :',array.shape)
    print('dtype :', array.dtype)
    print('itemsize :', array.itemsize)
    print('nbyte:',array.nbytes)
    print('stride :', array.strides)

In [32]:
array_info(a1)

[4 5 6 4 5]
ndim : 1
shape : (5,)
dtype : int32
itemsize : 4
nbyte: 20
stride : (4,)


In [33]:
array_info(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim : 2
shape : (3, 3)
dtype : int32
itemsize : 4
nbyte: 36
stride : (12, 4)


In [34]:
array_info(a3)


[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
ndim : 3
shape : (3, 3, 3)
dtype : int32
itemsize : 4
nbyte: 108
stride : (36, 12, 4)


In [35]:
print(a1)
print(a1[0])
print(a1[1])
print(a1[2])
print(a1[-1])

[4 5 6 4 5]
4
5
6
5


In [36]:
print(a2)
print(a2[0][0])
print(a2[1][2])
print(a2[2][1])
print(a2[2][-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
6
8
9


In [37]:
print(a3)
print(a3[0][0][0])
print(a3[1][2][1])
print(a3[2][1][2])
print(a3[2][-1][-1])

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
1
8
6
9


In [38]:
# 슬라이싱 : a[start : stop : step]

print(a1)
print(a1[0:2])
print(a1[0:])
print(a1[:1])
print(a1[::2])


[4 5 6 4 5]
[4 5]
[4 5 6 4 5]
[4]
[4 6 5]


In [39]:
print(a2)
print(a2[1])
print(a2[1,:])
print(a2[:2,::2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[4 5 6]
[4 5 6]
[[1 3]
 [4 6]]


# 불리언 인덱싱
- 배열 각 요소의 선택 여부를 불리언으로 지정
- true 값인 인덱스의 값만 조회
- 특정 조건을 불리언 인덱싱으로 주면, 필터링 된 원하는 값만을 받을 때 자주 사용

In [42]:
print(a1)
bi = [False,True, True, False,True]
print(a1[bi])
bi = [True,False, True, True,False]
print(a1[bi])


[4 5 6 4 5]
[5 6 5]
[4 6 4]


In [44]:
print(a2)
bi = np.random.randint(0,2,(3,3), dtype=bool)
print(bi)
print(a2[bi])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ True  True False]
 [ True  True False]
 [False False  True]]
[1 2 4 5 9]


In [49]:
# 팬시 인덱싱
print(a1)
print([a1[0], a1[2]])
ind = [0,2]
print(a1[ind])
ind = np.array([[0,1],[2,0]])
print(a1[ind])     # 2차원 형태로 나온다.

[4 5 6 4 5]
[4, 6]
[4 6]
[[4 5]
 [6 4]]


In [51]:
print(a2)
row = np.array([0,2])
col = np.array([1,2])
print(a2[row, col])
print(a2[row, :])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[2 9]
[[1 2 3]
 [7 8 9]]


# 배열 값 삽입/수정/삭제/복사

- insert() : 배열의 특정 위치에 값 삽이
- axis를 지정하지 않으면 1차원 배열로 변환
- 추가할 방향을 axis로 지정
- 원본 배열 변경없이 새로운 배열 반환


In [57]:
print(a1)
b1 = np.insert(a1, 0, 10)   # insert(array, 위치, 넣을 값)
print(b1)
print(a2)
b2 = np.insert(a2, 1, 10, axis=0)
print(b2)
c2 = np.insert(a2, 1, 10, axis = 1)
print(c2)

[4 5 6 4 5]
[10  4  5  6  4  5]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]
[[ 1 10  2  3]
 [ 4 10  5  6]
 [ 7 10  8  9]]


In [63]:
# 배열 인덱싱으로 접근하여 값 수정
print(a1)
a1[0] = 1
a1[1] = 2
a1[2] = 3
print(a1)
a1[:1] = 9
print(a1)
i = np.array([1,3,4])
a1[i] = 0 
print(a1)
a1[i] +=4 
print(a1)

[9 0 3 0 0]
[1 2 3 0 0]
[9 2 3 0 0]
[9 0 3 0 0]
[9 4 3 4 4]


In [67]:
print(a2)
a2[0,0] = 1
a2[1,1] = 2
a2[2,2] = 3
a2[:,0] = 1
print(a2)
a2[1:,2] = 9
print(a2)
 

[[1 1 1]
 [1 2 6]
 [1 8 3]]
[[1 1 1]
 [1 2 6]
 [1 8 3]]
[[1 1 1]
 [1 2 9]
 [1 8 9]]
