# 4.1 다차원 배열 객체 ndarray

In [2]:
import numpy as np

data = np.array([[1.5,-0.1,3],[0,-3,6.5]])
data

array([[ 1.5, -0.1,  3. ],
       [ 0. , -3. ,  6.5]])

In [3]:
data * 10

array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])

In [4]:
data + data

array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])

In [5]:
# ndarray의 모든 원소는 같은 자료형이어야 함
# 모든 배열(array)은 각 차원의 크기를 알려주는 shape, 배열에 저장된 자료형을 알려주는 dtype 객체를 갖는다

print(data.shape)

print(data.dtype)

(2, 3)
float64


## ndarray 생성하기

In [6]:
data1 = [6 ,7.5 ,8 ,0 ,1]

arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [7]:
# 리스트 길이가 동일한 중첩된 순차 데이터는 다차원 배열로 변환 가능
data2 = [[1,2,3,4],[5,6,7,8]]

arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [8]:
# ndim을 사용하여 2차원 형태의 데이터임을 추론 가능
print(arr2.ndim)

print(arr2.shape) # 행2, 열4

2
(2, 4)


In [9]:
# 명시적으로 지정하지 않는한 numpy.array는 생성될 시 적절한 자료형을 추론(dtype 객체에 저장됨)
print(arr1.dtype)
print(arr2.dtype)

float64
int32


In [10]:
# 새로운 배열을 생성하는 함수(np.zeros, np.ones)
print(np.zeros(10))
print(np.ones(10))

print(np.zeros((3,6)))

np.empty((2,3,2))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


array([[[1.05183063e-311, 2.47032823e-322],
        [0.00000000e+000, 0.00000000e+000],
        [8.34539778e-308, 8.60952352e-072]],

       [[7.43123053e-091, 1.72129235e+184],
        [8.40981075e+164, 2.75218467e+180],
        [3.99910963e+252, 7.24750620e+169]]])

In [11]:
# range함수의 배열 버전인 arange
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

## ndarray의 자료형

In [12]:
arr1 = np.array([1,2,3],dtype = np.float64)
arr2 = np.array([1,2,3],dtype=np.int32)

print(arr1.dtype)
print(arr2.dtype)

# int8는 2의 8승을 음수에서 양수까지(-128~127) 나타낼 수 있는 반면 uint8은 음수를 나타낼 수 없다

float64
int32


In [13]:
# astype 메서드를 이용하여 dtype을 다른 형으로 명시적으로 변환 가능
arr = np.array([1,2,3,4,5])
print(arr.dtype)

float_arr = arr.astype(np.float64) # dtype이 int32에서 float64로 변환
print(float_arr) # 부동소수점 형태로 변환됨
print(float_arr.dtype)

int32
[1. 2. 3. 4. 5.]
float64


In [14]:
arr = np.array([3.7,-1.2,-2.6,0.5,12.9,10.1])
print(arr)
print(arr.dtype)

arr.astype(np.int32) # 부동소수점에서 정수형으로 변환하면 소수점 아래자리는 버려진다

[ 3.7 -1.2 -2.6  0.5 12.9 10.1]
float64


array([ 3, -1, -2,  0, 12, 10])

In [15]:
# 숫자 형식의 문자열을 담고 있는 배열
# astype을 사용해 숫자로 변환 가능
numeric_strings = np.array(["1.25","-9.6","42"],dtype=np.string_)
numeric_strings.astype(np.float64) # float으로 입력해도 numpy는 알맞은 dtype으로 변환해서 맞춰준다

array([ 1.25, -9.6 , 42.  ])

In [16]:
# 다른 배열의 dtype 사용도 가능하다
int_array = np.arange(10)
print(int_array)

calibers = np.array([.22,.270,.357,.380,.44,.50],dtype=np.float64)

int_array.astype(calibers.dtype) # int_array의 dtype을 calibers의 dtype으로 변환

[0 1 2 3 4 5 6 7 8 9]


array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [17]:
zero_uint32 = np.zeros(8,dtype="u4")
zero_uint32

array([0, 0, 0, 0, 0, 0, 0, 0], dtype=uint32)

In [18]:
# astype을 호출하면 새로운 dtype 이전의 dtype과 동일하더라도 항상 새로운 배열을 생성한다(데이터를 복사)
ex_array = np.array([1,2,3,4,5],dtype=np.int32)
ex_array.astype(np.int32)

array([1, 2, 3, 4, 5])

## 넘파이 배열의 산술 연산

In [19]:
# 배열 간의 산술 연산은 배열의 각 원소 단위로 적용
arr = np.array([[1.,2.,3.],[4.,5.,6.]])
print(arr)
print(arr*arr)
print(arr-arr)

[[1. 2. 3.]
 [4. 5. 6.]]
[[ 1.  4.  9.]
 [16. 25. 36.]]
[[0. 0. 0.]
 [0. 0. 0.]]


In [20]:
# 스칼라 인수가 포함된 연산의 경우 모든 원소에 스칼라 인수 적용
print(1/arr)
print(2 * arr)

[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]
[[ 2.  4.  6.]
 [ 8. 10. 12.]]


In [21]:
# 크기가 동일한 배열 간의 비교 연산은 boolean 배열을 반환한다
arr2 = np.array([[0.,4.,1.],[7.,2.,12.]])
print(arr2)

arr2 > arr

# 크기가 다른 배열 간의 연산은 "BroadCasting"이라 한다


[[ 0.  4.  1.]
 [ 7.  2. 12.]]


array([[False,  True, False],
       [ True, False,  True]])

## 색인과 슬라이싱 기초

In [22]:
arr = np.arange(10)
print(arr)

print(arr[5])

arr[5:8]

[0 1 2 3 4 5 6 7 8 9]
5


array([5, 6, 7])

In [23]:
# 배열 슬라이스(arr[5:8])에 스칼라 값(12)을 대입하면 선택 영역 전체로 전파된다
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [24]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [25]:
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [26]:
# 단순히 : 만 사용하면 배열의 모든 값이 할당된다
arr_slice[:] = 0
arr

array([0, 1, 2, 3, 4, 0, 0, 0, 8, 9])

In [27]:
# 2차원 배열에서 각 Index에 해당하는 원소는 스칼라 값이 아닌 1차원 배열
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

print(arr2d)
arr2d[2]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([7, 8, 9])

In [28]:
# 따라서 개별 원소는 row(1차원 배열) -> column(개별 원소) 순으로 접근한다
print(arr2d[0][2])

print(arr2d[0,2])
# 두 표현은 동일하다(arr2d의 0번째 행, 2번째 열)

3
3


In [29]:
# 2x2x3 크기의 배열 가정
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [30]:
# 마지막 색인을 생략하면 반환되는 객체는 상위 차원의 데이터를 모두 포함한 한 차원 낮은 ndarray 반환(2x3 크기의 배열)
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [31]:
old_values = arr3d[0].copy()
old_values

array([[1, 2, 3],
       [4, 5, 6]])

In [32]:
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [33]:
arr3d[0] = old_values
arr3d
# arr3d[0] 에는 스칼라 값과 배열 모두 할당 가능하다

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [34]:
print(arr3d[1,0])
# 이 표현은 다음처럼 2번에 걸쳐 인덱싱한 결과와 동일하다
x = arr3d[1]
x[0]

[7 8 9]


array([7, 8, 9])

## 슬라이스로 선택하기

In [35]:
arr
print(arr[1:6])

[1 2 3 4 0]


In [36]:
print("arr2d =\n",arr2d)

arr2d[:2]

arr2d =
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 2, 3],
       [4, 5, 6]])

In [37]:
# array[row,column]으로 이해하면 빠르다(148p 그려놓은 그림 참고)
arr2d[:2,1:]

array([[2, 3],
       [5, 6]])

In [38]:
lower_dim_slice = arr2d[1,:2]
lower_dim_slice

array([4, 5])

In [39]:
lower_dim_slice.shape
# arr2d는 2차원 배열(2x3)이지만 lower_dim_slice는 1차원이고 축 크기가 하나인 튜플 모양


(2,)

In [40]:
# 처음 두 행에서 세 번째 열만 선택하고 싶을 경우 다음과 같이 할 수 있다
arr2d[:2,2]

array([3, 6])

In [41]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

In [42]:
print("arr2d =\n",arr2d)
print("\n")

print("arr2d[:2,1:] =\n",arr2d[:2,1:])
print("\n")

print("arr2d[2] =\n",arr2d[2])
print("\n")

print("arr2d[2,:] =\n",arr2d[2,:])
print("\n")

print("arr2d[2:,:] =\n",arr2d[2:,:])
print("\n")

print("arr2d[1:2,:2] =\n",arr2d[1:2,:2])
print("\n")

arr2d =
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


arr2d[:2,1:] =
 [[2 3]
 [5 6]]


arr2d[2] =
 [7 8 9]


arr2d[2,:] =
 [7 8 9]


arr2d[2:,:] =
 [[7 8 9]]


arr2d[1:2,:2] =
 [[4 5]]




In [43]:
# 슬라이싱 구문에 값을 대입하면 전체에 할당
arr_ex = np.array([[1,2,3],[4,5,6],[7,8,9]])
print("arr_ex =\n",arr_ex)

arr_ex[:2,1:] = 0
arr_ex

arr_ex =
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

## Boolean 값으로 선택하기

In [67]:
names = np.array(["Bob","Joe","Will","Bob","Will","Joe","Joe"])

data = np.array([[4,7],[0,2],[-5,6],[0,0],[1,2],[-12,-4],[3,4]])

In [45]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [46]:
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [47]:
# 배열에 대한 비교연산도 벡터화되어 Boolean 배열이 반환된다
names == "Bob"

array([ True, False, False,  True, False, False, False])

In [48]:
# Boolean 배열은 Index로 사용가능. 
# 단, Boolean 배열 길이가 Indexing하려는 축의 길이와 동일해야 한다
data[names == "Bob"]

array([[4, 7],
       [0, 0]])

In [108]:
# Boolean 배열을 슬라이싱에 사용. data[row,column]
print(data[names == "Bob", 1:])

print("\n")

print(data[names == "Bob",1]) # 정수로 선택하는 경우에는 1차원 배열로 반환

[[7]
 [7]]


[7 7]


In [54]:
# != 연산자, ~ 조건부 부인 이용
print(names != "Bob")

print(~(names == "Bob"))

data[~(names == "Bob")]

[False  True  True False  True  True  True]
[False  True  True False  True  True  True]


array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [55]:
# ~ 연산자는 Boolean 배열을 뒤집고 싶을 경우 유용
cond = names == "Bob"
data[~cond]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [58]:
# &(and), |(or) 연산자 이용
mask = (names == "Bob") | (names == "Will")
print(mask)

print(data[mask])
# Boolean 배열에서는 파이썬 예약어인 and, or을 사용할 수 없다

[ True False  True  True  True False False]
[[ 4  7]
 [-5  6]
 [ 0  0]
 [ 1  2]]


In [73]:
print("data =\n",data)
# data에 저장된 음수를 0으로 대입하려는 경우
data[data<0] = 0
print("data =\n",data)

data =
 [[  7   7]
 [  0   2]
 [  7   7]
 [  7   7]
 [  7   7]
 [-12  -4]
 [  3   4]]
data =
 [[7 7]
 [0 2]
 [7 7]
 [7 7]
 [7 7]
 [0 0]
 [3 4]]


In [75]:
# 1차원 Boolean 배열을 사용해 전체 행이나 열의 값을 대입 가능
print(names != "Joe")
data[names != "Joe"] = 7
data

[ True False  True  True  True False False]


array([[7, 7],
       [0, 2],
       [7, 7],
       [7, 7],
       [7, 7],
       [0, 0],
       [3, 4]])

## Fancy Indexing

In [77]:
arr = np.zeros((8,4))
for i in range(8):
    arr[i] = i
    
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [82]:
# 특정한 순서로 행의 하위집합을 선택할 경우
# 순서가 명시된 ndarray나 list를 넘긴다
print(arr[[4,3,0,6]])

print("\n")

# 이런식으로도 가능
lst = [1,2,3,4]
arr[lst]

[[4. 4. 4. 4.]
 [3. 3. 3. 3.]
 [0. 0. 0. 0.]
 [6. 6. 6. 6.]]




array([[1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.]])

In [83]:
# index로 음수를 사용할 경우 끝에서부터 행을 선택
lst2 = [-3,-5,-7]
arr[lst2]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

In [88]:
# 다차원 index 배열을 넘길 경우
# 각 index 튜플에 대응하는 1차원 배열이 선택
arr = np.arange(32).reshape((8,4)) # 0~31의 1차원 배열을 8x4형태로 변환
print(arr)
# (1,0), (5,3), (7,1), (2,2) 에 대응하는 원소가 선택된다
arr[[1,5,7,2],[0,3,1,2]]
# 배열이 몇차원이든 fancy indexing의 결과는 1차원 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


array([ 4, 23, 29, 10])

In [90]:
arr[[1,5,7,2]][:,[0,3,1,2]]
# 1,5,7,2행에서 0,3,1,2열 순으로 배치

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [93]:
# Fancy Indexing은 슬라이싱과 달리 선택된 데이터를 새로운 배열로 복사
# Fancy Indexing으로 값을 대입하면 indexing된 값이 변경됨
print(arr[[1,5,7,2],[0,3,1,2]])

arr[[1,5,7,2],[0,3,1,2]] = 0
arr

[ 4 23 29 10]


array([[ 0,  1,  2,  3],
       [ 0,  5,  6,  7],
       [ 8,  9,  0, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22,  0],
       [24, 25, 26, 27],
       [28,  0, 30, 31]])

## 배열 전치와 축 바꾸기

배열 전치(transpose) : 데이터를 복사하지 않고 데이터의 모양이 바뀐 뷰를 반환하는 기능

In [96]:
arr = np.arange(15).reshape((3,5))
print(arr)
arr.T

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [102]:
arry = np.array([[0,1,0],[1,2,-2],[6,3,2],[-1,0,-1],[1,0,1]])
print(arry.T)
print("\n")
print(arry)

np.dot(arry.T,arry) # Matrix 곱


[[ 0  1  6 -1  1]
 [ 1  2  3  0  0]
 [ 0 -2  2 -1  1]]


[[ 0  1  0]
 [ 1  2 -2]
 [ 6  3  2]
 [-1  0 -1]
 [ 1  0  1]]


array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [103]:
# @ 연산자를 이용해도 가능
arry.T @ arry

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [107]:
# swapaxes 메서드를 이용해 두 개의 축 번호를 받아서 배열을 바꿀 수 있다
print(arry)

arry.swapaxes(0,1) # axis 0과 axis 1 바꾸는 기능

[[ 0  1  0]
 [ 1  2 -2]
 [ 6  3  2]
 [-1  0 -1]
 [ 1  0  1]]


array([[ 0,  1,  6, -1,  1],
       [ 1,  2,  3,  0,  0],
       [ 0, -2,  2, -1,  1]])