# array 인덱싱 이해하기
 
## 기본 인덱싱

In [1]:
import numpy as np

In [2]:
arr = np.arange(10)

In [3]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
arr[5]

np.int64(5)

In [5]:
arr[5:8]

array([5, 6, 7])

In [6]:
arr[5:8] = 12

In [7]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [8]:
arr[:]

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [9]:
arr[5:8] = [5,6,7]

In [10]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## 2차원 array 


In [11]:
arr2 = np.array([[1,2,3,4],
                [5,6,7,8],
                [9,10,11,12],
               [13,14,15,16]])

In [12]:
#2행의 전체값 가져오기
arr2[2, :]

array([ 9, 10, 11, 12])

In [13]:
#1행~2행의 전체값 가져오기
arr2[1:3, :]

array([[ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [14]:
#전체 행을 가져오되, 마지막 열 값만을 가져와라
arr2[:,3]  # 마지막 열 표현은 -1도 가능

array([ 4,  8, 12, 16])

In [15]:
# 3행의 2열값만 가져와라
arr2[3,2]

np.int64(15)

In [16]:
#0~1행까지 1~2열까지의 값만 가져와라
arr2[:2, 1:3]

array([[2, 3],
       [6, 7]])

In [17]:
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

## 불리언 인덱싱

In [21]:
names = np.array(['Charles','Hyunsuk', 'Hayoung', 'Charles', 'Hayoung', 'Hyunsuk', 'Hyunsuk'])
data = np.random.randn(7,4)

In [22]:
names

array(['Charles', 'Hyunsuk', 'Hayoung', 'Charles', 'Hayoung', 'Hyunsuk',
       'Hyunsuk'], dtype='<U7')

In [23]:
data

array([[-0.94966408, -0.50875041, -0.68966977,  0.52319918],
       [-0.58519531,  0.24097695, -2.42218396, -0.06897023],
       [ 2.16950075,  0.90747781, -0.21635584, -0.34670337],
       [ 0.97182425, -0.11102933,  1.99091815, -1.82159178],
       [ 0.18929589,  2.73288272, -0.79334783, -0.50410701],
       [ 0.32324058, -0.03367261,  1.71080865, -1.78325699],
       [-0.56312156, -0.94530687,  0.57603878,  0.09949632]])

위와 같은 names array와 data array가 정의되었다고 가정하자. names array 내 각각의 성분이, data array의 각 행에 순서대로 대응된다고 가정. 이러한 상황에서 이름이 "Charles"인 사람의 행 데이터만을 추출하고 싶다고 할 때, names == "Charles"를 실행하면 다음과 같은 결과를 얻을 수 있다.

In [41]:
# Charles 값만 확인하기
names == 'Charles'

array([ True, False, False,  True, False, False, False], dtype=bool)

얻어진 array를 잘 보면, 값이 "Charles"인 성분의 위치에는 True가, 그 외의 위치에는 False가 들어가 있는 것을 확인할 수 있다. 이렇게 names == "Charles"와 같은 조건식 형태의 코드를 실행하였을 때 생성되는 불리언 array를 다른 말로 '마스크(mask)'라고 한다.
 
이런 마스크는 다른 array를 인덱싱하는 데 사용할 수 있다. 예를 들어 data[names == "Charles", :]를 실행하면, 위에서 보인 마스크가 True에 해당하는 행만을 data array로부터 가져오게 되고, 이들만으로 구성된 array를 얻을 수 있다.


In [42]:
#Charles의 마스크를 이용하여 다른 array를 인덱싱하기
data[names == 'Charles', :]

array([[-1.1450498 , -1.29602029,  0.79355211,  0.21673769],
       [ 0.50226557,  1.2405164 , -2.3026314 ,  1.01998482]])

In [43]:
data[names == 'Hyunsuk', :]

array([[ 0.44493931, -0.18731171, -2.18341882, -0.01474921],
       [-0.04031698,  1.82584632,  1.0519667 , -0.80585493],
       [ 1.38898791, -1.04026844, -0.00574073,  1.92443812]])

In [44]:
#Charles 또는 Hyunsuk의 마스크를 이용하여 array 인덱싱하기
data[(names == 'Charles') | (names == 'Hyunsuk'),:]

array([[-1.1450498 , -1.29602029,  0.79355211,  0.21673769],
       [ 0.44493931, -0.18731171, -2.18341882, -0.01474921],
       [ 0.50226557,  1.2405164 , -2.3026314 ,  1.01998482],
       [-0.04031698,  1.82584632,  1.0519667 , -0.80585493],
       [ 1.38898791, -1.04026844, -0.00574073,  1.92443812]])

In [45]:
# 조건부 마스크
data[:, 3] < 0

array([False,  True, False, False,  True,  True, False], dtype=bool)

In [49]:
data[data[:,3] < 0, :] = 0

In [50]:
data

array([[-1.1450498 , -1.29602029,  0.79355211,  0.21673769],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.69806282,  2.00481395,  0.81754564,  0.20269519],
       [ 0.50226557,  1.2405164 , -2.3026314 ,  1.01998482],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 1.38898791, -1.04026844, -0.00574073,  1.92443812]])