# 인덱싱과 슬라이싱을 이용한 배열의 원소 조회

## 배열 인덱싱(Indexing)
- ### index
    - 배열내의 원소의 식별번호
    - 0부터 시작 
- ### indexing 
    – index를 이용해 원소 조회
    - [] 표기법 사용
- ### 구문 
    - ndarray[index]
    - 양수는 지정한 index의 값을 조회 
    - 음수는 뒤부터 조회
        - 마지막 index가 -1
    - 2차원배열의 경우 
        - arr[행index, 열index]
        - 파이썬 리스트와 차이점 (list[행][열])
    - N차원 배열의 경우
        - arr[0축 index, 1축 index, ..., n축 index]
- ### 팬시(fancy) 인덱싱
    - **여러개의 원소를 한번에 조회**할 경우 리스트에 담아 전달
    - 다차원 배열의 경우 각 축별로 list로 지정
    - `arr[[1,2,3,4,5]]`
        - 1차원 배열(vector): 1,2,3,4,5 번 index의 원소들 한번에 조회
    - `arr[[0,3],[ 1,4]]`
        - [0,3] - 1번축 index list, [1,4] - 2번축 index list
        - 2차원 배열(matrix): [0,1], [3,4] 의 원소들 조회

In [1]:
import numpy as np

#### scalar indexing

In [2]:
a1 = np.arange(10)
a1.shape # 1차원 배열로 axis가 한개 ∴ 지정 가능 index도 1개

(10,)

In [3]:
# indexing
print('한개 씩 indexing :', a1[0], a1[5])

한개 씩 indexing : 0 5


In [4]:
# fancy indexing
print('fancy indexing :', a1[[2, 6, 7]])

fancy indexing : [2 6 7]


In [5]:
# 음수 indexing
print('음수 indexing :', a1[-1])

음수 indexing : 9


In [6]:
# indexing을 통한 값 변경
a1[0] = 10
a1[[1, 2]] = 100
a1[[3, 4, 5]] = [200, 300, 400]
a1

array([ 10, 100, 100, 200, 300, 400,   6,   7,   8,   9])

#### 다차원 indexing
- [, , , ] : ,를 기준으로 각축별 index를 지정

In [7]:
a2 = np.arange(30).reshape(5,6)
print(a2.shape)
a2

(5, 6)


array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [8]:
# 0축
a2[2]

array([12, 13, 14, 15, 16, 17])

In [9]:
# a2[0축 index, 1축의 index]
a2[0,3], a2[4,5]

(3, 29)

In [10]:
# fancy indexing [0번축 모음, 1번축 모음]
a2[[0, 1, 2], [3, 4, 5]] # a2[0, 3], a2[1, 4], a2[2, 5]

array([ 3, 10, 17])

In [11]:
# Vector indexing
a3 = np.arange(24).reshape(3, 4, 2)
print(a3.shape)
a3

(3, 4, 2)


array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]],

       [[16, 17],
        [18, 19],
        [20, 21],
        [22, 23]]])

In [12]:
# 0축의 2 index
a3[2]

array([[16, 17],
       [18, 19],
       [20, 21],
       [22, 23]])

In [13]:
# 0축의 2 index, 1축의 1 index
a3[2, 1]

array([18, 19])

In [14]:
# 0축의 2 index, 1축의 1 index, 2축의 0 index
a3[2, 1, 0]

18

In [15]:
# 0축의 0번 index, 1축의 1,2 index
a3[0, [1, 2]]

array([[2, 3],
       [4, 5]])

In [16]:
# 0축의 0번 index, (1축의 1 index, 2축의 1 index) / 0축의 0번 index, (1축의 2 index, 2축의 0 index) 
a3[0, [1, 2], [1, 0]]

array([3, 4])

## 슬라이싱
- 배열의 부분 집합을 하위배열로 조회 및 변경하는 방식
- ndarry[start : stop : step ]
    - start : 시작 인덱스. 기본값 0
    - stop : 끝 index, stop은 미포함 기본값 마지막 index
    - step : 증감 간격, 기본값은 1

In [17]:
a1 = np.arange(100)
print(a1.shape)
a1[5:20] # 5 ~ 20-1, step : 1

(100,)


array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [18]:
# 끝에서 5개
a1[-5:] 

array([95, 96, 97, 98, 99])

In [19]:
# 0번 ~ 10-1까지
a1[:10]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 다차원 배열 슬라이싱
- 각 축에 slicing 문법 적용
- 2차원의 경우
    - arr [행 slicing, 열 slicing]
        - `arr[:3, :]`
    - `,` 로 행과 열을 구분한 다중 슬라이싱 사용
- 다차원의 경우
    - arr[0축 slicing, 1축 slicing, ..., n축 slicing]
- slicing과 indexing 문법 혼용 가능
- 모든 축에 index를 지정할 불필요

In [20]:
a2 = np.arange(30).reshape(5,6)
print(a2.shape)
a2

(5, 6)


array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [21]:
# a2[0축, 1축]
a2[:3]

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [22]:
a2[1:4, 2:6]

array([[ 8,  9, 10, 11],
       [14, 15, 16, 17],
       [20, 21, 22, 23]])

In [23]:
# 0축 slicing, 1축 index
a2[1:4, 3]

array([ 9, 15, 21])

In [24]:
# 0축 slicing, 1축 fancy indexing
a2[1:4, [3, 4, 5]]

array([[ 9, 10, 11],
       [15, 16, 17],
       [21, 22, 23]])

### 슬라이싱은 원본에 대한 View 
- slicing한 결과는 새로운 배열을 생성하는 것이 아니라 기존 배열을 참조\
- slicing한 배열의 원소를 변경하면 원본 배열의 것도 바뀜
- 배열.copy()
    - 배열을 복사한 새로운 배열 생성
    - 복사 후 처리 시 원본 불변

In [25]:
b = a1[:10]
b

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [26]:
# b는 a1을 slicing한 결과. b의 원소를 변경 시  a1의 원소도 같이 변경 (slicing : shallow copy)
b[0] = 1000
b

array([1000,    1,    2,    3,    4,    5,    6,    7,    8,    9])

In [27]:
a1

array([1000,    1,    2,    3,    4,    5,    6,    7,    8,    9,   10,
         11,   12,   13,   14,   15,   16,   17,   18,   19,   20,   21,
         22,   23,   24,   25,   26,   27,   28,   29,   30,   31,   32,
         33,   34,   35,   36,   37,   38,   39,   40,   41,   42,   43,
         44,   45,   46,   47,   48,   49,   50,   51,   52,   53,   54,
         55,   56,   57,   58,   59,   60,   61,   62,   63,   64,   65,
         66,   67,   68,   69,   70,   71,   72,   73,   74,   75,   76,
         77,   78,   79,   80,   81,   82,   83,   84,   85,   86,   87,
         88,   89,   90,   91,   92,   93,   94,   95,   96,   97,   98,
         99])

In [28]:
# deep copy
b2 = a1[:10].copy()
b2[0] = 200
b2

array([200,   1,   2,   3,   4,   5,   6,   7,   8,   9])

In [29]:
a1

array([1000,    1,    2,    3,    4,    5,    6,    7,    8,    9,   10,
         11,   12,   13,   14,   15,   16,   17,   18,   19,   20,   21,
         22,   23,   24,   25,   26,   27,   28,   29,   30,   31,   32,
         33,   34,   35,   36,   37,   38,   39,   40,   41,   42,   43,
         44,   45,   46,   47,   48,   49,   50,   51,   52,   53,   54,
         55,   56,   57,   58,   59,   60,   61,   62,   63,   64,   65,
         66,   67,   68,   69,   70,   71,   72,   73,   74,   75,   76,
         77,   78,   79,   80,   81,   82,   83,   84,   85,   86,   87,
         88,   89,   90,   91,   92,   93,   94,   95,   96,   97,   98,
         99])

## boolean indexing
- Index 연산자에 Boolean 배열을 넣으면 True인 index의 값만 조회 (False가 있는 index는 미조회)
- ndarray내의 원소 중에서 원하는 조건의 값들만 조회할 때 사용
- &(and), |(or), ~(not)
- and, or, not 사용불가
- 피연산자는 ()로 묶음

In [30]:
a = np.arange(1, 10)
b = np.random.choice([True, False], 9)
b

array([False,  True, False, False,  True, False,  True, False, False])

In [31]:
# a와 b는 동일한 shape
print(a.shape, b.shape)

(9,) (9,)


In [32]:
# b의 True가 있는 index의 값을 a에서 조회
a[b]

array([2, 5, 7])

In [33]:
# numpy에서는 elemens-wise 연산(원소단위 연산)을 지원
a > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [34]:
# and
a[(a>5) & (a<9)]

array([6, 7, 8])

In [35]:
# or
a[(a>7) | (a<5)]

array([1, 2, 3, 4, 8, 9])

In [36]:
# not
a[~((a>5) & (a<9))]

array([1, 2, 3, 4, 5, 9])

In [37]:
# 다차원
c = np.arange(12).reshape(4,3)
print(c.shape)
c

(4, 3)


array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [38]:
c > 4

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [39]:
c[c > 4]

array([ 5,  6,  7,  8,  9, 10, 11])

### np.where()
- np.where(boolean 배열) - True인 index를 반환
- boolean연산과 같이쓰면 특정 조건을 만족하는 원소의 index조회됨
- np.where(boolean 배열, True를 대체할 값, False를 대체할 값)
    - True와 False를 다른 값으로 변경

In [40]:
# True의 index를 ndarray로 묶어 튜플로 반환(축별로 묶음)
np.where([True, False, True])

(array([0, 2], dtype=int64),)

In [41]:
# [0, 1] : 0축의 index를, [0, 0] : 1축의 index를 => 실제 값의 index는 같은 index끼리 묶음
np.where([[True, False], [True, False]])

(array([0, 1], dtype=int64), array([0, 0], dtype=int64))

- 2차원도 마찮가지
    - 단 where는 축별로 배열이 반환된다. [0,1], [2,3] => (0,2)  (1,3)
    - 보통 Vector에 적용

In [42]:
# boolean indexing : 조건을 만족하는 값 조회
# where() : 조건을 만족하는 값들의 위치 조회
idx1, idx2 = np.where(c > 5)

In [43]:
for o,t in zip(idx1, idx2):
    print(o,t, sep=",")

2,0
2,1
2,2
3,0
3,1
3,2


In [44]:
# True, Fales를 다른 값으로 변경
np.where(a > 5, '5 이상', '5 미만')

array(['5 미만', '5 미만', '5 미만', '5 미만', '5 미만', '5 이상', '5 이상', '5 이상',
       '5 이상'], dtype='<U4')

In [45]:
# value자리에 배역객체를 넣으면 비교한 조건의 값이 그대로 반환
np.where(a > 5, '5 이상', a)

array(['1', '2', '3', '4', '5', '5 이상', '5 이상', '5 이상', '5 이상'],
      dtype='<U11')

cf) 서로 다른 타입을 같은 타입으로 통일 시 우선순위
    - 논리형 < 정수형 < 실수형 < 문자형

### 기타
- np.any(boolean 배열)
    - 배열에 True가 하나라도 있으면 True 반환
- np.all(boolean 배열)
    - 배열의 모든 원소가 True이면 True 반환

In [46]:
# any : 특정 조건을 만족하는 값이 하나라도 있는가?
np.any(a > 5)

True

In [47]:
# all : 특정 조건을 배열의 모든 원소가 만족하는가?
np.all(a > 5)

False

### 정렬
- np.sort(arr): arr을 정렬
- np.argsort(arr): 정렬 후 index를 반환

In [48]:
x = np.random.randint(10, 20, 10)
x

array([17, 17, 12, 12, 15, 16, 13, 16, 13, 10])

In [49]:
# 오름차순 정렬
np.sort(x)

array([10, 12, 12, 13, 13, 15, 16, 16, 17, 17])

In [50]:
# 내림차순 정렬 : sort로 정렬 후 reverse
np.sort(x)[::-1]

array([17, 17, 16, 16, 15, 13, 13, 12, 12, 10])

In [51]:
# 내림차순 정렬 : -
-np.sort(-x)

array([17, 17, 16, 16, 15, 13, 13, 12, 12, 10])

In [52]:
# x를 정렬하더라도 원본은 불변
x

array([17, 17, 12, 12, 15, 16, 13, 16, 13, 10])

In [53]:
# x를 정렬한 새로운 배열 반환
y = np.sort(x)
y

array([10, 12, 12, 13, 13, 15, 16, 16, 17, 17])

#### 다차원 정렬

In [54]:
x2 = np.random.randint(10, 20, size=(5, 4))
x2

array([[11, 11, 13, 13],
       [10, 18, 13, 16],
       [17, 18, 11, 15],
       [15, 12, 11, 14],
       [17, 10, 18, 13]])

In [55]:
np.sort(x2, axis=0)

array([[10, 10, 11, 13],
       [11, 11, 11, 13],
       [15, 12, 13, 14],
       [17, 18, 13, 15],
       [17, 18, 18, 16]])

In [56]:
# axis= : default는 None(마지막 축을 기준으로 정렬)
np.sort(x2, axis=1)

array([[11, 11, 13, 13],
       [10, 13, 16, 18],
       [11, 15, 17, 18],
       [11, 12, 14, 15],
       [10, 13, 17, 18]])

In [57]:
# argsort : 정렬한 것을 index로 반환
print(x)
np.argsort(x)

[17 17 12 12 15 16 13 16 13 10]


array([9, 2, 3, 6, 8, 4, 5, 7, 0, 1], dtype=int64)