# 인덱싱과 슬라이싱을 이용한 배열의 원소 조회

## 배열 인덱싱(Indexing)
- ### index
    - 배열내의 원소의 식별번호
    - 0부터 시작
- ### indexing 
    – index를 이용해 원소 조회
    - [] 표기법 사용
- ### 구문 
    - ndarray[index]
    - 양수는 지정한 index의 값을 조회한다. 
    - 음수는 뒤부터 조회한다. 
        - 마지막 index가 -1
    - 2차원배열의 경우 
        - arr[행index, 열index]
        - 파이썬 리스트와 차이점 (list[행][열])
    - N차원 배열의 경우
        - arr[0축 index, 1축 index, ..., n축 index]
- ### 팬시(fancy) 인덱싱
    - **여러개의 원소를 한번에 조회**할 경우 리스트에 담아 전달한다.
    - 다차원 배열의 경우 각 축별로 list로 지정
    - `arr[[1,2,3,4,5]]`
        - 1차원 배열(vector): 1,2,3,4,5 번 index의 원소들 한번에 조회
    - `arr[[0,3],[ 1,4]]`
        - [0,3] - 1번축 index list, [1,4] - 2번축 index list
        - 2차원 배열(matrix): [0,1], [3,4] 의 원소들 조회

In [6]:
import numpy as np

In [1]:
# shape : (2,3)
l = [
    [1,2,3], 
    [10,20,30]
]
l    

[[1, 2, 3], [10, 20, 30]]

In [3]:
l[0][1]

2

In [7]:
al = np.array(l)
al

array([[ 1,  2,  3],
       [10, 20, 30]])

In [11]:
al[0,1]  #[0축의 index , 1축의 index]

2

In [None]:
# a[1,2,3,4,5]  #최소 5차원배열
# [0idx, 1idx , 2idx , 3idx, 4idx]

In [12]:
import numpy as np

In [13]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
# 1개 값 조회
a[0]

0

In [15]:
print(a[1], a[5])

1 5


In [18]:
a2 = np.arange(12).reshape(2,2,3)
a2.shape

(2, 2, 3)

In [19]:
a2

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [21]:
a2[1, 0, 1]

7

In [22]:
a2[0,1,2]

5

In [25]:
a2[0][1][2]

5

In [1]:
# fancy indexing = 한번에 여러개값을 조회
# 2,5,7 
# a[2,5,7] #0축:2, 1축:5, 2축: 7
a[[2,5,7]] #리스트로 조회할 index들을 묶어준다.

NameError: name 'a' is not defined

In [33]:
arr = np.array([[1,2,3], [10,20,30]])
arr.shape

(2, 3)

In [36]:
arr

array([[ 1,  2,  3],
       [10, 20, 30]])

In [35]:
arr[0, 0]

1

In [38]:
#배열[0축의 index , 1축의 index]
arr[1,2]

30

In [41]:
arr[[0,1, 1], [0,2, 1]]

array([ 1, 30, 20])

In [43]:
print(a2.shape)
a2

(2, 2, 3)


array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [44]:
#1, 8, 11
a2[ [0,1,1 ] , [0,0,1] , [1,2,2]]
# 1: [0,0,1]
# 8: [1,0,2]
#11: [1,1,2]

array([ 1,  8, 11])

In [47]:
a2

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [48]:
a2[[0,1],[0,1]] #a2[0,0], a2[1,1]

array([[ 0,  1,  2],
       [ 9, 10, 11]])

## 슬라이싱
- 배열의 부분 집합을 하위배열로 조회 및 변경하는 방식
- ndarry[start : stop : step ]
    - start : 시작 인덱스. 기본값 0
    - stop : 끝 index. stop은 포함하지 않는다. 기본값 마지막 index
    - step : 증감 간격. 기본값 1

In [54]:
a = np.arange(100)
a.shape
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [55]:
a[10:50:2] #10 ~ 50-1  step:+2

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48])

In [56]:
a[:50:5] #0 ~ 50-1, step:+5

array([ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45])

In [57]:
a[50::10] #50 ~ 끝,  step: 10

array([50, 60, 70, 80, 90])

In [58]:
a[1:10] #1 ~ 9. step:1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [59]:
a[:] #0 ~ 끝. step :1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [61]:
a[10:1:-1] # 10 ~ 1+1: step: -1
# step(증감)을 음수 => 역순으로 조회(reverse)

array([10,  9,  8,  7,  6,  5,  4,  3,  2])

In [62]:
a[::-1]  #step: -1  start: 마지막 index, stop: 첫번째 값까지

array([99, 98, 97, 96, 95, 94, 93, 92, 91, 90, 89, 88, 87, 86, 85, 84, 83,
       82, 81, 80, 79, 78, 77, 76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66,
       65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49,
       48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32,
       31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15,
       14, 13, 12, 11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])

### 다차원 배열 슬라이싱
- 각 축에 slicing 문법 적용
- 2차원의 경우
    - arr [행 slicing, 열 slicing]
        - `arr[:3, :]`
    - `,` 로 행과 열을 구분한 다중 슬라이싱 사용
- 다차원의 경우
    - arr[0축 slicing, 1축 slicing, ..., n축 slicing]
- slicing과 indexing 문법은 같이 쓸 수 있다.
- 모든 축에 index를 지정할 필요는 없다.

In [67]:
a = np.arange(48).reshape(6,8)
print(a.shape)
a

(6, 8)


array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47]])

In [69]:
a[1:5, 1:6]  #0축: 1 ~ 4 step:+1, 1축: 1 ~ 5, step:+1

array([[ 9, 10, 11, 12, 13],
       [17, 18, 19, 20, 21],
       [25, 26, 27, 28, 29],
       [33, 34, 35, 36, 37]])

In [70]:
a[1:5, 1::2]

array([[ 9, 11, 13, 15],
       [17, 19, 21, 23],
       [25, 27, 29, 31],
       [33, 35, 37, 39]])

In [71]:
a[:, [0,2]] #모든 행(0축)에서 0, 2 열의 값(1축)만 조회

array([[ 0,  2],
       [ 8, 10],
       [16, 18],
       [24, 26],
       [32, 34],
       [40, 42]])

### 슬라이싱은 원본에 대한 View 
- slicing한 결과는 새로운 배열을 생성하는 것이 아니라 기존 배열을 참조한다.
- slicing한 배열의 원소를 변경하면 원본 배열의 것도 바뀐다.
- 배열.copy()
    - 배열을 복사한 새로운 배열 생성
    - 복사후 처리하면 원본이 바뀌지 않는다.

In [72]:
a

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47]])

In [74]:
b = a[1:5, 1:6]
b

array([[ 9, 10, 11, 12, 13],
       [17, 18, 19, 20, 21],
       [25, 26, 27, 28, 29],
       [33, 34, 35, 36, 37]])

In [76]:
b[0,0] = 9000 #원본배열(a)의 값도 같이 변경

In [77]:
b

array([[9000,   10,   11,   12,   13],
       [  17,   18,   19,   20,   21],
       [  25,   26,   27,   28,   29],
       [  33,   34,   35,   36,   37]])

In [78]:
a

array([[   0,    1,    2,    3,    4,    5,    6,    7],
       [   8, 9000,   10,   11,   12,   13,   14,   15],
       [  16,   17,   18,   19,   20,   21,   22,   23],
       [  24,   25,   26,   27,   28,   29,   30,   31],
       [  32,   33,   34,   35,   36,   37,   38,   39],
       [  40,   41,   42,   43,   44,   45,   46,   47]])

In [79]:
c = a[1:5, 1:6].copy() #ndarray.copy() => 배열을 복사
c

array([[9000,   10,   11,   12,   13],
       [  17,   18,   19,   20,   21],
       [  25,   26,   27,   28,   29],
       [  33,   34,   35,   36,   37]])

In [80]:
c[0,0] = 9
c

array([[ 9, 10, 11, 12, 13],
       [17, 18, 19, 20, 21],
       [25, 26, 27, 28, 29],
       [33, 34, 35, 36, 37]])

In [81]:
a

array([[   0,    1,    2,    3,    4,    5,    6,    7],
       [   8, 9000,   10,   11,   12,   13,   14,   15],
       [  16,   17,   18,   19,   20,   21,   22,   23],
       [  24,   25,   26,   27,   28,   29,   30,   31],
       [  32,   33,   34,   35,   36,   37,   38,   39],
       [  40,   41,   42,   43,   44,   45,   46,   47]])

## boolean indexing
- Index 연산자에 Boolean 배열을 넣으면 True인 index의 값만 조회 (False가 있는 index는 조회하지 않는다.)
- ndarray내의 원소 중에서 원하는 조건의 값들만 조회할 때 사용

In [118]:
a = np.array([10,203,300])
a

array([ 10, 203, 300])

In [119]:
b = [True, False, True] #masking

In [120]:
a[b]

array([ 10, 300])

In [103]:
a

array([0, 1, 2])

In [102]:
a >= 1

array([False,  True,  True])

In [104]:
a[[False,  True,  True]]

array([1, 2])

In [105]:
a[a>=1] #배열 a의 원소 중 1이상인 값들만 조회 => 특정 조건을 만족하는 원소들만 조회할 때 boolean indexing을 사용

array([1, 2])

In [122]:
b = np.random.randint(100, size=100)
b

array([71, 80, 92, 48, 58, 56, 31, 67,  9, 76, 32, 41,  2, 40, 11, 11, 58,
       95, 51, 67, 72, 19, 19, 41, 62, 48, 84, 59, 91, 17, 58, 44, 27, 50,
       44, 33, 79, 46,  0, 18, 43, 35, 73, 70, 30, 89, 45,  7, 55, 90,  8,
       77, 61, 32, 14, 68, 30, 31, 20, 61, 70, 59, 44, 55, 74,  6, 28, 92,
       38, 61, 59, 45, 85, 32, 48, 66, 51, 10, 68, 14, 41, 71, 55,  2, 84,
       69, 59, 67, 18, 54, 39, 98, 30, 33, 71, 31, 65, 97, 65, 65])

In [109]:
c = b[b >= 50]
c.shape

(56,)

In [112]:
b2 = b.reshape(2,50)
print(b2.shape)
b2

(2, 50)


array([[30, 46, 58, 93, 19, 74, 47, 23, 93, 75, 66, 60, 68, 78, 83, 70,
        77, 67, 21, 23, 21, 88, 52, 22, 80, 28, 77, 34, 59, 10, 83, 89,
        85,  2, 89,  5, 19, 26, 20, 92, 70, 39, 37, 44, 63, 45, 51, 18,
        14, 39],
       [ 2, 74, 18, 92, 97, 74, 75, 40, 21, 98,  6, 18, 73, 75,  1, 79,
        67, 67, 22, 66, 39,  1, 24,  9, 59, 66, 93, 38, 30, 66, 51, 56,
        72, 15, 78, 63,  2, 94, 63, 65, 24, 44, 42, 91, 88, 30, 72, 86,
        88, 75]])

In [117]:
b2[b2 >= 50] # ND array 에 boolean indexing을 적용하면 True값들만 1차원 배열에 모아서 반환.

array([58, 93, 74, 93, 75, 66, 60, 68, 78, 83, 70, 77, 67, 88, 52, 80, 77,
       59, 83, 89, 85, 89, 92, 70, 63, 51, 74, 92, 97, 74, 75, 98, 73, 75,
       79, 67, 67, 66, 59, 66, 93, 66, 51, 56, 72, 78, 63, 94, 63, 65, 91,
       88, 72, 86, 88, 75])

In [132]:
# 50 ~ 70 사이의 정수?
# 넘파이 논리연산자의 경우 파이썬의 and, or 는 사용할 수 없다.
# and: &, or: |, not: ~
# 피연산자는 반드시 ( ) 로 묶어 줘야 한다.

b[(b>=50) & (b<=70)]

array([58, 56, 67, 58, 51, 67, 62, 59, 58, 50, 70, 55, 61, 68, 61, 70, 59,
       55, 61, 59, 66, 51, 68, 55, 69, 59, 67, 54, 65, 65, 65])

In [134]:
# x = 60
# 50<= b <=70

In [139]:
b[~(b>50)] #not

array([48, 31,  9, 32, 41,  2, 40, 11, 11, 19, 19, 41, 48, 17, 44, 27, 50,
       44, 33, 46,  0, 18, 43, 35, 30, 45,  7,  8, 32, 14, 30, 31, 20, 44,
        6, 28, 38, 45, 32, 48, 10, 14, 41,  2, 18, 39, 30, 33, 31])

### np.where()
- np.where(boolean 배열) - True인 index를 반환
- boolean연산과 같이쓰면 특정 조건을 만족하는 원소의 index조회됨.
- np.where(booean 배열, True를 대체할 값, False를 대체할 값)
    - True와 False를 다른 값으로 변경한다.

In [141]:
l = [True, False, True]
l = np.array(l)
np.where(l) #리스트에서 True 값들의 index들을 반환(반환타입: Tuple)

(array([0, 2], dtype=int64),)

In [143]:
np.where(l, '참', '거짓') #True->'참', False->'거짓'

array([100, 200, 100])

In [144]:
np.where(l, '참', l) # True->'참', False->원래값

array(['참', 'False', '참'], dtype='<U5')

In [149]:
# b[b >= 50] #b의 원소중 50이상인 **값들**조회
np.where(b>=50) #b의 원소중 50이상인 값들의 **index**조회

(array([ 0,  1,  2,  4,  5,  7,  9, 16, 17, 18, 19, 20, 24, 26, 27, 28, 30,
        33, 36, 42, 43, 45, 48, 49, 51, 52, 55, 59, 60, 61, 63, 64, 67, 69,
        70, 72, 75, 76, 78, 81, 82, 84, 85, 86, 87, 89, 91, 94, 96, 97, 98,
        99], dtype=int64),)

In [151]:
np.where(b>=50, '50이상','50미만')

array(['50이상', '50이상', '50이상', '50미만', '50이상', '50이상', '50미만', '50이상',
       '50미만', '50이상', '50미만', '50미만', '50미만', '50미만', '50미만', '50미만',
       '50이상', '50이상', '50이상', '50이상', '50이상', '50미만', '50미만', '50미만',
       '50이상', '50미만', '50이상', '50이상', '50이상', '50미만', '50이상', '50미만',
       '50미만', '50이상', '50미만', '50미만', '50이상', '50미만', '50미만', '50미만',
       '50미만', '50미만', '50이상', '50이상', '50미만', '50이상', '50미만', '50미만',
       '50이상', '50이상', '50미만', '50이상', '50이상', '50미만', '50미만', '50이상',
       '50미만', '50미만', '50미만', '50이상', '50이상', '50이상', '50미만', '50이상',
       '50이상', '50미만', '50미만', '50이상', '50미만', '50이상', '50이상', '50미만',
       '50이상', '50미만', '50미만', '50이상', '50이상', '50미만', '50이상', '50미만',
       '50미만', '50이상', '50이상', '50미만', '50이상', '50이상', '50이상', '50이상',
       '50미만', '50이상', '50미만', '50이상', '50미만', '50미만', '50이상', '50미만',
       '50이상', '50이상', '50이상', '50이상'], dtype='<U4')

In [152]:
# 70이상인 값들은 모두 70으로 변환, 70미만은 그대로 유지
np.where(b>=70, 70, b)

array([70, 70, 70, 48, 58, 56, 31, 67,  9, 70, 32, 41,  2, 40, 11, 11, 58,
       70, 51, 67, 70, 19, 19, 41, 62, 48, 70, 59, 70, 17, 58, 44, 27, 50,
       44, 33, 70, 46,  0, 18, 43, 35, 70, 70, 30, 70, 45,  7, 55, 70,  8,
       70, 61, 32, 14, 68, 30, 31, 20, 61, 70, 59, 44, 55, 70,  6, 28, 70,
       38, 61, 59, 45, 70, 32, 48, 66, 51, 10, 68, 14, 41, 70, 55,  2, 70,
       69, 59, 67, 18, 54, 39, 70, 30, 33, 70, 31, 65, 70, 65, 65])

In [156]:
c = np.arange(12).reshape(3,4)
print(c.shape)
c

(3, 4)


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [158]:
np.where(c>5)
#반환: tuple
#(0축의 index 배열, 1축의 index 배열)
# (1,2), (1,3), (2,0), (2,1), (2,2), (2,3)

(array([1, 1, 2, 2, 2, 2], dtype=int64),
 array([2, 3, 0, 1, 2, 3], dtype=int64))

In [159]:
c>5

array([[False, False, False, False],
       [False, False,  True,  True],
       [ True,  True,  True,  True]])

In [161]:
d = np.arange(12).reshape(2,2,3)
print(d.shape)

(2, 2, 3)


In [163]:
np.where(d>7)

(array([1, 1, 1, 1], dtype=int64),
 array([0, 1, 1, 1], dtype=int64),
 array([2, 0, 1, 2], dtype=int64))

- 2차원도 마찮가지
    - 단 where는 축별로 배열이 반환된다. [0,1], [2,3] => (0,2)  (1,3)
    - 보통 Vector에 적용한다.

### 기타
- np.any(boolean 배열)
    - 배열에 True가 하나라도 있으면 True 반환
- np.all(boolean 배열)
    - 배열의 모든 원소가 True이면 True 반환

In [169]:
np.any(b >= 99) #배열 b에 99이상인 값이 하나라도 있는지 여부?

False

In [171]:
np.any(b >= 90)

True

In [172]:
np.all(b>=90) # 배열 b의 모든 원소들이 90 이상인지 여부?

False

In [174]:
np.all(b>=0)

True

### 정렬
- np.sort(arr)
    - 매개변수로 전달한 배열을 정렬한 새로운 배열을 반환
    - arr은 변경되지 않는다.
- ndarray.sort()
    - ndarray객체 자체를 정렬
- np.argsort(arr): 정렬 후 index를 반환

In [175]:
x = np.array([4, 1, 6, 9, 2])
x

array([4, 1, 6, 9, 2])

In [178]:
y = np.sort(x) #x를 정렬한 원소들을 가지는 새로운 배열을 반환
y

array([1, 2, 4, 6, 9])

In [177]:
x

array([4, 1, 6, 9, 2])

In [179]:
x.sort() #배열 x(원본) 자체를 정렬

In [180]:
x

array([1, 2, 4, 6, 9])

In [182]:
z = np.array([4, 1, 6, 9, 2])
# 내림차순 정렬 -> slicing이용
np.sort(z)[::-1]

array([9, 6, 4, 2, 1])

In [186]:
-np.sort(-z)

array([9, 6, 4, 2, 1])

In [187]:
a = np.array([0.1, 0.7, 0.4])
# 오름차순 정렬했을때 먼저오는 index
# 0, 2, 1

In [189]:
sort_idx = np.argsort(a)
sort_idx

array([0, 2, 1], dtype=int64)

In [190]:
a[sort_idx]

array([0.1, 0.4, 0.7])

In [None]:
# 다차원 배열 정렬
# np.sort(배열, axis=기준축) 기준축 생략시 마지막 축을 기준으로 정렬

In [192]:
l = [
    [1, 0, 5],
    [0, 10, 2],
    [8, 7, 6]
]
arr = np.array(l)
arr.shape

(3, 3)

In [193]:
arr

array([[ 1,  0,  5],
       [ 0, 10,  2],
       [ 8,  7,  6]])

In [194]:
np.sort(arr, axis=0)

array([[ 0,  0,  2],
       [ 1,  7,  5],
       [ 8, 10,  6]])

In [195]:
np.sort(arr, axis=1)

array([[ 0,  1,  5],
       [ 0,  2, 10],
       [ 6,  7,  8]])

In [196]:
np.sort(arr)

array([[ 0,  1,  5],
       [ 0,  2, 10],
       [ 6,  7,  8]])