# 인덱싱과 슬라이싱을 이용한 배열의 원소 조회

## 배열 인덱싱(Indexing)
- ### index
    - 배열내의 원소의 식별번호
    - 0부터 시작
- ### indexing 
    – index를 이용해 원소 조회
    - [] 표기법 사용
- ### 구문 
    - ndarray[index]
    - 양수는 지정한 index의 값을 조회한다. 
    - 음수는 뒤부터 조회한다. 
        - 마지막 index가 -1
    - 2차원배열의 경우 
        - arr[행index, 열index]
        - 파이썬 리스트와 차이점 (list[행][열])
    - N차원 배열의 경우
        - arr[0축 index, 1축 index, ..., n축 index]
- ### 팬시(fancy) 인덱싱
    - **여러개의 원소를 한번에 조회**할 경우 리스트에 담아 전달한다.
    - 다차원 배열의 경우 각 축별로 list로 지정
    - `arr[[1,2,3,4,5]]`
        - 1차원 배열(vector): 1,2,3,4,5 번 index의 원소들 한번에 조회
    - `arr[[0,3],[ 1,4]]`
        - [0,3] - 1번축 index list, [1,4] - 2번축 index list
        - 2차원 배열(matrix): [0,1], [3,4] 의 원소들 조회
    - `arr[[1, 3], [4, 6]]`
        - [1, 4]와 [3,. 6]을 찾는다

In [3]:
import numpy as np

In [5]:
l = [
    [1, 2, 3],
    [10, 20, 30]
]
print(l)
print(l[0][1])

[[1, 2, 3], [10, 20, 30]]
2


In [6]:
a1 = np.array(l)
print(a1)

# 0축의 index, 1축의 index
print(a1[0, 1])

[[ 1  2  3]
 [10 20 30]]
2


In [None]:
# 아래의 a는 최소 5차원 배열
a[1, 2, 3, 4, 5]

In [8]:
a = np.arange(10)
print(a)
print(a[0])
print(a[1], a[5])

[0 1 2 3 4 5 6 7 8 9]
0
1 5


In [15]:
a2 = np.arange(12)
a2.shape

a2 = a2.reshape(2, 2, 3)

In [16]:
print(a2[1, 0, 1], a2[0, 1, 2])
print(a2[0][1][2])

7 5
5


In [17]:
# fancy indexing : 한번에 여러개값을 조회
# 2, 5, 7
# a[2, 5, 7] : 0축 - 2, 1축 - 5, 2축 - 7

# 리스트로 조회할 index들을 묶어준다.
a[[2, 5, 7]]

array([2, 5, 7])

In [20]:
arr = np.array([[1, 2, 3], [10, 20, 30]])
print(arr.shape)
arr

(2, 3)


array([[ 1,  2,  3],
       [10, 20, 30]])

In [22]:
print(arr[0, 0])

# 배열[0축의 index, 1축의 index]
arr[1, 2]

1


30

In [24]:
print(arr)
arr[[0, 1, 1], [0, 2, 1]]

[[ 1  2  3]
 [10 20 30]]


array([ 1, 30, 20])

In [29]:
print(a2)

# 1, 8, 11 출력
a2[[0, 1, 1], [0, 0, 1], [1, 2, 2]]
# 1 : [0, 0, 1]
# 8 : [1, 0, 2]
# 11 : [1, 1, 2]

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]


array([ 1,  8, 11])

In [30]:
print(a2)

# a2[0, 0], a2[1, 1]
a2[[0, 1], [0, 1]]

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]


array([[ 0,  1,  2],
       [ 9, 10, 11]])

## 슬라이싱
- 배열의 부분 집합을 하위배열로 조회 및 변경하는 방식
- ndarry[start : stop : step ]
    - start : 시작 인덱스.
        - default = 0
    - stop : 끝 index. stop은 포함하지 않는다. 
        - default = end index
    - step : 증감 간격
        - default = 1

In [32]:
a = np.arange(100)
a.shape

(100,)

In [39]:
# 10 ~ 51 - 1까지 step 2
print(a[10:51:2])

# 0 ~ 50-1, step : 5
print(a[:50:5])

# 50 ~ 끝, step: 10
print(a[50::10])

# 1 ~ 9, step : 1
print(a[1:10])

# 0 ~ 끝, step : 1
print(a[:])

[10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50]
[ 0  5 10 15 20 25 30 35 40 45]
[50 60 70 80 90]
[1 2 3 4 5 6 7 8 9]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]


In [40]:
# step(증감)을 음수 => 역순으로 조회(reverse)
# 10 ~ 1+1, step: -1
print(a[10:1:-1])


[10  9  8  7  6  5  4  3  2]


### 다차원 배열 슬라이싱
- 각 축에 slicing 문법 적용
- 2차원의 경우
    - arr [행 slicing, 열 slicing]
        - `arr[:3, :]`
    - `,` 로 행과 열을 구분한 다중 슬라이싱 사용
- 다차원의 경우
    - arr[0축 slicing, 1축 slicing, ..., n축 slicing]
- slicing과 indexing 문법은 같이 쓸 수 있다.
- 모든 축에 index를 지정할 필요는 없다.

In [41]:
a = np.arange(48).reshape(6, 8)
print(a.shape)
a

(6, 8)


array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47]])

In [47]:
# 0축: 1~4, step : +1
# 1축: 1~5, step : +1
print(a[1:5, 1:6])

# 0축: 1~4, step : +1
# 1축: 1~끝, step : +2
print(a[1:5, 1::2])

# 0축: all, step : +1
# 1축: 0, 2
print(a[:, [0,2]])

[[ 9 10 11 12 13]
 [17 18 19 20 21]
 [25 26 27 28 29]
 [33 34 35 36 37]]
[[ 9 11 13 15]
 [17 19 21 23]
 [25 27 29 31]
 [33 35 37 39]]
[[ 0  2]
 [ 8 10]
 [16 18]
 [24 26]
 [32 34]
 [40 42]]


### 슬라이싱은 원본에 대한 View 
- slicing한 결과는 새로운 배열을 생성하는 것이 아니라 기존 배열을 참조한다.
- slicing한 `배열의 원소를 변경하면 원본 배열의 것도 바뀐다.`
- 배열.copy()
    - 배열을 복사한 새로운 배열 생성
    - 복사후 처리하면 원본이 바뀌지 않는다.
- 원본을 건들지 않겠다면 copy()를 사용하고 건들여도 상관없으면 slicing을 사용한다.

In [55]:
a = np.arange(48).reshape(6, 8)
a

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47]])

In [57]:
b = a[1:5, 1:6]
c = a[0:3, 1:6]

print(b)
print(c)

[[ 9 10 11 12 13]
 [17 18 19 20 21]
 [25 26 27 28 29]
 [33 34 35 36 37]]
[[ 1  2  3  4  5]
 [ 9 10 11 12 13]
 [17 18 19 20 21]]


In [60]:
b[0, 0] = 9000
print(b)
print(c)

[[9000   10   11   12   13]
 [  17   18   19   20   21]
 [  25   26   27   28   29]
 [  33   34   35   36   37]]
[[   1    2    3    4    5]
 [9000   10   11   12   13]
 [  17   18   19   20   21]]


In [61]:
a

array([[   0,    1,    2,    3,    4,    5,    6,    7],
       [   8, 9000,   10,   11,   12,   13,   14,   15],
       [  16,   17,   18,   19,   20,   21,   22,   23],
       [  24,   25,   26,   27,   28,   29,   30,   31],
       [  32,   33,   34,   35,   36,   37,   38,   39],
       [  40,   41,   42,   43,   44,   45,   46,   47]])

In [62]:
# ndarray.copy() => 배열을 복사
d = a[1:5, 1:6].copy()

d[0, 0] = 5555
print(d)
print(a)

[[5555   10   11   12   13]
 [  17   18   19   20   21]
 [  25   26   27   28   29]
 [  33   34   35   36   37]]
[[   0    1    2    3    4    5    6    7]
 [   8 9000   10   11   12   13   14   15]
 [  16   17   18   19   20   21   22   23]
 [  24   25   26   27   28   29   30   31]
 [  32   33   34   35   36   37   38   39]
 [  40   41   42   43   44   45   46   47]]


## boolean indexing
- Index 연산자에 Boolean 배열을 넣으면 True인 index의 값만 조회 (False가 있는 index는 조회하지 않는다.)
- ndarray내의 원소 중에서 원하는 조건의 값들만 조회할 때 사용

In [63]:
a = np.arange(3)
a

array([0, 1, 2])

In [64]:
a[[0, 2]]

array([0, 2])

In [65]:
# masking
b = [True, True, False]

# True인 index만 조회
a[b]

array([0, 1])

In [66]:
print(a)
a > 10

[0 1 2]


array([False, False, False])

In [68]:
print(a + 10)
a

[10 11 12]


array([0, 1, 2])

In [69]:
# 배열 a의 원소 중 1이상인 값들만 조회
# => 특정 조건을 만족하는 원소들만 조회할 때 boolean indexing을 사용한다.
a[a>=1]

array([1, 2])

In [70]:
b = np.random.randint(100, size=100)
b

array([87, 71, 15, 56, 19,  1, 69, 78, 57,  5, 86, 24, 45, 55, 57, 43, 57,
       94, 16, 40, 76, 89, 42, 22, 69, 92, 75,  0, 22, 93, 50, 63,  0, 99,
       86, 82, 92, 97, 38, 87,  7, 61, 16, 49, 93, 46, 33, 12,  1, 66, 37,
       56, 84, 36, 68, 91, 11,  8, 39, 82, 40, 96, 51, 80, 92, 37, 67, 77,
       58, 52, 71, 43, 84, 86, 39, 41, 16, 87, 74, 39, 37, 74, 31, 30, 56,
       48,  8, 91, 30, 48, 76, 97, 24, 75, 10, 84, 65, 49, 15, 39])

In [73]:
# ND array에 boolean indexing을 적용하면 True값들만 1차원 배열에 모아서 반환
b[b>=50]

array([87, 71, 56, 69, 78, 57, 86, 55, 57, 57, 94, 76, 89, 69, 92, 75, 93,
       50, 63, 99, 86, 82, 92, 97, 87, 61, 93, 66, 56, 84, 68, 91, 82, 96,
       51, 80, 92, 67, 77, 58, 52, 71, 84, 86, 87, 74, 74, 56, 91, 76, 97,
       75, 84, 65])

In [78]:
# 50 ~ 70 사이의 정수?
# 넘파이 논리연산자의 경우 파이썬의 and or 는 사용할 수 없다.
# and : &, or: |, not: ~ 
# 피연산자는 반드시 ()로 묶어줘야 한다.

# 50이상 70이하 출력
print(b[(b>=50) & (b<=70)])

# 50 미만 출력
print(b[~(b>50)])

[56 69 57 55 57 57 69 50 63 61 66 56 68 51 67 58 52 56 65]
[15 19  1  5 24 45 43 16 40 42 22  0 22 50  0 38  7 16 49 46 33 12  1 37
 36 11  8 39 40 37 43 39 41 16 39 37 31 30 48  8 30 48 24 10 49 15 39]


### np.where()
- np.where(boolean 배열) - True인 index를 반환
- boolean연산과 같이쓰면 특정 조건을 만족하는 원소의 index조회됨.
- np.where(booean 배열, True를 대체할 값, False를 대체할 값)
    - True와 False를 다른 값으로 변경한다.

In [80]:
l = [True, False, True]
l = np.array(l)

# 리스트에서 True 값들의 index들을 반환(반환타입: Tuple)
np.where(l)

(array([0, 2], dtype=int64),)

In [83]:
# True -> '참', False -> '거짓'
print(np.where(l, '참', '거짓'))

# True -> '참', False -> 원래값
print(np.where(l, '참', l))

['참' '거짓' '참']
['참' 'False' '참']


In [86]:
# b의 원소 중 50이상인 **값**들 조회
# b[b>=50]

# b의 원소 중 50이상인 값들의 **index** 조회
np.where(b>=50, '50이상', '50미만')

array(['50이상', '50이상', '50미만', '50이상', '50미만', '50미만', '50이상', '50이상',
       '50이상', '50미만', '50이상', '50미만', '50미만', '50이상', '50이상', '50미만',
       '50이상', '50이상', '50미만', '50미만', '50이상', '50이상', '50미만', '50미만',
       '50이상', '50이상', '50이상', '50미만', '50미만', '50이상', '50이상', '50이상',
       '50미만', '50이상', '50이상', '50이상', '50이상', '50이상', '50미만', '50이상',
       '50미만', '50이상', '50미만', '50미만', '50이상', '50미만', '50미만', '50미만',
       '50미만', '50이상', '50미만', '50이상', '50이상', '50미만', '50이상', '50이상',
       '50미만', '50미만', '50미만', '50이상', '50미만', '50이상', '50이상', '50이상',
       '50이상', '50미만', '50이상', '50이상', '50이상', '50이상', '50이상', '50미만',
       '50이상', '50이상', '50미만', '50미만', '50미만', '50이상', '50이상', '50미만',
       '50미만', '50이상', '50미만', '50미만', '50이상', '50미만', '50미만', '50이상',
       '50미만', '50미만', '50이상', '50이상', '50미만', '50이상', '50미만', '50이상',
       '50이상', '50미만', '50미만', '50미만'], dtype='<U4')

In [87]:
# 70이상인 값들은 모두 70으로 변환, 70미만은 그대로 유지
np.where(b>=70, 70, b)

array([70, 70, 15, 56, 19,  1, 69, 70, 57,  5, 70, 24, 45, 55, 57, 43, 57,
       70, 16, 40, 70, 70, 42, 22, 69, 70, 70,  0, 22, 70, 50, 63,  0, 70,
       70, 70, 70, 70, 38, 70,  7, 61, 16, 49, 70, 46, 33, 12,  1, 66, 37,
       56, 70, 36, 68, 70, 11,  8, 39, 70, 40, 70, 51, 70, 70, 37, 67, 70,
       58, 52, 70, 43, 70, 70, 39, 41, 16, 70, 70, 39, 37, 70, 31, 30, 56,
       48,  8, 70, 30, 48, 70, 70, 24, 70, 10, 70, 65, 49, 15, 39])

In [88]:
c = np.arange(12).reshape(3, 4)
print(c.shape)
c

(3, 4)


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [89]:
np.where(c > 5)
# 반환: tupel
# (배열, 배열)

# (array([1, 1, 2, 2, 2, 2], dtype=int64),
# array([2, 3, 0, 1, 2, 3], dtype=int64))
# (1, 2), (1, 3), (2, 0) ... 이 True이다.

(array([1, 1, 2, 2, 2, 2], dtype=int64),
 array([2, 3, 0, 1, 2, 3], dtype=int64))

In [90]:
d = np.arange(12).reshape(2, 2, 3)
print(d.shape)

(2, 2, 3)


In [91]:
np.where(d>7)

(array([1, 1, 1, 1], dtype=int64),
 array([0, 1, 1, 1], dtype=int64),
 array([2, 0, 1, 2], dtype=int64))

- 2차원도 마찮가지
    - 단 where는 축별로 배열이 반환된다. [0,1], [2,3] => (0,2)  (1,3)
    - 보통 Vector에 적용한다.

### 기타
- np.any(boolean 배열)
    - 배열에 True가 하나라도 있으면 True 반환
- np.all(boolean 배열)
    - 배열의 모든 원소가 True이면 True 반환

In [94]:
# 배열 b에 99이상인 값이 하나라도 있는지 여부?
print(np.any(b >= 99))

# 배열 b의 모든 원소들이 90 이상인지 여부?
print(np.all(b >= 90))

True
False


### 정렬
- np.sort(arr, axis=)
    - 매개변수로 전달한 배열을 정렬한 새로운 배열을 반환
    - arr은 변경되지 않는다.
    - axis를 기준으로 정렬한다.
        - default = -1(마지막축)
        - 기본값이 있지만 항상 지정해주는 것이 안전하다.
- ndarray.sort()
    - ndarray 객체 자체를 정렬
- np.argsort(arr)
    - 정렬 후 **index**를 반환

In [95]:
x = np.array([4, 1, 6, 9, 2])
print(x)

# x를 정렬한 원소들을 가지는 새로운 배열을 반환
print(np.sort(x))
print(x)

[4 1 6 9 2]
[1 2 4 6 9]
[4 1 6 9 2]


In [96]:
# 객체 자체를 정렬
x.sort()
x

array([1, 2, 4, 6, 9])

In [97]:
z = np.array([4, 1, 6, 9, 2])

# 내림차순 정렬 -> slicing 이용
np.sort(z)[::-1]

array([9, 6, 4, 2, 1])

In [100]:
# 음수를 붙여서 값을 정렬하고 다시 음수를 붙여서 원상복구하는 방법도 있다.
# 하지만 이건 불편하니 이것보다 위의 slicing을 이용하도록 하자
-np.sort(-z)

array([9, 6, 4, 2, 1])

In [103]:
a = np.array([0.1, 0.7, 0.4])

# 오름차순 정렬했을 때 먼저오는 index : 0, 2, 1
sort_idx = np.argsort(a)
# sort_idx는 [0, 2, 1]가 되는데 이를 통해서 다음과 같이 값을 정렬할 수 있다.

a[sort_idx]

array([0.1, 0.4, 0.7])

In [108]:
# 다차원 배열 정렬
# np.sort(배열, axis=기준축) 기준축 생략시 마지막 축을 기준으로 정렬
l = [
    [1, 0, 5],
    [0, 10, 2],
    [8, 7, 6]
]

arr = np.array(l)
print(arr.shape)
arr

(3, 3)


array([[ 1,  0,  5],
       [ 0, 10,  2],
       [ 8,  7,  6]])

In [111]:
# axis=0 : col끼리 정렬
print(np.sort(arr, axis=0))

# axis=1 : row끼리 정렬
print(np.sort(arr))

[[ 0  0  2]
 [ 1  7  5]
 [ 8 10  6]]
[[ 0  1  5]
 [ 0  2 10]
 [ 6  7  8]]
