# 인덱싱과 슬라이싱을 이용한 배열의 원소 조회

## 배열 인덱싱(Indexing)
- ### index
    - 배열내의 원소의 식별번호
    - 0부터 시작
- ### indexing 
    – index를 이용해 원소 조회
    - [] 표기법 사용
- ### 구문 
    - ndarray[index]
    - 양수는 지정한 index의 값을 조회한다. 
    - 음수는 뒤부터 조회한다. 
        - 마지막 index가 -1
    - 2차원배열의 경우 
        - arr[행index, 열index]
        - 파이썬 리스트와 차이점 (list[행][열])
    - N차원 배열의 경우
        - arr[0축 index, 1축 index, ..., n축 index]
- ### 팬시(fancy) 인덱싱
    - **여러개의 원소를 한번에 조회**할 경우 리스트에 담아 전달한다.
    - 다차원 배열의 경우 각 축별로 list로 지정
    - `arr[[1,2,3,4,5]]`
        - 1차원 배열(vector): 1,2,3,4,5 번 index의 원소들 한번에 조회
    - `arr[[0,3],[ 1,4]]`
        - [0,3] - 1번축 index list, [1,4] - 2번축 index list
        - 2차원 배열(matrix): [0,1], [3,4] 의 원소들 조회

In [4]:
import numpy as np

In [5]:
# shape : (2,3)
l = [
    [1,2,3],
    [10,20,30]
]
l

[[1, 2, 3], [10, 20, 30]]

In [6]:
l[0][2]    # 0행에 index 2 값

3

In [10]:
al = np.array(l)
al

array([[ 1,  2,  3],
       [10, 20, 30]])

In [11]:
al[0,1]   # [0번 축의 index, 1번 축의 index]

2

In [None]:
a[1,2,3,4,5]    # 최소 5차원 배열 > 실행안됨
# [0번 축의 idx, 1idx, 2idx, 3idx, 4idx]

In [12]:
a2 = np.arange(12).reshape(2,2,3)
a2.shape

(2, 2, 3)

In [17]:
a2[1,0,1]

7

In [15]:
a2

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [13]:
a2[0,1,2]

5

In [14]:
a2[0][1][2]

5

In [36]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [37]:
# fancy indexing = 한번에 여러개 값을 조회
# 2, 5, 7
# a[2,5,7]    # 0축 : 2, 1축 : 5, 2축 : 7
a[[2,5,7]]    # 리스트로 조회할 index들을 묶어준다.
# 대괄호 두개 : 안쪽 대괄호는 list 묶어주는거, 바깥쪽 대괄호는 indexing할때 쓰는 표기법. 다른의미로 쓰인거임!!

array([2, 5, 7])

In [19]:
arr = np.array([[1,2,3], [10,20,30]])
arr.shape

(2, 3)

In [21]:
arr

array([[ 1,  2,  3],
       [10, 20, 30]])

In [22]:
arr[0, 0]

1

In [23]:
arr[0, 0]

1

In [24]:
# 배열[0축의 index, 1축의 index]
arr[1,2]

30

In [29]:
# 0축의 index 1번째거 : 2 / 0축의 index 2번째거 > 쉼표를 기준으로 축별로 알려줘야 함!!
print(arr)
print("--------------------------------------")
arr[[0,0], [1,2]]

[[ 1  2  3]
 [10 20 30]]
--------------------------------------


array([2, 3])

In [31]:
arr[[0,1,1], [0,2,1]]   # 0,0 / 1,2 / 1,1 이런식 매칭 괄호괄호마다 하나씩 매칭

array([ 1, 30, 20])

In [32]:
print(a2.shape)
a2

(2, 2, 3)


array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [35]:
# 1, 8, 11
a2[[0,1,1],[0,0,1],[1,2,2]]
# 1: [0,0,1]
# 8 : [1,0,2]
# 11 : [1,1,2]

array([ 1,  8, 11])

In [39]:
a2[[0,1],[0,0]]    # a2[0,0], a2[1,1]

array([[0, 1, 2],
       [6, 7, 8]])

## 슬라이싱
- 배열의 부분 집합을 하위배열로 조회 및 변경하는 방식
- ndarry[start : stop : step ]
    - start : 시작 인덱스. 기본값 0
    - stop : 끝 index. stop은 포함하지 않는다. 기본값 마지막 index
    - step : 증감 간격. 기본값 1)

In [40]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [43]:
a = np.arange(100)
a.shape
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [45]:
a[10:50:2]    # 10~(50-1까지)  step:+2

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48])

In [46]:
a[:50:5]    # 0~49, step:+%

array([ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45])

In [48]:
a[50::10]    # 50~끝, step: 10

array([50, 60, 70, 80, 90])

In [49]:
a[1:10:]    # 1~9, step:1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [51]:
a[1:10]    # step 생략 시 위에처럼 콜론 쓰지 않아도 됨

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [54]:
a[:]    # 0~끝, step:1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [55]:
a[10:1:-1]    # 10~ 1+1까지(마지막 인덱스는 포함이 안됨), step:-1

array([10,  9,  8,  7,  6,  5,  4,  3,  2])

In [56]:
a[::-1]    # step:-1 start : 마지막 index, stop : 첫번째 값까지

array([99, 98, 97, 96, 95, 94, 93, 92, 91, 90, 89, 88, 87, 86, 85, 84, 83,
       82, 81, 80, 79, 78, 77, 76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66,
       65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49,
       48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32,
       31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15,
       14, 13, 12, 11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])

### 다차원 배열 슬라이싱
- 각 축에 slicing 문법 적용
- 2차원의 경우
    - arr [행 slicing, 열 slicing]
        - `arr[:3, :]`
    - `,` 로 행과 열을 구분한 다중 슬라이싱 사용
- 다차원의 경우
    - arr[0축 slicing, 1축 slicing, ..., n축 slicing]
- slicing과 indexing 문법은 같이 쓸 수 있다.
- 모든 축에 index를 지정할 필요는 없다.

In [58]:
a = np.arange(48).reshape(6,8)
print(a.shape)
a

(6, 8)


array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47]])

In [59]:
a[1:5, 1:6]    # 0축 : 1~4 step : +1, 1축 : 1~5, step : +!

array([[ 9, 10, 11, 12, 13],
       [17, 18, 19, 20, 21],
       [25, 26, 27, 28, 29],
       [33, 34, 35, 36, 37]])

In [60]:
a[1:5, 1::2]

array([[ 9, 11, 13, 15],
       [17, 19, 21, 23],
       [25, 27, 29, 31],
       [33, 35, 37, 39]])

In [61]:
a[:,[0,2]]

array([[ 0,  2],
       [ 8, 10],
       [16, 18],
       [24, 26],
       [32, 34],
       [40, 42]])

### 슬라이싱은 원본에 대한 View 
- slicing한 결과는 새로운 배열을 생성하는 것이 아니라 기존 배열을 참조한다.
- slicing한 배열의 원소를 변경하면 원본 배열의 것도 바뀐다.
- 배열.copy()
    - 배열을 복사한 새로운 배열 생성
    - 복사후 처리하면 원본이 바뀌지 않는다.

In [62]:
a

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47]])

In [67]:
b = a[1:5, 1:6]

In [68]:
b[0,0] = 9000
b

array([[9000,   10,   11,   12,   13],
       [  17,   18,   19,   20,   21],
       [  25,   26,   27,   28,   29],
       [  33,   34,   35,   36,   37]])

## boolean indexing
- Index 연산자에 Boolean 배열을 넣으면 True인 index의 값만 조회 (False가 있는 index는 조회하지 않는다.)
- ndarray내의 원소 중에서 원하는 조건의 값들만 조회할 때 사용

In [69]:
a = np.arange(3)
a

array([0, 1, 2])

In [71]:
b = [True, False, True]    # masking

In [73]:
# masking 한거! > false 로 가려졌지! 마스크 씌운거 처럼 (1이 사라졌자너!)
a[b]

array([0, 2])

In [74]:
a

array([0, 1, 2])

In [75]:
a >= 1

array([False,  True,  True])

In [77]:
a[a>=1]    # 배열 a의 원소 중 1이상인 값들만 조회 => 특정 조건을 만족하는 원소들만 조회할 때 bollean indexing을 사용

array([1, 2])

In [79]:
b = np.random.randint(100, size=100)
b

array([ 0, 96, 33, 98, 72, 38, 20, 96,  8, 48, 42, 11, 15, 47, 68, 10, 67,
       90, 78, 29, 47, 44,  2, 31, 90, 48, 86, 23, 47, 25, 95, 52,  5, 27,
       18, 80, 71,  9, 86,  5, 70, 41, 29,  9, 22, 12,  0, 10, 76, 61, 13,
       65, 91, 92, 95, 63, 86, 61, 60, 95, 57, 39, 14, 91, 70,  8, 43, 90,
       16,  4, 57, 68, 38, 57, 40, 17, 87, 97, 41,  4, 40, 93, 14, 72, 59,
       37, 88, 35, 13, 48, 99, 90, 45, 84, 54, 16, 55, 38, 34, 62])

In [81]:
c = b[b >= 50]
c.shape

(46,)

In [84]:
'''
파이썬 논리 연산자
and  &
or   |
not  !
이것들은 numpy에서 사용 불가능!!! > 넘파이 논리연산자를 써야해!!
'''

'''
넘파이 논리연산자
and  &
or   |
not  ~
를 써야해!!
'''

# 50 ~ 70 사이의 정수?

b[(b>=50) & (b<=70)]

array([68, 67, 52, 70, 61, 65, 63, 61, 60, 57, 70, 57, 68, 57, 59, 54, 55,
       62])

In [85]:
# x = 60
# 50 <= b <= 70

In [87]:
b[~(b>50)]    # not > 50보다 크지 않은것들 ㅎ.ㅎ

array([ 0, 33, 38, 20,  8, 48, 42, 11, 15, 47, 10, 29, 47, 44,  2, 31, 48,
       23, 47, 25,  5, 27, 18,  9,  5, 41, 29,  9, 22, 12,  0, 10, 13, 39,
       14,  8, 43, 16,  4, 38, 40, 17, 41,  4, 40, 14, 37, 35, 13, 48, 45,
       16, 38, 34])

### np.where()
- np.where(boolean 배열) - True인 index를 반환
- boolean연산과 같이쓰면 특정 조건을 만족하는 원소의 index조회됨.
- np.where(booean 배열, True를 대체할 값, False를 대체할 값)
    - True와 False를 다른 값으로 변경한다.

In [95]:
l = [True, False, True]
l = np.array(l)
np.where(l)    # 리스트에서 True 값들의 index들을 반환

(array([0, 2], dtype=int64),)

In [97]:
np.where(l, '참', '거짓')    # True->'참', False->원래값

array(['참', '거짓', '참'], dtype='<U2')

In [98]:
np.where(l, '참', l)

array(['참', 'False', '참'], dtype='<U5')

In [100]:
np.where(b>=50, '50이상', '50미만')

array(['50미만', '50이상', '50미만', '50이상', '50이상', '50미만', '50미만', '50이상',
       '50미만', '50미만', '50미만', '50미만', '50미만', '50미만', '50이상', '50미만',
       '50이상', '50이상', '50이상', '50미만', '50미만', '50미만', '50미만', '50미만',
       '50이상', '50미만', '50이상', '50미만', '50미만', '50미만', '50이상', '50이상',
       '50미만', '50미만', '50미만', '50이상', '50이상', '50미만', '50이상', '50미만',
       '50이상', '50미만', '50미만', '50미만', '50미만', '50미만', '50미만', '50미만',
       '50이상', '50이상', '50미만', '50이상', '50이상', '50이상', '50이상', '50이상',
       '50이상', '50이상', '50이상', '50이상', '50이상', '50미만', '50미만', '50이상',
       '50이상', '50미만', '50미만', '50이상', '50미만', '50미만', '50이상', '50이상',
       '50미만', '50이상', '50미만', '50미만', '50이상', '50이상', '50미만', '50미만',
       '50미만', '50이상', '50미만', '50이상', '50이상', '50미만', '50이상', '50미만',
       '50미만', '50미만', '50이상', '50이상', '50미만', '50이상', '50이상', '50미만',
       '50이상', '50미만', '50미만', '50이상'], dtype='<U4')

In [104]:
# 70이상인 값들은 모두 70으로 변환, 70미만은 그대로 유지
np.where(b>=70, 70, b)

array([ 0, 70, 33, 70, 70, 38, 20, 70,  8, 48, 42, 11, 15, 47, 68, 10, 67,
       70, 70, 29, 47, 44,  2, 31, 70, 48, 70, 23, 47, 25, 70, 52,  5, 27,
       18, 70, 70,  9, 70,  5, 70, 41, 29,  9, 22, 12,  0, 10, 70, 61, 13,
       65, 70, 70, 70, 63, 70, 61, 60, 70, 57, 39, 14, 70, 70,  8, 43, 70,
       16,  4, 57, 68, 38, 57, 40, 17, 70, 70, 41,  4, 40, 70, 14, 70, 59,
       37, 70, 35, 13, 48, 70, 70, 45, 70, 54, 16, 55, 38, 34, 62])

- 2차원도 마찬가지
    - 단 where는 축별로 배열이 반환된다. [0,1], [2,3] => (0,2)  (1,3)
    - 보통 Vector에 적용한다.

### 기타
- np.any(boolean 배열)
    - 배열에 True가 하나라도 있으면 True 반환
- np.all(boolean 배열)
    - 배열의 모든 원소가 True이면 True 반환

In [106]:
np.any(b >= 99)    # 배열 b에 99이상인 값이 하나라도 있는지 여부?

True

In [108]:
np.any(b >= 90)

True

In [110]:
np.all(b >= 90)    # 배열 b의 모든 원소들이 90이상인지 여부?

False

In [111]:
np.all(b>=0)

True

### 정렬
- np.sort(arr): arr을 정렬
- np.argsort(arr): 정렬 후 index를 반환

In [113]:
x = np.array([4, 1, 6, 9, 2])
x

array([4, 1, 6, 9, 2])

In [115]:
y = np.sort(x)    # x를 정렬한 원소들을 가지는 새로운 배열을 반환
y

array([1, 2, 4, 6, 9])

In [118]:
x.sort()
x

array([1, 2, 4, 6, 9])

In [122]:
z = np.array([4, 1, 6, 9, 2])

# sort는 내림차순 정렬 안됨. 내림차순 정렬 -> slicing이용
np.sort(z)[::-1]

array([9, 6, 4, 2, 1])

In [125]:
np.sort(-z)

array([-9, -6, -4, -2, -1])

In [128]:
a = np.array([0.1, 0.7, 0.4])
# 오름차순 정렬했을때 먼저오는 index
# 0, 2, 1

In [129]:
# 정렬한 인덱스를 알려줌
sort_idx = np.argsort(a)
sort_idx

array([0, 2, 1], dtype=int64)