# 인덱싱과 슬라이싱을 이용한 배열의 원소 조회

## 배열 인덱싱(Indexing)
- ### index
    - 배열내의 원소의 식별번호
    - 0부터 시작
    - 뒤에서부터 -1로 시작
- ### indexing 
    – index를 이용해 원소 조회
    - [] 표기법 사용
- ### 구문 
    - ndarray[index]
    - 양수는 지정한 index의 값을 조회한다. 
    - 음수는 뒤부터 조회한다. 
        - 마지막 index가 -1
    - 2차원배열의 경우 
        - arr[행index, 열index]
        - 파이썬 리스트와 차이점 (list[행][열])
    - N차원 배열의 경우
        - arr[0축 index, 1축 index, ..., n축 index]
- ### 팬시(fancy) 인덱싱
    - **여러개의 원소를 한번에 조회**할 경우 리스트에 담아 전달한다.
    - 다차원 배열의 경우 각 축별로 list로 지정
    - `arr[[1,2,3,4,5]]`
        - 1차원 배열(vector): 1,2,3,4,5 번 index의 원소들 한번에 조회
    - `arr[[0,3],[ 1,4]]`
        - [0,3] - 1번축 index list, [1,4] - 2번축 index list
        - 2차원 배열(matrix): [0,1], [3,4] 의 원소들 조회

In [28]:
import numpy as np
b = np.arange(12).reshape(1,2,3,2)
idx = np.where(b==7)
print(b)
print(idx)
print(b[idx])

[[[[ 0  1]
   [ 2  3]
   [ 4  5]]

  [[ 6  7]
   [ 8  9]
   [10 11]]]]
(array([0], dtype=int64), array([1], dtype=int64), array([0], dtype=int64), array([1], dtype=int64))
[7]


In [18]:
arr = np.arange(12).reshape(3,4)
print(arr.shape)
print(arr)

(3, 4)
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [25]:
arr[[0,2],[1,3]] # arr[ [0축], [1축], [2축], .. ,[N축]]

array([ 1, 11])

In [26]:
arr[[1,2,0],[0,1,3]] 

array([4, 9, 3])

In [29]:
arr2 = np.arange(12)
arr2[[5,7],] = 500, 700
arr2

array([  0,   1,   2,   3,   4, 500,   6, 700,   8,   9,  10,  11])

## 슬라이싱
- 배열의 부분 집합을 하위배열로 조회 및 변경하는 방식
- ndarry[start : stop : step ]
    - start : 시작 인덱스. 기본값 0
    - stop : 끝 index. stop은 포함하지 않는다. 기본값 마지막 index
    - step : 증감 간격. 기본값 1)

In [38]:
arr = np.arange(100)
print(arr[3:10])
print(arr[5:61:10])
print(arr[::10])

[3 4 5 6 7 8 9]
[ 5 15 25 35 45 55]
[ 0 10 20 30 40 50 60 70 80 90]


### 다차원 배열 슬라이싱
- 각 축에 slicing 문법 적용
- 2차원의 경우
    - arr [행 slicing, 열 slicing]
        - `arr[:3, :]`
    - `,` 로 행과 열을 구분한 다중 슬라이싱 사용
- 다차원의 경우
    - arr[0축 slicing, 1축 slicing, ..., n축 slicing]
- slicing과 indexing 문법은 같이 쓸 수 있다.
- 모든 축에 index를 지정할 필요는 없다.

In [65]:
a = np.arange(30).reshape(6,5)
print(a)
print(a[1:5,2:4]) # 다차원 슬라이싱
print(a[1:5,[2,4]]) # 슬라이싱 + Fancy Indexing

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
[[ 7  8]
 [12 13]
 [17 18]
 [22 23]]
[[ 7  9]
 [12 14]
 [17 19]
 [22 24]]


In [67]:
a[:,:-1]

array([[ 0,  1,  2,  3],
       [ 5,  6,  7,  8],
       [10, 11, 12, 13],
       [15, 16, 17, 18],
       [20, 21, 22, 23],
       [25, 26, 27, 28]])

In [68]:
a[::-1,:]

array([[25, 26, 27, 28, 29],
       [20, 21, 22, 23, 24],
       [15, 16, 17, 18, 19],
       [10, 11, 12, 13, 14],
       [ 5,  6,  7,  8,  9],
       [ 0,  1,  2,  3,  4]])

In [69]:
a[::-1,::-1]

array([[29, 28, 27, 26, 25],
       [24, 23, 22, 21, 20],
       [19, 18, 17, 16, 15],
       [14, 13, 12, 11, 10],
       [ 9,  8,  7,  6,  5],
       [ 4,  3,  2,  1,  0]])

In [71]:
np.flip(a,axis=0)

array([[25, 26, 27, 28, 29],
       [20, 21, 22, 23, 24],
       [15, 16, 17, 18, 19],
       [10, 11, 12, 13, 14],
       [ 5,  6,  7,  8,  9],
       [ 0,  1,  2,  3,  4]])

In [73]:
b=np.arange(9)
b[::-1]

array([8, 7, 6, 5, 4, 3, 2, 1, 0])

### 슬라이싱은 원본에 대한 View 
- slicing한 결과는 새로운 배열을 생성하는 것이 아니라 기존 배열을 참조한다.
- slicing한 배열의 원소를 변경하면 원본 배열의 것도 바뀐다.
- 배열.copy()
    - 배열을 복사한 새로운 배열 생성
    - 복사후 처리하면 원본이 바뀌지 않는다.

In [74]:
a=np.arange(30).reshape(6,5)
b = a[:,1:4]
b

array([[ 1,  2,  3],
       [ 6,  7,  8],
       [11, 12, 13],
       [16, 17, 18],
       [21, 22, 23],
       [26, 27, 28]])

In [75]:
b[0,0]=10000
print(b)
print(a)

[[10000     2     3]
 [    6     7     8]
 [   11    12    13]
 [   16    17    18]
 [   21    22    23]
 [   26    27    28]]
[[    0 10000     2     3     4]
 [    5     6     7     8     9]
 [   10    11    12    13    14]
 [   15    16    17    18    19]
 [   20    21    22    23    24]
 [   25    26    27    28    29]]


In [76]:
b=b.copy()
b[0,0]=5000

In [77]:
print(b)
print(a)

[[5000    2    3]
 [   6    7    8]
 [  11   12   13]
 [  16   17   18]
 [  21   22   23]
 [  26   27   28]]
[[    0 10000     2     3     4]
 [    5     6     7     8     9]
 [   10    11    12    13    14]
 [   15    16    17    18    19]
 [   20    21    22    23    24]
 [   25    26    27    28    29]]


## boolean indexing
- Index 연산자에 Boolean 배열을 넣으면 True인 index의 값만 조회 (False가 있는 index는 조회하지 않는다.)
- ndarray내의 원소 중에서 원하는 조건의 값들만 조회할 때 사용

In [2]:
import numpy as np

In [3]:
a=np.array([1,2,3,4,5])
b=[False,True,True,False,True,]
a[b]

array([2, 3, 5])

In [4]:
# 벡터화 (연산)
# 배열 + 배열 : 같은 인덱스 원소끼리 연산
# 배열 + scalar : 배열의 모든 원소들과 scalar 연산
a = np.array([1,2,3])
b = np.array([10,20,30])
print(a+b)
print(a+20)

[11 22 33]
[21 22 23]


In [5]:
arr = np.arange(100)
np.random.shuffle(arr)
arr2 = np.arange(100).reshape(2,50)
print(arr2)
print(arr2[arr2 >= 50]) # 특정 조건을 만족하는 값을 찾을 때, 배열에 boolen indexing

[[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
  24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
  48 49]
 [50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
  74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97
  98 99]]
[50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97
 98 99]


## Numpy에서 비교연산자
- 파이썬 비교 연산자인 and, or, not을 사용 X
- `&` : and
- `\` : or
- `~` : not
- 피연산자들은 ( ) 묶어야 한다.

In [7]:
# 20 ~ 30
arr2[(arr2 >= 20) & (arr2 <=30)]

array([20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30])

In [9]:
# 50보다 크지 않은 값들
arr2[~(arr2>50)]

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

### np.where()
- np.where(boolean 배열) - True인 index를 반환
- boolean연산과 같이쓰면 특정 조건을 만족하는 원소의 index조회됨.
- np.where(booean 배열, True를 대체할 값, False를 대체할 값)
    - True와 False를 다른 값으로 변경한다.

In [11]:
a = np.array([True,False,True])
r = np.where(a) # True인 index들을 튜플안에 ndarray에 담아서 반환
print(type(r))
print(r)

<class 'tuple'>
(array([0, 2], dtype=int64),)


In [14]:
arr = np.arange(100)
np.random.shuffle(arr)
np.where(arr >= 50)

(array([ 0,  2,  3,  5,  6,  8, 11, 14, 16, 17, 19, 20, 23, 25, 26, 27, 32,
        33, 34, 36, 38, 39, 40, 42, 43, 44, 46, 47, 48, 49, 53, 56, 58, 60,
        65, 69, 70, 72, 74, 76, 82, 84, 87, 88, 91, 92, 96, 97, 98, 99],
       dtype=int64),)

In [16]:
np.where(a,'참','거짓')

array(['참', '거짓', '참'], dtype='<U2')

In [17]:
np.where(arr>=50,"50up","50down")

array(['50up', '50down', '50up', '50up', '50down', '50up', '50up',
       '50down', '50up', '50down', '50down', '50up', '50down', '50down',
       '50up', '50down', '50up', '50up', '50down', '50up', '50up',
       '50down', '50down', '50up', '50down', '50up', '50up', '50up',
       '50down', '50down', '50down', '50down', '50up', '50up', '50up',
       '50down', '50up', '50down', '50up', '50up', '50up', '50down',
       '50up', '50up', '50up', '50down', '50up', '50up', '50up', '50up',
       '50down', '50down', '50down', '50up', '50down', '50down', '50up',
       '50down', '50up', '50down', '50up', '50down', '50down', '50down',
       '50down', '50up', '50down', '50down', '50down', '50up', '50up',
       '50down', '50up', '50down', '50up', '50down', '50up', '50down',
       '50down', '50down', '50down', '50down', '50up', '50down', '50up',
       '50down', '50down', '50up', '50up', '50down', '50down', '50up',
       '50up', '50down', '50down', '50down', '50up', '50up', '50up',
       '50

In [18]:
np.where(arr>=50,'50up',arr)

array(['50up', '13', '50up', '50up', '38', '50up', '50up', '46', '50up',
       '16', '28', '50up', '41', '35', '50up', '10', '50up', '50up', '48',
       '50up', '50up', '9', '24', '50up', '34', '50up', '50up', '50up',
       '18', '33', '27', '12', '50up', '50up', '50up', '1', '50up', '0',
       '50up', '50up', '50up', '36', '50up', '50up', '50up', '5', '50up',
       '50up', '50up', '50up', '15', '8', '6', '50up', '43', '47', '50up',
       '40', '50up', '26', '50up', '4', '7', '3', '20', '50up', '37',
       '39', '49', '50up', '50up', '2', '50up', '29', '50up', '11',
       '50up', '31', '22', '45', '32', '23', '50up', '42', '50up', '17',
       '44', '50up', '50up', '25', '14', '50up', '50up', '19', '21', '30',
       '50up', '50up', '50up', '50up'], dtype='<U11')

In [41]:
# 0:여성, 1:남성
gender = np.random.choice([0,1,2],size = 20)
# print(np.where(gender == 0,'여성','남성'))
print(gender)
np.where(gender == 0 , '여성', (np.where(gender == 1, '남성', '사람')))

[2 1 1 2 1 0 0 2 0 1 0 1 0 2 0 0 0 1 1 0]


array(['사람', '남성', '남성', '사람', '남성', '여성', '여성', '사람', '여성', '남성', '여성',
       '남성', '여성', '사람', '여성', '여성', '여성', '남성', '남성', '여성'], dtype='<U2')

- 2차원도 마찮가지
    - 단 where는 축별로 배열이 반환된다. [0,1], [2,3] => (0,2)  (1,3)
    - 보통 Vector에 적용한다.

In [35]:
arr2 = [
    [1,10,7],
    [4,2,10],
    [10,2,8],
]
arr2 = np.array(arr2)
r = np.where(arr2>=5)
print(type(r[0]))

idx = [i for i in zip(*r)]
print(idx)

<class 'numpy.ndarray'>
[(0, 1), (0, 2), (1, 2), (2, 0), (2, 2)]


### 기타
- np.any(boolean 배열)
    - 배열에 True가 하나라도 있으면 True 반환
- np.all(boolean 배열)
    - 배열의 모든 원소가 True이면 True 반환

In [39]:
print(np.any(arr>50)) # arr 안에 50 초과인 값이 하나라도 있는지.
print(np.all(arr>50)) # arr 안에 모든값이 50 초과인 값을 갖는지

True
False


In [37]:
arr

array([61, 13, 78, 75, 38, 64, 57, 46, 98, 16, 28, 69, 41, 35, 90, 10, 55,
       68, 48, 72, 51,  9, 24, 60, 34, 84, 87, 89, 18, 33, 27, 12, 91, 81,
       65,  1, 80,  0, 95, 76, 70, 36, 83, 92, 56,  5, 74, 94, 73, 52, 15,
        8,  6, 85, 43, 47, 54, 40, 67, 26, 79,  4,  7,  3, 20, 50, 37, 39,
       49, 58, 53,  2, 77, 29, 99, 11, 66, 31, 22, 45, 32, 23, 62, 42, 71,
       17, 44, 63, 97, 25, 14, 86, 93, 19, 21, 30, 96, 82, 88, 59])

In [42]:
# 50 초과 값이 몇개?
np.sum(arr>50) # sum() : 배열내 원소 총합계, boolean배열 -> True:1, False:0 으로 처리 후 계산

49

### 정렬
- np.sort(arr)/ndarray.sort(): arr을 정렬
    - np.sort : 배열을 정렬한 결고를 가진 새로운 배열을 반환(카피본), 원본 안바뀜
    - ndarray.sort() : 원본배열을 정렬
- np.argsort(arr): 정렬 후 index를 반환
- 오름차순만 지원. 내림차순을 할 경우 정렬 후 reverse 해야한다.

In [51]:
np.random.shuffle(arr)
print(arr)
x = np.sort(arr)
print(x)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
[93 99 69 58 85 86 90 79 30 11 88 50 49 19 60 15 91 14  9 36 87 20 26 45
 80 40 29 82  6 57 64 35 52 18 77 70 23 68 48 43 51 24 55 27 95 72 63 66
 53 32 22  0 75 38 76 83 12 73 74 28 34 10 78 54 16 56 39  2 71 97 98 84
 47  3 17 92 13 31  1 89 96 25  5 21 42 46 44  8  4 65 62 67 41 61 33 81
 94 37 59  7]


In [48]:
arr.sort()
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [59]:
# 내림차순 설정
a = np.array([3,1,5,2])
print(np.sort(a)[::-1])
a.sort()
print(a[::-1])

[5 3 2 1]
[5 3 2 1]


In [64]:
b = np.array([3,1,5,2]) 
print(np.argsort(b)) # index 반환
print(b[np.argsort(b)])

[1 3 0 2]
[1 2 3 5]


In [68]:
l = [
    [3,1,5],
    [1,2,9],
    [10,20,5],
]
b = np.array(l)
print(np.sort(b,axis=0))
print(np.sort(b,axis=1)) # defalut axis = -1, 마지막 차원

[[ 1  1  5]
 [ 3  2  5]
 [10 20  9]]
