# 인덱싱과 슬라이싱을 이용한 배열의 원소 조회

## 배열 인덱싱(Indexing)
- ### index
    - 배열내의 원소의 식별번호
    - 0부터 시작
    - 뒤에서부터는 -1로시작, 즉 하나의 원소는 두개의 인덱스를 가짐.
    - 2차원이면 조회할때 \[0\]\[2\]
- ### indexing 
    – index를 이용해 원소 조회
    - [] 표기법 사용
- ### 구문 
    - ndarray[index]
    - 양수는 지정한 index의 값을 조회한다. 
    - 음수는 뒤부터 조회한다. 
        - 마지막 index가 -1
    - 2차원배열의 경우 
        - arr[행index, 열index]
        - 파이썬 리스트와 차이점 (list[행][열]) #파이썬 리스트는 따로따로해줘야
    - N차원 배열의 경우
        - arr[0축 index, 1축 index, ..., n축 index]
- ### 팬시(fancy) 인덱싱
    - **여러개의 원소를 한번에 조회**할 경우 리스트에 담아 전달한다.
    - 다차원 배열의 경우 각 축별로 list로 지정
    - `arr[[1,2,3,4,5]]`
        - 1차원 배열(vector): 1,2,3,4,5 번 index의 원소들 한번에 조회
    - `arr[[0,3],[ 1,4]]`
        - [0,3] - 1번축 index list, [1,4] - 2번축 index list
        - 2차원 배열(matrix): [0,1], [3,4] 의 원소들 조회

In [2]:
import numpy as np

In [4]:
lst =[
    [1,2,3],
    [4,5,6]
]


a =  np.array(lst)
a

array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
a[0,0]

1

In [6]:
lst =[
    [1,2,3],
    [4,5,6],
    [7,8,9]
]

In [7]:
b = np.arange(12).reshape(2,2,3)
print(b.shape)
b

(2, 2, 3)


array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [8]:
b[1,0,1]

7

In [9]:
b[1,0]

array([6, 7, 8])

In [10]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
arr[[0,1,2]]

array([0, 1, 2])

In [13]:
b[[0,1],[0,1],[1,2]]

array([ 1, 11])

## 슬라이싱
- 배열의 부분 집합을 하위배열로 조회 및 변경하는 방식
- ndarry[start : stop : step ]
    - start : 시작 인덱스. 기본값 0
    - stop : 끝 index. stop은 포함하지 않는다. 기본값 마지막 index
    - step : 증감 간격. 기본값 1)

### 다차원 배열 슬라이싱
- 각 축에 slicing 문법 적용
- 2차원의 경우
    - arr [행 slicing, 열 slicing]
        - `arr[:3, :]`
    - `,` 로 행과 열을 구분한 다중 슬라이싱 사용
- 다차원의 경우
    - arr[0축 slicing, 1축 slicing, ..., n축 slicing]
- slicing과 indexing 문법은 같이 쓸 수 있다.
- 모든 축에 index를 지정할 필요는 없다.

### 슬라이싱은 원본에 대한 View 
- slicing한 결과는 새로운 배열을 생성하는 것이 아니라 기존 배열을 참조한다.
- slicing한 배열의 원소를 변경하면 원본 배열의 것도 바뀐다.
- 배열.copy() -> 리스트는 이렇게 카피됨.
    - 배열을 복사한 새로운 배열 생성
    - 복사후 처리하면 원본이 바뀌지 않는다.
- 원본의 일부만 보고있는 것 : 섈로우 카피?

## boolean indexing
- Index 연산자(\[\])에 Boolean 배열을 넣으면 True인 index의 값만 조회 (False가 있는 index는 조회하지 않는다.)
- ndarray내의 원소 중에서 원하는 조건의 값들만 조회할 때 사용(몇번 인덱스의 값을 찾을때 쓰는 것이 아님)
     예) 20~50 사이의 값만 찾겠다.
- Boolean 배열 : True or False
- boolean 값을 가지고 인덱싱을 한다ㅡ

In [1]:
import numpy as np

In [2]:
a = np.array([1,2,3,4,5])
a.shape

(5,)

In [3]:
b = np.array([True, True, False,False,False])

In [4]:
a[b]

array([1, 2])

In [6]:
a[[False, True, False, True, False]]  #트루인 인덱스의 벨류만 반환

array([2, 4])

In [7]:
#백터화 (연산)
# 배열+ 배열: 같은 인덱스의 원소끼리 연산
#배열 +스칼라 : 배열의 모든 원소들과 스칼라를 연산 -> 이게 불형인덱싱과 연결됨
a = np.array([1,2,3])
b = np.array([10,20,30])
a+b

array([11, 22, 33])

In [8]:
a>2

array([False, False,  True])

In [9]:
arr = np.arange(100)
np.random.shuffle(arr)
arr

array([63, 73, 56, 31, 69, 67, 43, 11, 99, 34, 40, 70, 17, 27, 20, 78, 26,
       22, 38, 15, 21, 81, 36, 45, 84, 23, 25, 12,  8,  6, 59, 60, 65,  7,
       50, 91, 68, 76,  4, 86, 96,  5, 88,  0,  9, 62,  1, 41, 19, 75, 92,
       57, 29, 85, 82,  2, 80, 44, 42, 71, 54, 90, 66, 95, 37, 93, 18, 48,
       79, 24, 10, 58, 61, 64, 98, 46, 32, 51, 39, 53, 30, 13, 87, 97, 14,
       16, 83, 89, 77, 35, 72, 74, 33, 52, 28, 47, 55,  3, 94, 49])

In [11]:
b = arr>=50
arr[b]

array([63, 73, 56, 69, 67, 99, 70, 78, 81, 84, 59, 60, 65, 50, 91, 68, 76,
       86, 96, 88, 62, 75, 92, 57, 85, 82, 80, 71, 54, 90, 66, 95, 93, 79,
       58, 61, 64, 98, 51, 53, 87, 97, 83, 89, 77, 72, 74, 52, 55, 94])

In [12]:
arr[arr>=50]

array([63, 73, 56, 69, 67, 99, 70, 78, 81, 84, 59, 60, 65, 50, 91, 68, 76,
       86, 96, 88, 62, 75, 92, 57, 85, 82, 80, 71, 54, 90, 66, 95, 93, 79,
       58, 61, 64, 98, 51, 53, 87, 97, 83, 89, 77, 72, 74, 52, 55, 94])

In [14]:
arr2 = np.arange(100).reshape(2,50)
arr2

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,
        32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47,
        48, 49],
       [50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65,
        66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81,
        82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97,
        98, 99]])

In [15]:
arr2[arr2>=50] # 2차원 배열인때, 특정조건 만족하는 값을 1차원 배열로 반환

array([50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66,
       67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83,
       84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

## 넘파이에서 비교연산자
- 파이썬 비교 연산자인 and, or, not을 사용 못함.
- '&' : and
- '|' : or
- '~' : not
- 피연산자들은()로 묶어야 한다

In [16]:
(arr>=20)&(arr<=30)

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False,  True,  True, False,  True,  True,
       False, False,  True, False, False, False, False,  True,  True,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False,  True, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False,  True, False, False,
       False, False, False, False, False, False, False, False,  True,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False,  True, False, False, False, False,
       False])

In [17]:
arr[~(arr>50)]

array([31, 43, 11, 34, 40, 17, 27, 20, 26, 22, 38, 15, 21, 36, 45, 23, 25,
       12,  8,  6,  7, 50,  4,  5,  0,  9,  1, 41, 19, 29,  2, 44, 42, 37,
       18, 48, 24, 10, 46, 32, 39, 30, 13, 14, 16, 35, 33, 28, 47,  3, 49])

### np.where()
- np.where(boolean 배열) - True인 index를 반환
- boolean연산과 같이쓰면 특정 조건을 만족하는 원소의 index조회됨.
- np.where(booean 배열, True를 대체할 값, False를 대체할 값)
    - True와 False를 다른 값으로 변경한다.
- boolean 인덱싱은 특정 조건을 만족하는 값을 찾는것이고, where는 요 조건을 만족하는 애가 몇번 인덱스인지 찾고싶을 대 사용

In [18]:
a = np.array([True, False, True])
np.where(a) # 트루 인덱스 반환

(array([0, 2], dtype=int64),)

In [19]:
arr[arr>=50]

array([63, 73, 56, 69, 67, 99, 70, 78, 81, 84, 59, 60, 65, 50, 91, 68, 76,
       86, 96, 88, 62, 75, 92, 57, 85, 82, 80, 71, 54, 90, 66, 95, 93, 79,
       58, 61, 64, 98, 51, 53, 87, 97, 83, 89, 77, 72, 74, 52, 55, 94])

In [20]:
np.where(arr>=50) #웨어절에 불형 연산자 쓰면 특정조건 만족하는 원소 인덱스 조회

(array([ 0,  1,  2,  4,  5,  8, 11, 15, 21, 24, 30, 31, 32, 34, 35, 36, 37,
        39, 40, 42, 45, 49, 50, 51, 53, 54, 56, 59, 60, 61, 62, 63, 65, 68,
        71, 72, 73, 74, 77, 79, 82, 83, 86, 87, 88, 90, 91, 93, 96, 98],
       dtype=int64),)

In [21]:
np.where(a,"참","거짓")

array(['참', '거짓', '참'], dtype='<U2')

In [22]:
np.where(arr>=50,"50이상","50미만")

array(['50이상', '50이상', '50이상', '50미만', '50이상', '50이상', '50미만', '50미만',
       '50이상', '50미만', '50미만', '50이상', '50미만', '50미만', '50미만', '50이상',
       '50미만', '50미만', '50미만', '50미만', '50미만', '50이상', '50미만', '50미만',
       '50이상', '50미만', '50미만', '50미만', '50미만', '50미만', '50이상', '50이상',
       '50이상', '50미만', '50이상', '50이상', '50이상', '50이상', '50미만', '50이상',
       '50이상', '50미만', '50이상', '50미만', '50미만', '50이상', '50미만', '50미만',
       '50미만', '50이상', '50이상', '50이상', '50미만', '50이상', '50이상', '50미만',
       '50이상', '50미만', '50미만', '50이상', '50이상', '50이상', '50이상', '50이상',
       '50미만', '50이상', '50미만', '50미만', '50이상', '50미만', '50미만', '50이상',
       '50이상', '50이상', '50이상', '50미만', '50미만', '50이상', '50미만', '50이상',
       '50미만', '50미만', '50이상', '50이상', '50미만', '50미만', '50이상', '50이상',
       '50이상', '50미만', '50이상', '50이상', '50미만', '50이상', '50미만', '50미만',
       '50이상', '50미만', '50이상', '50미만'], dtype='<U4')

In [23]:
np.where(arr>=50,"50d이상",arr)

array(['50d이상', '50d이상', '50d이상', '31', '50d이상', '50d이상', '43', '11',
       '50d이상', '34', '40', '50d이상', '17', '27', '20', '50d이상', '26',
       '22', '38', '15', '21', '50d이상', '36', '45', '50d이상', '23', '25',
       '12', '8', '6', '50d이상', '50d이상', '50d이상', '7', '50d이상', '50d이상',
       '50d이상', '50d이상', '4', '50d이상', '50d이상', '5', '50d이상', '0', '9',
       '50d이상', '1', '41', '19', '50d이상', '50d이상', '50d이상', '29', '50d이상',
       '50d이상', '2', '50d이상', '44', '42', '50d이상', '50d이상', '50d이상',
       '50d이상', '50d이상', '37', '50d이상', '18', '48', '50d이상', '24', '10',
       '50d이상', '50d이상', '50d이상', '50d이상', '46', '32', '50d이상', '39',
       '50d이상', '30', '13', '50d이상', '50d이상', '14', '16', '50d이상',
       '50d이상', '50d이상', '35', '50d이상', '50d이상', '33', '50d이상', '28',
       '47', '50d이상', '3', '50d이상', '49'], dtype='<U11')

In [24]:
np.where(arr)

(array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 44, 45, 46, 47, 48, 49, 50, 51,
        52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
        69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85,
        86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99],
       dtype=int64),)

In [25]:
arr

array([63, 73, 56, 31, 69, 67, 43, 11, 99, 34, 40, 70, 17, 27, 20, 78, 26,
       22, 38, 15, 21, 81, 36, 45, 84, 23, 25, 12,  8,  6, 59, 60, 65,  7,
       50, 91, 68, 76,  4, 86, 96,  5, 88,  0,  9, 62,  1, 41, 19, 75, 92,
       57, 29, 85, 82,  2, 80, 44, 42, 71, 54, 90, 66, 95, 37, 93, 18, 48,
       79, 24, 10, 58, 61, 64, 98, 46, 32, 51, 39, 53, 30, 13, 87, 97, 14,
       16, 83, 89, 77, 35, 72, 74, 33, 52, 28, 47, 55,  3, 94, 49])

In [27]:
gender = np.random.choice([0,1],size = 20)
gender

array([1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0])

### np.random.choice(a, size=None, replace=True, p=None)
- [API](https://numpy.org/doc/stable/reference/random/generated/numpy.random.choice.html?highlight=choice#numpy.random.choice)
- 샘플링 메소드
- a : 샘플링대상. 1차원 배열 또는 정수 (정수일 경우 0 ~ 정수, 정수 불포함)
- size : 샘플 개수-> a 안에서 몇개 뽑아 낼 것인지
- replace : True-복원추출(기본)-같은 값을 여러번 뽑을 수 있어, False-비복원추출
- p: 샘플링할 대상 값들이 추출될 확률 지정한 배열
- 모집단에 표본을 선택하는 개념

In [28]:
np.where(gender == 1, "남성","여성")

array(['남성', '남성', '여성', '남성', '여성', '여성', '남성', '여성', '여성', '여성', '여성',
       '남성', '남성', '여성', '남성', '여성', '여성', '남성', '남성', '여성'], dtype='<U2')

In [29]:
np.where(gender == 0)

(array([ 2,  4,  5,  7,  8,  9, 10, 13, 15, 16, 19], dtype=int64),)

- 2차원도 마찮가지
    - 단 where는 축별로 배열이 반환된다. [0,1], [2,3] => (0,2)  (1,3)
    - 보통 Vector에 적용한다.(1차원)

In [33]:
arr2 = [
    [1,10,7],
    [4,2,10],
    [10,2,8]
]
arr2 = np.array(arr2)

In [37]:
r = np.where(arr2>=5)
print(type(r))
r


<class 'tuple'>


(array([0, 0, 1, 2, 2], dtype=int64), array([1, 2, 2, 0, 2], dtype=int64))

In [38]:
np.where(arr2>=5,"크다","작다")

array([['작다', '크다', '크다'],
       ['작다', '작다', '크다'],
       ['크다', '작다', '크다']], dtype='<U2')

### 기타
- np.any(boolean 배열)
    - 배열에 True가 하나라도 있으면 True 반환
- np.all(boolean 배열)
    - 배열의 모든 원소가 True이면 True 반환(하나라도 false면 false)
    
- 배열의 값들이 특정 조건을 만족하는게 하나라도 있는지, 다 만족하는지 물어볼때 사용

In [40]:
np.any([False,False,False])

False

In [41]:
np.any([False,True])

True

In [42]:
np.all([False,True,True])

False

In [43]:
np.all([ True, True, True])

True

In [44]:
np.any(arr>50)

True

In [45]:
np.all(arr>50)

False

In [46]:
np.sum(arr>50)

49

In [47]:
arr>50

array([ True,  True,  True, False,  True,  True, False, False,  True,
       False, False,  True, False, False, False,  True, False, False,
       False, False, False,  True, False, False,  True, False, False,
       False, False, False,  True,  True,  True, False, False,  True,
        True,  True, False,  True,  True, False,  True, False, False,
        True, False, False, False,  True,  True,  True, False,  True,
        True, False,  True, False, False,  True,  True,  True,  True,
        True, False,  True, False, False,  True, False, False,  True,
        True,  True,  True, False, False,  True, False,  True, False,
       False,  True,  True, False, False,  True,  True,  True, False,
        True,  True, False,  True, False, False,  True, False,  True,
       False])

### 정렬
- np.sort(arr): arr을 정렬 -> 배열을 정렬한 결과를 가진 새로운 배열을 반환(카피본), 원본 불변
  np.ndarray.sort() -> 배열.sort() 하면 원본 배열을 변환.
- np.argsort(arr): 정렬 후 index를 반환(아그소트) 정렬한 것을 값이 아닌 걔내들의 인덱스로 보여준다.
- 오름차순 정렬만 지원, 내림차순을 할 경우 전환후 reverse해야 함. -1쓰거나, flip사용

In [48]:
x = np.sort(arr) # 함수. -> 카피본 반환
print(x)
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
[63 73 56 31 69 67 43 11 99 34 40 70 17 27 20 78 26 22 38 15 21 81 36 45
 84 23 25 12  8  6 59 60 65  7 50 91 68 76  4 86 96  5 88  0  9 62  1 41
 19 75 92 57 29 85 82  2 80 44 42 71 54 90 66 95 37 93 18 48 79 24 10 58
 61 64 98 46 32 51 39 53 30 13 87 97 14 16 83 89 77 35 72 74 33 52 28 47
 55  3 94 49]


In [50]:
y = arr.sort() #메소드 원본자체를 변환, 반환값 없음

In [51]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [52]:
arr[::-1]

array([99, 98, 97, 96, 95, 94, 93, 92, 91, 90, 89, 88, 87, 86, 85, 84, 83,
       82, 81, 80, 79, 78, 77, 76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66,
       65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49,
       48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32,
       31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15,
       14, 13, 12, 11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])

In [53]:
a = np.array([3,1,5,2])

In [54]:
a

array([3, 1, 5, 2])

In [55]:
np.sort(a)

array([1, 2, 3, 5])

In [56]:
a[::-1]

array([2, 5, 1, 3])

In [57]:
np.argsort(a)

array([1, 3, 0, 2], dtype=int64)

In [58]:
l = [
    [3,1,5],
    [1,2,9],
    [10,20,5]
]
b = np.array(l)
b

array([[ 3,  1,  5],
       [ 1,  2,  9],
       [10, 20,  5]])

In [59]:
np.sort(b)

array([[ 1,  3,  5],
       [ 1,  2,  9],
       [ 5, 10, 20]])

In [60]:
np.sort(b,axis = 0)

array([[ 1,  1,  5],
       [ 3,  2,  5],
       [10, 20,  9]])

In [61]:
np.sort(b,axis = 1)

array([[ 1,  3,  5],
       [ 1,  2,  9],
       [ 5, 10, 20]])