# 인덱싱과 슬라이싱을 이용한 배열의 원소 조회

## 배열 인덱싱(Indexing)
- ### index
    - 배열내의 원소의 식별번호
    - 0부터 시작
- ### indexing 
    – index를 이용해 원소 조회
    - [] 표기법 사용
- ### 구문 
    - ndarray[index]
    - 양수는 지정한 index의 값을 조회한다. 
    - 음수는 뒤부터 조회한다. 
        - 마지막 index가 -1
    - 2차원배열의 경우 
        - arr[행index, 열index]
        - 파이썬 리스트와 차이점 (list[행][열])
    - N차원 배열의 경우
        - arr[0축 index, 1축 index, ..., n축 index]
- ### 팬시(fancy) 인덱싱
    - **여러개의 원소를 한번에 조회**할 경우 리스트에 담아 전달한다.
    - 다차원 배열의 경우 각 축별로 list로 지정
    - `arr[[1,2,3,4,5]]`
        - 1차원 배열(vector): 1,2,3,4,5 번 index의 원소들 한번에 조회
    - `arr[[0,3],[ 1,4]]`
        - [0,3] - 1번축 index list, [1,4] - 2번축 index list
        - 2차원 배열(matrix): [0,1], [3,4] 의 원소들 조회

## 슬라이싱
- 배열의 부분 집합을 하위배열로 조회 및 변경하는 방식
- ndarry[start : stop : step ]
    - start : 시작 인덱스. 기본값 0
    - stop : 끝 index. stop은 포함하지 않는다. 기본값 마지막 index
    - step : 증감 간격. 기본값 1)

### 다차원 배열 슬라이싱
- 각 축에 slicing 문법 적용
- 2차원의 경우
    - arr [행 slicing, 열 slicing]
        - `arr[:3, :]`
    - `,` 로 행과 열을 구분한 다중 슬라이싱 사용
- 다차원의 경우
    - arr[0축 slicing, 1축 slicing, ..., n축 slicing]
- slicing과 indexing 문법은 같이 쓸 수 있다.
- 모든 축에 index를 지정할 필요는 없다.

### 슬라이싱은 원본에 대한 View 
- slicing한 결과는 새로운 배열을 생성하는 것이 아니라 기존 배열을 참조한다.
- slicing한 배열의 원소를 변경하면 원본 배열의 것도 바뀐다.
- 배열.copy()
    - 배열을 복사한 새로운 배열 생성
    - 복사후 처리하면 원본이 바뀌지 않는다.

# 2021.02.18

## boolean indexing
- Index 연산자에 Boolean 배열을 넣으면 True인 index의 값만 조회 (False가 있는 index는 조회하지 않는다.)
- ndarray내의 원소 중에서 **원하는 조건의 값들만 조회**할 때 사용

In [1]:
import numpy as np

In [3]:
a = np.array([1, 2, 3, 4, 5])
a.shape

(5,)

In [5]:
b = np.array([True, True, False, False, False])
b.shape

(5,)

In [6]:
a[b]

array([1, 2])

In [8]:
a[[False, True, False, True, False]] 

array([2, 4])

# 벡터화 (연산)
- 배열 + 배열 : 같은 인덱스의 원소끼리 연산
- 배열 + scalar : 배열의 모든 원소들과 scalar 를 연사 ㄴ

In [9]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])
a+b

array([11, 22, 33])

In [10]:
a + 20

array([21, 22, 23])

In [11]:
a > 2 

array([False, False,  True])

In [15]:
arr = np.arange(100)
np.random.shuffle(arr)
arr

array([51, 95, 50, 48, 45, 47, 59, 18, 73, 88, 66, 44, 21, 77, 80, 26, 67,
       12, 74, 35, 70, 23, 31,  2, 52, 96,  0, 22,  1, 98, 76, 24,  8, 92,
       13, 41, 61, 46, 37, 28, 29, 64,  5, 30, 55, 11, 16, 91, 40, 32, 36,
       68, 54,  9, 85, 60,  3, 49, 43, 78, 81, 25, 19, 63, 89, 97, 53, 99,
       58, 39, 15, 90, 86, 87, 62, 65, 38, 27, 33,  7, 56,  4, 79, 84, 14,
       42, 93, 82, 34, 10, 69, 17, 20, 72, 71, 75, 94,  6, 83, 57])

In [17]:
# arr 원소 중에서 50 이상인 값들만조회
arr[arr >= 50]

array([51, 95, 50, 59, 73, 88, 66, 77, 80, 67, 74, 70, 52, 96, 98, 76, 92,
       61, 64, 55, 91, 68, 54, 85, 60, 78, 81, 63, 89, 97, 53, 99, 58, 90,
       86, 87, 62, 65, 56, 79, 84, 93, 82, 69, 72, 71, 75, 94, 83, 57])

In [21]:
arr2 = np.arange(100).reshape(2,50)
arr2[arr2>=30]

array([30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46,
       47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63,
       64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80,
       81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97,
       98, 99])

In [22]:
# 20 ~ 30  # and 로 적지 않고 &로 적는다
(arr2 >= 20) & (arr2 <=30)

array([False, False, False, False, False, False, False, False, False,
       False, False, False,  True, False, False,  True, False, False,
       False, False, False,  True, False, False, False, False, False,
        True, False, False, False,  True, False, False, False, False,
       False, False, False,  True,  True, False, False,  True, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False,  True, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False,  True, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False,  True, False, False, False, False, False, False,
       False])

In [26]:
arr2[(arr2 >= 20) & (arr2 <=30)]

array([20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30])

In [29]:
# 50 보다 크지 않은 값들 , not 안된다. ~ 로 사용해야 한다. 
arr2[~(arr2 > 50)]

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

# 넘파이에서 비교연산자 
- 파이썬 비교 연산자인 and, or, not을 사용하지 못함
- `&` : and
- `|` : or
- `~` : not 
- 피연산자들은 괄호()로 묵어야 한다.

### np.where()
- np.where(boolean 배열) - True인 index를 반환
- boolean연산과 같이쓰면 특정 조건을 만족하는 원소의 index조회됨.
- np.where(booean 배열, True를 대체할 값, False를 대체할 값)
    - True와 False를 다른 값으로 변경한다.

In [31]:
a = np.array([True, False,True])
r = np.where(a) # True  인덱스들을 튜플 안에 ndarry에 담아서 반환
print(type(r))
print(r[0])

<class 'tuple'>
[0 2]


In [33]:
# arr에서 50이상인 값들의 인덱스를 조회
np.where(arr>=50)

(array([ 0,  1,  2,  6,  8,  9, 10, 13, 14, 16, 18, 20, 24, 25, 29, 30, 33,
        36, 41, 44, 47, 51, 52, 54, 55, 59, 60, 63, 64, 65, 66, 67, 68, 71,
        72, 73, 74, 75, 80, 82, 83, 86, 87, 90, 93, 94, 95, 96, 98, 99],
       dtype=int64),)

In [40]:
np.where(a, '참', '거짓') # True는 참, False는 거짓으로 변경한 ndaary 객체를 반환 , 원본이 바뀐건 아님.

array(['참', '거짓', '참'], dtype='<U2')

In [41]:
# 50이상인 값은 50이상으로 변경 , 미만인 값은 그대로 나오도록 
np.where(arr>=50, "50이상", arr)

array(['50이상', '50이상', '50이상', '48', '45', '47', '50이상', '18', '50이상',
       '50이상', '50이상', '44', '21', '50이상', '50이상', '26', '50이상', '12',
       '50이상', '35', '50이상', '23', '31', '2', '50이상', '50이상', '0', '22',
       '1', '50이상', '50이상', '24', '8', '50이상', '13', '41', '50이상', '46',
       '37', '28', '29', '50이상', '5', '30', '50이상', '11', '16', '50이상',
       '40', '32', '36', '50이상', '50이상', '9', '50이상', '50이상', '3', '49',
       '43', '50이상', '50이상', '25', '19', '50이상', '50이상', '50이상', '50이상',
       '50이상', '50이상', '39', '15', '50이상', '50이상', '50이상', '50이상', '50이상',
       '38', '27', '33', '7', '50이상', '4', '50이상', '50이상', '14', '42',
       '50이상', '50이상', '34', '10', '50이상', '17', '20', '50이상', '50이상',
       '50이상', '50이상', '6', '50이상', '50이상'], dtype='<U11')

In [50]:
# 0 : 여성, 1 : 남성
gender = np.random.choice([0,1], size = 20)
np.where(gender == 0, '여성', '남성')

array(['여성', '남성', '남성', '여성', '여성', '여성', '여성', '남성', '남성', '남성', '남성',
       '남성', '남성', '여성', '남성', '여성', '남성', '남성', '남성', '여성'], dtype='<U2')

- 2차원도 마찮가지
    - 단 where는 축별로 배열이 반환된다. [0,1], [2,3] => (0,2)  (1,3)
    - 보통 Vector에 적용한다.

In [52]:
arr2 = [
    [1, 10, 7],
    [4, 2, 10],
    [10, 2, 8]
]

arr2 = np.array(arr2)

In [54]:
r = np.where(arr2 >= 5)
print(type(r))
r # (0,1) (0,2) (1,2) (2,0) (2,2) 가 True # 처음에 볼때 헷갈릴수 있음 

<class 'tuple'>


(array([0, 0, 1, 2, 2], dtype=int64), array([1, 2, 2, 0, 2], dtype=int64))

In [56]:
np.where(arr2 >= 5, '크다', '작다')

array([['작다', '크다', '크다'],
       ['작다', '작다', '크다'],
       ['크다', '작다', '크다']], dtype='<U2')

### 기타
- np.any(boolean 배열)
    - 배열에 True가 하나라도 있으면 True 반환
- np.all(boolean 배열)
    - 배열의 모든 원소가 True이면 True 반환

In [59]:
np.any(arr > 50) # 50 초과인 값이 하나라도 있는지?

True

In [60]:
np.all(arr > 50) # 모든 값이 50초과인지?

False

In [61]:
# 50초과인 값이 몇개? 
np.sum(arr>50) 

49

### 정렬
- np.sort(arr) / ndarray.sort() : arr을 정렬
    - np.sort(배열) : 배열을 정렬한 결과를 가진 새로운 배열을 반환(카피본). 원본은 안 바뀜
    - 배열.sort()   : 원본 내열을 정렬. 
- np.argsort(arr): 정렬 후 index를 반환
- 오름차순정렬만 지원. 내림차순을 할 경우 정렬 후 reverser 해야한다. 

In [62]:
x = np.sort(arr)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [63]:
arr # 원본은 바뀌지 않는다. 

array([51, 95, 50, 48, 45, 47, 59, 18, 73, 88, 66, 44, 21, 77, 80, 26, 67,
       12, 74, 35, 70, 23, 31,  2, 52, 96,  0, 22,  1, 98, 76, 24,  8, 92,
       13, 41, 61, 46, 37, 28, 29, 64,  5, 30, 55, 11, 16, 91, 40, 32, 36,
       68, 54,  9, 85, 60,  3, 49, 43, 78, 81, 25, 19, 63, 89, 97, 53, 99,
       58, 39, 15, 90, 86, 87, 62, 65, 38, 27, 33,  7, 56,  4, 79, 84, 14,
       42, 93, 82, 34, 10, 69, 17, 20, 72, 71, 75, 94,  6, 83, 57])

In [64]:
y = arr.sort() # 원본이 바뀐다
print(y) # 반환값이 없다. None why? 

None


In [65]:
arr[::-1] # reverse 

array([99, 98, 97, 96, 95, 94, 93, 92, 91, 90, 89, 88, 87, 86, 85, 84, 83,
       82, 81, 80, 79, 78, 77, 76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66,
       65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49,
       48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32,
       31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15,
       14, 13, 12, 11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])

In [68]:
# 내림차순 정렬
a = np.array([3, 1, 5, 2])
np.sort(a)[::-1]

array([5, 3, 2, 1])

In [73]:
a

array([3, 1, 5, 2])

In [71]:
np.argsort(a) #없는 값이 나온다. 왜? 원본에서 인덱스에 대해서 ?

array([1, 3, 0, 2], dtype=int64)

In [74]:
# 내림차순
np.argsort(a)[::-1] 

array([2, 0, 3, 1], dtype=int64)

In [75]:
a[np.argsort(a)]

array([1, 2, 3, 5])

# 2차원 배열 

In [78]:
l = [
    [3, 1, 5],
    [1, 2, 9],
    [10, 20, 5]
]

b = np.array(l) 
b

array([[ 3,  1,  5],
       [ 1,  2,  9],
       [10, 20,  5]])

In [80]:
np.sort(b) # 다차원 배열 정렬에서 axis를 생랼하면 마지막 축을 기준으로 정렬. 

array([[ 1,  3,  5],
       [ 1,  2,  9],
       [ 5, 10, 20]])

In [81]:
np.sort(b, axis = 0 ) # 다차원일때 정렬 축을 지정할 수 있다.

array([[ 1,  1,  5],
       [ 3,  2,  5],
       [10, 20,  9]])

In [84]:
np.sort(b, axis = 1) # 1축 기준으로 정렬 

array([[ 1,  3,  5],
       [ 1,  2,  9],
       [ 5, 10, 20]])