# 인덱싱과 슬라이싱을 이용한 배열의 원소 조회 및 변경

## 배열 인덱싱

- 팬시(fancy) 인덱싱
    - 여러개의 원소를 한번에 조회할 경우 리스트에 담아 전달
    - 다차원 배열의 경우 각 축별로 list로 지정
    - arr[[1, 2, 3, 4, 5]]
        - 1차원 배열(vector): 1, 2, 3, 4, 5 번 index의 원소들 한번에 조회
    - arr[[0, 3], [1, 4]]
        - [0, 3] -1분축 index list, [1, 4] -2번축 index list
        - 2차원 배열(matrix) : [0, 1], [3, 4]의 원소들 조회 

In [3]:
import numpy as np
a = np.arange(30)
print(a.shape)

(30,)


In [4]:
# 여러 index들의 값 조회 => fancy indexing => index들을 리스트로 묶어서 전달
a[[1, 3, 2, 7]]

array([1, 3, 2, 7])

In [5]:
# 조회
print(a[1])
# 변경
a[1] = 10000
a

1


array([    0, 10000,     2,     3,     4,     5,     6,     7,     8,
           9,    10,    11,    12,    13,    14,    15,    16,    17,
          18,    19,    20,    21,    22,    23,    24,    25,    26,
          27,    28,    29])

In [6]:
# 일괄변경
a[[2, 4, 6]] = 5000
a

array([    0, 10000,  5000,     3,  5000,     5,  5000,     7,     8,
           9,    10,    11,    12,    13,    14,    15,    16,    17,
          18,    19,    20,    21,    22,    23,    24,    25,    26,
          27,    28,    29])

In [7]:
a[[8, 9, 10]] = 8000, 9000, 10000
a

array([    0, 10000,  5000,     3,  5000,     5,  5000,     7,  8000,
        9000, 10000,    11,    12,    13,    14,    15,    16,    17,
          18,    19,    20,    21,    22,    23,    24,    25,    26,
          27,    28,    29])

In [8]:
a2 = np.arange(30).reshape(5, 6)
# (30, ) 1차원 배열을 (5, 6) 2차원 배열로 reshape
a2

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [9]:
print(a2[0])
print(a2[0, 3])

[0 1 2 3 4 5]
3


In [10]:
a2[[0, 3, 1, 4], [2, 4, 3, 5]]
# [0, 2], [3, 4], [1, 3], [4, 5]


array([ 2, 22,  9, 29])

In [12]:
a3 = np.arange(12).reshape(2, 2, 3)
print(a3.shape)
a3

(2, 2, 3)


array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [13]:
print(a3[0, 1, 1], a3[1, 1, 2])

4 11


## 슬라이싱

In [14]:
a = np.arange(30)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [15]:
print(a[:5])
print(a[2:15:3])
print(a[20:-1])

[0 1 2 3 4]
[ 2  5  8 11 14]
[20 21 22 23 24 25 26 27 28]


In [16]:
a[:4] = 400
a

array([400, 400, 400, 400,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29])

In [17]:
b = a[:4].copy()
print(b)
print(b[0])
b[0] = 5000
b

[400 400 400 400]
400


array([5000,  400,  400,  400])

In [18]:
a2 = np.arange(30).reshape(5, 6)
a2

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [22]:
print(a2[[1, -1], 1:5])
print("="*20)
print(a2[1, 1:5])
print("="*20)
print(a2[:, [1, 4]])

[[ 7  8  9 10]
 [25 26 27 28]]
[ 7  8  9 10]
[[ 1  4]
 [ 7 10]
 [13 16]
 [19 22]
 [25 28]]


## boolean indexing

### 넘파이 비교 연산자
- 파이썬의 and, or, not은 사용할 수 없다
- & : and 연산
- | : or 연산
- ~ : not 연산
- 피연산자는 ()로 묶는다

In [23]:
np.random.seed(0)
a = np.random.randint(100, size = 20)
a

array([44, 47, 64, 67, 67,  9, 83, 21, 36, 87, 70, 88, 88, 12, 58, 65, 39,
       87, 46, 88])

In [24]:
# a에서 50이상인 값들만 조회
a[a>50]

array([64, 67, 67, 83, 87, 70, 88, 88, 58, 65, 87, 88])

In [25]:
# 30 < a < 60
a[(a > 30) & (a < 60)]

array([44, 47, 36, 58, 39, 46])

In [27]:
# 30 ~ 60 이 아닌 값
print(a[~((a > 30) & (a < 60))])
print(a[(a <= 30) | (a >= 60)])

[64 67 67  9 83 21 87 70 88 88 12 65 87 88]
[64 67 67  9 83 21 87 70 88 88 12 65 87 88]


In [28]:
a2 = np.random.randint(100, size = (7, 8))
a2

array([[81, 37, 25, 77, 72,  9, 20, 80],
       [69, 79, 47, 64, 82, 99, 88, 49],
       [29, 19, 19, 14, 39, 32, 65,  9],
       [57, 32, 31, 74, 23, 35, 75, 55],
       [28, 34,  0,  0, 36, 53,  5, 38],
       [17, 79,  4, 42, 58, 31,  1, 65],
       [41, 57, 35, 11, 46, 82, 91,  0]])

In [30]:
print((a2 > 50).shape)
print(a2[a2 > 50]) # 결과는 1차원으로 반환

(7, 8)
[81 77 72 80 69 79 64 82 99 88 65 57 74 75 55 53 79 58 65 57 82 91]


## np.where()
- True의 index 조회
    - np.where(boolean 배열) - True인 index를 반환
    - boolean연산과 같이 사용하여 베열내에 특정 조건을 만족하는 값들을 index(위치)를 조회할 때 사용
- True와 False를 다른 값으로 변환
    - np.where(boolean 배열, True를 대체할 값, False를 대체할 값)

In [31]:
r = np.where([True, False, True])
print(type(r), type(r[0]))
r

<class 'tuple'> <class 'numpy.ndarray'>


(array([0, 2], dtype=int64),)

In [32]:
r2 = np.where([True, False, True], '참', '거짓')
r2

array(['참', '거짓', '참'], dtype='<U2')

In [33]:
l = [
    [True, False, True],
    [False, False, True]
]
r3 = np.where(l)
r3

(array([0, 0, 1], dtype=int64), array([0, 2, 2], dtype=int64))

In [34]:
for a1, a2 in zip(r3[0], r3[1]):
    print(a1, a2, sep = ', ')

0, 0
0, 2
1, 2


In [35]:
np.random.seed(0)
a2 = np.random.randint(100, size = (5, 2, 3))
a2.shape

(5, 2, 3)

In [36]:
# 70이상인 값들 조회 => 조건이 True값들을 조회 => boolean indexing
a2[a2 >= 70]

array([83, 87, 70, 88, 88, 87, 88, 81, 77, 72, 80, 79])

In [37]:
# 70 이상인 값들의 위치 => 조건이 True 값들의 위치(index) => np.where()
axis1, axis2, axis3 = np.where(a2 >= 70)
print(axis1)
print(axis2)
print(axis3)

[1 1 1 1 2 2 3 3 3 4 4 4]
[0 1 1 1 0 1 0 0 1 0 1 1]
[0 0 1 2 0 2 1 2 2 0 0 2]


In [38]:
for i, j, k in zip(axis1, axis2, axis3):
    print(a2[i, j, k], end = ', ')

83, 87, 70, 88, 88, 87, 88, 81, 77, 72, 80, 79, 

## 기타
- np.any(boolean 배열)
    - 배열에 True가 하나라도 있으면 True 반환
    - 배열내에 특정 조건을 만족하는 값이 하나 이상 있는지 확인할 때 사용
- np.all(boolean 배열)
    - 배열의 모든 원소가 True이면 True 반환
    - 배열내의 모든 원소가 특정 조건을 만족하는지 확인할 때 사용

In [39]:
print(np.any([True, False, False, False]))
print(np.any([False, False, False, False]))

True
False


In [40]:
print(np.any(a2 == 99))
print(np.any(a2 == 83))

False
True


In [41]:
print(np.all([True, True, False]))
print(np.all([True, True, True]))

False
True


In [42]:
print(np.all(a2>0))
print(np.all(a2>10))

True
False


## 배열의 형태(shape) 변경
### reshape()을 이용한 차원 변경
- numpy.reshape(a, newshape) 또는 ndarray.reshape(newshape)
    - a : 형태를 변경할 배열
    - newshaoe : 변경할 형태 설정
        - 원소 개수를 유지하는 shape으로만 변환 가능
        - 하나의 축의 size를 -1로 줄 수 있다
            - 전체 size / 다른 축의 size곱을 -1로 지정한 axis의 size로 지정
    - 원본을 바꾸지 않고 reshape한 새로운 배열을 반환

In [43]:
a = np.arange(20)
print(a.shape)
a

(20,)


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [44]:
r1 = np.reshape(a, (2, 10))
print(r1.shape)
r1

(2, 10)


array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

In [46]:
r2 = a.reshape(4, 5)
print(r2.shape)
r2

(4, 5)


array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [47]:
r3 = a.reshape(2, 2, -1)
print(r3.shape)
r3

(2, 2, 5)


array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]])

### 차원 늘리기(확장)
- Dummy axis(축)을 늘린다
- reshape()을 이용해 늘릴 수 있다
- indexer와 np.newaxis 변수를 이용해 늘린다
    - ndarray[..., np.newaxis] 또는 ndarray[np.newaxis, ...]
        - 맨앞 또는 맨 마지막에 dummy axis(축)을 늘릴때 사용
        - 축을 늘리려는 위치에 np.newaxis를 지정하고 ... 으로 원본 배열의 shape을 유지함

In [53]:
print(a.shape)
r1 = np.reshape(20, 1)
r1 = a.reshape(-1, 1)
print(r1.shape)
r1 = a.reshape(1, -1)
print(r1.shape)

(20,)
(20, 1)
(1, 20)


In [55]:
# 다차원
print(a2.shape)
r2 = a2.reshape(1, 5, 2, -1)
print(r2.shape)
r2 = a2.reshape(5, 2, 3, 1)
print(r2.shape)

(5, 2, 3)
(1, 5, 2, 3)
(5, 2, 3, 1)


In [58]:
print(a.shape)
print(a[..., np.newaxis].shape)
print(a[np.newaxis, ...].shape)

(20,)
(20, 1)
(1, 20)


In [59]:
# 다차원
print(a2.shape)
print(a2[np.newaxis, ...].shape)
print(a2[..., np.newaxis].shape)

(5, 2, 3)
(1, 5, 2, 3)
(5, 2, 3, 1)


In [60]:
r = np.expand_dims(a2, axis = 2) # a2의 2번축에 dummy axis를 추가
print(r.shape)
r = np.expand_dims(a2, axis = 0) # a2의 0번축에 추가
print(r.shape)
r = np.expand_dims(a2, axis = -1) # a2의 마지막축에 추가
print(r.shape)

(5, 2, 1, 3)
(1, 5, 2, 3)
(5, 2, 3, 1)


### 차원 줄이기(축소)
#### numpy.squeeze(배열, axis = None), 배열객체, squeeze(axis = None)
- 배열에서 지정한 축(axis)을 제거하여 차원(rank)를 줄인다
- 제거하려는 축의 size는 1이어야 한다
- 축을 지정하지 않으면 size가 1인 모든 축을 제거한다.
    - (3, 1, 1, 2) => (3, 2)
- squeeze는 한번에 하나씩만 제거 가능

In [61]:
a = np.arange(12).reshape(1, 2, 1, 2, 3, 1)
a.shape

(1, 2, 1, 2, 3, 1)

In [62]:
r1 = a.reshape(2, 2, 3)
r1.shape

(2, 2, 3)

In [63]:
r2 = a.squeeze() # reshape한 새로운 배열을 생성해서 반환
r2.shape

(2, 2, 3)

In [65]:
r3 = a.squeeze(axis = 2)
r3.shape

(1, 2, 2, 3, 1)

### 배열객체.flatten()
- 다차원 배열을 1차원으로 만든다

In [67]:
print(a.shape)
print(a)
a.reshape(-1)

(1, 2, 1, 2, 3, 1)
[[[[[[ 0]
     [ 1]
     [ 2]]

    [[ 3]
     [ 4]
     [ 5]]]]



  [[[[ 6]
     [ 7]
     [ 8]]

    [[ 9]
     [10]
     [11]]]]]]


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [68]:
r = a.flatten()
print(r.shape)
r

(12,)


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [69]:
a = np.arange(15).reshape(3, 5)
a.shape

(3, 5)

In [70]:
r = a.T # (3, 5) -> (5, 3) 변환
r.shape

(5, 3)

In [72]:
a2 = np.arange(60).reshape(3, 4, 5)
a2.shape

(3, 4, 5)

In [74]:
r2 = np.transpose(a2, (2, 0, 1)) # 대상 배열, 축을 어떻게 이동
print(a2.shape)
r2.shape

(3, 4, 5)


(5, 3, 4)

# 배열 연산
## 벡터화 - 벡터 연산
- 배열과 scalar 간의 연산은 원소 단위로 계산
- 배열간의 연산은 같은 index의 원소끼리 계산
    - 배열간의 연산시 배열의 shape이 같아야 함
    - 배열의 형태가 다른 경우 Broadcast 조건이 만족하면 연산 가능

## 내적 (Dot product) 연산
### 1차원 배열(백터)간의 연산
- 같은 index의 원소끼리 곱한 뒤 결과를 모두 더함
- 벡터간의 내적 결과는 스칼라
- 조건
    - 두 벡터의 차원이 같아야 함
    - 앞의 벡터는 행 벡터, 뒤의 벡터는 열 벡터 이어야 함
        - numpy에서 vector끼리 연산시 앞의 벡터는 행 백터로 뒤의 벡터는 열 벡터로 인식해 처리

### 행렬간의 내적 (행렬 곱)
- 앞 행렬의 행과 뒤 행렬의 열 간에 내적
- 행렬과 행렬을 내적하면 결과는 행렬
- 앞 행렬의 열수와 뒤 행렬의 행수가 같아야 함
- 내적의 결과의 shape은 앞 행렬의 행수와 뒤 행렬의 열의 열의 형태를 가짐

In [75]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])

r1 = x + y
result = np.sum(r1)
result

21

In [76]:
x @ y, np.dot(x, y)

(32, 32)

In [77]:
A = np.arange(1, 7).reshape(2, 3)
B = np.arange(1, 7).reshape(3, 2)
A.shape, B.shape

((2, 3), (3, 2))

In [78]:
A @ B, B @ A

(array([[22, 28],
        [49, 64]]),
 array([[ 9, 12, 15],
        [19, 26, 33],
        [29, 40, 51]]))

### 내적의 예
#### 가중합 
- 가격: 사과 2000, 귤 1000, 수박 10000    
- 개수: 사과 10, 귤 20, 수박 2    
- 총가격?    
    2000*10 + 1000 * 20 + 10000 * 2

In [85]:
f = np.array([2000, 1000, 10000])
cnt = np.array([10, 20, 2])
total = cnt @ f
total

60000

In [86]:
cnt2 = np.array([
    [10, 20, 2],
    [5, 15, 10],
    [10, 10, 10],
    [5, 6, 7],
    [10, 1, 1]
])
cnt.shape

(3,)

In [87]:
f2 = f[..., np.newaxis]
print(f2.shape)
f2

(3, 1)


array([[ 2000],
       [ 1000],
       [10000]])

In [88]:
cnt2 @ f2, np.dot(cnt2, f2)

(array([[ 60000],
        [125000],
        [130000],
        [ 86000],
        [ 31000]]),
 array([[ 60000],
        [125000],
        [130000],
        [ 86000],
        [ 31000]]))

### 기술 통계 함수
- 통계 결과를 계산해 주는 함수
- 구문
    1. np.전용 함수(배열)
    2. 일부는 배열.전용 함수() 구문 지원
        - x.sum()
    - 공통 매개변수
        - axis = None : 다차원 배열일 때 통계값을 계산할 axis(축)을 지정 None(기본값)은 flatten후 계산
- 배열의 원소 중 누락 값(NaN)이 있으면 연산의 결과는 NaN
- 안전모드 함수
    - 배열 내 누락 값(NaN)을 무시하고 계산

![image](https://velog.velcdn.com/images%2Fmingki%2Fpost%2Fde2868db-12e1-441c-bff0-ecb533aee5fd%2F%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84%ED%95%A8%EC%88%98.png)

In [89]:
np.random.seed(0)
a = np.random.choice(100, size = 10)
a = a.astype('float32')
a

array([44., 47., 64., 67., 67.,  9., 83., 21., 36., 87.], dtype=float32)

In [90]:
np.sum(a), a.sum()

(525.0, 525.0)

In [91]:
a.max(), a.argmax(), a.min(), a.argmin()

(87.0, 9, 9.0, 5)

In [94]:
a.mean(), np.mean(a)

(52.5, 52.5)

In [95]:
np.mean([80, 90, 100])

90.0

In [96]:
np.average([80, 90, 100], weights = [2, 2, 1])

88.0

In [97]:
a[1] = np.nan
a

array([44., nan, 64., 67., 67.,  9., 83., 21., 36., 87.], dtype=float32)

In [99]:
np.sum(np.isnan(a)) # 결측치 개수

1

In [100]:
a.sum(), a.max(), a.mean()

(nan, nan, nan)

In [101]:
# 결측치 포함하여 계산
np.nansum(a), np.nanmax(a), np.nanmean(a)

(478.0, 87.0, 53.11111)

In [102]:
b = np.arange(1, 13).reshape(3, 4)
print(b.shape)
b

(3, 4)


array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [103]:
b.sum(), b.mean(), b.max()

(78, 6.5, 12)

In [107]:
b, b.sum(axis = 0), b.sum(axis = 1)

(array([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]),
 array([15, 18, 21, 24]),
 array([10, 26, 42]))

In [106]:
c = np.arange(1, 13).reshape(2, 2, 3)
c

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [108]:
c.sum(axis = 0), c.sum(axis = 1)

(array([[ 8, 10, 12],
        [14, 16, 18]]),
 array([[ 5,  7,  9],
        [17, 19, 21]]))

## 브로드 캐스팅
- shape이 다른 배열 연산시 배열의 형태를 맞춰 연산이 가능하도록 함
    - 모든 형태를 다 맞추는 것은 아니고 조건이 맞아야 함
- 조건
    1. 두 배열의 축의 개수가 다르면 작은 축의 개수를 가진 배열의 형태의 앞쪽을 1로 채움
        - (2, 3) + (3, ) => (2, 3) + (1, 3)
    2. 두 배열의 차원 수가 같지만 각 차원의 크기가 다른 경우 어느 한 쪽에 1이 있으면 그 1이 다른 배열의 크기와 일치하도록 늘어난다.
        - 1 이외의 나머지 축의 크기는 같아야 한다
        - 늘리면서 원소는 복사한다
        - (2, 3) + (1, 3) => (2, 3) + (2, 3)

![image](http://www.astroml.org/_images/fig_broadcast_visual_1.png)

In [109]:
x = np.array([1, 2, 3])
y = np.array([2])
x.shape, y.shape

((3,), (1,))

In [110]:
x + y

array([3, 4, 5])