In [1]:
import numpy as np

## Day 2. Indexing and Slicing

### 1. basic indexing

### 2. slicing

### 3. boolean indexing

### 4. fancy indexing

### 1. 기본 인덱싱 vs slicing

In [9]:
a = np.array([10, 20, 30, 40, 50])

a[0]      # 스칼라 (10)
a[-1]     # 마지막 원소 (50)
a[1:4]    # 슬라이싱 → 배열

array([20, 30, 40])

- **a[i] : 1차원 -> dot <값 확인>**
- **a[i:j] : 1차원 유지 <수치 계산>**

### 2. 다차원 배열 인덱싱 규칙

In [10]:
arr = np.arange(25).reshape(5, 5)

In [12]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [11]:
arr[2]

array([10, 11, 12, 13, 14])

In [13]:
arr[:, 2]

array([ 2,  7, 12, 17, 22])

In [16]:
int(arr[2, 2])

12

In [17]:
sub = arr[1:4, 2:5]

In [18]:
sub

array([[ 7,  8,  9],
       [12, 13, 14],
       [17, 18, 19]])

### 3. slicing의 고급 문법 (step, reverse)

In [19]:
arr[::2, ::2]

array([[ 0,  2,  4],
       [10, 12, 14],
       [20, 22, 24]])

In [None]:
arr[::-1] # 행 뒤집기

array([[20, 21, 22, 23, 24],
       [15, 16, 17, 18, 19],
       [10, 11, 12, 13, 14],
       [ 5,  6,  7,  8,  9],
       [ 0,  1,  2,  3,  4]])

In [None]:
arr[:, ::-1] # 열 뒤집기

array([[ 4,  3,  2,  1,  0],
       [ 9,  8,  7,  6,  5],
       [14, 13, 12, 11, 10],
       [19, 18, 17, 16, 15],
       [24, 23, 22, 21, 20]])

### 4. view vs copy

In [28]:
# view / slicing은 항상 view이다.
v = arr[1:3, 1:3]
v

array([[ 6,  7],
       [11, 12]])

In [None]:
arr[[0, 2, 4]] # 정수/불리언 인덱싱은 copy다.

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24]])

In [None]:
arr[arr>10] # 정수/불리언 인덱싱은 copy다.

array([11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24])

In [31]:
v.base is arr

False

In [33]:
# view / copy 판단 
v.flags.owndata

False

### 5. boolean indexing : 조건 기반 선택

In [34]:
# 결과가 항상 1차원으로, 공간 구조 정보가 사라진다.
mask = (arr > 15)
arr[mask]

array([16, 17, 18, 19, 20, 21, 22, 23, 24])

In [35]:
# 공간 구조를 유지하고 싶다면,
np.where(arr > 15)

(array([3, 3, 3, 3, 4, 4, 4, 4, 4]), array([1, 2, 3, 4, 0, 1, 2, 3, 4]))

In [36]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [39]:
coords = np.column_stack(np.where(arr>15))

In [40]:
coords

array([[3, 1],
       [3, 2],
       [3, 3],
       [3, 4],
       [4, 0],
       [4, 1],
       [4, 2],
       [4, 3],
       [4, 4]])

# 10 DRILL

In [43]:
import numpy as np
np.random.seed(0)

## Problem 1 — 차원 인식: “무엇이 남는가?”
data = np.random.rand(365, 73, 144)  # (time, lat, lon)
1. global mean time series의 `shape`는? (코드로)
2. `data.mean(axis=0)`의 `shape`는? 물리적 의미는?


In [None]:
data = np.random.rand(365, 73, 144) # (time, lat, lon)
global_mean_time_series = np.mean(data, axis=(1, 2)) # shape는 (365, ), 시간에 따른 전지구 평균 시계열

In [46]:
global_mean_time_series.shape

(365,)

In [None]:
data.mean(axis=0) # shape (73, 144) -> 1년 평균 값이 지도에 2D로 찍혀있음


---

## Problem 2 — 차원 감소 함정: 인덱싱 vs 슬라이싱
arr = np.arange(25).reshape(5, 5)
1. `arr[2].shape` 와 `arr[2:3].shape` 비교 (코드로)
2. 둘 중 어느 것이 “행 하나를 2D 형태로 유지”하는가? 이유는?


In [None]:
arr = np.arange(25).reshape(5, 5)
arr[2].shape # (1, 5)인 줄 알았는데 (5,)로 나오네. Integer indexing은 해당 축을 remove한다.
arr[2:3].shape # 이게 진짜 (1, 5)인가? 

# 행 하나를 2D로 유지하는건 arr[2:3]인데, slicing은 차원을 유지하고, 값 하나를 추출하는건 단순히 value를 뽑는 것이다. 

(1, 5)

In [50]:
# mean = arr[2].mean(axis=1)  # ERROR 


---

## Problem 3 — 부분 배열 추출: view인가 copy인가?
arr = np.arange(36).reshape(6, 6)
sub = arr[1:5, 2:4]
1. `sub.shape`는?
2. `sub`는 view인가 copy인가? **증명 코드**를 작성하라 (`.base` 또는 메모리 공유 확인).


In [51]:
arr = np.arange(36).reshape(6, 6)
sub = arr[1:5, 2:4]

In [None]:
# sub.shape = (4, 2)
np.shares_memory(sub, arr) # 판정은 이걸로

True


## Problem 4 — view 오염 실험 (수정 전파)
a = np.arange(16).reshape(4, 4)
v = a[:, 1:3]       # (모든 행, 1~2열)
v[:] = -1
1. 최종 `a`는 어떻게 되는가? (출력으로 확인)
2. 왜 이런 현상이 발생하는가? (한 문장 요약)
3. “원본 보호”를 위한 최소 수정은?

---


In [56]:
a = np.arange(16).reshape(4, 4)
v = a[:, 1:3] #view
v

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10],
       [13, 14]])

In [57]:
v[:] = -1
v

array([[-1, -1],
       [-1, -1],
       [-1, -1],
       [-1, -1]])

In [58]:
a

array([[ 0, -1, -1,  3],
       [ 4, -1, -1,  7],
       [ 8, -1, -1, 11],
       [12, -1, -1, 15]])

In [59]:
# 2. Numpy의 연속 슬라이싱은 새로운 배열을 만들지 않고 원본 배열의 동일한 메모리를 참조하는 view를 반환한다.

# v = a[:, 1:3].copy()


## Problem 5 — fancy indexing은 왜 위험한가?
a = np.arange(16).reshape(4, 4)
f = a[[0, 2], :]   # 0행, 2행 선택
f[:] = 999

1. 최종 `a`는 변했는가? (출력으로 확인)
2. fancy indexing 결과는 view인가 copy인가?
3. 같은 목적(0행,2행만 “바꾸기”)을 **원본에 반영**하려면 어떤 방식으로 써야 하는가? (코드로)

---


In [None]:
a = np.arange(16).reshape(4, 4)
f = a[[0, 2], :] # 0행, 2행 선택, slicing이 아님.
f[:] = 999
print(f) # [[999 999 999 999], [999 999 999 999]]
print(a) # 안 변함.

# 1. a는 변하지 않는다.
# 2. fancy indexing(불연속 인덱스)는 새로운 배열(copy) 생성이다.
# 3. a[[0, 2]:] = 999 라고 하면 원본에 반영이 된다.
# 3-1. a[np.ix_([0, 2], np.arange(a.shape[1]))]

### `np.ix_` 
- 행 인덱스와 열 인덱스를 grid로 확장해주는 도구


- rows, cols = np.ix_([0, 2], [0, 1, 2, 3])
- print(rows.shape)  # (2, 1)
- print(cols.shape)  # (1, 4)


## Problem 6 — boolean indexing의 구조 파괴: 왜 1D가 되나?
a = np.arange(25).reshape(5, 5)
mask = a % 3 == 0
selected = a[mask]

1. `mask.shape`와 `selected.shape`는?
2. 왜 `selected`는 2D가 아니라 1D인가?
3. “조건을 만족하는 위치(인덱스)”를 얻는 코드를 작성하라.

---


In [68]:
a = np.arange(25).reshape(5, 5)
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


In [69]:
mask = (a % 3 == 0)
selected = a[mask]
print(selected)

[ 0  3  6  9 12 15 18 21 24]


In [74]:
# 1. mask.shape = (5, 5) -> boolean이니까 true/false 시스템이라서 (5, 5)
# selected.shape = (9, )

# 2. selected는 왜 2D가 아니라 1D냐고? boolean indexing을 값의 집합을 반환하는 것이지, 공간 차원을 유지하도록 설계된 게 아니다.

# 3 실패 : np.column_stack(np.where(a[a%3 == 0]))

np.column_stack(np.where(a%3 == 0))

array([[0, 0],
       [0, 3],
       [1, 1],
       [1, 4],
       [2, 2],
       [3, 0],
       [3, 3],
       [4, 1],
       [4, 4]])

값만 필요 → a[mask]

좌표가 필요 → np.where(mask)

좌표를 보기 좋게 → np.column_stack(...)


## Problem 7 — 혼합 인덱싱: 의미가 달라진다
a = np.arange(25).reshape(5, 5)

x1 = a[0:2, [1, 3]]
x2 = a[[0, 1], 1:4]

1. `x1.shape`, `x2.shape`를 각각 구하라.
2. 두 줄의 물리적 의미(“무슨 행/열을 고르는가”)를 말로 설명하라.
3. 둘 중 view인 것은? (증명)

---


In [75]:
a = np.arange(25).reshape(5, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [77]:
# 1. x1.shape, x2 shape
x1 = a[0:2, [1, 3]] # shape (2, 2)
x2 = a[[0, 1], 1:4] # shape(2, 3)

# 2. x1은 (0행, 1행) * (1열, 3열)
# x2는 (0행, 1행) * (1, 2, 3 열)

# 3. 인덱싱 표현식에 fancy indexing이 하나라도 포함되면, 결과는 copy에 해당한다.
print(np.shares_memory(a, x1))
print(np.shares_memory(a, x2))

False
False



## Problem 8 — reverse slicing: 축을 뒤집는 두 가지
a = np.arange(20).reshape(4, 5)

r1 = a[::-1, :]   # 행 뒤집기
r2 = a[:, ::-1]   # 열 뒤집기

1. `r1`, `r2`는 각각 무엇을 뒤집는가?
2. 둘은 view인가 copy인가? (증명)
3. 뒤집힌 배열을 수정하면 원본에 영향이 가는가? 간단 실험 포함.

---


In [80]:
a = np.arange(20).reshape(4, 5)

r1 = a[::-1, :]  # 행 뒤집기
r2 = a[:, ::-1]  # 열 뒤집기

# 1. r1은 행을 뒤집고, r2는 열을 뒤집는다.
# 2. fancy indexing이 없고 slicing을 하였기 때문에 view이다.
# 3. 원본에 영향이 간다. view니까.

r1[0, 0] = -999
print(a)

[[   0    1    2    3    4]
 [   5    6    7    8    9]
 [  10   11   12   13   14]
 [-999   16   17   18   19]]


In [79]:
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]



## Problem 9 — reshape 이후 오염: 언제 위험해지나?
x = np.arange(12)
y = x.reshape(3, 4)

y[0, :] = 777

1. `x`는 변했는가? 왜?
2. `y = x.reshape(3,4).copy()`로 바꾸면 무엇이 달라지는가?
3. “reshape은 언제 view를 반환할 수 있는가?”를 짧게 설명하라. (힌트: 연속 메모리)

---


In [82]:
x = np.arange(12)
y = x.reshape(3, 4)

y[0, :] = 777

In [83]:
# 1. 변했다. Reshape는 새로운 배열을 만들어 내지 않고, 동일한 연속 메모리를 다른 shape로 해석하는 view를 반환하므로, y를 수정하면 x의 동일한 메모리 위치가 함께 변경된다.
# 2. y=x.reshape(3,4).copy()를 활용하면 이후에 y의 좌표 값을 변경하더라도 x의 값이 변하지 않는다.
# 3. reshape는 원본 배열이 c-order 연속 메모리이고, 새로운 shape이 stride 재해석만으로 표현 간ㅇ할 때 view를 반환한다. 만족하지 않는 예시는 다음과 같다.

In [84]:
x = np.arange(12)
y = x[::2]
z = y.reshape(3, 2)
print(x)
print(y)
print(z)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  2  4  6  8 10]
[[ 0  2]
 [ 4  6]
 [ 8 10]]



## Problem 10 — 실전형: “부분만 뽑아서 계산” vs “부분만 바꾸기”
field = np.random.randn(10, 6, 8)  # (time, y, x)

roi = field[:, 2:5, 1:7]   # 관심영역

1. `roi.shape`는?
2. ROI의 time series(mean over space)의 shape는?
3. ROI 값을 0으로 만들었을 때, `field` 원본도 바뀌는가? (실험 코드 포함)
4. 원본은 유지하면서 ROI만 수정한 결과를 만들려면 가장 간단한 코드는?

In [85]:
field = np.random.randn(10, 6, 8) # time, y, x

roi = field[:, 2:5, 1:7]  # 관심 영역에 해당한다.

# 1. roi.shape = (10, 3, 5) 즉, 전체 시간에 대해 x/y
# 2. np.mean(roi, axis=(1, 2)) 즉, (10,)
# 3. roi[:] = 0 -> field에 영향 미칩니다. fancy indexing이 아니니까
# 4. 그러면 그냥 roi = field[~].copy()