### Day 3 : 배열 간의 원소별 연산(벡터화 연산), NumPy의 브로드캐스팅(broadcasting)
- 브로드캐스팅이란 서로 크기가 다른 배열 간에도 차원을 확대하여 연산을 수행하는 기능

In [1]:
import numpy as np

### 1. 기본 벡터화 연산

In [3]:
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

print("Array + 10:\n", arr + 10)

print("Array * 2: \n", arr * 2)

Array + 10:
 [[11 12 13]
 [14 15 16]]
Array * 2: 
 [[ 2  4  6]
 [ 8 10 12]]


In [5]:
arr2 = np.array([[10, 20, 30],
                 [40, 50, 60]])

print("Element wise multiplication: \n", arr * arr2)

Element wise multiplication: 
 [[ 10  40  90]
 [160 250 360]]


### 2. Broadcasting

In [10]:
A = np.arange(1, 10).reshape(3, 3)

v_row = np.array([10, 20, 30])
v_col = v_row.T

In [12]:
print("A + v_row: \n", A + v_row) # (3,) -> (1, 3)
print("A + v_col: \n", A + v_col) # (3,) -> (1, 3) 그래서 결과가 동일하게 나온다.
# 원하는 결과를 얻고 싶었어? 그러면 reshape(1, 3) 이런식으로 명시해야함.

A + v_row: 
 [[11 22 33]
 [14 25 36]
 [17 28 39]]
A + v_col: 
 [[11 22 33]
 [14 25 36]
 [17 28 39]]


In [13]:
v_col = np.array([[100],
                  [200],
                  [300]])

In [14]:
print("A + v_col: \n", A + v_col) 

A + v_col: 
 [[101 102 103]
 [204 205 206]
 [307 308 309]]


### 3. 수학 함수 적용

In [15]:
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

print("sin(arr) : \n", np.sin(arr))
print("\nsqrt(arr) : \n", np.sqrt(arr))
print("\nexp(arr)\n", np.exp(arr))
print("\nlog(arr)\n", np.log(arr))

sin(arr) : 
 [[ 0.84147098  0.90929743  0.14112001]
 [-0.7568025  -0.95892427 -0.2794155 ]]

sqrt(arr) : 
 [[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]]

exp(arr)
 [[  2.71828183   7.3890561   20.08553692]
 [ 54.59815003 148.4131591  403.42879349]]

log(arr)
 [[0.         0.69314718 1.09861229]
 [1.38629436 1.60943791 1.79175947]]


### 4. broadcasting (error or not)

In [16]:
# acceptible

a = np.ones((3, 4))
b = np.ones((4,))

print((a+b).shape)

(3, 4)


In [17]:
# Error
try:
    c = np.ones((3, 4))
    d = np.ones((3,))
    result = c + d.reshape(3, 1)
    print("c + d.reshape(3,1) works!")
except ValueError as e:
    print("Error:", e)

c + d.reshape(3,1) works!


# 10 Drills

In [18]:
import numpy as np
np.random.seed(0)

In [20]:
data = np.random.rand(365, 73, 144)

## Problem 1 — 차원 인식: “무엇이 남는가?”
data = np.random.rand(365, 73, 144)  # (time, lat, lon)

1. global mean time series의 shape는? (**코드로**)
2. `data.mean(axis=0)`의 shape는? 물리적 의미는?
3. `data.mean(axis=(0,2))`의 shape는? 물리적 의미는?

In [21]:
global_mean_time_series = np.mean(data, axis=(1, 2)) # shape (365, )
data.mean(axis=0) # 2D 에서의 연 평균 데이터 값 (만약 365가 각각 일 평균 자료라면)
data.mean(axis = (0, 2))  # 연평균 위도 values

array([0.50062962, 0.50033764, 0.50042068, 0.50066888, 0.49815676,
       0.49911937, 0.50180255, 0.50097868, 0.49784784, 0.49993978,
       0.49893596, 0.49834836, 0.50250067, 0.49869148, 0.50035078,
       0.49714032, 0.49949689, 0.50089593, 0.50038536, 0.50058109,
       0.49921523, 0.50019589, 0.50075499, 0.50190105, 0.50242524,
       0.50098896, 0.49883794, 0.50035022, 0.50090054, 0.50051721,
       0.49818879, 0.4999544 , 0.49894848, 0.50013347, 0.5006256 ,
       0.5012615 , 0.49952436, 0.49789357, 0.49939308, 0.50037724,
       0.50014236, 0.49743742, 0.50138526, 0.5001318 , 0.49908386,
       0.50108394, 0.49993944, 0.50100317, 0.50057802, 0.50002684,
       0.50191031, 0.49753509, 0.49909975, 0.49860345, 0.49895293,
       0.49962189, 0.49966011, 0.50061604, 0.4975038 , 0.50088582,
       0.50054968, 0.5017686 , 0.50315019, 0.49876345, 0.5009612 ,
       0.49666672, 0.50163582, 0.5010896 , 0.50140366, 0.50004219,
       0.50028655, 0.50081772, 0.49877389])


## Problem 2 — broadcasting: 스칼라
```python
arr = np.arange(6).reshape(2, 3)
```

1. `arr + 10`의 shape는?
2. `arr * 0`의 결과는? (값 패턴 설명)
3. `arr / 2`에서 dtype이 어떻게 되는지 출력으로 확인하라.

---


In [23]:
arr = np.arange(6).reshape(2, 3)

print(arr + 10) # (2, 3)
print(arr * 0) # [[0, 0],[0, 0], [0, 0]]
print((arr/2).dtype)   # dtype은 float, 정수 / 정수 --> 부동소수

[[10 11 12]
 [13 14 15]]
[[0 0 0]
 [0 0 0]]
float64



## Problem 3 — (3,3) + (3,) : 행 벡터 브로드캐스팅

```python
A = np.arange(9).reshape(3, 3)
v = np.array([10, 20, 30])  # shape (3,)
```

1. `A + v`의 결과 shape는?
2. 물리적 의미: v가 **행마다 더해지나, 열마다 더해지나?**
3. 결과 배열을 출력해서 확인하라.

---


In [25]:
A = np.arange(9).reshape(3, 3)
v = np.array([10, 20, 30]) # shape(3,)

print(A + v) # A에 열마다 v가 더해짐

[[10 21 32]
 [13 24 35]
 [16 27 38]]



## Problem 4 — (3,3) + (3,1) : 열 벡터 브로드캐스팅

```python
A = np.arange(9).reshape(3, 3)
v_col = np.array([[100], [200], [300]])  # shape (3,1)
```

1. `A + v_col`의 shape는?
2. 물리적 의미: v_col이 **행 방향으로 복제되나, 열 방향으로 복제되나?**
3. `A + v_col`과 `A + v_col.ravel()` 결과가 같은가? 왜?

---


In [26]:
A = np.arange(9).reshape(3, 3) # (3, 3)
v_col = np.array([[100],
                  [200],
                  [300]]) # (3, 1)

print((A + v_col).shape) # 3, 3
# 당근 행 방향 복사가 된다.
# A + v_col은 열 방향 복사, A + v_col.ravel()은 v_col을 np.array([100, 200, 300])으로 바꾸다보니 행 복사. 

(3, 3)


## Problem 5 — broadcasting 불가능: 어디가 충돌하나?

아래 연산 중 **가능/불가능**을 판단하고, 불가능이면 “어느 축이 충돌하는지”를 한 문장으로 써라.

```python
a = np.ones((3, 4))
b = np.ones((3,))
c = np.ones((4,))
```

1. `a + b`
2. `a + c`
3. `a + b.reshape(3, 1)`
4. `a + c.reshape(4, 1)`  (가능하면 결과 shape도)

---


In [27]:
a = np.ones((3, 4))
b = np.ones((3,))
c = np.ones((4,))

# print(a + b) # 불가능. (3, 4) + (1, 3)
print(a + c) # 가능. (3, 4) + (1, 4) -> (3, 4)
print(a + b.reshape(3, 1)) # 가능 (3, 4)
# print(a + c.reshape(4, 1)) # 불가능

[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]
[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]



## Problem 6 — (time, lat, lon) 에 (lat,) 가중치 곱하기

```python
temp = np.random.randn(10, 73, 144)   # (time, lat, lon)
lat = np.linspace(-90, 90, 73)
w = np.cos(np.deg2rad(lat))           # shape (73,)
```

1. 아래 연산이 왜 가능한지 설명하라(브로드캐스팅 규칙 한 문장).
2. `temp_w = temp * w` 실행 후 `temp_w.shape` 출력.
3. 만약 `w`가 `(73,1)`이면 결과가 달라지는가? 비교 실험.

---


In [28]:
temp = np.random.randn(10, 73, 144) # (time, lat, lon)
lat = np.linspace(-90, 90, 73)
w = np.cos(np.deg2rad(lat))

In [29]:
temp_w = temp * w # temp(10, 73, 144) * w(1, 73, 1)로 변경 안되는거 아냐? (1, 1, 73)으로만 확장 가능한거 아닌가?

ValueError: operands could not be broadcast together with shapes (10,73,144) (73,) 

In [30]:
w_new = np.cos(np.deg2rad(lat)).reshape(73, 1)
temp_w = temp * w_new


## Problem 7 — 표준화(z-score)를 브로드캐스팅으로 구현
`keepdims=True`

```python
X = np.random.randn(100, 5)  # (samples, features)
```

1. feature별 평균 `mu`와 표준편차 `sigma`의 shape를 각각 출력하라.
2. 반복문 없이 z-score를 계산하라:

```python
Z = (X - mu) / sigma
```

3. `Z.mean(axis=0)`이 거의 0인지 확인하라.

---


In [36]:
X = np.random.randn(100, 5)  # samples, features

# 1. feature 별 평균 mu와 표준편차 sigma의 shape를 출력하라.
print((np.mean(X, axis=0)).shape)
mu = np.mean(X, axis=0)

(5,)


In [37]:
print((np.std(X, axis=0)).shape)
std = np.std(X, axis=0)

(5,)


In [38]:
# Z = (x - mu) / sigma
# (100, 5) - (1, 5) / (1, 5)
Z_score = (X - mu) / std
print(np.mean(Z_score, axis=0))

[ 1.99840144e-17 -2.44249065e-17 -1.74860126e-17 -3.77475828e-17
  4.53803661e-17]


In [44]:
# +a
mu1 = np.mean(X, axis=1, keepdims=True)
X - mu1

array([[ 3.98074599e-01, -5.60850024e-01,  7.65030984e-01,
        -8.56187891e-02, -5.16636769e-01],
       [ 4.03929511e-01,  9.79829804e-02, -7.85481475e-01,
         5.87800664e-01, -3.04231680e-01],
       [-4.16219997e-01,  8.78245426e-01, -4.36310011e-01,
         4.07964697e-01, -4.33680116e-01],
       [-5.35632201e-01,  6.05297727e-01, -2.50882593e-03,
        -5.23632742e-01,  4.56476042e-01],
       [ 1.55481656e+00, -1.18717844e+00, -5.19239430e-02,
        -1.29360398e+00,  9.77889801e-01],
       [ 9.59704064e-01, -3.37917255e-01, -4.57109663e-01,
        -1.00883485e+00,  8.44157708e-01],
       [-6.64667710e-01, -9.84356485e-01,  5.18339693e-01,
         3.69713147e-01,  7.60971355e-01],
       [ 1.67764964e+00,  9.92592116e-01,  7.01739782e-01,
        -2.16615567e+00, -1.20582586e+00],
       [ 5.18023116e-01,  4.25698817e-01, -1.54853863e+00,
         1.86104429e-02,  5.86206257e-01],
       [-5.68023272e-01, -5.33711335e-01, -1.92630499e-01,
        -3.89327585e-01


## Problem 8 — 외적(outer) vs 원소곱: 결과 shape가 다르다

```python
u = np.array([1, 2, 3])      # (3,)
v = np.array([10, 20, 30, 40])  # (4,)
```

1. `u * v`는 되는가? 안 되면 이유는?
2. `u[:, None] * v[None, :]`의 shape는?
3. 이 연산이 물리적으로 무엇을 만드는지(“모든 조합”) 설명하라.

---


In [50]:
u = np.array([1, 2, 3])
v = np.array([10, 20, 30, 40])

In [None]:
u*v # Error
u*v.T # Error, 1차원은 Transpose가 안된다.

In [52]:
# Outer Product
u[:, np.newaxis] * v[np.newaxis, :]

array([[ 10,  20,  30,  40],
       [ 20,  40,  60,  80],
       [ 30,  60,  90, 120]])

In [54]:
np.sum(u[:, np.newaxis] * v[np.newaxis, :])

np.int64(600)


## Problem 9 — 브로드캐스팅은 “복사”가 아니다: 메모리 관점

```python
A = np.ones((3, 3))
v = np.array([1, 2, 3])
B = A + v
```

1. `B`는 view인가 copy인가? (증명: `np.shares_memory(A, B)` 등)
2. 왜 브로드캐스팅이 “개념적으로는 복제”처럼 보이지만 실제로는 복제를 안 할 때가 많은가? (한 문장)
3. `A += v`는 어떤 의미인가? (in-place 여부 포함)

---


In [None]:
A = np.ones((3, 3))  # (3, 3)
v = np.array([1, 2, 3]) # (1, 3)

B = A + v  # (3, 3), copy, A와 v를 더한 값을 담기 위해서 새로운 메모리 공간(그릇)을 할당했잖아.

In [57]:
np.shares_memory(B, A)
# 개념적으로는 복제(copy)처럼 보이지만 실제로는 복제를 안할때가 많냐고? 이거 copy인데

# A += v는 A = A + v 겠지? -> 아님
# A = A + v : 메모리 할당/해제
# A += v : inplace 연산으로, 새로운 배열을 따로 만들지 않음.

False

## Problem 10 — 3D 위성 데이터 ROI 보정과 차원 함정
- 당신은 기상청 연구원입니다. 10일치(Time)의 위성 온도 데이터(Lat x Lon)를 분석하고 있습니다. 특정 지역(ROI)을 잘라내어 **"위도(Lat)에 따른 센서 오차"**를 보정하려고 합니다.

In [60]:
# 데이터: (시간, 위도, 경도)
# Time=10, Lat=20, Lon=30
data = np.random.randn(10, 20, 30)

# 전체 위도(20개)에 대한 센서 오차값 (위도마다 오차가 다름)
lat_sensor_error = np.random.rand(20) 

# 분석 대상 지역 (ROI: Region of Interest) 설정
# 위도: 5~10 (5칸), 경도: 10~20 (10칸)
roi = data[:, 5:10, 10:20]

### 1. ROI의 shape와 memory
- roi.shape는?
- roi는 data의 copy인가? view인가? 코드로 증명하라. (roi.base, flags)

In [61]:
print(roi.shape) # 10, 5, 10
np.shares_memory(data, roi) # view

(10, 5, 10)


True

### 2. 위도 오차 보정
전체 위도 에러(lat_sensor_error) 중, ROI에 해당하는 구간(5:10)만 가져와서 roi에서 빼주는 방법을 고안하라.

In [64]:
roi_error = roi - lat_sensor_error[np.newaxis, 5:10,np.newaxis]

In [67]:
# Error
roi_corrected = roi - lat_sensor_error[5:10]  # shape: (5,)


ValueError: operands could not be broadcast together with shapes (10,5,10) (5,) 

In [None]:
# xarray 
import xarray as xr
roi_lats = np.linspace(40.0, 50.0, 900)
sensor_lats = np.linspace(30.0, 60.0, 3001) # 0.01 간격 등..
full_sensor_error = np.random.randn(3001)

da_roi = xr.DataArray(roi,
                      coords=[time, roi_lats, lon], dims=["time", "lat", "lon"])
da_error = xr.DataArray(full_sensor_error, coords = [sensor_lats], dims=["lat"])

resutlt = da_roi - da_error.sel(lat=slice(40, 50))

### 3. 원본 데이터 수정 확인

In [68]:
np.shares_memory(roi_error, data)

False

In [69]:
roi_error.shape

(10, 5, 10)

In [70]:
data[:, 5:10, 10:20] = roi_error

In [None]:
roi_error = roi - lat_sensor_error[np.newaxis, 5:10,np.newaxis]
data = np.random.randn(10, 20, 30)