## 1.3 Matrices and Matrix Operations

용어 정리

row vector(row matrix)
column vector(column matrix)
scalars

squard matrix of order n
main diagonal

### Matrix Multiplication by Columns and by Rows


Partitioned Matrix

3가지 submatrices로 쪼갤 수 있음

![submatrices](../assets/ch01_3_submatrices.png)

Partitioning이라는 테크닉이 자주 쓰이는데 이걸 활용하면 전체를 구하지 않고 특정 열이나 행에 대해서만 구할 수 있음

"뒤ROW 앞COL"

1. entry method
2. row method(뒤 Row 방식 -> 뒤에 column by column 으로 놓임)
3. column method(앞 Col 방식 -> 앞에 row by row로 놓임)

![partitioning](../assets/ch01_03.partitioning.png)

## Matrix Products as Linear Combinations  
  : n x 1 짜리 column vector 하나가 오른쪽에 오는 경우  
  : 이 경우가 방정식 푸는거랑 비슷한 꼴인데 이 꼴이 가지는 특징을 공부하면 방정식 푸는거에 향후 응용 가능!

![linearCombination](../assets/ch01_03.linearCombination.png)

### Column-Row Expansion

A[x1 x2 x3 ...] = [Ax1 Ax2 Ax3 ...] 특징과, linear combination 특성을 이용하는 방법이 다음과 같이 있다. 

![example09](../assets/ch01_03.Example9.png)  

  
행렬곱 AB가 있을 떄, A의 열벡터와 B 행벡터 각각을  $c_1r_1 + c_2r_2 + c_3r_3 + c_4r_4 + ...$로도 나타낼 수 있는데 이를 Column-Row Expansion이라고 함.

이게 여기에선 임팩트가 없어보이지만 사실 이 표현 방법이 공학적 응용에 있어서 매우매우 중요함!!  

- 이유1 : 행렬곱을 rank가 1인 행렬들의 합으로 표현할 수 있음 -> **SVD(특이값 분해)**, **PCA**, **추천시스템(행렬 완성)** 에서 자주 활용

- 이유2 : 직접 행렬곱을 계산하지 않고 시각적 / 개념적으로 접근할 때 사용 -> 행렬곱을 각 **열 X 행** 단위로 이해하면 구조적으로 **AB행렬의 방향성 / 패턴**을 분석 -> 공간해석, 변환해석(이미지 필터링)

- 이유3 : Low-rank 근사나 필터링을 빠르게 계산할 때 사용 -> **이미지 처리나 신호처리** 등에서 **핵심 feature**를 갖는 부분만 골라서 곱할 수 있음

- 이유4 : 뉴럴 네트워크에서 Linear Layer 구조 분석 -> Fully Connected Layer의 weight matrix를 column-row 형식으로 보면, 입력 벡터에 **어떤 filter가 곱해졌는지**를 선형 결합 구조로 분석 


## Transpose AND Trace

Transpose는 행과 열을 뒤집는 거고, Trace는 Square Matrix의 경우에 대각선에 있는 값들을 모두 더한 것  

단순한 정의는 이러하지만 다음과 같은 쓰임이 각각 있다.  

---

## 🔁 Transpose vs Trace

### ✅ 1. Transpose (전치)

> Aᵀ: 행(row)과 열(column)을 뒤집은 행렬

---

#### 💡 Transpose의 활용 예

- **내적 (dot product)** 계산  
  `xᵀy` 형태로 벡터 내적을 정의할 때 사용

- **대칭행렬 확인**  
  `A = Aᵀ`이면 대칭행렬 → 공분산 행렬 등에서 중요

- **역전파 (Backpropagation)**  
  신경망 학습 시, **다차원 파라미터의 미분 결과를 전파**할 때 transpose가 필수적으로 등장함.

  예를 들어 다음과 같은 선형 변환이 있다고 가정하자: y = Wx

  
여기서:
- `W`: weight matrix (`m × n`)
- `x`: 입력 벡터 (`n × 1`)
- `y`: 출력 벡터 (`m × 1`)

이제 Loss function `L(y)`에 대해 역전파할 때,  
**입력 x에 대한 gradient**는 다음과 같이 transpose를 통해 구해진다: ∂L/∂x = Wᵀ ∂L/∂y


즉, **출력 y에 대한 gradient를 Wᵀ에 곱해줘야 input gradient가 나옴**.  
이때 W의 transpose가 등장하는 것!

- **열벡터 vs 행벡터 변환**  
벡터 표현을 바꿀 때 자주 사용 (예: `row vector → column vector`)

---

### ✅ 2. Trace (대각합)

> `tr(A)` = 정사각행렬 `A`의 대각선 성분들의 합

---

#### 💡 Trace의 활용 예

- **행렬 정보량 요약**  
`tr(AᵀA)` = A의 Frobenius norm² (행렬 크기)

- **고유값의 합**  
`tr(A) = λ₁ + λ₂ + ... + λₙ`

- **최적화 문제에서 사용**  
예: PCA에서 등장하는 목적함수  
`min tr(Wᵀ X Xᵀ W)`

- **통계: 총 분산 계산**  
다변량 정규분포의 공분산 행렬의 trace는 전체 분산을 나타냄

---

### ✅ 요약 표

| 개념 | 정의 | 주요 용도 |
|------|------|-----------|
| **Transpose `Aᵀ`** | 행과 열을 뒤집음 | 내적 계산, 대칭 행렬, 역전파, 벡터 변환 |
| **Trace `tr(A)`** | 정방행렬의 대각합 | 고유값 합, 행렬의 총 에너지, 최적화, 통계 |

---

> 🔹 **Transpose**는 행/열 변환과 내적 계산의 핵심 도구이며, **딥러닝의 역전파에도 필수**  
> 🔹 **Trace**는 행렬 구조를 압축 요약하는 **수학적 합계** 역할을 하며, 고유값 합, 최적화, 통계 분석 등에 쓰임.


