# 행렬 파트2
- 행렬 노름
  - 행렬 노름은 여러개의 서로 다른 노름을 가진다.
  - 행렬 노름은 원소 계열, 유도(induced) 계열로 나뉘어진다.
  - 원소별 노름: 행렬의 개별 원소를 기반으로 계산, 행렬의 원소의 크기를 반영하여 해석
  - 유도별 노름: 행렬이 벡터를 변환하는 것으로 인한 벡터의 노름이 얼마나 조정되는지에 대한 측정치

## 유클리드 노름(프로베니우스 노름(Frobenius Norm))
- 모든 행렬 원소의 제곱합의 제곱근으로 계산
- $l2$ 노름이라고도 한다.

$\|A\|_F = \sqrt{\sum^M_{i=1}\sum^M_{j=1}a^2_{ij}}$

- 원소별 p-노름에 대한 일반 공식

$\|A\|_p = (\sum^M_{i=1}\sum^M_{j=1}|a_{ij}|^p)^{1/p}$

- 정규화(regularization): 모델 적합성을 개선하고 발견되지 않은 데이터에 대한 모델의 일반화 성능을 높이는 것
- 정규화의 기본 생각은 행렬 노름을 최소화 알고리즘에 비용 함수로 추가하는 것
- 노름은 아래 내용을 방지한다.
  - L2 정규화, 릿지 회귀(ridge regression): 모델 매개변수가 너무 커지는 문제
  - L1 정규화, 라쏘 회귀(lasso regression): 희소 결과가 나오는 문제

- 프로베니우스 노름은 행렬 거리를 계산할 때도 응용
  - 동일한 행렬 사이의 거리는 0이며 서로 다른 행렬 사이의 거리는 행렬 안의 숫자 차이가 커질수록 증가
  - 프로베니우스 행렬 거리 계산: 행렬 A를 행렬 C = A - B로 바꾸기만 하면 된다.

- 거리는 최적화 기준으로 사용될 수 있다.
- 축소된 행렬과 원래 행렬 사이의 프로베니우스 거리를 최소화 하면서 이미지의 데이터 저장크기를 줄이는 것

### 대각합과 프로베니우스 노름
- 대각합(trace): 대각 원소의 합, tr(A)
- 대각합의 특징
  - 정방행렬에 대해서만 존재
  - 대각합은 행렬의 고윳값의 합과 같다. -> 행렬의 고유공간(eigenspace)의 부피에 대한 측정치가 된다.

$\|A\|_p = \sqrt{\sum^M_{i=1}\sum^N_{j=1}a^2_{ij}} = \sqrt{tr(A^TA)}$

- 프로베니우스 노름은 행렬의 전치와 그 행렬을 곱한 결과의 대각합의 제곱근이다.
- 행렬 $A^TA$의 각 대각 원소는 동일한 행에 대한 내적이다.



In [8]:
import numpy as np

A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

frobenius_norm = np.linalg.norm(A, 'fro')
print(frobenius_norm)

trace_A = np.sqrt(np.trace(A.T @ A))

print(trace_A)




16.881943016134134
16.881943016134134


## 행렬 공간(matrix space) (열, 행, 영)
### 열공간(Column Space)
- 벡터에서의 선형 가중 결합을 행렬의 열공간으로 확장하는 방법
- 개념적으로 행렬을 열벡터의 집합으로 간주하고 하나의 특정 스칼라 집합으로 연산하는 대신 무한한 실수 스칼라를 적용
- 무한 개의 스칼라로 벡터 집합을 무한히 결합할 수 있다.
- $C(A)$라고 표기한다.
- $C(\begin{bmatrix} 1 \\ 3 \end{bmatrix}) = \lambda{\begin{bmatrix} 1 \\ 3 \end{bmatrix}}, \lambda \in \mathbb{R} $



## 계수(Rank)
- 음이 아닌 정수
- 모든 행렬은 하나의 고유한 계수를 가진다.
- $rank(A)$ 로 표기한다.
- 행렬의 최대 개수는 r=min{M,N}
- 최대로 가능한 계수를 갖는 행렬을 최대 계수(full rank)라고 한다
- 스칼라 곱셈은 행렬 계수에 영향을 미치지 않는다.

- 선형 독립 집합을 형성하는 최대열, 행의 수
- 열공간의 차원의 수
- 행렬 안의 정보를 포함하는 차원의 수
- 행렬에서 0이 아닌 특잇값의 수

### 특수 행렬의 계수
- 벡터: 모든 벡터의 계수는 1
- 영 행렬: 0
- 단위 행렬: 단위 행렬의 계수는 행,열의 수와 같다. $r(I_N) = N$
- 대각 행렬: 대각 행렬의 계수는 0이 아닌 대각 원소의 수, 각 행은 0이 아닌 원소를 하나씩만 가지며, 0의 가중 결합으로 0이 아닌 숫자를 만들 수 없다.
- 삼각 행렬: 대각선 원소에 0이 아닌 값이 있는 수가 계수
- 무작위 행렬: 직관적으로 알 수 없다. np.random.randn()을 통해 생성된 행렬은 최대로 가능한 계수를 갖는다.
- 계수-1 행렬: 계수는 1
  - $\begin{bmatrix} -2 & -4 & -4 \\ -1 & -2 & -2 \\ 0 & 0 & 0 \end{bmatrix}$
  - 각 열을 첫 번째 열의 크기를 조정한 것
  - 계수-1 행렬을 만드는 방법은 0이아닌 두 벡터 사이에서 외적을 취하는 것
  - 고윳값 분해, 특잇값 분해에서 중요

### 덧셈 및 곱셈 행렬의 계수
- 두 개별 행렬의 계수로 A+B 또는 AB가 가질 수 있는 최대로 가능한 계수를 구할 수 있다.
- $rank(A+B) <= rank(A) + rank(B)$
- $rank(AB) <= min(rank(A), rank(B))$
- 개별 행렬의 계수를 알고 있다고 해서 덧셈 행렬 또는 곱 행렬의 정확한 계수를 알 수는 없다.
- 덧셈 행렬의 계수는 개별 행렬의 계수보다 클 수 있다.
- 곱셈 행렬의 계수는 개별 행렬의 가잔 큰 계수보다 클 수 없다.

### 이동된 행렬의 계수
- 행렬을 이동시키면 보통 최대계수가 된다.
- 영 행렬을 단위 행렬로 이동하는 예, $0 + I$
$$\begin{bmatrix} 1 & 3 & 2 \\ 5 & 7 & 2 \\ 2 & 2 & 0 \end{bmatrix} + .01\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix} = \begin{bmatrix} 1.01 & 3 & 2 \\ 5 & 7.01 & 2 \\ 2 & 2 & .01 \end{bmatrix} $$
- 기존 계수-2 행렬은 가역이 아니었지만 이동된 행렬은 가역

### 이론과 실제
- 특잇값: 모든 MxN 행렬은 min {M, N}개의 음이 아닌 특잇값 집합을 가진다.
  - 행렬의 열공간과 행공간에서 서로 다른 방향의 중요성, 광활함을 인코딩 한 것
  - 특잇값이 0인 방향은 영공간들 중 한 곳에 존재

- 컴퓨터는 계수를 계산하지도 않는다. 정확도 수준으로 추정할 뿐이다.
- NumPy는 0이 아닌 특잇값을 세지 않는다.
- 임곗값보다 큰 특잇값을 센다.
- 임계값은 숫자값에 따라 다르지만 행렬 원소보다 크기가 $10^{-12}$만큼 작다.
- 컴퓨터가 0이 아닌 특이값을 세지 않는 이유는 허용 오차를 이용해서 컴퓨터의 반올림 오류로 인한 부정확성을 피하기 위함

## 계수 응용
### 벡터가 열공간에 존재하나요?
- $V \in C(A)$
- 행렬 확장(augmenting)
  - 행렬의 오른쪽에 열을 추가한다는 뜻
  - 확장된 행렬의 크기는 M x (N + K)가 된다.

- 벡터가 행렬의 열공간에 있는지 여부확인 방법
  - 벡터로 행렬을 확장한다. 행렬 $A$, 확장한 행렬은 $\widetilde{A}$
  - 두 행렬의 계수를 계산
  - 두 계수를 비교
    - $rank(A) = \widetilde{A}$ 벡터는 행렬 A의 열공간에 있다.
    - $rank(A) < \widetilde{A}$ 벡터는 행렬 A의 열공간에 없다.

- $V \in C(A)$라면 v는 A의 열들의 선형 가중 결합으로 나타낼 수 있다, 확장 행렬 $\widetilde{A}$의 열들은 선형 종속 집합이 된다.
- ${V \notin C(A)}$라면 v는 A의 열들의 선형 가중 결합으로 나타낼 수 없고, v가 $\widetilde{A}$에 새로운 정보를 추가했다는 뜻, 계수가 1만큼 증가를 의미
- 이 판단이 선형 모델의 기초가 되는 선형 최소제곱 모델링의 추론의 일부이다.
- 설계 행렬(design matrix): 세상이 어떻게 돌아가는지에 대한 모델을 개발하고 그 모델을 행렬로 변환하는 것
- 데이터 벡터가 설계 행렬의 열공간에 존재한다면 우리는 세상을 완벽하게 모델링한 것
- 대부분의 경우 데이터 벡터는 설계 행렬의 X의 열공간에 존재하지 않는다. 세상은 완벽하게 선형적으로 돌아가지 않는다.
