# Chapter 10 - Orthogonalization

### Computational Problem 10.0.1 - 여러 벡터들의 생성 내에 있는 가장 가까운 점
주어진 벡터 b와 실수 벡터들 $v_1,...,v_n$에 대해, $Span\{v_1,...,v_n\}$ 내에 있으며 b에 가장 가까운 벡터를 찾아보자.

### Example 10.0.2
$v_1=[8,-2,2], v_2=[4,2,4]$라고 하자. 이러한 벡터들은 평면을 생성한다. b=[5,-5,2]라고 하자. $Span\{v_1,v_2\}$ 내에 있으며 b에 가장 가까운 점을 찾아보자.  
가장 가까운 점은 [6,-3,0]이다.

___
**least-squre**  
A=$\begin{bmatrix}  &&  &&   \\ v_1 && ... && v_n \\  && &&  \end{bmatrix}$라고 하자. 행렬-벡터 곱셈의 선형결합 정의에 의하면, $Span\{v_1,..,v_n\}$내 벡터들의 집합은 $Ax$로 쓸 수 있는 바로 그 벡터들의 집합이다. 생성내에 가장 가까운 점을 찾는 것은 $\left\|b-Ax\right\|$을 최소화하는 벡터 x를 찾는 것과 같다. 이것인 least-squre 문제이다.  
만약 행렬-벡터 방정식 $Ax=b$가 솔루션을 가지면, 가장 가까운 벡터는 b 자신이고 최소제곱 솔루션은 행렬-벡터 방정식의 솔루션이다.

# 10.1 복수의 벡터들에 직교하는 투영

## 10.1.1 벡터들의 집합에 대한 직교

### Definition 10.1.1
벡터 v는 만약 그것이 S 내의 모든 벡터에 직교하면 벡터들의 집합 S에 직교한다.

### Example 10.1.2
벡터 [2,0,-1]은 [0,1,0]과 [1,0,2]에 직교하므로 집합 {[0,1,0],[1,0,2]}에 직교한다. 더욱이, 이것은 무한 집합 $V=Span\{[0,1,0],[1,0,2]\}$에 직교한다.  
$\quad <[2,0,-1], \alpha[0,1,0]+\beta[1,0,2]> = \alpha<[2,0,-1], [0,1,0]> + \beta<[2,0,1],[1,0,2]>$  
$\quad \quad\quad\quad\quad \quad\quad\quad\quad \quad\quad\quad\quad \quad = \alpha0+\beta0$

### Lemma 10.1.3
벡터 v가 벡터들 $a_1,...,a_n$ 각각에 직교할 필요충분조건은 v가 $Span\{v_1,...,v_n\}$내의 모든 벡터에 직교하는 것이다.

Lemma 10.1.3 때문에, 벡터가 벡터공간에 직교한다는 것과 그 벡터공간에 대한 생성자들의 집합에 직교한다는 것을 구분하지 않는다.

## 10.1.2 벡터공간상으로의 투영 및 벡터공간에 직교하는 투영

### Definition 10.1.4
벡터 b와 벡터공간 V에 대해, b의 V상으로부터의 투영($b^{\parallel V}$)과 b의 B에 직교하는 투영($b^{\bot V}$)을 정의해 보자. 그러면, 다음과 같이 쓸 수 있다.

$\quad b=b^{\parallel V}+b^{\bot V}$

그리고, $b^{\parallel V}$는 V에 속하고, $b^{\bot V}$는 V에 속하는 모든 벡터와 직교한다.

### Example 10.1.5
$V=Span\{[8,-2,2],[4,2,4]\}$라 하고 b=[5,-5,2]라고 하자. b의 V상으로의 투영은 $b^{\parallel V}=[6,-3,0]$, b의 V에 직교하는 투영은 $b^{\bot V}=[-1,-2,2]$라고 주장해 보자. 이 주장을 증명하기 위해 그럼 다음 조건들을 만족한다는 것을 보여 줄 수 있다.
- $b=b^{\parallel V}+b^{\bot V}$인가?  [5,-5,2]=[6,-3,0]+[-1,-2,2]
- $b^{\parallel V}$는 V에 속하는가? [6,-3,0]=1[8,-2,2]-$\frac{1}{2}$[4,2,4]
- $b^{\bot V}$은 V에 직교하는가? [-1,-2,2]$\cdot$[8,-2,2]=0, [-1,-2,2]$\cdot$[4,2,4]=0이다.

따라서 이것이 솔루션이다. 하지만, 이 솔루션을 어떻게 계산할 수 있는가? 이 질문에 대답할 수 있기 전에 몇 가지 더 필요한 것이 있다.

### Lemma 10.1.6 (Generalized Fire Engine Lemma)
V는 벡터공간이라 하고, b는 벡터 라고 하자. V에 속하며 b에 가장 가까운 점은 $b^{\parallel V}$이고 그 거리는 $\left\|b^{\bot V}\right\|$이다.

## 10.1.3 벡터들의 리스트에 직교하는 투영 - 첫 번째 시도

다음 스펙을 가지는 프로시저, project_orthogonal을 작성해 보자.
- input
 - 벡터 b,
 - 벡터들의 리스트 vlist
- ouput
 - Span vlist에 직교하는 b의 투영

In [1]:
from math import sqrt
from orthogonalization import project_along
from vecutil import list2vec

def project_orthogonal(b, vlist):
    for v in vlist:
        b = b - project_along(b, v)
    return b

vlist = [list2vec([1,0]), list2vec([sqrt(2)/2, sqrt(2)/2])]
b = list2vec([1,1])

b_orth_v = project_orthogonal(b, vlist)
print('project_orthogonal:', b_orth_v)
print('vlist[0]*b_orth_v:', vlist[0]*b_orth_v)
print('vlist[1]*b_orth_v:', vlist[1]*b_orth_v)

project_orthogonal: 
    0   1
---------
 -0.5 0.5
vlist[0]*b_orth_v: -0.5
vlist[1]*b_orth_v: 0.0


___
제대로 동작하도록 수정된 버전은 아래와 같다.

In [2]:
from vecutil import zero_vec

def classical_project_orthogonal(b, vlist):
    w = zero_vec(b.D)
    for v in vlist:
        w = w + project_along(b, v)
    return b - w

b_orth_v = classical_project_orthogonal(b, vlist)
print('project_orthogonal:', b_orth_v)
print('vlist[0]*b_orth_v:', vlist[0]*b_orth_v)
print('vlist[1]*b_orth_v:', vlist[1]*b_orth_v)

project_orthogonal: 
  0 1
-----
 -1 0
vlist[0]*b_orth_v: -1.0
vlist[1]*b_orth_v: -0.7071067811865476


___
안타깝게도 위의 수정된 버전도 제대로 동작하지 않는다.

# 10.2 서로 직교하는 벡터들의 리스트에 직교하는 b의 투영

### Example 10.2.1
$v_1=[1,2,1], v_2=[-1,0,-1], b=[1,1,2]$ 라고 하자. 다시 $b_i$는 i 이터레이션 후 b의 값이라고 하자. 그러면 다음이 성립한다.

$b_1 = [1/6, -4/6, 6/7]$  
$b_2 = [2/3, -2/3, 2/3]$

이때, $b_2$는 $v_1, v_2$에 직교한다.

___
만약 b가 $v_1$에 직교하면, $v_1$에 직교하는 어떤 것을 빼도 여전히 직교성은 유지된다.  
$<v_1,b>=0, <v_1,v_2>=0$이라고 가정해 보자. 그러면, 다음이 성립한다.  
$\quad <v_1, b-\sigma v_2> = <v_1, b> - <v_1, \sigma v_2> $  
$\quad\quad\quad\quad\quad\quad~~ = <v_1,b> - \sigma<v_1,v_2>$  
$\quad\quad\quad\quad\quad\quad~~ = 0 - 0$

___
project_orthgonal(b, vlist)에서 vlist를 서로 직교하는 벡터들의 리스트로 제한하면 프로시저는 맞게 동작한다.

### Problem 10.2.2
$b=[1,1,1], vlist=[v_1,v_2]$를 자기고 project_orthgonal을 호출할 때 수행되는 단계를 손으로 계산하여 보여라. 이때, $v_1=[0,2,2], v_2=[0,1,-1]$이다.

In [3]:
# 손으로 계산한 결과 b_1 = [1,0,0,], b_2 = [1,0,0,]이 나왔다.

vlist = [list2vec([0,2,2]), list2vec([0,1,-1])]
b = list2vec([1,1,1])

b_orth_v = project_orthogonal(b, vlist)
print('project_orthogonal:', b_orth_v)
print('vlist[0]*b_orth_v:', vlist[0]*b_orth_v)
print('vlist[1]*b_orth_v:', vlist[1]*b_orth_v)

project_orthogonal: 
 0 1 2
------
 1 0 0
vlist[0]*b_orth_v: 0.0
vlist[1]*b_orth_v: 0.0


## 10.2.1 프로시저 project_orthogonal이 맞게 동작하는지 증명하기

### Theorem 10.2.3 Project_orthognoal의 정확성
벡터 b와 서로 직교하는 벡터들의 리스트 vlist에 대해, 프로지서 project_orthogonal(b,vlist)은 $b\bot$을 리턴한다. 이때, $b^\bot$은 vlist에 속하는 벡터들에 직교하며 $b-b^\bot$은 vlist에 속하는 벡터들의 생성에 속한다.

___
**loop invariant**

프로시저가 맞다는 것을 증명하기 위해, i 이터레이션 후 i를 포함하는 어떤 구문(statement)이 i=0,1,2,...에 대해 참이라는 것을 보여준다. 이러한 방식에 사용되는 구문은 루프불변이라 한다.

### 10.2.4 Project_orthogonal에 대한 루프 불변
k=len(vlist)라고 하자. i=0,...,k에 대해, b_i는 i이터레이션 후 변수 b의 값이라고 하자. 그러면, 다음이 성립한다.
- $b_i$는 vlist에 속하는 첫 i개 벡터들에 직교한다.
- $b-b_i$는 vlist에 속하는 첫 i개 벡터들의 생성에 속한다.

project_orthogonal은 새로운 스펙을 만족한다는 것을 보였다.

### Problem 10.2.5
Lemma 10.2.4의 증명에서와 같이 $b_i$는 i 이터레이션 후 project_orthogonal의 변수 b의 값이라고 하자. $w_i$는 i 이터레이션 후 w의 값이라하고 하자. i에 대해 귀납법을 상용하여 다음 claim을 증명한다. 이 claim은 프로시저들이 동일한 벡터를 리턴해야 한다는 것을 보여준다.
- Claim: i=0,1,2,...0에 대해  
$\quad b_i=b-w_i$

## 10.2.2 project_orthgonal 보강하기

$b-b^\bot$이 벡터들 $v_0,...,v_{k-1}$의 생성에 속한다는 사실은 다음과 같이 표현될 수 있다.  
$\quad b=\sigma_0v_0+....+\sigma_{k_1}v_{k_1}+1b^\bot$

### aug_project_orthognal(b, vlist) 프로시저를 작성해 보자.
- input
 - 벡터 b
 - 서로 직교하는 실수 벡터들의 리스트 [$v_0,...,v_{k-1}$]
- ouput
 - $b^\bot$: b의 투영 $b^\bot$이며 이것은 Span{$v_0,...,v_{k-1}$}에 직교한다.
 - $sigmadict = \{0:\sigma_0, 1:\sigma_1, (k-1):\sigma_{k-1}, k:1\}$

In [4]:
def aug_project_orthgonal(b, vlist):
    sigmadict = {len(vlist):1}
    for i, v in enumerate(vlist):
        sigma = (b*v)/(v*v) if v*v > 1e-20 else 0
        sigmadict[i] = sigma
        b = b - sigma*v
    return b, sigmadict

aug_project_orthgonal(b, vlist)

(Vec({0, 1, 2},{0: 1.0, 1: 0.0, 2: 0.0}), {0: 0.5, 1: 0.0, 2: 1})

# 10.3 생성자들의 직교집합 만들기

### 직교화(orthogonalization)
Span{$v_1,..,v_n$}와 동일한 벡터공건을 생성하고 서로 직교하는 벡터들을 찾는 것
- input
 - 실수 벡터들의 리스트 [$v_1,...,v_n$]
- output
 - 다음을 만족하는 서로 직교하는 벡터들 $v_1^*, ..., v_n^*$의 리스트
   - Span{$v_1^*,...v_n^*$} = Span{$v_1,...v_n$}

## 10.3.1 orthogonalize 프로시저

In [5]:
def orthogonalize(vlist):
    vstarlist = []
    for v in vlist:
        vstarlist.append(project_orthogonal(v, vstarlist))        
    return vstarlist

vlist = [list2vec([2,0,0]), list2vec([1,2,2]), list2vec([1,0,2])]
orthogonalize(vlist)

[Vec({0, 1, 2},{0: 2, 1: 0, 2: 0}),
 Vec({0, 1, 2},{0: 0.0, 1: 2.0, 2: 2.0}),
 Vec({0, 1, 2},{0: 0.0, 1: -1.0, 2: 1.0})]

### Lemma 10.3.1
orthogonalize의 실행 중에 vstarlist에 속하는 벡터들은 서로 직교한다.

### Example 10.3.2
다음 벡터들로 구성된 vlist에 대해 orthogonalize을 호출하면,  
$\quad v_1=[2,0,0], v_2=[1,2,2], v_3=[1,0,2]$  

다음으로 구성된 리스트 vstarlist가 리턴된다.  
$\quad v_1^*=[2,0,0], v_2^*=[0,2,2], v_3^*=[0,-1,1]$

(1) 첫 번째 이터레이션에서, vstarlist는 비어있고 따라서 $v_1^*=v_1$이 된다.  
(2) 두 번째 이터레이션에서, $v_2$의 $v_1^*$에 직교하는 투영은 다음과 같다.  
$\quad v_2-\frac{<v_2,v_1^*>}{<v_1^*,v_1^*>}v_1^* = [0,2,2]$  
(3) 세 번째 이터레이션에서, $v_3$의 $v_1^*$에 직교하는 투영하는 [0,0,2]이고 [0,0,2]의 $v_2^*$에 직교하는 투영은 [0,-1,1]이다.

### Example 10.3.3
Exmaple 10.0.2와 10.1.5에서 제기된 문제로 돌아가면, orthogonalize를 벡터들의 리스트에 대해 실행할 필요가 있다.  
여기서,$v_1=[8,-2,2], v_2=[4,2,4]$이다.

orthogonalize된 벡터들은 $v_1^*=[8,-2,2], v_2^*=[0,3,3,]$이다.

In [6]:
vlist = [list2vec([8,-2,2]), list2vec([4,2,4])]
orthogonalize(vlist)

[Vec({0, 1, 2},{0: 8, 1: -2, 2: 2}), Vec({0, 1, 2},{0: 0.0, 1: 3.0, 2: 3.0})]

### Problem 10.3.4
orthogonalize가 적용되는 관정을 손으로 계산하여 보져주자.  
$v_1=[1,0,2], v_2=[1,0,2], v_3=[2,0,0]$

In [7]:
#v_1^* = [1,0,2]
#v_2^* = [1,0,2] - 5/5[1,0,2] = [0,0,0]
#v_3^* 
# 1)[2,0,0] - 2/5[1,0,2] = [8/5,0,-4/5]
# 2) [8/5,0,-4/5] - [0,0,0] = [8/5,0,-4/5]

vlist = [list2vec([1,0,2]), list2vec([1,0,2]), list2vec([2,0,0])]
orthogonalize(vlist)

[Vec({0, 1, 2},{0: 1, 1: 0, 2: 2}),
 Vec({0, 1, 2},{0: 0.0, 1: 0.0, 2: 0.0}),
 Vec({0, 1, 2},{0: 1.6, 1: 0.0, 2: -0.8})]

## 10.3.2. orthogonalize가 맞게 동작하는지 증명하기

orthogonalize가 스펙을 만족하는지 보여 주기 위해, 리턴되는 벡터들로 구성된 리스트의 생성이 입력으로 제공된 벡터들로 구성된 리스트의 생성과 동일함을 보여야 한다.

### Lemma 10.3.5
orthgonalize를 n-원소 리스트 [$v_1,...,v_n$]에 적용하는 것을 고려해 보자.  
알고리즘 i번째 이터레이션 후 Span vstarlist=Span{$v_1,..,v_i$}이다.

___
직교화 과정은 수학자인 그램과 슈미트의 이름을 따서 종종 Gram-Schmidt 직교화라고 부른다.

### Remark 10.3.6
벡터들의 리스트를 가지고 그리고 그 리스트의 역순으로 orthogonalize를 실행해보자. 출력된 리스튼 서로의 역이 되지 않을 것이다. 대조적으로 벡터공간에 직교하는 벡터 b의 투영은 유일하며 원칙적으로 vlist에 속하는 벡터들의 순서는 project_orthgonal(b, vlist)의 출력에 영향을 주지 않는다. 하지만 수학적 계산이 정확하지 않기 때문에 순서에 따라 다를 수 있다.

In [8]:
vlist = [list2vec([2,0,0]), list2vec([1,2,2]), list2vec([1,0,2])]
print('vlist:', vlist)
print('orthgonalize:', orthogonalize(vlist))
print('\nvlist:', vlist[::-1])
print('orthogonalize:', orthogonalize(vlist[::-1]))

vlist: [Vec({0, 1, 2},{0: 2, 1: 0, 2: 0}), Vec({0, 1, 2},{0: 1, 1: 2, 2: 2}), Vec({0, 1, 2},{0: 1, 1: 0, 2: 2})]
orthgonalize: [Vec({0, 1, 2},{0: 2, 1: 0, 2: 0}), Vec({0, 1, 2},{0: 0.0, 1: 2.0, 2: 2.0}), Vec({0, 1, 2},{0: 0.0, 1: -1.0, 2: 1.0})]

vlist: [Vec({0, 1, 2},{0: 1, 1: 0, 2: 2}), Vec({0, 1, 2},{0: 1, 1: 2, 2: 2}), Vec({0, 1, 2},{0: 2, 1: 0, 2: 0})]
orthogonalize: [Vec({0, 1, 2},{0: 1, 1: 0, 2: 2}), Vec({0, 1, 2},{0: 0.0, 1: 2.0, 2: 0.0}), Vec({0, 1, 2},{0: 1.6, 1: 0.0, 2: -0.8})]


___
orthogonalize된 벡터를 다음과 같이 표현할 수 있다.  
$\quad \begin{bmatrix} \\ &&  &&   \\ v_1 && ... && v_n \\  && && \\ \\ \end{bmatrix} = \begin{bmatrix}  \\ &&  &&   \\ v_1^* && ... && v_n^* \\  && &&  \\ \\ \end{bmatrix}\begin{bmatrix} 1 && \sigma_{12} && ... &&  \sigma_{1n} \\  && 1 && \sigma_{23} && ... \\  && && ... &&  \\ && &&  && \sigma_{n-1,n} \\ && && && 1 \end{bmatrix}$

우변의 첫 번째 행렬은 서로 직교하는 열들을 가진다. 두 번째 행렬은 정방행렬이며 $A_{ij}$엔트리는 만약 i > j이면 영이다. 이러한 행렬은 *상삼각행렬*이다.

## 10.4 벡터들의 생성에 속하는 점에 가장 가까운 계산문제 풀기

이제, Problem 10.0.1, 즉 Span{$v_1,..,v_n$}에 속하며 b에 가장 가까운 벡터를 찾는 문제에 대한 알고리즘을 제시할 수 있다.

Generalized Fire Engine Lemma(Lemma 10.1.6)에 따라, 가장 가까운 벡터는 $b^{\parallel V}$이고, 이것은 $b-b^{\bot V}$이다.  

$b^{\bot V}$를 찾는 두 가지 방법이 있다.
 - 첫 번째 방법: orthogonalize([$v_1,...v_n$])를 적용하여 [$v_1^*,...,v_n^*$]를 얻고 project_orthogonal(b, [$v_1^*,...,v_n^*$])를 호출한다.
 - 두 번째 방법: orthogonalize([$v_1,...v_n, b$])를 적용하여 [$v_1^*,...,v_n^*, b^*$]를 얻는다. $b^*$은 $b^{\bot V}$이며 $v_1^*,...,v_n^*$에 직교하게 투영하여 얻어진다.
 
그러면, $b^{\parallel V} = b - b^{\bot V}$은 Span{$v_1,...,v_n$}에 속하여 b에 가장 가까운 벡터이다.

### Example 10.4.1

Example 10.0.2, 10.1.5에서 제시된 문제에서 $v_1^*=[8,-2,2], v_2^*=[0,3,3]$으로 $v_1,v_2$와 동일한 벡터공간을 생성하고 서로 직교한다. 그러므로 project_orthogonal(b, [$v_1^*, v_2^*$])을 사용하여 이 공간상으로의 b=[5,-5,2]의 투영을 찾을 수 있다.

$\quad b_1 = b_0 - \sigma_1 v_1^*$  
$\quad b_2 = b_1 - \sigma_2 v_2^*$

$b_2$는 Span{$v_1^*, v_2^*$}에 직교하는 b의 투영이고 그러므로 Span{$v_1,v_2$}에 직교하는 b의 투영이다. 이유는 이들 두 생성은 동일한 집합이기 때문이다.

# 10.5 orthogonalize를 사용하여 다른 문제 풀기

### Proposition 10.5.1
서로 직교하는 영이 아닌 벡터들은 일차독립이다.

## 10.5.1 기저 계산하기

$v_1^*,...,v_n^*$은 orthgonalize([$v_1,...,v_n$])에 의해 리턴되는 벡터들이고 영을 제외한 집합은 Span{$v_1^*,...,v_n^*$}의 기저이다.
1. S는 {$v_1^*,...,v_n^*$}은 부분집합이며 영이 아닌 벡터들이라 하자.
2. Span S = Span{$v_1^*,...,v_n^*$} = Span {[$v_1,...,v_n$]
3. S는 Proposition 10.5.1에 의해 일차독립니다. 따라서 Span {[$v_1,...,v_n$]에 대한 기저이다.

이 알고리즘에 대한 프로시저  
$\quad$*def find_basis([$v_1,...,v_n$]):*  
$\quad\quad$*"Return the list of nonzero starred vectors"*  
$\quad\quad$*[$v_1^*,...,v_n^*$] = orthogonalize([$v_1,...,v_n$])*  
$\quad\quad$*return [v^* for v^* in [$v_1^*,...,v_n^*$] if $v^*$ is not the nonzero vector]*  

## 10.5.2 부분집합 기저 계산하기

원래의 벡터들 $v_1,...,v_n$의 부분집합으로 구성되는 Span {$v_1,...,v_n$}의 기저를 찾을 수 있다.

k는 영이 아닌 직교 벡터들의 수이고, $i_1,i_2,...,i_k$는 증가하는 순서로 된 영이 아닌 직교 벡터들의 인덱스라 하자.  
$\quad v_{i_1}^*,...,v_{i_k}^*$

원래 벡터데 대응하는 벡터들은 아래와 같다고 하자.
$\quad v_{i_1},...,v_{i_k}$

위의 벡터들은 $v_{i_1}^*,...,v_{i_k}^*$와 cardinality가 같으므로, 원래의 k개의 벡터들도 또한 기저이며 동일한 공간을 생성한다.

위 주장이 왜 참이 되는지 알아보기 위해 아래 함수를 고려해 보자.  
$\quad orthgonalize([v_{i_1},...,v_{i_k}])$  
간단한 귀납법으로 j=1,...,k에 대해 vstartlist에 추가되는 $v_{i_j}^*$임을 보여 줄 수 있다. 이유는 project_orthogonal(v, vstarlist)는 계산할때 영벡터들을 실질적으로 무시하기 때문이다. 따라서 원래의 대응하는 k개 벡터들의 직교 벡터와 $v_1,...,v_n$와 동일하다.

이 알고리즘에 대한 프로시저
$\quad$*def find_subset_basis([$v_1,...,v_n$]):*  
$\quad\quad$*"Return the list of original vectors that correspond to nonzero starred vectors"*  
$\quad\quad$*[$v_1^*,...,v_n^*$] = orthogonalize([$v_1,...,v_n$])*  
$\quad\quad$*return [v_i for i in {0,...n} if $v_i^*$ is not the nonzero vector]*  

## 10.5.3 augmented_orthogonalize

aug_orthgonalize(vlist)를 작성해 보자.
- input
 - 벡터들의 리스트 [$v_1,...,v_n$]
- output
 - 서로 직교하며 생성은 Span { $v_1,...,v_n$} 동일한 벡터들 $v_1^*,...,v_n^*$
 - i = 1,..,n에 대해,  
$\quad \begin{bmatrix} \\ &&  &&   \\ v_1 && ... && v_n \\  && && \\ \\ \end{bmatrix} = \begin{bmatrix}  \\ &&  &&   \\ v_1^* && ... && v_n^* \\  && &&  \\ \\ \end{bmatrix}\begin{bmatrix}  &&  &&   \\  && &&    \\ u_1 && ...&& u_n   \\ && &&    \\ && &&   \end{bmatrix}$

In [9]:
from vec import Vec

def aug_orthogonalize(vlist):
    vstarlist = []
    sigma_vects = []
    D = set(range(len(vlist)))
    for v in vlist:
        vstar, sigmadict = aug_project_orthgonal(v, vstarlist)
        vstarlist.append(vstar)
        sigma_vects.append(Vec(D, sigmadict))
    return vstarlist, sigma_vects

vlist = [list2vec([2,0,0]), list2vec([1,2,2]), list2vec([1,0,2])]
aug_orthogonalize(vlist)

([Vec({0, 1, 2},{0: 2, 1: 0, 2: 0}),
  Vec({0, 1, 2},{0: 0.0, 1: 2.0, 2: 2.0}),
  Vec({0, 1, 2},{0: 0.0, 1: -1.0, 2: 1.0})],
 [Vec({0, 1, 2},{0: 1}),
  Vec({0, 1, 2},{1: 1, 0: 0.5}),
  Vec({0, 1, 2},{2: 1, 0: 0.5, 1: 0.5})])

# 10.6 직교여공간(Orthogonal complement)

전체 벡터공간을 또 다른 벡터공간에 직교하게 투영해 보자.

## 10.6.1 직교여공간의 정의

### Definition 10.6.1 
W는 실수상의 벡터공간이라 하고, U는 W의 부분공간이라 하자. U의 W에 대한 직교영공간은 다음을 만족하는 집합 V라고 정의된다.

$\quad V=\{w\in W: w는 U 내의 모든 벡터에 직교한다\}$

### Lemma 10.6.2
V는 W의 부분공간이다.

### Example 10.6.3
U=Span {[1,1,0,0,],[0,0,1,1]}이라 하고, V는 $\mathbb R^4$에 속하는 U의 직교여공간으로 나타내자. V에 대한 기저를 찾아보자.  

Span {[1,-1,0,0],[0,0,1,-1]}에 속하는 모든 벡터는 U내의 모든 벡터에 직교하고 따라서 V의 부분공간이며 $\mathbb R^4$에 속하는 U의 직교여공간이다.  
$U\oplus V=\mathbb R^4$이고 dim U + dim V = 4라는 것을 알고있다. U는 일차독립이고 따라서 dim U=2이므로 dim V=2라는 것을 알 수 있다.  
Span {[1,-1,0,0],[0,0,1,-1]}는 일차독립이고 따라서 dim Span {[1,-1,0,0],[0,0,1,-1]}는 또한 2이다. Dimension Principle에 따르면 Span {[1,-1,0,0],[0,0,1,-1]}는 V와 동일하다.

## 10.6.2 직교여공간과 직합(Direct sum)

### Lemma 10.6.4 
V는 U의 W에 대한 직교여공간이라고 하자. $U\cap V$에 속하는 유일한 벡터는 영벡터이다.

### Lemma 10.6.5
만약 U의 W에 대한 직교여공간이 V이면,

$\quad U\oplus V= W$

## 10.6.3 생성 또는 아핀 hull로 주어진 $R^3$ 평면의 법선

평면의 법선(normal to a plane)이란 표현에서 법선(normal)이란 수직이라는 의미이다.

3-벡터의 두 벡터의 생성으로 이루어진 평면은 2차원이고 벡터공간을 U라고 하자. n은 U에 직교하는 영이 아닌 벡터라고 하자. 그러면 span {n}은 U의 직교여공간이라의 부분집합이다. Direst-Sum Dimension에 의하면 직교여공간의 차원은 dim$R^3$-dimU=3-2=1이다. Dimension Principle에 의하면 dim Span{n}=1이고 따라서 Span{n}은 정확하게 직교여공간이다.  

Span {n}에 속하는 영이 아닌 임의의 벡터는 법선 역할을 한다. 이러한 역할을 하도록 선택되는 벡터는 Span {n}에 속하는 norm이 1인 벡터이다.

### Example 10.6.6
Span {[8,-2,2],[0,3,3]}에 직교하는 하나의 영이 아닌 벡터는 [-1,-2,2]이고, 이것은 법선벡터이다. norm이 1인 법선을 얻는 것은 [-1,-2,2]의 nomr으로 나누면 되고, 얻어진 법선은 [-1/9,-2/9,2/9]]이다. 

___
$\mathbb R^2$ 평면의 직선에 수직인 벡터를 제시할 수 있다. 직선은 2-벡터 $u_1$의 생성으로 주어지고, $u_1$에 직교하는 임의의 영이 아닌 벡터 n은 법선 벡터(normal vector)이다.

평면은 $u_1,u_2,u_3$의 아핀 hull로서 명시된다고 해보자. 평면은 다음과 같이 쓸 수 있다. $u_1+Span\{u_2-u_1,u_3-u_1\}$로 즉, 원점을 포함하는 평면의 평행이동으로서 나타낼 수 있다. 기하학적 직관에 의하면, 이 새로운 평면에 수직이 될 필요충분조건은 그 벡터가 원래의 평면에 수직인 경우이다. 그러므로, $Span\{u_2-u_1,u_3-u_1\}$의 법선 n은 위에서 기술한 것과 같이 찾고, 이것은 또한 원래의 평면의 법선이 된다.

## 10.6.4 직교여공간, 영공간, 소멸자

A 행렬의 각 행과의 도트곱이 영이 되는 그러한 C-벡터들 u의 집합은 영공간이다. $\mathbb R$상의 벡터들에 대한 내적은 도트곱이므로, 이것은 $\mathbb R^C$에 속하는 Row A의 직교여공간이 Null A임을 의미한다. Row A의 소멸자는 Null A이다. 이것은 $\mathbb R^C$의 임의의 부분공간 U에 대해 $\mathbb R^C$에 속하는 U의 직교여공간의 소멸자는 $U^0$임을 의미한다.

Annihilator Theorem에 의하면, 소멸자는 원래의 공간이다. 이것은 $\mathbb R$상의 임의의 벡터공간 W와 임의의 부분공간 U에 대해 U의 W에 대한 직교여공간의 직교여공간은 U자신이라는 것을 보여 주는데 사용될 수 있다.

## 10.6.5 방정식으로 주어진 $\mathbb R^3$평면의 법선

평면은 선형방정식에 대한 해집합으로 주어진다고 해보자.  
$\quad \{[x,y,z] \in \mathbb R^3: [a,b,c]\cdot [x,y,z]=d\}$

섹션 4.6.1에서 살펴보았듯이, 해집합은 대응하는 동차선형방정식에 대한 해집합의 평행이동이다.  
$\quad \{[x,y,z] \in \mathbb R^3: [a,b,c]\cdot [x,y,z]=0\}$

U=Span{[a,b,c]}라 하자. 위의 평면 동차선형방정식에 해집합은 소멸자 $U^0$이다. 소멸자 $U^0$에 속하는 벡터들로 구성되는 평면의 법선을 찾고자 한자. 소멸자 $U^0$에 직교하는 벡터들의 집합은 소멸자의 소멸자이다. 즉 $(U^0)^0$이다. Annihilator Theorem에 의하면, 소멸자의 소멸자는 원래의 공간 U이다. 따라서, 법선이 될 수 있는 하나의 후보는 벡터 [a,b,c] 자신이다.

### 10.6.6 직교여공간 계산하기

다음은 직교여공간을 계산하는 알고리즘에 대한 슈도코드를 보여준다.

*def find_orthogonal_complement(U_basis, W_basis):  
$\quad$"Given a basis U_basis for U and a basis for W,  
$\quad$Returns a basis for the orthogonal complement of U with respect to W"  
$\quad$[$u^*_1,...,u^*_k, w^*_1, ...,w^*_n$] = orthogonalize(U_basis, W_Basis)  
$\quad$Return [$w_i$ for i in $\{1,...,n\}$ if $w^*_i$ is not the zero vector]*



### Example 10.6.7
위의 알고리즘을 사용하여 직교여공간을 계산해 보자.

In [10]:
L = [list2vec(v) for v in [[8,-2,2], [0,3,3], [1,0,0],[0,1,0],[0,0,1]]]
Lstar = orthogonalize(L)

for v in Lstar:
    print(v)


 0  1 2
-------
 8 -2 2

 0 1 2
------
 0 3 3

     0     1      2
-------------------
 0.111 0.222 -0.222

         0        1        2
----------------------------
 -8.33E-17 1.67E-16 5.55E-17

        0        1        2
---------------------------
 8.33E-17 5.55E-17 1.67E-16


# 10.7 QR 인수분해

행렬 인수분해의 역할
 - 수학적(Mathematical): 행렬 인수분해는 행렬의 본질에 대한 통찰을 제공한다. 각 인수분해는 행렬에 대해 생각하는 새로운 방식을 제시한다.
 - 계산적(Computational): 행렬 인수분해는 행렬이 포함된 계산문제들에 대한 해를 계산하는 방안을 제공한다.

## 10.7.1 직교 및 열-직교 행렬

### Definition 10.7.1
서로 직교하는 벡터들은 만약 그들의 norm이 모두 1이면 정규직교(orthonomal)한다고 한다. 행렬은 만약 그 열들이 정규직교하면 열-직교(column-orthogonal)라고 한다. 정방 열-직교행렬(square column-orthogonal matrix)은 직교행렬(orthogonal matrix) 이라 한다.

___

Q는 열-직교 행렬이라하고 그 열들은 $q^*_1,...,q^*_n$이라고 나타내 보자. $Q^T$의 행들은 정규직교이다.  
$Q^TQ$를 하면 무슨 일이 일어나는지 알아보자.  
행렬 곱의 ij엔트리는 $q^*_i \cdot q^*_j$이다. 만약 i=j이면 $q^*_i \cdot q^*_i$은 $q^*_i$의 norm의 제곱으로 1이다. 만약 $i\neq j$이면, 이것은 서로 직교하는 두 벡터들의 도트곱으로 값은 0이다. 즉 $Q^TQ$는 단위행렬이다.  

### Lemma 10.7.2
만약 $Q$가 열-직교행렬이면, $Q^TQ$는 단위행렬이다.

### Corollary 10.7.3 직교행렬의 역
만약 Q가 직교행렬이면, 그 역행렬은 $Q^T$이다.

### 10.7.2 행렬의 QR 인수분해 정의하기

### Definition 10.7.4 
m x n 행렬 A(m $\ge$ n)의 QR 인수분해는 A=QR이다. 여기서 Q는 m x n 열-직교행렬이고 R은 삼각행렬이다.

$\begin{bmatrix}  \\ \\&& A &&\\ \\ \\ \end{bmatrix} = \begin{bmatrix}  \\ \\&& Q &&\\ \\ \\ \end{bmatrix}\begin{bmatrix}  \\&& R &&\\  \\ \end{bmatrix}$

## 10.7.3 A의 열들이 일차독립이어야 하는 요구조건

aug_orthgonalize에 리턴되는 벡터와 계수는 QR 인부분해의 정의를 거의 만족한다.  
만족하지 못하는 것은 열 $v^*_1,...,v^*_n$의 norm이 1이 아니라는 것이다.  
열들을 정규화(normalize)하는 것 즉, 열 j를 $\left\|v^*_j\right\|$로 나눈다.  
등호를 유지하기 위해 계수 행렬인 삼각행렬의 행 j를 $\left\|v^*_j\right\|$와 곱한다.

다음은 행렬 QR 인수분해를 계산하기 위해 제안된 방법에 대한 프로시저이다.  
*def qr.factor(A):  
$\quad$ apply aug_orthogonalize to the columns of A to get  
$\quad$ - mutually orthgonal vectors and   
$\quad$ - corresponding coefficients  
$\quad$ let Q = matrix with normalized versions of these vector  
$\quad$ let R = coefficient matrix with rows scaled   
$\quad$ return Q, R  
*

위의 프로시저는 어떤 벡터 $\left\|v^*_j\right\|$ 영벡이면, norm도 0이고 따라서 0으로 나눌 수 없다. 영으로 나누는 것을 방지하기 위해 전제조건으로 A의 열 $v_1,...,v_n$은 일차독립이어야 한다. 즉 열들은 $Col A$의 기저를 형성해야 한다.

전제 조건이 의미하는 것은 Basis Theorem에 의하면 n보다 더 작은 수의 벡터를 가지는 Col A에 대한 생성자들의 집합은 없다는 것이다.

### Lemma 10.7.5
A의 QR 인수분해에서, 만약 A의 열들이 일차독립이면 $ColA = ColQ$ 이다.

# 10.8 QR 인수분해 사용하여 행렬방정식 Ax=b 풀기 

## 10.8.1 정방행렬인 경우

아래 방정식을 만족하는 벡터를 찾고자 한다.  
$\quad Ax=b$  

A를 QR 인수분해하여 식을 아래와 같이 변경가능하다.  
$\quad QRx=b$  
$\quad Q^TQRx=Q^Tb$  
$\quad Rx=Q^Tb$

이것을 정리한 알고리즘은 아래와 같다.  
$\quad$* def QR_solve(A, b):   
$\quad\quad$ (assumes columns of A are linearly independent)  
$\quad\quad$ find the QR factorization QR=A  
$\quad\quad$ return the solutions $\hat x$ to $Rx=Q^Tb$ *

## 10.8.2 정방행렬인 경우 솔루션의 정확성

QR_solve가 실제로 Ax=b에 대한 해를 찾는지 증명해야 한다.
 - Ax=b에 대한 임의해는 $Rx=Q^Tb$에 대한 해라는 것을 보여주었다.
 - $Rx=Q^Tb$에 대한 해는 Ax=b에 대한 해라는 것을 보여주어야 한다(정방행렬이 아닌 경우 $Rx=Q^Tb$에 대한 해는 Ax=b에 대한 해에 가장 가까운 근사해이다)

### Theorem 10.8.1
A는 정방행렬이고 그 열들은 일차독립이라고 해 보자. 위 알고리즘에 의해 얻어진 벡터 $\hat x$은 방정식 Ax=b를 만족한다.

___
QR_solve는 벡터를 다른 주어진 벡터들의 선형결합으로 표현되는 방법을 제시한다. 아래의 경우, Ax=b에 대한 해를 구할 수 있다.
- 필드가 $\mathbb R$일 때
- A의 열들이 일차독립일 때
- A가 정방행렬일 때

## 10.8.3 최소제곱 문제

행이 열보다 많은 경우를 고려해 보자.   
$\quad A=R x C$ 행렬이라고 하면, $f_A:\mathbb R^C \rightarrow \mathbb R^R$는 $f_A(x)=Ax$로 정의하자.  
$\quad$ 정의역의 차원은 |C|이고 공역의 차원은 |R|이다.   
$\quad$ 행이 열의 개수보다 많은 경우 공역이 치역보다 더 크다.  
$\quad$ 따라서 $f_A$는 전사함수가 이나고 벡터 b는 이러한 벡터 중 하나라고 해보자.  
$\quad$ 그러면, Ax=b에 대한 해는 없다.  
$ $

이러한 경우 아래를 기대할 수 있다.
- A의 열들의 선형결합 중에서 b에 가장 가까운 벡터 찾기
- 가장 가까운 벡터를 선형겹합으로 표현할 수 있는 계수 찾기

첫 번째 경우 b에서 가장 가까운 점은 $b^\parallel$이고, 이것은 A의 열공간상으로의 b의 투영이다.  
두 번째는 아래의 computational problem의 최소제곱 문제로 정의된다.

### Computational Problem 10.8.2 최소제곱
- input: R x C행렬 A와 실수상의 벡터 b
- output: $\left\|Ax-b\right\|$을 최소화하는 벡터 $\hat x$

$\hat x$는 잉여벡터(residual vector)라고도 하고, 최소 제곱의 문제의 목적은 잉여벡터의 norm을 최소화하는 $\hat x$을 찾는 것이다.

## 10.8.4 열-직교행렬의 열들에 대한 좌표 표현

### Lemma 10.8.3
Q는 열-직교 기저라고 하고 V=Col Q라고 하자. 그러면, 정의역이 Q의 행-라벨 집합과 동일한 임의의 벡터 b에 대해, $Q^Tb$는 Q의 열들에 대해 $b^{\parallel V}$의 좌표표현이고 $QQ^Tb$는 $b^{\parallel V}$ 자신이다.

## 10.8.5 A의 행 개수가 열 개수보다 더 많을 때 QR_solve 사용하기

QR_solve가 최소제곱 문제를 푼다는 것을 살펴보자. 즉 Ax-b를 최소화하는 벡터 $\hat x$를 찾는 것이고 이는 $A\hat x$은 V상으로 투영 $b^{\parallel V}$과 동일하다.  
$\quad R\hat x = Q^Tb$  
$\quad QR\hat x = QQ^Tb$  
$\quad A\hat x = b^{\parallel V}$  

Lemma 10.7.5에 의해, V는 또한 Q의 열공간이다.
이것은 QR_solve가 최소제곱을 푼다는 것을 증명한다.

# 10.9 최소제곱의 응용

## 10.9.1 선형회귀(Linear regression)

선형회귀의 예로 2차원 데이터에 가장 잘 일치하는 직선을 찾는 것이다.

선형모델 $f(x)=a+cx$이 있을 경우 예측 에러는 $|f(x_i)-y_i|$으로 예측에러의 제곱의 합은 $\sum_i(f(x_i)-y_i)^2$ 이다.

제곱의 합을 최소화라려고 하는 이유는 그렇게 할 수 있고, 좋은 측도(meaure)인지에 대해 확률이론에 기반을 둔 해석이 있다. 만약 에러가 가우스 분포라는 어떤 확률 분포에 의해 모델링 된다면, 이 측도를 최소화하는 것이 a,c를 찾는 가장 좋은 방법이라는 것을 보여줄 수 있다.

A의 행들이 $(1,x_1),...,(1,x_i)$인 행렬이라고 하자. 그러면 $A\cdot (a,c)$로 선형모델을 나타낼 수 있고, 에러는 $A(a,c)-(y_1,...,y_i)$이다. 이 차이의 제곱의 합은 이 차분 벡터의 제곱 norm이다. 그러므로 최소제곱 방법은 제곱의 합을 최소화하는 쌍(a,c), 즉 데이터에 잘 일치되는 직선을 찾는 데 사용될 수 있다. residual의 제곱 norm은 데이터가 직선 모델에 얼마나 잘 일치되는에 대한 측도이다.

## 10.9.2 이차함수 피팅(Quadratic fitting)

이차함수 피팅은 서브픽셀에 적용할 수 있다.

픽셀 위치들은 $x_1,...,x_i$이고 이때의 신호의 세기는 $y_1,...,y_i$이라고 할때 신호 세기의 최대가 되는 곳을 찾고자 한다. 신호 세기의 최대가 되는 곳은 이차함수 $f(x)=u_0+u_1x+u_2x^2$를 찾아서(오목함수형태)최대 값 위치의 x를 찾는 것이다. 

이차함수 피팅의 최소제곱 문제는 아래의 residual의 norm을 최소화하도록 u를 선택한다.

$\left\|\begin{bmatrix} 1 && x_1 && x_1^2\\ & &...& \\1 && x_n && x_n^2 \end{bmatrix} \begin{bmatrix} u_0 \\ u_1\\ u_2 \end{bmatrix} - \begin{bmatrix} y_1 \\ ... \\ y_n\end{bmatrix}\right\|$

## 10.9.3 두 변수로 된 이차함수 피팅

유사한 기법으로 2차원에도 적용할 수 있다. 두 개의 변수로된 이차함수이다.  
$f(x,y)=a+bx+cy+dxy+ex^2+fy^2$

가장 잘 일치하는 함수를 찾기 위해, residual의 norm을 최소화하는 벡터를 찾는다.

$\left\|\begin{bmatrix} 1 && x_1 && y_1 && x_1y_1 && x_1^2 && y_1^2\\ & &...& \\1 && x_i && y_i && x_iy_i && x_i^2 && y_i^2 \end{bmatrix} \begin{bmatrix} a \\ b\\ c \\d\\e\\f \end{bmatrix} - \begin{bmatrix} z_1 \\ ... \\ z_n\end{bmatrix}\right\|$


## 10.9.4 산업스파이 문제에서 근사 데이터 다루기

산업스파이 문제는 각 제품의 단위당 사용되는 자원 M과 총 사용된 자원 b를 알때 생산된 제품의 수를 찾는 문제이다.  
벡터-행렬방정식 $u^TM=b$를 풀어 u를 정확히 계산할 수 있다.

하지만 현실적으로 b의 근사치만을 알고 있을때 오차가 커질 수 있다. 이 오차를 줄이기 위해서 측정되는 자원 종류를 추가하여 줄일 수 있다.  
페수를 추가하여 행렬 M의 열을 더 크게 해보자. 불행하게도 하나의 일차 방정식을 벡터-행렬방정식에 추가하면 이 방정식은 해를 가지지 않게 된다.  
하지만 , 최상의 솔루션을 찾는 데 여전히 최소제곱을 사용할 수 있다.

## 10.9.5 센서노드 문제에서 근사 데이터 다루기

센서노드 문제는 각 하드웨어 구성요소에 사용시간과 총 사용한 전류량을 알때 각각의 소비전류량을 계산하는 문제이다.  
A는 각 구성요소의 사용시간, b는 총 사용한 전류량이라고 하면 아래와 같이 표현가능한다.  
$\quad Ax=b$
하드웨어 구성요소는 네개이고 네번의 사용기간과 총 사용시간을 정확히 알면 위의 식을 풀 수 있다.

정확한 총 사용시간을 알지 못하고 근사 값만을 알고 있으면 오차가 발생한다. 이 오차를 어떻게 줄일수 있을까?  
측정 횟수를 늘려보자. 그러면 해가 존재하지 않는 행렬-벡터 방정식 $Ax=\tilde b$가 얻어진다.  
하지만, 최소-제곱 문제로 정의될 수 있고 그 솔루션은 좀 더 정확한 값이다.

## 10.9.6 기계학습 문제에서 최소제곱 방법 사용하기

유방암에 대한 기계학습 Lab에서 그래디언트 디센트를 사용하여 솔루션을 찾아갔다. 이 방법은 매우 일반적으로 사용될 수 있지만, 항상 최적의 솔루션을 제공하지는 않는다.  
기계학습 Lab의 문제는 아래와 같이 정의될 수 있다.  
$\left\|\begin{bmatrix}  \\ b \\ \\ \end{bmatrix}  - \begin{bmatrix} a_1 \\ ...\\ a_m  \end{bmatrix} \begin{bmatrix}  \\ x \\  \\ \end{bmatrix}\right\|^2$

이것은 최소제곱 문제이다. QR 인수분해에 기반을 둔 알고리즘을 사용하는 것은 그래디언트 디센트를 사용할 경우보다 더 짧은 시간을 사용하고도 최적의 솔루션을 찾는 것을 보장한다.

기계학습은 선형대수학의 정교한 기술들을 사용하여 심지어 더 나은 솔루션을 제공한다.
 - 그래디언트 디센트를 사용하지만 학습 문제를 더 잘 모델링하는 손실함수를 사용
 - 각 피처(feature)의 분산을 더 잘 반영하는 내적(inner product) 사용
 - 선형 프로그래밍
 - 컨벡스 프로그래밍

# 10.10 Review questions

### Q) 벡터를 정규화한다는 것은 무엇을 의미하는가?
- norm이 1인 벡터로 만드는 것으로 벡터 v를 $\left\|v\right\|$로 나눈다.

### Q) 벡터들이 서로 직교한다는 것은 무엇을 의미하는가?
- 벡터들의 내적이 서로 0이고 서로 독립적이며 orthogonalization이 되어 있다고 한다.
- 영벡터가 아닌 벡터들이 서로 직교한다면 벡터공간 V의 기저벡터이다.

### Q) 정규직교 벡터들은 무엇인가? 정규직교 기저는 무엇인가?
- 정규직교 벡터들은 서로 직교하면서 norm이 1인 벡터들이다.
- 정규직교 기저는 정규직교 벡터이면서 기저인 벡터이다.

### Q) Span{$v_1,...,v_n$}에 속하며 b에 가장 가까운 벡터는 어떻게 찾을 수 있는가?
- Span{$v_1,...,v_n$}의 벡터공간은 V라 하면 $b^{\parallel V}$이 b에 가장 가까운 벡터이고 그 거리는 $b^{\bot V}$이다.

### Q) 서로 직교하는 벡터들 $v_1,...,v_n$에 직교하는 벡터 b의 투영은 어떻게 찾는가?
- $b^{\bot V} = b - b^{\parallel V}$으로 벡터들 $v_1,...,v_n$을 순차적으로 b에 대해 재귀적으로 적용한다.
- b가 $v_i$에 직교하면, $v_i$에 직교하는 어떤 것을 빼도 여전히 직교성은 유지된다.  

### Q) (i) $v_1,...,v_n$와 동일한 벡터공간을 생성하고 (ii) 서로 직교하는 벡터들은 어떻게 찾는가?
- Orthogonalization을 통해 서로 직교하면서 동일한 벡터공간을 생성하는 벡터들을 얻을 수 있다.
- 빈 리스트에서 시작해서 $v_i$를 추가하면서 리스트안에 있는 벡터들과 직교하는 벡터들을 찾아간다.

### Q) 열-직교 행렬은 무엇인가? 직교행렬은 무엇인가?
- 서로 직교하는 벡터들은 만약 그들의 norm이 모두 1이면 정규직교(orthonomal)한다고 한다. 행렬은 만약 그 열들이 정규직교하면 열-직교(column-orthogonal)라고 한다. 정방 열-직교행렬(square column-orthogonal matrix)은 직교행렬(orthogonal matrix) 이라 한다.

### Q) 어떻게 행렬-벡터 곱샘을 사용하여 벡터의 정규직교 기저에 대한 좌표 표현을 찾을 수 있는가?
- 문제의 의도가 정확히 무엇인지 모르겠지만 행렬의 정규직교 기저에 대한 좌표 표현은 아래처럼 계산할 수 있다.
- Orthogornalization을 통해 행렬의 열-벡터들에 직교하는 기저와 대응하는 $\sigma_i$ 계산하고 정규직교를 얻기 위해 $\left\|v_i\right\|$로 나누어 주고 계수인 $\sigma_i$에$\left\|v_i\right\|$를 곱한다. 

### Q) 행렬의 QR 인수부해는 무엇인가?
- m x n 행렬 A(m $\ge$ n)의 QR 인수분해는 A=QR이다. 여기서 Q는 m x n 열-직교행렬이고 R은 삼각행렬이다.

### Q) 어떻게 QR 인부순해가 행렬방정식을 푸는 데 사용될 수 있는가?
$\quad Ax=b$  
$\quad QRx=b$  
$\quad Q^TQRx=Q^Tb$  
$\quad Rx=Q^Tb$  

R은 상삼각행렬로 후진대이법을 이용하여 쉽게 풀 수 있다.

### Q) 어떻게 QR 인수분해가 계산될 수 있는가?
*def qr.factor(A):  
$\quad$ apply aug_orthogonalize to the columns of A to get  
$\quad$ - mutually orthgonal vectors and   
$\quad$ - corresponding coefficients  
$\quad$ let Q = matrix with normalized versions of these vector  
$\quad$ let R = coefficient matrix with rows scaled   
$\quad$ return Q, R  
*

### Q) 어떻게 QR 인수분해가 최소제곱 문제를 푸는 데 사용될 수 있는가?
- 최소제곱 문제란 $\left\|Ax-b\right\|$이 최소가 되는 벡터 x를 찾는 문제이다.
- 최소제곱 문제는 b와 거리가 최소가 되로록 하는 벡터 x를 찾는 문제와 같고 이는 $b^\parallel$이 되게 하는 벡터 x를 찾는 문제와 동일하다.
- QR 인수분해를 이용한 행렬방정식은 최소제곱 문제를 푸는 것과 동일하다.  
$\quad Rx=Q^Tb$  
$\quad QRx=QQ^Tb$  
$\quad QRx=b^\parallel$  
$\quad Ax=b^\parallel$  

### Q) 어떻게 최소제곱 문제를 푸는 것이 데이터를 직선 또는 이차함수에 일치시키는 데 도움이 되는가?
- 직선 또는 이차함수에 일치시키는 정도의 척도는 예측에서 실제 데이터를 뺀 값을 최소화하는 것으로 사용할 수 있다.
- 즉, $\sum_i(f(x_i)-y_i)^2$으로 이는 residual vector를 최소화는 최소제곱 문제로 정의될 수 있다.

### Q) 어떻게 최소제곱 문제를 푸는 것이 더 정확한 결과를 얻는 데 도움이 되는가?
- 에러가 포함된 데이터를 해가 존재하는 경우보다 더 많이 수집하게 되면 해가 존재하지 않을 수 있다. 이러한 경우에도 최소제곱 문제는 에러를 최소화하는 해를 제시할 수 있다.

### Q) 직교여공간은 무엇인가?
- W는 실수상의 벡터공간이라 하고, U는 W의 부분공간이라 하자. U의 W에 대한 직교영공간은 다음을 만족하는 집합 V라고 정의된다.  
$\quad V=\{w\in W: w는 U 내의 모든 벡터에 직교한다\}$

### Q) 직교여공간과 직합(direct sum) 사이의 연관성은 무엇인가?
- 만약 U의 W에 대한 직교여공간이 V이면,  
$\quad U\oplus V= W$

# 10.11 Problems

### Problem 10.11.1 
W에 대해 U의 직교여공간에 대한 생성자들을 찾아라.

In [11]:
from orthogonalization import orthogonalize

def is_zero(v):
    return True if v*v < 1e-20 else False

# 1.
U = [list2vec([0,0,3,2])]
W = [list2vec(v) for v in [[1,2,-3,-1], [1,2,0,1], [3,1,0,-1], [-1,2,3,1]]]
ustar = orthogonalize(U+W)
V = [v for v in ustar[len(U):] if not is_zero(v)]
V

[Vec({0, 1, 2, 3},{0: 1.0, 1: 2.0, 2: -0.4615384615384617, 3: 0.6923076923076923}),
 Vec({0, 1, 2, 3},{0: 2.2432432432432434, 1: -0.5135135135135134, 2: 0.810810810810811, 3: -1.2162162162162162}),
 Vec({0, 1, 2, 3},{0: -0.7854545454545455, 1: 1.0472727272727274, 2: 0.8727272727272728, 3: -1.3090909090909089})]

In [12]:
# 2.
U = [list2vec([3,0,1])]
W = [list2vec(v) for v in [[1,0,0], [1,0,1]]]
ustar = orthogonalize(U+W)
V = [v for v in ustar[len(U):] if not is_zero(v)]
V

[Vec({0, 1, 2},{0: 0.10000000000000009, 1: 0.0, 2: -0.3})]

In [13]:
# 3.
U = [list2vec(v) for v in [[-4,3,1,-2],[-2,2,3,-1]]]
W = [list2vec(v) for v in [[1,0,0,0],[0,1,0,0,],[0,0,1,0],[0,0,0,1]]]
ustar = orthogonalize(U+W)
V = [v for v in ustar[len(U):] if not is_zero(v)]
V

[Vec({0, 1, 2, 3},{0: 0.41899441340782123, 1: 0.3910614525139665, 2: -0.07821229050279327, 3: -0.29050279329608936}),
 Vec({0, 1, 2, 3},{0: -1.1102230246251565e-16, 1: 0.33333333333333315, 2: -0.06666666666666665, 3: 0.46666666666666673})]

### Problm 10.11.2
아래 각각이 왜 사실이 아니지 설명하여라.

In [14]:
# 1. U=Span{[0,0,1], [1,2,0]}와 W={[1,0,0],[1,0,1]}에 대해, W에 속하며 U의 직교여공간인 벡터공간 V가 있다.
# A) Direct-Sum Dimension에 의하면 직교여공간의 차원은 dimW-dimU = 2-2 = 0으로 U의 직교여공간은 오직 영벡터이다.

# 2. U=Span{[3,2,1],[5,2,-3]}와 W={[1,0,0],[1,0,1],[0,1,1]}에 대해, W에 속하는 U의 직교여공간 V는 벡터 [2,-3,1]을 포함한다.
# A) 직교여공간의 모든 벡터는 U와 직교해야하고 즉 내적이 0이되어야 한다. 하지만 [2,-3,1]의 내적 즉 도트곱은 0이 아니다.

### Problem 10.11.3 
직교여공간을 사용하여 A의 영공간에 대한 기저를 찾아라.

In [15]:
from matutil import listlist2mat
from matutil import mat2rowdict

# 행렬 A의 영공간은 Ax=0 를 만족하는 x의 벡터들이 생성이다. A의 직교여공간은 A와 직교하므로 A의 도트곱이 0이 되므로 영공간에 대한 기저와 동일한다.
A = listlist2mat([[-4,-1,-3,-2],[0,4,0,-1]])
R4 = [list2vec(v) for v in [[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1]]]
Alist = [v for v in mat2rowdict(A).values()]
Astar = orthogonalize(Alist + R4)
Astar = [v for v in Astar[len(Alist):] if not is_zero(v)]
Astar

[Vec({0, 1, 2, 3},{0: 0.4624505928853755, 1: -0.07114624505928856, 2: -0.4031620553359684, 3: -0.2845849802371541}),
 Vec({0, 1, 2, 3},{0: 0.0, 1: 0.038461538461538505, 2: -0.11538461538461539, 3: 0.15384615384615388})]

In [16]:
print(A*Astar[0])
print(A*Astar[1])


        0         1
-------------------
 1.11E-16 -1.11E-16

         0        1
-------------------
 -1.11E-16 1.39E-16


### Problem 10.11.4
$\mathbb R^2$의 다음 각 직선에 대한 법선을 찾아라.

In [17]:
# 1. {alpha[3,2]: alpha in R}
# A) [2,-3]

# 2. {alpha[3,5]: alpha in R}
# A) [5,-3]

### Problem 10.11.5
$\mathbb R^3$의 다음 각 평면에 대한 법선을 찾아라.

In [18]:
# 1. Span {[0,1,0],[0,0,1]}
# A) [1,0,0]

# 2. Span {[2,1,-3],[-2,1,1]}
# A) [1,1,1]

# 3. [3,1,4],[5,2,6],[2,3,5]의 아핀 hull
# A) [-3,-4,5], -7; 문제의 의도를 정확히 모르겠음 

### Problem 10.11.6
$\mathbb R^2$에 속하는 다음 각 벡터에 대해, 이 벡터를 법선으로 가지는 직선을 수학적으로 기술하여라.

In [19]:
# 1. [0, 7]
# A) Span {[1,0]} or  {alpha[1,0]: alpha in R}

# 2. [1, 2]
# A) Span {[2,-1]} or  {alpha[2,-1]: alpha in R}

### Problem 10.11.7
다음의 각 벡터에 대해, $\mathbb R^3$에 속하는 평면을 생성하는 벡터들의 집합을 제공하여라. 이때, 주어진 아래 각 벡터는 $\mathbb R^3$ 평면의 법선이다.

In [20]:
# 1. [0,1,1]
# A) Span{[1,0,0],[0,-1,1]}

# 2. [0,1,0]
# A) Span{[1,0,0],[0,0,1]}

### Problem 10.11.8
다음 Theorem을 증명해 보자

*$\quad$ Theorem: 실수 행렬 A에 대해, 행랭크와 열랭크는 동일하다.*

In [21]:
# R상의 벡터들에 대한 내적은 도트곱이므로, 이것은 R^C에 속하는 Row A의 직교여공간이 Null A임을 의미한다.
# Lemma 10.6.5에 의해 Row A + Null A = R^C
# Direct Sum Dimension Corollary에 의해 dim RowA + dim NullA = dim R^C과 같다.
# Kernel-Image Theorem의 dim Im f + dim ker f = dim V에 의해
#     dim ColA + dim Null A = dim R^C이다.
# 따라서 Row A + Null A = dim ColA + dim Null A 이다.
# 식의 양변에 Null 

### Problem 10.11.9
다음 스펙을 가지는 자기는 프로시저, orthonomalize(L)을 정희하는 모듈 orthonomalization을 작성해 보자.
- input: 일차독립인 Vecs의 리스트 L
- ouput: 정규직교인ㄴ Vecs의 리스트 L$^*$. 이때, i=1,...,len(L)에 대해, $L^*$의 첫 i Vecs와 L의 첫 i Vecs은 동일한 공간을 생성한다.

In [22]:
from math import sqrt

def orthonomalize(L):
    lstar = orthogonalize(L)
    norms = [sqrt(v*v) for v in lstar]
    lstar = [v/norm for v, norm in zip(lstar, norms)]
    return lstar
    
vecs = [list2vec(l) for l in [[4,3,1,2],[8,9,-5,-5],[10,1,-1,5]]]
vecsstar = orthonomalize(vecs)
vecsstar

[Vec({0, 1, 2, 3},{0: 0.7302967433402214, 1: 0.5477225575051661, 2: 0.18257418583505536, 3: 0.3651483716701107}),
 Vec({0, 1, 2, 3},{0: 0.1867707814860146, 1: 0.4027244975792189, 2: -0.5661489313794816, 3: -0.6945538436511166}),
 Vec({0, 1, 2, 3},{0: 0.5275409009423367, 1: -0.6531216993058959, 2: -0.5123087286340884, 3: 0.18075511139121447})]

### Problem 10.11.10
다음 스펙을 가지는 프로시저, aug_orthonomalize(L)을 작성해 보자.
- input: Vecs의 리스트 L
- ouput: Vecs의 리스트들의 쌍 Qlist, Rlist. 이것은 다음을 만족한다.
 - coldict2mat(L)은 coldict2mat(Qlist) x coldict2mat(Rlist)와 동일하고,
 - Qlist = orthonomarlize(L)

In [23]:
from matutil import coldict2mat

def aug_orthonomalize(L):
    def adjust(v, multipliers):
        w = Vec(v.D, {})
        for i in v.D:
            w[i] = v[i] * multipliers[i]
        return w
    
    vecs, sigmas = aug_orthogonalize(L)
    norms = [sqrt(v*v) for v in vecs]
    qlist = [v/norm for v, norm in zip(vecs, norms)]
    rlist = [adjust(sigma, norms) for sigma in sigmas]
    
    return qlist, rlist

L = [list2vec(v) for v in [[4,3,1,2],[8,9,-5,-5],[10,1,-1,5]]]
print(coldict2mat(L))

Qlist, Rlist = aug_orthonomalize(L)
print(coldict2mat(Qlist))
print(coldict2mat(Rlist))
print(coldict2mat(Qlist) * coldict2mat(Rlist))
print(coldict2mat(L) - coldict2mat(Qlist) * coldict2mat(Rlist))


       0  1  2
     ---------
 0  |  4  8 10
 1  |  3  9  1
 2  |  1 -5 -1
 3  |  2 -5  5


           0      1      2
     ---------------------
 0  |   0.73  0.187  0.528
 1  |  0.548  0.403 -0.653
 2  |  0.183 -0.566 -0.512
 3  |  0.365 -0.695  0.181


          0    1      2
     ------------------
 0  |  5.48 8.03   9.49
 1  |     0 11.4 -0.636
 2  |     0    0   6.04


       0  1  2
     ---------
 0  |  4  8 10
 1  |  3  9  1
 2  |  1 -5 -1
 3  |  2 -5  5


              0 1         2
     ----------------------
 0  |  4.44E-16 0         0
 1  |         0 0 -4.44E-16
 2  |  1.11E-16 0         0
 3  |  2.22E-16 0         0



### Problem 10.11.11
다음 행렬에 대해 QR 인수분해를 계산하여라. 연산을 위해 계산기 또는 컴퓨터를 사용할 수 있다.

In [24]:
# 1.
L = [list2vec(v) for v in [[6,2,3],[6,0,3]]]
Qlist, Rlist = aug_orthonomalize(L)

print('# 1.')
print(coldict2mat(L), coldict2mat(Qlist), coldict2mat(Rlist), coldict2mat(Qlist) * coldict2mat(Rlist))


# 2.
L = [list2vec(v) for v in [[2,2,1],[3,1,1]]]
Qlist, Rlist = aug_orthonomalize(L)

print('# 2.')
print(coldict2mat(L), coldict2mat(Qlist), coldict2mat(Rlist), coldict2mat(Qlist) * coldict2mat(Rlist))

# 1.

       0 1
     -----
 0  |  6 6
 1  |  2 0
 2  |  3 3
 
           0      1
     --------------
 0  |  0.857  0.256
 1  |  0.286 -0.958
 2  |  0.429  0.128
 
       0    1
     --------
 0  |  7 6.43
 1  |  0 1.92
 
       0 1
     -----
 0  |  6 6
 1  |  2 0
 2  |  3 3

# 2.

       0 1
     -----
 0  |  2 3
 1  |  2 1
 2  |  1 1
 
           0      1
     --------------
 0  |  0.667  0.707
 1  |  0.667 -0.707
 2  |  0.333      0
 
       0    1
     --------
 0  |  3    3
 1  |  0 1.41
 
       0 1
     -----
 0  |  2 3
 1  |  2 1
 2  |  1 1



### Problem 10.11.12
프로시저, QR_solver(A,b)을 작성하고 테스트해 보자.

In [30]:
from mat import Mat
import QR
from triangular import triangular_solve

def QR_solve(A, b):
    Q, R = QR.factor(A)
    rowlist = mat2rowdict(R)
    label_list = sorted(A.D[1], key=repr)
    b = Q.transpose() * b
    return triangular_solve(rowlist, label_list, b)

A=Mat(({'a','b','c'},{'A','B'}), {('a','A'):-1, ('a','B'):2, ('b','A'):5, ('b','B'):3,('c','A'):1, ('c','B'):-2})
print(A)


        A  B
     -------
 a  |  -1  2
 b  |   5  3
 c  |   1 -2



In [26]:
Q, R = QR.factor(A)
print(Q, R)


            0     1
     --------------
 a  |  -0.192  0.68
 b  |   0.962 0.272
 c  |   0.192 -0.68
 
         A    B
     ----------
 0  |  5.2 2.12
 1  |    0 3.54



In [31]:
b = Vec({'a','b','c'}, {'a':1,'b':-1})
x = QR_solve(A, b)
x

Vec({'B', 'A'},{'B': 0.11538461538461534, 'A': -0.2692307692307692})

In [35]:
A.transpose()*(b-A*x)

Vec({'B', 'A'},{'B': 4.440892098500626e-16, 'A': -2.220446049250313e-16})

### Problem 10.11.13
다음의 각각이ㅡ 대해, 행렬 A와 벡터 b가 주어진다. 또한, A의 근사 QR인수분해가 주어진다.
- $\left\|A\hat x - b\right\|^2$을 최소화하는 벡터 $\hat x$을 찾아라.
- A의 열들은 레지듀얼 $b-A\hat x$에 직교한다는 것을 내적을 계산함으로써 증명하여라.
- $\left\|A\hat x - b\right\|$의 값을 계산하여라.

In [41]:
# 1.
A = listlist2mat([[8,1],[6,2],[0,6]])
b = list2vec([10,8,6])
Q = listlist2mat([[0.8, -0.099],[0.6,0.132],[0,0.986]])
R = listlist2mat([[10,2],[0,6.08]])

x = QR_solve(A, b)
print(x)
print(A.transpose()*(b-A*x))
print(A*x-b)


    0     1
-----------
 1.08 0.984

         0         1
--------------------
 -3.55E-15 -1.78E-15

     0     1       2
--------------------
 -0.35 0.467 -0.0973


In [42]:
# 2.
A = listlist2mat([[3,1],[4,1],[5,1]])
b = list2vec([10,13,15])
Q = listlist2mat([[0.424, 0.808],[0.566,0.115],[0.707,-0.577]])
R = listlist2mat([[7.07,1.7],[0,0.346]])

x = QR_solve(A, b)
print(x)
print(A.transpose()*(b-A*x))
print(A*x-b)


   0    1
---------
 2.5 2.67

        0        1
------------------
 3.55E-14 7.11E-15

     0      1     2
-------------------
 0.167 -0.333 0.167


### Problem 10.11.14
다음의 각각에 대해, $\left\|A\hat x - b\right\|$을 최소화하는 벡터 $\hat x$을 찾아보자. QR인수분해에 기반을 둔 알고리즘을 사용해 보자.

In [43]:
# 1.
A = listlist2mat([[8,1],[6,2],[0,6]])
b = list2vec([10,8,6])
x_hat = QR_solve(A, b)
print(x_hat)


    0     1
-----------
 1.08 0.984


In [44]:
# 2.
A = listlist2mat([[3,1],[4,1],[5,1]])
b = list2vec([10,13,15])
x_hat = QR_solv1e(A, b)
print(x_hat)


   0    1
---------
 2.5 2.67


### Problem 10.11.15
나이(x)와 키(y) 사이의 관계에 가장 잘 근사하는 직선 y=ax+b를 정의하는 파라미터 a와 b에 대한 값을 찾아보자.

In [49]:
from read_data import read_vectors

data = read_vectors('age-height.txt')
data

[Vec({'age', 'height'},{'age': 18.0, 'height': 76.1}),
 Vec({'age', 'height'},{'age': 19.0, 'height': 77.0}),
 Vec({'age', 'height'},{'age': 20.0, 'height': 78.1}),
 Vec({'age', 'height'},{'age': 21.0, 'height': 78.2}),
 Vec({'age', 'height'},{'age': 22.0, 'height': 78.8}),
 Vec({'age', 'height'},{'age': 23.0, 'height': 79.7}),
 Vec({'age', 'height'},{'age': 24.0, 'height': 79.9}),
 Vec({'age', 'height'},{'age': 25.0, 'height': 81.1}),
 Vec({'age', 'height'},{'age': 26.0, 'height': 81.2}),
 Vec({'age', 'height'},{'age': 27.0, 'height': 81.8}),
 Vec({'age', 'height'},{'age': 28.0, 'height': 82.8}),
 Vec({'age', 'height'},{'age': 29.0, 'height': 83.5})]

In [55]:
A = listlist2mat([[d['age'], 1] for d in data])
print(A)


         0 1
      ------
  0  |  18 1
  1  |  19 1
 10  |  28 1
 11  |  29 1
  2  |  20 1
  3  |  21 1
  4  |  22 1
  5  |  23 1
  6  |  24 1
  7  |  25 1
  8  |  26 1
  9  |  27 1



In [57]:
b = list2vec([d['height'] for d in data])
print(b)


    0  1   10   11    2    3    4    5    6    7    8    9
----------------------------------------------------------
 76.1 77 82.8 83.5 78.1 78.2 78.8 79.7 79.9 81.1 81.2 81.8


In [63]:
x = QR_solve(A, b)
print('a:', x[0], 'b:', x[1])

a: 0.6349650349650294 b: 64.92832167832181


In [65]:
print(A*x)


    0  1   10   11    2    3    4    5    6    7    8    9
----------------------------------------------------------
 76.4 77 82.7 83.3 77.6 78.3 78.9 79.5 80.2 80.8 81.4 82.1


### Problem 10.11.16
기계학습 lab에서 다루어진 문제에 대해 최소제곱 방법을 사용해 보자.

In [72]:
from cancer_data import read_training_data

A, b = read_training_data('train.data')
x = QR_solve(A, b)
x

Vec({'texture(stderr)', 'smoothness(mean)', 'radius(worst)', 'symmetry(worst)', 'concave points(stderr)', 'perimeter(mean)', 'fractal dimension(stderr)', 'area(worst)', 'texture(worst)', 'smoothness(stderr)', 'fractal dimension(worst)', 'symmetry(mean)', 'fractal dimension(mean)', 'concavity(worst)', 'compactness(mean)', 'concavity(stderr)', 'concave points(worst)', 'concave points(mean)', 'perimeter(stderr)', 'concavity(mean)', 'perimeter(worst)', 'radius(mean)', 'radius(stderr)', 'compactness(worst)', 'area(mean)', 'compactness(stderr)', 'symmetry(stderr)', 'area(stderr)', 'smoothness(worst)', 'texture(mean)'},{'texture(worst)': 0.003345716925771425, 'texture(stderr)': 0.08205270054116875, 'texture(mean)': 0.02431394498340362, 'symmetry(worst)': 3.8034669367399183, 'symmetry(stderr)': -10.316290100161348, 'symmetry(mean)': -5.061760149663597, 'smoothness(worst)': -4.531369160235607, 'smoothness(stderr)': 27.841937812250915, 'smoothness(mean)': 8.79030463329185, 'radius(worst)': 0.408

In [77]:
def signum(u): return Vec(u.D, {k:1 if u[k] >=0 else -1 for k in u.D})

def fraction_wrong(A, b, w):
    pred = signum(A*w)
    wrong = [1 if pred[i]!=b[i] else 0 for i in b.D]
    return sum(wrong)/len(b.D)

print('train fraction_wrong:', fraction_wrong(A, b, x))

A, b = read_training_data('validate.data')
print('val fraction_wrong:', fraction_wrong(A, b, x))

train fraction_wrong: 0.04666666666666667
val fraction_wrong: 0.03076923076923077


In [80]:
# gradient decent
# train fraction_wrong: 0.16
# val raction wrong: 0.05384615384615385
# 으로 최소제곱 방법보다 에러가 더 크고 시간도 더 오래 걸린다.
# 하지만, 여기서 사용된 예는 300개의 샘플과 30개의 피쳐공간으로 실세계와를 표현하기에는 턱없이 부족하다. 
# 실세계를 표현하는 샘플들과 피쳐공간을 사용하면 최소제곱으로 풀이할 수 없을 만큼 복잡해진다.