# Metoda najmanjih kvadrata


Neka je zadan sustav s više jednadžbi od nepoznanica:

$$Ax=b, \quad m>n.
$$

Ako sustav ima rješenje, tada je je $Ax-b=0$, odnosno $\| Ax-b\|=0$ za svaku vektorsku  normu.

Ako sustav nema rješenje, tada je prirodno tražiti rješenje za koje je 

$$
\|Ax-b \|_{1,2,\infty}\to \min
$$

za odabranu vektorsku normu.

Ako je $\mathop{\mathrm{rang}} A=n$, tada se _jedinstveno_ rješenje $x$ za koje 

$$
\|Ax-b \|_{2}\to \min
$$

dobije rješavanjem sustava _normalnih jednadžbi_:

$$
A^T A x=A^T b. \tag{*}
$$

_Dokaz_: Definirajmo

$$
Q(x)=\|Ax-b\|_2^2=(x^TA^T-b^T)(Ax-b)=x^TA^T A x -2x^T A^T b+b^Tb.
$$

Vrijedi

\begin{align*}
Q(x+h)&=(x^T+h^T)A^TA(x+h)-2(x^T+h^T)A^Tb+b^Tb \\
&=Q(x) +2h^T(A^TAx-A^Tb)+h^TA^TAh\\ &= Q(x)+\|Ah\|_2^2 \\
&\geq Q(x),
\end{align*}

pa se minimum zaista postiže u $x$.

Rješenje je jedinstveno jer $Q(x)=Q(y)$ povlači $\|Ax\|_2=0$ pa je ili $h=0$ ili $\mathop{\mathrm{rang}} A<n$ što je kontradikcija. _QED_

_Geometrijsko značenje_: Vektori $Ax$ i $Ax -b$ su međusobno okomiti, 

$$
(Ax)^T\cdot (Ax - b)=x^T (A^TAx - A^Tb)=0. 
$$ 

Dakle, $Ax$ je ortogonalna projekcija vektora $b$ na skup $\{Ay:\ y \textrm{ proizvoljan}\}$.

_Kvaliteta prilagodbe_: Rješenje $x$ zove se _kvadratična prilagodba_ 
sustavu $A x=b$ u smislu najmanjih kvadrata. Kvalitetu prilagodbe mjerimo s

$$
q=\sqrt{\frac{Q(x)}{Q(0)}}=\frac{\|A x - b\|_2}{\|b\|_2 }.
$$

## Primjer

Riješimo sustav 
\begin{align*}
x+y&=0\\
y+z&=1\\
x+z&=0\\
-x+y+z&=1\\
-x-z&=0
\end{align*}
u smislu najmanjih kvadrata.

In [1]:
A=[1//1 1 0;0 1 1;1 0 1;-1 1 1;-1 0 -1]

5×3 Array{Rational{Int64},2}:
  1//1  1//1   0//1
  0//1  1//1   1//1
  1//1  0//1   1//1
 -1//1  1//1   1//1
 -1//1  0//1  -1//1

In [2]:
b=collect([0//1,1,0,1,0])

5-element Array{Rational{Int64},1}:
 0//1
 1//1
 0//1
 1//1
 0//1

In [3]:
x=(A'*A)\(A'*b)

3-element Array{Rational{Int64},1}:
 -10//29
  12//29
  11//29

In [4]:
using LinearAlgebra
# Kvaliteta prilagodbe
q=sqrt(norm(A*x-b)/norm(b))

0.430923819458906

Ako je sustav predefiniran, standardna naredba odmah računa kvadratičnu prilagodbu, pri čemu se koristi QR rastav:

In [5]:
x1=float(A)\float(b)

3-element Array{Float64,1}:
 -0.3448275862068966 
  0.4137931034482762 
  0.37931034482758635

In [6]:
float(x)

3-element Array{Float64,1}:
 -0.3448275862068966 
  0.41379310344827586
  0.3793103448275862 

## Primjer

In [7]:
import Random
Random.seed!(123);
A=rand(20,10)
b=rand(20);

In [8]:
x=A\b

10-element Array{Float64,1}:
  0.09126520276532517 
  0.2325329372697541  
 -0.2386770736951056  
 -0.16294801609881096 
  0.08926547724020202 
  0.26318463398367886 
  0.5435390650803674  
 -0.11240823390574459 
 -0.045249764335416116
 -0.01306538784642572 

In [9]:
q=sqrt(norm(A*x-b)/norm(b))

0.680981882736473

## Točnost

_Osjetljivost problema najmanjih kvadarata_ dana je sljedećim ocjenama (vidi [Matrix Computations, poglavlje 5][GVL13]):

Za matricu $A$ _kondiciju_ definiramo na sljedeći način:

$$
\kappa_2(A)=\sqrt{\kappa(A^TA)}=\|A\|_2 \|(A^TA)^{-1} A^T\|_2.
$$

Neka su $x$ i $\hat x$, kvadratične prilagodbe sustava $Ax=b$ i 
$(A+\delta A)\hat x=b+\delta b$. _Reziduali_ su definirani s

\begin{align*}
r&=Ax-b\\
\hat r&=(A+\delta A)\hat x-(b+\delta b).
\end{align*}

Neka je 

$$
\epsilon=\max \bigg\{ \frac{\|\delta A\|_2}{\|A\|_2},\frac{\|\delta b\|_2}{\|b\|_2}\bigg\}
$$

i neka je 

$$
q=\frac {\|r\|_2}{\|b\|_2}\equiv\sin\theta <1.
$$

Vrijedi:

\begin{align*}
\frac{\|\hat x-x\|_2}{\|x\|_2}&\leq \epsilon \bigg[\frac{2\,\kappa_2(A)}{\cos \theta} +\tan\theta \,\kappa_2^2(A)\bigg]+O(\epsilon^2),\\
\frac{\|\hat r-r\|_2}{\|b\|_2}&\leq \epsilon\,[1+ 2\,\kappa_2(A)](m-n)+O(\epsilon^2).
\end{align*}

Vidimo da je rezidual manje osjetljiv od samog mjesta na kojem se postiže.

[GVL13]: https://books.google.hr/books?id=X5YfsuCWpxMC&printsec=frontcover&hl=hr#v=onepage&q&f=false "G. Golub and C. F Van Loan, 'Matrix Computations', 4th Edition, John Hopkins, Baltimore, 2013"

In [10]:
cond(A)

17.551938062895363

In [11]:
δA=1e-4*(rand(20,10).-0.5)

20×10 Array{Float64,2}:
  3.70804e-5  -1.46483e-5   3.78108e-5  …  -3.40051e-6   2.97237e-7
 -2.92476e-5  -3.01169e-5  -7.11582e-7     -3.10979e-5  -7.3709e-6 
 -3.62478e-5  -4.62203e-5  -2.18e-5         3.34273e-5   1.22474e-5
 -1.4055e-5   -2.2101e-5    2.47534e-5     -3.17975e-5  -2.09256e-5
  9.99739e-6  -3.74349e-5   4.32239e-5     -2.72284e-5  -4.57705e-5
 -1.5921e-5   -4.15485e-5   4.53109e-6  …  -1.20715e-5   1.95729e-5
  1.56878e-5  -3.85177e-6   2.79167e-6     -3.39768e-5  -4.07255e-6
 -2.53126e-5   2.53036e-5  -8.00883e-6     -5.53739e-6  -1.31477e-5
  2.30285e-5   2.34625e-5  -1.08889e-5      3.90731e-6  -2.69901e-5
  2.9528e-5   -1.62549e-6   4.34735e-5     -4.67067e-5   3.4356e-5 
  4.91776e-6  -1.25858e-5   2.52665e-5  …   1.57212e-5  -3.02322e-5
 -6.00838e-6  -1.4645e-5   -3.7536e-5       1.70556e-5   3.07931e-5
 -3.54482e-5  -4.57917e-5   4.34059e-5     -2.36215e-5  -7.05426e-6
  1.69838e-6  -3.42984e-5   4.95414e-5     -1.88728e-5  -3.29889e-5
  4.96909e-5   4.42417e-

In [12]:
x1=(A+δA)\b

10-element Array{Float64,1}:
  0.09124152035466926 
  0.23255326896117623 
 -0.23868978883842978 
 -0.16295402718226257 
  0.08928215497482134 
  0.2631596591254607  
  0.5434960758646433  
 -0.11242053952020317 
 -0.045216901317028727
 -0.012995050999963615

In [13]:
r=A*x-b
r1=(A+δA)*x-b

20-element Array{Float64,1}:
  0.2803107040893481   
 -0.0017144735606669792
  0.03004676820080554  
  0.15179286006350468  
  0.1353865009669706   
 -0.17325632694031812  
  0.23916745374473725  
  0.4051146670932987   
 -0.0632610007767091   
 -0.03770546855670226  
 -0.33426093733658285  
 -0.05250034421081995  
  0.16806160830261396  
 -0.024255067059543056 
 -0.20720391104453117  
 -0.21422109905026326  
 -0.09908169394354904  
  0.10596216301245173  
 -0.27006014566494485  
 -0.4573228908867511   

In [14]:
norm(x1-x)/norm(x), norm(r1-r)/norm(b)

(0.0001376041299271895, 4.6690121366237984e-5)

__Napomena__: Ako je $\mathop{\mathrm{rang}}A =n$, matrica $A^TA$ je simetrična i pozitivno definitna pa se sustav (*) može riješiti metodom Choleskog.

Za izračunato rješenje $\hat x$ vrijedi

$$
(A^TA +E)\hat x=A^Tb,
$$

gdje je 

$$ 
\|A\|_2\approx \varepsilon \| A^TA\|_2,
$$

pa za relativnu pogrešku vrijedi ocjena

$$
\frac{\|\hat x -x\|_2}{\|x\|_2}\approx \varepsilon \kappa_2(A^TA) =\varepsilon \kappa^2_2(A).
$$


Dakle, relativna pogreška rješenja dobivenog pomoću metode normalnih jednadžbi ovisi o _kvadratu kondicije_ pa je bolje koristiti QR rastav.