# Metoda najmanjih kvadrata

---

Neka je zadan sustav s više jednadžbi od nepoznanica:

$$Ax=b, \quad m>n.
$$

Ako sustav ima rješenje, tada je je $Ax-b=0$, odnosno $\| Ax-b\|=0$ za svaku vektorsku  normu.

Ako sustav nema rješenje, tada je prirodno tražiti rješenje za koje je 

$$
\|Ax-b \|_{1,2,\infty}\to \min
$$

za odabranu vektorsku normu.

Ako je $\mathop{\mathrm{rang}} A=n$, tada se __jedinstveno__ rješenje $x$ za koje 

$$
\|Ax-b \|_{2}\to \min
$$

dobije rješavanjem sustava __normalnih jednadžbi__:

$$
A^T A x=A^T b. \tag{*}
$$

__Dokaz__: Definirajmo

$$
Q(x)=\|Ax-b\|_2^2=(x^TA^T-b^T)(Ax-b)=x^TA^T A x -2x^T A^T b+b^Tb.
$$

Vrijedi

\begin{align}
Q(x+h)&=(x^T+h^T)A^TA(x+h)-2(x^T+h^T)A^Tb+b^Tb \\
&=Q(x) +2h^T(A^TAx-A^Tb)+h^TA^TAh\\ &= Q(x)+\|Ah\|_2^2 \\
&\geq Q(x),
\end{align}

pa se minimum zaista postiže u $x$.

Rješenje je jedinstveno jer $Q(x)=Q(y)$ povlači $\|Ax\|_2=0$ pa je ili $h=0$ ili $\mathop{\mathrm{rang}} A<n$ što je kontradikcija. _QED_

__Geometrijsko značenje__: Vektori $Ax$ i $Ax -b$ su međusobno okomiti, 

$$
(Ax)^T\cdot (Ax - b)=x^T (A^TAx - A^Tb)=0. 
$$ 

Dakle, $Ax$ je ortogonalna projekcija vektora $b$ na skup $\{Ay:\ y \textrm{ proizvoljan}\}$.

__Kvaliteta prilagodbe__: Rješenje $x$ zove se __kvadratična prilagodba__ 
sustavu $A x=b$ u smislu najmanjih kvadrata. Kvalitetu prilagodbe mjerimo s

$$
q=\sqrt{\frac{Q(x)}{Q(0)}}=\frac{\|A x - b\|_2}{\|b\|_2 }.
$$

## Primjer

Riješimo sustav 
\begin{align}
x+y&=0\\
y+z&=1\\
x+z&=0\\
-x+y+z&=1\\
-x-z&=0
\end{align}
u smislu najmanjih kvadrata.

In [1]:
A=[1//1 1 0;0 1 1;1 0 1;-1 1 1;-1 0 -1]

5×3 Array{Rational{Int64},2}:
  1//1  1//1   0//1
  0//1  1//1   1//1
  1//1  0//1   1//1
 -1//1  1//1   1//1
 -1//1  0//1  -1//1

In [2]:
b=collect([0//1,1,0,1,0])

5-element Array{Rational{Int64},1}:
 0//1
 1//1
 0//1
 1//1
 0//1

In [3]:
x=(A'*A)\(A'*b)

3-element Array{Rational{Int64},1}:
 -10//29
  12//29
  11//29

In [4]:
# Kvaliteta prilagodbe
q=sqrt(norm(A*x-b)/norm(b))

0.430923819458906

Ako je sustav predefiniran, standardna naredba odmah računa kvadratičnu prilagodbu, pri čemu se koristi QR rastav:

In [5]:
x1=float(A)\float(b)

3-element Array{Float64,1}:
 -0.344828
  0.413793
  0.37931 

In [6]:
float(x)

3-element Array{Float64,1}:
 -0.344828
  0.413793
  0.37931 

## Primjer

In [7]:
A=rand(20,10)
b=rand(20)

20-element Array{Float64,1}:
 0.564229 
 0.834676 
 0.640447 
 0.79615  
 0.607886 
 0.839279 
 0.602063 
 0.923757 
 0.603525 
 0.925376 
 0.235602 
 0.139239 
 0.660436 
 0.174099 
 0.0244314
 0.656673 
 0.841807 
 0.377887 
 0.834775 
 0.480355 

In [8]:
x=A\b

10-element Array{Float64,1}:
  0.235928
  0.381354
  0.57294 
  0.625007
  0.130627
  0.227622
 -0.440901
  0.256445
 -0.789848
 -0.171231

In [9]:
q=sqrt(norm(A*x-b)/norm(b))

0.5872339455783882

## Točnost

__Osjetljivost problema najmanjih kvadarata__ dana je sljedećim ocjenama (vidi [Matrix Computations, poglavlje 5][GVL13]):

Za matricu $A$ __kondiciju__ definiramo na sljedeći način:

$$
\kappa_2(A)=\sqrt{\kappa(A^TA)}=\|A\|_2 \|(A^TA)^{-1} A^T\|_2.
$$

Neka su $x$ i $\hat x$, kvadratične prilagodbe sustava $Ax=b$ i 
$(A+\delta A)\hat x=b+\delta b$. __Reziduali__ su definirani s

\begin{align*}
r&=Ax-b\\
\hat r&=(A+\delta A)\hat x-(b+\delta b).
\end{align*}

Neka je 

$$
\epsilon=\max \bigg\{ \frac{\|\delta A\|_2}{\|A\|_2},\frac{\|\delta b\|_2}{\|b\|_2}\bigg\}
$$

i neka je 

$$
q=\frac {\|r\|_2}{\|b\|_2}\equiv\sin\theta <1.
$$

Vrijedi:

\begin{align*}
\frac{\|\hat x-x\|_2}{\|x\|_2}&\leq \epsilon \bigg[\frac{2\,\kappa_2(A)}{\cos \theta} +\tan\theta \,\kappa_2^2(A)\bigg]+O(\epsilon^2),\\
\frac{\|\hat r-r\|_2}{\|b\|_2}&\leq \epsilon\,[1+ 2\,\kappa_2(A)](m-n)+O(\epsilon^2).
\end{align*}

Vidimo da je rezidual manje osjetljiv od samog mjesta na kojem se postiže.

[GVL13]: https://books.google.hr/books?id=X5YfsuCWpxMC&printsec=frontcover&hl=hr#v=onepage&q&f=false "G. Golub and C. F Van Loan, 'Matrix Computations', 4th Edition, John Hopkins, Baltimore, 2013"

In [10]:
cond(A)

15.134222494669055

In [11]:
δA=1e-4*(rand(20,10)-0.5)

20×10 Array{Float64,2}:
 -4.49911e-5   7.69368e-7   9.19571e-6  …   2.99059e-5  -7.48399e-6
  1.7972e-5   -3.31663e-5   3.45222e-5      3.89789e-5   3.96476e-5
  3.86345e-6   1.1476e-5   -2.7288e-5      -2.34947e-5   3.4978e-5 
  1.7686e-5    3.93672e-6   2.44891e-6     -5.13029e-6   4.29938e-5
 -8.94241e-6   9.4087e-7   -3.86966e-5      2.01158e-5  -2.33681e-5
  3.87653e-6  -1.47319e-5  -1.50465e-5  …   1.83156e-5   3.3066e-5 
 -3.99217e-5  -4.20047e-5   1.01361e-5     -3.22455e-5   1.74058e-5
 -2.30067e-5   4.90171e-6  -3.92466e-5      3.62843e-5  -3.5888e-5 
  2.43766e-5  -4.29097e-5   1.49829e-5      2.85379e-5   2.97373e-5
  1.54199e-5  -2.94229e-5   4.95633e-5     -2.8799e-5    9.0829e-6 
 -3.68634e-5   4.30948e-5   4.0244e-5   …  -3.64478e-5  -4.72642e-5
  1.87821e-5   1.31999e-5  -2.56322e-5      4.2601e-5    2.57214e-5
  4.69904e-5   3.93642e-5  -4.01885e-6     -2.94718e-5   3.91948e-5
  3.74243e-5  -1.17106e-5   4.18746e-5     -3.48381e-5   1.08021e-5
 -3.88095e-5   1.60499e-

In [12]:
x1=(A+δA)\b

10-element Array{Float64,1}:
  0.235935
  0.381288
  0.572786
  0.62504 
  0.130626
  0.227663
 -0.440933
  0.256494
 -0.789725
 -0.171195

In [13]:
r=A*x-b
r1=(A+δA)*x-b

20-element Array{Float64,1}:
  0.16989   
 -0.440386  
  0.0387134 
 -0.232505  
 -0.181232  
 -0.00292757
  0.0663891 
 -0.598855  
  0.0413866 
 -0.180322  
 -0.0528997 
  0.127545  
 -0.135714  
  0.259298  
  0.326194  
  0.164926  
  0.0250384 
  0.200782  
  0.0214718 
  0.03784   

In [14]:
norm(x1-x)/norm(x), norm(r1-r)/norm(b)

(0.00016385405721158408, 7.067683559179915e-5)

__Napomena__: Ako je $\mathop{\mathrm{rang}}A =n$, matrica $A^TA$ je simetrična i pozitivno definitna pa se sustav (*) može riješiti metodom Choleskog.

Za izračunato rješenje $\hat x$ vrijedi

$$
(A^TA +E)\hat x=A^Tb,
$$

gdje je 

$$ 
\|A\|_2\approx \varepsilon \| A^TA\|_2,
$$

pa za relativnu pogrešku vrijedi ocjena

$$
\frac{\|\hat x -x\|_2}{\|x\|_2}\approx \varepsilon \kappa_2(A^TA) =\varepsilon \kappa^2_2(A).
$$


> Dakle, relativna pogreška rješenja dobivenog pomoću metode normalnih jednadžbi ovisi o __kvadratu kondicije__ pa je bolje koristiti QR rastav.