# Minimos Cuadrados

Supongamos que se necesita resolver un sistema de ecuaciones $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{y}$ sobre-determinado.

En este caso, contamos con mayor numero de ecuaciones que inconitas. Por lo tanto, la matriz $\boldsymbol{A}$ no es cuadrada y por consiguiente, tiene $m$ filas y $n$ columnas para $m>n$.

En vez de resolver el sistema de ecuaciones $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{y}$, trataremos de encontrar una aproximación por mínimos cuadrados:

$\operatorname{min} \frac{1}{2}|\boldsymbol{A}\boldsymbol{x}-\boldsymbol{y}|^2$.

Ahora, tenemos que comprobar que $\boldsymbol{A}$ es de rango $n$ y por lo tanto, existen tantas ecuaciones linealmente independientes como incógnitas y por lo tanto existe una solución 


## Solución de Mínimos Cuadrados

Si el rango de $\boldsymbol{A}$ es $n$, entonces la matriz $\boldsymbol{A}^T \boldsymbol{A}$ es una matriz $n\times n$ cuya inversa existe.

Por lo tanto, la solución del problema está dada por:

$\boldsymbol{x}=(\boldsymbol{A}^T \boldsymbol{A})^{-1}\boldsymbol{A}^T\boldsymbol{y}$

En este caso, la matriz $\boldsymbol{A}^{\dagger}=(\boldsymbol{A}^T \boldsymbol{A})^{-1}\boldsymbol{A}^T$ es la pseudo-inversa de $\boldsymbol{A}$, ya que $\boldsymbol{A}^{\dagger}\boldsymbol{A}=I$

In [1]:
using LinearAlgebra;

A=rand(Float64, (10, 3))

10×3 Matrix{Float64}:
 0.071208  0.863571  0.221761
 0.523812  0.572305  0.498935
 0.178145  0.204695  0.026689
 0.441131  0.614137  0.793414
 0.992092  0.150187  0.0790369
 0.530195  0.139028  0.536149
 0.240656  0.619062  0.634121
 0.590255  0.403523  0.728893
 0.559656  0.192165  0.534428
 0.150307  0.742962  0.188794

In [2]:
print("El rango de la matriz A es ",rank(A))

El rango de la matriz A es 3

In [5]:
inv(transpose(A)*A)*transpose(A)

3×10 Matrix{Float64}:
 -0.0768591   0.138258    0.155303  …   0.0235557   0.135691   0.0203998
  0.634644    0.163746    0.174468     -0.167338   -0.215727   0.549873
 -0.360212   -0.0361784  -0.248562      0.410358    0.284393  -0.380356

In [6]:
pinv(A)

3×10 Matrix{Float64}:
 -0.0768591   0.138258    0.155303  …   0.0235557   0.135691   0.0203998
  0.634644    0.163746    0.174468     -0.167338   -0.215727   0.549873
 -0.360212   -0.0361784  -0.248562      0.410358    0.284393  -0.380356

calculamos la pseudo-inversa mediante la función pinv, lo cual nos permite comprobar que aunque $A$ no es una matriz cuadrada, la seudoinversa actua de la misma forma que la inversa.  

In [7]:
pinv(A)*A ≈ Diagonal(ones(3))

true

In [9]:
pinv(A)*A

3×3 Matrix{Float64}:
  1.0          -2.98372e-16  -2.22478e-16
 -4.71845e-16   1.0           0.0
  4.44089e-16   2.22045e-16   1.0

Ahora podemos calcular el numero de condicionamiento $cond(A)=||A||\times ||A^{\dagger}|| $, donde $||\cdot||$ es la norma de la matriz no cuadrada.

In [10]:
norm(A)*norm(pinv(A))

5.16454350084032

# 2) Ejercicios 

2.1) Resolver el siguiente sistema de ecuaciones lineales usando el método de minimos cuadrados: $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{y}$. Verifique el rango, condicionamiento y existencia de la pseudo-inversa.

$\boldsymbol{A}=\begin{bmatrix} 2 & 4 & 2\\
                                1 & 1 & 3\\
                                4 & 2 & 2\\
                                2 & 5 & 3\\
                                2 & 1 & 1\\
                \end{bmatrix}$, 
$\boldsymbol{y}=\begin{bmatrix} 82\\
                                38\\
                                118\\
                                91\\
                                59\\
                \end{bmatrix}$

2.2)Use un sistema de ecuaciones para predecir el consumo de gasolina de un vehiculo dependiendo del peso, desplazamiento, caballos de fuerza y aceleración de este. Descargue los datos desde :

https://archive.ics.uci.edu/ml/datasets/auto+mpg

In [27]:
# 2.1

A=[2  4  2;1  1  3;4  2  2 ; 2  5  3;2  1  1];
y=[82 ; 38 ; 118 ; 91 ;59];

println("El rango de la matriz A es ",rank(A))

A_i=inv(transpose(A)*A)*transpose(A)

println("El numero de condicionamiento es :",norm(A)*norm(A_i),"\n")

println("La pseudo inversa existe : ",A_i*A ≈ Diagonal(ones(3)),"\n")

x=A_i*y
println("La solucion del sistema de ecuaciones es x=",x)

El rango de la matriz A es 3
El numero de condicionamiento es :6.4116287945970045

La pseudo inversa existe : true

La solucion del sistema de ecuaciones es x=[25.0, 7.000000000000003, 1.9999999999999951]


In [28]:
A\y

3-element Vector{Float64}:
 25.0
  7.000000000000005
  1.9999999999999927

In [29]:
import Pkg;

Pkg.add("CSV")

[32m[1m   Resolving[22m[39m package versions...


[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.7/Project.toml`
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.7/Manifest.toml`


In [30]:
using Downloads
using CSV

In [32]:
file=Downloads.download("https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data")

"/var/folders/wd/0sm_658d23ldnfyfjn6y4s6m0000gn/T/jl_lz7J9J"

In [96]:
using DelimitedFiles

data=readdlm(file)

398×9 Matrix{Any}:
 18.0  8  307.0  130.0  3504.0  12.0  70  1  "chevrolet chevelle malibu"
 15.0  8  350.0  165.0  3693.0  11.5  70  1  "buick skylark 320"
 18.0  8  318.0  150.0  3436.0  11.0  70  1  "plymouth satellite"
 16.0  8  304.0  150.0  3433.0  12.0  70  1  "amc rebel sst"
 17.0  8  302.0  140.0  3449.0  10.5  70  1  "ford torino"
 15.0  8  429.0  198.0  4341.0  10.0  70  1  "ford galaxie 500"
 14.0  8  454.0  220.0  4354.0   9.0  70  1  "chevrolet impala"
 14.0  8  440.0  215.0  4312.0   8.5  70  1  "plymouth fury iii"
 14.0  8  455.0  225.0  4425.0  10.0  70  1  "pontiac catalina"
 15.0  8  390.0  190.0  3850.0   8.5  70  1  "amc ambassador dpl"
  ⋮                              ⋮           
 22.0  6  232.0  112.0  2835    14.7  82  1  "ford granada l"
 32.0  4  144.0   96.0  2665.0  13.9  82  3  "toyota celica gt"
 36.0  4  135.0   84.0  2370.0  13.0  82  1  "dodge charger 2.2"
 27.0  4  151.0   90.0  2950.0  17.3  82  1  "chevrolet camaro"
 27.0  4  140.0   86.0  2790.0  1

In [97]:
A=data[:,[3,4,5,6]];
A[A.=="?"].=0
A=Array{Float64}(A);
y=Array{Float64}(data[:,1]);

In [99]:
rank(A)

4

In [98]:
x=A\y

4-element Vector{Float64}:
 -0.02775687325855933
  0.11912821932805923
 -0.004901741173722576
  1.9777552116801833