# Minimos Cuadrados

Supongamos que se necesita resolver un sistema de ecuaciones $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{y}$ sobre-determinado.

En este caso, contamos con mayor numero de ecuaciones que inconitas. Por lo tanto, la matriz $\boldsymbol{A}$ no es cuadrada y por consiguiente, tiene $m$ filas y $n$ columnas para $m>n$.

En vez de resolver el sistema de ecuaciones $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{y}$, trataremos de encontrar una aproximación por mínimos cuadrados:

$\operatorname{min} \frac{1}{2}|\boldsymbol{A}\boldsymbol{x}-\boldsymbol{y}|^2$.

Ahora, tenemos que comprobar que $\boldsymbol{A}$ es de rango $n$ y por lo tanto, existen tantas ecuaciones linealmente independientes como incógnitas y por lo tanto existe una solución 


## Solución de Mínimos Cuadrados

Si el rango de $\boldsymbol{A}$ es $n$, entonces la matriz $\boldsymbol{A}^T \boldsymbol{A}$ es una matriz $n\times n$ cuya inversa existe.

Por lo tanto, la solución del problema está dada por:

$\boldsymbol{x}=(\boldsymbol{A}^T \boldsymbol{A})^{-1}\boldsymbol{A}^T\boldsymbol{y}$

En este caso, la matriz $\boldsymbol{A}^{\dagger}=(\boldsymbol{A}^T \boldsymbol{A})^{-1}\boldsymbol{A}^T$ es la pseudo-inversa de $\boldsymbol{A}$, ya que $\boldsymbol{A}^{\dagger}\boldsymbol{A}=I$

In [1]:
using LinearAlgebra;

A=rand(Float64, (10, 3))

10×3 Matrix{Float64}:
 0.598194  0.131849   0.731293
 0.452563  0.384647   0.0600104
 0.553106  0.0816415  0.340316
 0.913106  0.0254321  0.289556
 0.851144  0.318611   0.578612
 0.429874  0.0321335  0.649555
 0.75836   0.76483    0.906056
 0.729014  0.234679   0.698385
 0.886186  0.949229   0.253037
 0.112451  0.435763   0.166463

In [2]:
print("El rango de la matriz A es ",rank(A))

El rango de la matriz A es 3

In [3]:
inv(transpose(A)*A)*transpose(A)

3×10 Matrix{Float64}:
 -0.0779796   0.252686   0.278513   …   0.048904   0.247107  -0.285658
 -0.173666    0.169076  -0.220234      -0.136349   0.557947   0.43217
  0.42859    -0.341613  -0.0670326      0.260415  -0.474348   0.137832

In [4]:
pinv(A)

3×10 Matrix{Float64}:
 -0.0779796   0.252686   0.278513   …   0.048904   0.247107  -0.285658
 -0.173666    0.169076  -0.220234      -0.136349   0.557947   0.43217
  0.42859    -0.341613  -0.0670326      0.260415  -0.474348   0.137832

calculamos la pseudo-inversa mediante la función pinv, lo cual nos permite comprobar que aunque $A$ no es una matriz cuadrada, la seudoinversa actua de la misma forma que la inversa.  

In [5]:
pinv(A)*A ≈ Diagonal(ones(3))

true

In [12]:
pinv(A)*A

3×3 Matrix{Float64}:
  1.0          2.19117e-16   2.22045e-16
 -2.77556e-16  1.0          -3.33067e-16
  5.55112e-17  1.66533e-16   1.0

In [6]:
norm(A)

3.0687874430069915

In [7]:
sqrt(sum([a^2 for a in A]))

3.068787443006991

In [8]:
sqrt(sum([a^2 for a in pinv(A)]))

1.9214379987645172

Ahora podemos calcular el numero de condicionamiento $cond(A)=||A||\times ||A^{\dagger}|| $, donde $||\cdot||$ es la norma de la matriz no cuadrada.

In [9]:
norm(A)*norm(pinv(A))

5.896484803125033

# 2) Ejercicios 

2.1) Resolver el siguiente sistema de ecuaciones lineales usando el método de minimos cuadrados: $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{y}$. Verifique el rango, condicionamiento y existencia de la pseudo-inversa.

$\boldsymbol{A}=\begin{bmatrix} 2 & 4 & 2\\
                                1 & 1 & 3\\
                                4 & 2 & 2\\
                                2 & 5 & 3\\
                                2 & 1 & 1\\
                \end{bmatrix}$, 
$\boldsymbol{y}=\begin{bmatrix} 82\\
                                38\\
                                118\\
                                91\\
                                59\\
                \end{bmatrix}$

2.2)Use un sistema de ecuaciones para predecir el rendimiento academico de un estudiante.

El Student Performance Dataset es un conjunto de datos diseñado para examinar los factores que influyen en el rendimiento académico de los estudiantes. El conjunto de datos consta de 10.000 registros de estudiantes, cada uno de los cuales contiene información sobre varios predictores y un índice de rendimiento.
Variables:

    Horas estudiadas: El número total de horas dedicadas al estudio por cada estudiante.
    Puntuaciones anteriores: Las puntuaciones obtenidas por los alumnos en pruebas anteriores.
    Actividades Extraescolares: Si el alumno participa en actividades extraescolares (Sí o No).
    Horas de sueño: El número medio de horas de sueño diarias del alumno.
    Cuestionarios de muestra practicados: Número de cuestionarios de muestra que ha practicado el alumno.

Variable objetivo:

    Índice de rendimiento: Medida del rendimiento global de cada alumno. El índice de rendimiento representa el rendimiento académico del alumno y se ha redondeado al número entero más próximo. El índice oscila entre 10 y 100, y los valores más altos indican un mejor rendimiento.

https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression

Determine el vector $x$ que permite predecir el indice de rendimiento como $Ax=\hat y$.

Determine la norma del error $||\hat y -y||$

In [51]:
using DataFrames
using CSV
using Downloads

function download_student_performance()
    url = "https://docs.google.com/spreadsheets/d/e/2PACX-1vQXFL6W1kPhgcR2Zp9djMiOM7_Wx0g-LxScjBRQ78CW9eIdG-FhWuKk0FSZ97kWa1T8JrgoozAZfKJ9/pub?gid=863000121&single=true&output=csv"
    return DataFrame(CSV.File(Downloads.download(url); missingstring = "?"))
end

download_student_performance (generic function with 1 method)

In [52]:
data=download_student_performance();

In [63]:
first(data,6)

Row,Hours Studied,Previous Scores,Extracurricular Activities,Sleep Hours,Sample Question Papers Practiced,Performance Index
Unnamed: 0_level_1,Int64,Int64,String3,Int64,Int64,Float64
1,7,99,Yes,9,1,91.0
2,4,82,No,4,2,65.0
3,8,51,Yes,7,2,45.0
4,5,52,Yes,5,2,36.0
5,7,75,No,8,5,66.0
6,3,78,No,9,6,61.0


In [66]:
y=data[!, :6];
A=Matrix(data[!, [:1,:2,:4,:5]]);

In [69]:
x=pinv(A)*y

4-element Vector{Float64}:
  2.183305459371776
  0.813312265300873
 -1.5309461954148416
 -0.27664167566531933

In [73]:
norm(A*x-y,2)

586.0035323473597