# Método de mínimos cuadrados

Si los datos que se obtienen de experimentos, típicamente contienen ruido (aleatorio) debido a los errores en las mediciones. 

En ese caso, la meta es encontrar una curva suave que ajuste "en promedio" a los datos. Esta curva debe tener una forma simple (e.g. un poliniomio de grado bajo), para no reproducir el ruido. 

Consideremos que la función
$$
f(x)=f(x;a_0,a_1,\ldots ,a_m)
$$

va a ser ajustada a los $n+1$ datos $(x_i,y_i)$ con $i=0,1,\ldots ,n$. Esta notación implica que la función de $x$ contiene $m+1$ parámetros variables (del ajuste) $a_0,a_1,\ldots ,a_m$, donde $m<n$.

La forma de $f(x)$ se determina con criterios de la teoría asociada con el experimento del cual se obtuvo los datos para ajustar. Es decir, la única manera de hacer el ajuste, es con los parámetros, no con la forma de la función.

Por ejemplo, si en los datos $y_i$ representan los desplazamientos en el tiempo $t_i$ de un sistema masa-resorte sobreamortiguado, la teoría sugiere $f(t) =a_0~t~\exp\{-a_1 t\}$

Para el ajuste de curvas damos dos pasos:

* escoger la forma de $f(x)$, usando la teoría detrás del modelaje del problema/experimento,
* cálculo de parámetros que producen el mejor ajuste a los datos.

                       Pero, ¿qué significa "el mejor ajuste"?

Si el ruido aleatorio esta confinado a la coordenada $y$, el ajuste del **mínimo cuadrados** que minimiza la función

\begin{equation}
S(a_0,a_1,\ldots ,a_m)= \sum_{i=0}^{n} \left[y_i - f(x_i) \right]^2
\label{eq:mincuad}
\end{equation}
con respecto a cada coeficiente $a_k$. 

Por lo tanto los valores óptimos de los parámetros estan dados por la solución a las ecuaciones

\begin{equation}
\frac{\partial S}{\partial a_k} = 0, ~~~~~~ k=0,1,\ldots ,m,
\label{eq:eqsmincuad}
\end{equation}

que en general son ecuaciones no-lineales en $a_k$.

Los términos $r_i = y_i - f(x_i)$ de $S$ se llaman *resíduos* y representan la discrepancia entre los datos y la función de ajuste en $x_i$.

Frecuentemente la función de ajuste se contruye como una combinación lineal de las funciones específicas $f_j(x)$ que provienen del modelaje teórico,
$$
f(x) = a_0 f_0(x) + a_1 f_1(x) + \cdots + a_m f_m(x)
$$
en cuyo caso las soluciones de las ecuciones son lineales. Si la función de ajuste es polinomial, entonces $f_0(x)=1, f_1(x)=x, f_2(x)=x^2,$ etc.

La desviación estándar de los datos en torno a la curva del ajuste, se define como

\begin{equation}
\sigma = \sqrt{\frac{S}{n-m}}.
\label{eq:sigmamincuad}
\end{equation}

Si $n=m$ NO tendremos ajuste de curva, **interpolación**. En ese caso, el numerador y el denominador de la desviación estándar se hacen cero y $\sigma$ se indetermina.


## Método de mínimos cuadrados: ajuste a una recta

El ajuste a datos con una recta $f(x) = a + bx$ se llama **regresión lineal**. En este caso la función a minimizar es

\begin{equation}
S(a,b)= \sum_{i=0}^{n} \left[y_i - f(x_i) \right]^2 =  \sum_{i=0}^{n} \left[y_i - a - bx_i \right]^2 
\end{equation}

Las soluciones a las ecuaciones ahora son:

\begin{eqnarray*}
\frac{\partial S}{\partial a} &=& \sum_{i=0}^n -2(y_i-a-bx_i) = 2 \left[a(n+1) + b\sum_{i=0}^n x_i - \sum_{i=0}^n y_i \right] =0 \\
\frac{\partial S}{\partial b} &=& \sum_{i=0}^n -2(y_i-a-bx_i)x_i = 2 \left[a\sum_{i=0}^n x_i + b\sum_{i=0}^n x_i^2 - \sum_{i=0}^n x_iy_i \right] =0 \\
\end{eqnarray*}

Dividimos ambas ecuaciones entre $2(n+1)$ y reescribiendo las ecuaciones, tenemos:

\begin{eqnarray*}
a + \tilde{x}b = \tilde{y}, ~~~~~~ \tilde{x}a + \left(\frac{1}{n+1}\sum_{i=0}^n x_i^2 \right)b = \frac{1}{n+1}\sum_{i=0}^n x_i y_i.
\end{eqnarray*}

Donde hemos introducido:

\begin{eqnarray}
\tilde{x} = \frac{1}{n+1}\sum_{i=0}^n x_i, ~~~~~~ \tilde{y}=\frac{1}{n+1}\sum_{i=0}^n y_i,
\end{eqnarray}

son los valores medios de $x$ y $y$ del conjunto de datos. La solución para los parámetros es:

\begin{eqnarray}
a=\frac{\tilde{y}\sum x_i^2 - \tilde{x}\sum x_i y_i}{\sum x_i^2 - n\tilde{x}^2} ~~~~~~ b=\frac{\sum x_i y_i - \tilde{x}\sum y_i}{\sum x_i^2 - n\tilde{x}^2}.
\end{eqnarray}

Como estas expresiones son suceptibles a errores de redondeo se usan las expresiones equivalentes menos suceptibles a errores de redondeo

\begin{eqnarray}
b = \frac{\sum y_i (x_i - \tilde{x})}{\sum x_i (x_i - \tilde{x})} ~~~~~~ a=\tilde{y} - \tilde{x}b.
\end{eqnarray}

## Método de mínimos cuadrados: ajuste de formas lineales

Consideremos ahora el ajuste de mínimos cuadrados de la **forma lineal**

\begin{equation}
f(x) = a_0 f_0(x) + a_1f_1(x) + \cdots + a_mf_m(x) = \sum_{j=0}^m a_j f_j(x),
\end{equation}

donde cada $f_j(x)$ es una función predeterminada de $x$ de una *base* de funciones. Sustituyendo en $S$ tenemos:

\begin{equation}
S = \sum_{i=0}^{n} \left[y_i - \sum_{j=0}^m a_j~f_j(x_i) \right]^2. 
\end{equation}

Las soluciones a las eciaciones ahora son:

\begin{eqnarray*}
\frac{\partial S}{\partial a_k} &=& -2 \left\{ \sum_{i=0}^n \left[y_i - \sum_{j=0}^m a_j f_j(x_i) \right] f_k(x_i) \right\} = 0, ~~~~~ k=0,1,\ldots,m.
\end{eqnarray*}

Reescribimos la expresión anterior e intercambiamos el órden de la suma, obtenemos:

\begin{eqnarray*}
 \sum_{j=0}^m \left[ \sum_{i=0}^n f_j(x_i)f_k(x_i)\right] a_j = \sum_{i=0}^n f_k(x_i) y_i, ~~~~~ k=0,1,\ldots,m.
\end{eqnarray*}

En notación matricial estas ecuaciones (llamadas *ecuaciones normales*) son:

\begin{eqnarray}
\mathbf{Aa} = \mathbf{b}
\end{eqnarray}
donde ($A_{kj} = A_{jk}$)
\begin{equation}
A_{kj} = \sum_{i=0}^n f_j(x_i)f_k(x_i),~~~~~~ b_k= \sum_{i=0}^n f_k(x_i) y_i, \label{asbs}
\end{equation}

que se resuelven con los métodos para resolver sistema de ecuaciones lineales, por ejemplo, el método de Gauss.

## Método de mínimos cuadrados: ajuste polinomial


Una forma lineal común es la polinomial. Si el grado del polinomio es $m$, tenemos $f(x)=\sum_{j=0}^m a_j x^j$. En este caso las funciones que forman la base son:

\begin{equation}
f_j(x) = x^j ~~~~~~~~~~ j=0,1,\ldots,m,
\end{equation}

de tal manera que:

\begin{eqnarray}
A_{kj} = \sum_{i=0}^n x_i^{j+k},~~~~~~ b_k= \sum_{i=0}^n x_i^k y_i,
\end{eqnarray}

\begin{eqnarray}
\mathbf{A} = \begin{bmatrix}
n & \sum x_i & \sum x_i^2 & \cdots & \sum x_i^m \\
\sum x_i & \sum x_i^2 & \sum x_i^3 & \cdots & \sum x_i^{m+1} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\sum x_i^{m-1} & \sum x_i^m & \sum x_i^{m+1} & \cdots & \sum x_i^{2m}
\end{bmatrix},~~\mathbf{b} = \begin{bmatrix}
\sum y_i \\
\sum x_i y_i \\
\vdots \\
\sum x_i^m y_i
\end{bmatrix}
\end{eqnarray}

Las ecuaciones normales son más singulares con el aumento de $m$. Pero los polinomios de órden bajo son los que usamos para el ajuste de curvas, porque los de órden alto tienden a reproducir el ruido de los datos.

# Ejemplo 1: Método de mínimos cudrados

Encontar el polinomio cuadrático que se ajusta a los siguentes datos:

| x | y |
| --- | --- |
| 0 | 2 |
| 1 | 8 | 
| 2 | 14 |
| 3 | 28 |
| 4 | 39 |
| 5 | 62 | 



1. Para el arreglo de datos $x$ y $y$ construye la matriz cuadrada y los vectores del sistema de n+1 dimensiones
2. Mediante el uso de dos bucles anidados $i$ y $j$, define los elementos de la matriz $A$, prestando atención a la relación entre la posición de cada elemento y la potencia de su $x_i$, ya que la potencia = número de fila + número de columna considerando que los índices de filas y columnas en Python comienzan desde 0. Entonce, a potencia de $x_i$ en cada fila de $b$ es igual al número de fila.
3. Al final de los bucles, el sistema se puede resolver para los  vectors de los coeficientes del polinomio mediante el uso de un método numérico.

La función **polyFit** construye y resuelve las ecuaciones normales para los coeficientes de un polinomio de grado $m$. Esta función regresa los coeficientes del polinomio. Los coeficientes $n, \sum x_i, \sum x_i^2, \ldots   \sum x_i^m $, se guardan en un vector **s** y luego se insertan en **A**. Las ecuaciones normales se resuelven con el método de eliminación de Gauss con pivoteo.

In [None]:
#Eliminación de Gauss
import sys

def err(string):
  print(string)
  input('Press return to exit')
  sys.exit()

def swapRows(v,i,j):
  if len(v.shape) == 1:
    v[i],v[j] = v[j],v[i]
  else:
    v[[i,j],:] = v[[j,i],:]

def swapCols(v,i,j):
  v[:,[i,j]] = v[:,[j,i]]

import numpy as np

def gaussPivot(a,b,tol=1.0e-12):

  n = len(b) 
  s = np.zeros(n)
  for i in range(n):
    s[i] = max(np.abs(a[i,:]))

  for k in range(0,n-1): 
      p = np.argmax(np.abs(a[k:n,k])/s[k:n]) + k
      if abs(a[p,k]) < tol: err("Matrix is singular")
      if p != k:
        swapRows(b,k,p)
        swapRows(s,k,p)
        swapRows(a,k,p)
      for i in range(k+1,n):
        if a[i,k] != 0.0:
          lam = a[i,k]/a[k,k]
          a[i,k+1:n] = a[i,k+1:n] - lam*a[k,k+1:n]
          b[i] = b[i] - lam*b[k]
            
  if abs(a[n-1,n-1]) < tol: error.err("Matrix is singular")
  b[n-1] = b[n-1]/a[n-1,n-1]
  for k in range(n-2,-1,-1):
    b[k] = (b[k] - np.dot(a[k,k+1:n],b[k+1:n]))/a[k,k]
  return b

xData=np.array([0, 1, 2, 3, 4, 5]) #Datos en x
yData=np.array([2, 8, 14, 28, 39, 62]) #Datos en y

# Mínimos cuadrados

def polyFit(xData,yData,n): #Coeficientes del polinomio
  a = np.zeros((n+1,n+1))
  b = np.zeros(n+1)
  s = np.zeros(2*n+1)
  for i in range(len(xData)):
    temp = yData[i]
    for j in range(n+1):
      b[j] = b[j] + temp
      temp = temp*xData[i]
    temp = 1.0
    for j in range(2*n+1):
      s[j]=s[j]+temp
      temp=temp*xData[i]
  for i in range(n+1):
    for j in range(n+1):
      a[i,j]=s[i+j]
  return gaussPivot(a,b)
c=polyFit(xData,yData,2)

def EvalPol(c,x): #Función que evalua polinomios 
  n=len(c)-1 #Grado del polinomio
  p=c[n]
  for k in range(n):
    p=p*x+c[n-k-1]
  return p
import matplotlib.pyplot as plt
x=np.arange(0,5.001,0.001)
plt.plot(xData,yData,"o",label="Datos")
plt.plot(x,EvalPol(c,x),label="Ajuste Cuadrático")
plt.legend()
plt.grid()
plt.axvline(0,color="k")
plt.axhline(0,color="k")
plt.show()
print("El ajuste polinomial cuadrático de los datos es %g+%gx+%gx**2" %(c[0],c[1],c[2]))


# Ejemplo 2: 

Escribe un programa que ajuste un polinomio de grado arbitrario $m$ a los datos de la siguiente tabla. Usa el programa para determinar el grado $m$ que mejor ajuste a los datos en mínimos cuadrados, monitoreando la desviación estándar. 

| x | y |
| --- | --- |
|-0.04|-8.66|
|0.93|-6.44|
|1.95|-4.36|
|2.90|-3.27| 
|3.83|-0.88| 
|5.00|0.87|
|5.98|3.31|
|7.05|4.63|
|8.21|6.19|
|9.08|7.40|
|10.09|8.85|


In [None]:
#Ejemplo de ajuste polinomial de grado m
import sys

def err(string):
  print(string)
  input('Press return to exit')
  sys.exit()

def swapRows(v,i,j):
  if len(v.shape) == 1:
    v[i],v[j] = v[j],v[i]
  else:
    v[[i,j],:] = v[[j,i],:]

def swapCols(v,i,j):
  v[:,[i,j]] = v[:,[j,i]]

import numpy as np

def gaussPivot(a,b,tol=1.0e-12):

  n = len(b) 
  s = np.zeros(n)
  for i in range(n):
    s[i] = max(np.abs(a[i,:]))

  for k in range(0,n-1): 
      p = np.argmax(np.abs(a[k:n,k])/s[k:n]) + k
      if abs(a[p,k]) < tol: err("Matrix is singular")
      if p != k:
        swapRows(b,k,p)
        swapRows(s,k,p)
        swapRows(a,k,p)
      for i in range(k+1,n):
        if a[i,k] != 0.0:
          lam = a[i,k]/a[k,k]
          a[i,k+1:n] = a[i,k+1:n] - lam*a[k,k+1:n]
          b[i] = b[i] - lam*b[k]
            
  if abs(a[n-1,n-1]) < tol: error.err("Matrix is singular")
  b[n-1] = b[n-1]/a[n-1,n-1]
  for k in range(n-2,-1,-1):
    b[k] = (b[k] - np.dot(a[k,k+1:n],b[k+1:n]))/a[k,k]
  return b

def polyFit(xData,yData,m): #Coeficientes del polinomio
  a = np.zeros((m+1,m+1))
  b = np.zeros(m+1)
  s = np.zeros(2*m+1)
  for i in range(len(xData)):
    temp = yData[i]
    for j in range(m+1):
      b[j] = b[j] + temp
      temp = temp*xData[i]
    temp = 1.0
    for j in range(2*m+1):
      s[j]=s[j]+temp
      temp=temp*xData[i]
  for i in range(m+1):
    for j in range(m+1):
      a[i,j]=s[i+j]
  return gaussPivot(a,b)

def EvalPol(c,x): #Función que evalua polinomios 
  n=len(c)-1 #Grado del polinomio
  p=c[n]
  for k in range(n):
    p=p*x+c[n-k-1]
  return p

import math
def DesvEst(c,xData,yData,EvalPol):
  n=len(xData)-1
  m=len(c)-1
  S=0
  for i in range(n+1):
    p=EvalPol(c,xData[i])
    S=S+(yData[i]-p)**2
  sigma=math.sqrt(S/(n-m))
  return sigma

xData=np.array([-0.04, 0.93, 1.95,2.90, 3.83, 5.00,5.98, 7.05, 8.21, 9.08, 10.09]) #Datos en x
yData=np.array([-8.66, -6.44, -4.36, -3.27, -0.88, 0.87,3.31, 4.63, 6.19, 7.40, 8.85]) #Datos en y
print("  Grado del polinomio       Desviación Estándar")
print("------------------------------------------------")
for k in range(len(xData)-1):
  m0=k
  c0=polyFit(xData,yData,k)
  sigma0=DesvEst(c0,xData,yData,EvalPol)
  print("           %.g                    %.8f" %(m0,sigma0) )
m0=0
c0=polyFit(xData,yData,0)
sigma0=DesvEst(c0,xData,yData,EvalPol)
for i in range(1,len(xData)-1):
  c=polyFit(xData,yData,i)
  sigma=DesvEst(c,xData,yData,EvalPol)
  if sigma<sigma0:
    m0=i
    c0=c
    sigma0=sigma
print("El polinomio que mejor ajusta los datos es el polinomio de grado %g" %m0)
print("f(x)=")
for j in range(m0+1):
  if c0[j]<0:
    print("-%gx**%g" %(abs(c0[j]),j))
  else:
    print("+%gx**%g" %(c0[j],j))

import matplotlib.pyplot as plt
x=np.arange(-0.5,10.1,0.001)
plt.plot(xData,yData,"o",label="Datos")
plt.plot(x,EvalPol(c0,x),label="Ajuste polinomial de grado %g" %m0)
plt.grid()
plt.axvline(0,color="k")
plt.axhline(0,color="k")
plt.legend()  
plt.show()


# Ajuste con SciPy

https://docs.scipy.org/doc/scipy/tutorial/interpolate.html#