# Cuadrados mínimos

Para realizar un ajuste de una función por cuadrados mínimos,
vamos a usar la función `curve_fit` de `scipy.optimize`.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import curve_fit

plt.rc("figure", dpi=100)
np.random.seed(1)

:::{note}
Hay funciones especializadas para casos particulares,
como los casos lineales,
que son más eficientes.
:::

## Motivación

Supongamos que tenemos una serie de $N$ mediciones $(x_i, y_i)$,
y sabemos que están relacionadas por una dada función $f$:

$$ y = f(x, p_1, \ldots, p_k) $$

donde $p_1, \ldots, p_k$ son parámetros de la función
que queremos determinar.

Por ejemplo,
supongamos que la función es $y = Ax$,
y queremos determinar el parámetro $A$
a partir de los siguientes datos:

In [None]:
x = np.array([1, 2, 3, 4, 5])
y = 3 * x  # la constante A es 3!

plt.plot(x, y, marker="o")

En este caso,
alcanzaría con dividir $y/x$
para obtener $A$:

In [None]:
y / x

Pero,
estas "mediciones" son perfectas,
sin ninguna incerteza.
En la práctica,
todas las mediciones tienen un error.

Simulemos una medición agregándole error a los datos:

In [None]:
y_error = 1  # la desviación estándar
y_medido = np.random.normal(y, scale=y_error)

plt.plot(x, y, label="Ideal")
plt.scatter(x, y_medido, label="Medido")
plt.legend()

Si tratamos de determinar $A$
a partir de estas mediciones,
no obtenemos exactamente $3$:

In [None]:
y_medido / x

Obtenemos una pendiente $A$ distinta
para cada medición.
¿Cómo podemos unificarlas?

Una opción "incorrecta" para combinarlas
es hacer un promedio de estos valores:

In [None]:
np.mean(y_medido / x)

Pero hay una manera más general de resolver este problema,
que es realizar un ajuste por cuadrados mínimos.

## Ajuste por cuadrados mínimos

Para realizar un ajuste por cuadrados mínimos,
vamos a usar la función `curve_fit` de `scipy.optimize`.

`curve_fit` necesita (al menos) 3 parámetros:

1. `f`, la función que queremos ajustar,
2. `xdata`, el array de datos en $x$,
3. `ydata`, el array de datos en $y$.

:::{important}
Es importante el orden de los parámetros al definir `f`.
Primero va la variable `x`,
y después los parámetros a determinar.
:::

In [None]:
def lineal(x, A):
    return A * x


p_opt, p_cov = curve_fit(lineal, x, y_medido)

p_opt, p_cov

`curve_fit` devuelve dos valores:
- `p_opt` es un array que contiene los valores óptimos de los parámetros,
- `p_cov` es la matriz de covarianza de los parámetros.

En este caso,
- `p_opt` es un array de tamaño $1$ que contiene el valor óptimo de $A$,
- `p_cov` es una matriz de $1\times1$ que contiene la varianza de $A$.

Entonces,
podemos calcular el error de $A$
como la raíz de la varianza.

In [None]:
A_optimo = p_opt[0]
A_error = p_cov[0, 0] ** 0.5

A_optimo, A_error

El valor obtenido no da exactamente 3,
pero el intervalo `A_optimo ± A_error` es compatible con $A=3$.

## Graficar el ajuste

Para graficar el ajuste,
podemos usar la misma función que le pasamos a `curve_fit`.
La evaluamos en los datos `x` y el parámetro `A_optimo`.

Para graficar los datos,
se los suele graficar como puntos con barra de error.

In [None]:
y_pred = lineal(x, A_optimo)  # El "y" predicho a partir del ajuste

plt.errorbar(x, y_medido, yerr=y_error, fmt="o", label="Ajuste")
plt.plot(x, y_pred, label="Mediciones")
plt.legend()

Generalmente,
se acompaña este gráfico con
el gráfico de los residuos.

Los residuos $r_i$ son la diferencia entre
la función $f(x_i)$
y la medición $y_i$ correspondiente a dicho $x_i$:
$$ r_i = y_i - f(x_i) $$
donde se usan los parámetros óptimos para la función.

Para graficar los residuos,
se suele agregar un segundo gráfico debajo,
ya que comparten en eje $x$.
Es decir,
$y_i$ y $r_i$ comparten el mismo $x_i$.

In [None]:
y_pred = lineal(x, A_optimo)
residuos = y_medido - y_pred

fig, ax = plt.subplots(
    2, 1, sharex=True, figsize=(6, 6), gridspec_kw={"height_ratios": (2, 1)}
)

ax[0].errorbar(x, y_medido, yerr=y_error, fmt="o")
ax[0].plot(x, y_pred)

ax[1].errorbar(x, residuos, yerr=y_error, fmt="o")
ax[1].axhline(0, color="black")

ax[0].set(ylabel="Magnitud [unidad]")
ax[1].set(ylabel="Residuos [unidad]", xlabel="Otra magnitud [otra unidad]")

Los residuos tienen la misma unidad que el eje $y$,
y el residuo $r_i$ tiene el mismo error que la medición $y_i$.

Los residuos nos permiten hacer un "zoom"
a la diferencia entre las mediciones y la curva teórica.

## Ejercicio 1

Usando el siguiente conjunto de datos:

```python
y = np.array([11.5, 10.2, 10.4,  9.1,  8. ,  9.7, 10.2, 11.2, 11.2,  9.6])
```

ajustar por cuadrados mínimos
una función constante,
es decir,
$f(x) = A$.

Comparar el resultado contra
el promedio $\bar{x}$
y el error del promedio $\sigma_{\bar{x}}$.

:::{note}
Para `x`,
no debería importar los valores que se usan,
mientras sea del mismo largo que `y`.
:::

In [None]:
# Escriba aquí su solución

### Solución

In [None]:
y = np.array([11.5, 10.2, 10.4, 9.1, 8.0, 9.7, 10.2, 11.2, 11.2, 9.6])
x = np.arange(y.size)


def constante(x, A):
    return A


p_opt, p_cov = curve_fit(constante, x, y)

A_opt = p_opt[0]
A_error = p_cov[0, 0] ** 0.5

promedio = np.mean(y)
error_promedio = np.std(y, ddof=1) / np.size(y) ** 0.5
# ddof=1 es para que divida por N-1 al calcular la desviación estándar

print("                 A = ", A_opt)
print("          promedio = ", promedio)
print("        error de A = ", A_error)
print("error del promedio = ", error_promedio)

## Errores diferentes en `y`

Por defecto,
`curve_fit` asume que los errores en `y` son iguales.
Pero,
si cada `y` tiene un error distinto,
podemos tenerlo en cuenta,
para que le dé mayor peso a las mediciones con menor error.

Por ejemplo,
en los siguientes datos,
las mediciones para `x=3` y `x=4`
tienen 10 veces más incerteza
que las mediciones para `x=1` y `x=2`:

In [None]:
np.random.seed(42)
x = np.array([1, 2, 3, 4])
y_error = np.array([1, 1, 10, 10])
y = 3 * x
y = np.random.normal(y, scale=y_error)

plt.errorbar(x, y, yerr=y_error, fmt="o")


Para pasarle los errores a `curve_fit`,
hay que pasarle un array (del mismo tamaño que `ydata`)
en el parámetro `sigma`:

In [None]:
p_opt, p_cov = curve_fit(lineal, x, y, sigma=y_error)

A_opt = p_opt[0]
A_err = p_cov[0, 0] ** 0.5

plt.errorbar(x, y, yerr=y_error, fmt="o", label="Mediciones")
plt.plot(x, lineal(x, A_opt), label="Ajuste")
plt.legend()

A_opt, A_err

Si no los tenemos en cuenta,
el valor que se obtiene es distinto:

In [None]:
p_opt, p_cov = curve_fit(lineal, x, y)

A_opt = p_opt[0]
A_err = p_cov[0, 0] ** 0.5

plt.errorbar(x, y, yerr=y_error, fmt="o", label="Mediciones")
plt.plot(x, lineal(x, A_opt), label="Ajuste")
plt.legend()

A_opt, A_err

Al especificar las incertezas,
`curve_fit` "priorizó" pasar más cerca de los puntos con menor error,
resultando en una pendiente $A$ distinta.

## Múltiples parámetros

In [None]:
def recta(t, A, B):
    return A * t + B


x = np.linspace(0, 100, 10)
y = 3 * x + 20
y = np.random.normal(y)

p_opt, p_cov = curve_fit(recta, x, y)
p_err = np.sqrt(np.diag(p_cov))  # la raíz de la diagonal

p_opt, p_err

Los parámetros están en el mismo orden
que en la definición de la función (`recta`):
```python
A = p_opt[0]
B = p_opt[1]
```

:::tip
Para evaluar la función,
pueden usar `recta(x, *p_opt)`.
Es equivalente a `recta(x, p_opt[0], p_opt[1])`,
o, en general,
`recta(x, p_opt[0], p_opt[1], ..., p_opt[n])`.
:::