# Identificación de sistemas dinámicos

## Objetivo del problema de identificación.

El objetivo de la Identificación de Sistemas (IS) consiste en construir modelos matemáticos de sistemas dinámicos a partir de datos experimentales. En la actualidad, la IS es importante en áreas como control automático, procesamiento de señales, física, economía, medicina, ecología, sismología, biología, entre otros.

Gauss y Legendre fueron los primeros en introducir el método de mínimos cuadrados (LS) para predecir el movimiento de los planetas y cometas a partir de miediciones de telescopios. En consecuencia, diversos trabajos se realizaron sobre problemas de estimación de parámetros.

Existen diferentes clases de modelos. Por ejemplo, modelos lineales deterministicos en tiempo discreto en representación de espacio de estados así como de la forma entrada-salida. También hay representaciones de sistemas a partir de modelos lineales estocásticos de tiempo discreto. Estos modelos pueden ser vistos como sigue:

* Filtros dinámicos lineales que permitan la generación, análisis y clasificación de señales aleatorias. Por ejemplo, autorregresivas (AR), modelos promedio (MA) y modelos ARMA.
* Modelos lineales con ruido aditivo aleatorio que son capaces de representar ruido, perturbaciones externas y errores de modelado. Por ejemplo, ARX, ARMAX y modelos ARARX.

En la práctica, es común encontrar dos clases de modelos para representar sistemas del mundo real; los modelos no lineales (NL) y los modelos lineales de parámetros variables (LPV). 

Los modelos LPV son ideales para modelar sistemas lineales de tiempo variable (LTV) así como representar sistemas no lineales linealizados sobre una trayectoria $p(t)$. Este tipo de modelos pueden ser vistos como descripciones intermedias entre modelos lineales invariantes en el tiempo (LTI) y modelos no lineales variantes en el tiempo.

Por otro lado, los modelos NL son muy utilizados para describir fenómenos o procesos complejos por ejemplo: procesos bioquímicos en columnas de destilación, plantad hidráulicas, sistemas fisiológicos, vibraciones en estructuras, por mencionar algunos.

Los modelos NL orientados a bloques están compuestos por subsistemas dinámicos LTI y subsistemas estáticos NL donde la parte lineal son generalmente representaciones en funciones de transferencia, espacio de estados o I/O mientras que la parte NL pueden ser con memoria o sin memoria.

El proceso para realizar la identificación de sistemas, según {cite:t}`ljung1998system` consisten en seis pasos:

1. **Diseño del experimento.** Elección de la señal de excitación, periodo de muestreo, sensores para las señales de entrada y salida.
2. **Mediciones de entrada y salida.** 
3. **Elección de la estructura del modelo.**
4. **Determinación de la estructura de los parámetros.** Criterio de información de {cite:t}`akaike1974new` (AIC) y el criterio de longitud de descripción mínima de {cite:t}`rissanen1978modeling`.
5. **Estimación paramétrica del modelo.**
6. **Validación del modelo.** Medir el desempeño del modelo obtenido para representar los datos experimentales.

La elección de los algoritmos para la estimación de parámetros depende de dos factores:

1. La función costo a ser minimizada.
2. El algoritmo de optimización para encontrar la solución óptima.

De los métodos más utilizados para la estimación paramétrica podemos encontrar:

* Método de mínimos cuadrados ponderado (WLS).
    * Estimador Gauss-Markov.
    * Mejor estimador lineal sin sesgo (BLUE).
* Método de mínimos cuadrados generalizado (GLS).
* Método de mínimos cuadrados extendido (ELS).
* Método de mínimos cuadrados total (TLS).
* Método de máxima verosimilitud (ML).
* Método de máximo a posteriori (MAP).
* Método de estimación de la mínima de la media del error al cuadrado (MMSE).
* Método de estimación M de Huber.
* Método de variable instrumental (IV).
* Método de subespacio como el algoritmo MUSIC (MUltiple SIgnal Classification).

## Variables aleatorias

Asuma que el valor verdadero de una cantidad de datos es 20, donde el conjunto de datos está dado como sigue:

|     1    |     2    |     3    |     4    |     5    |     6    |     7    |
|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|
| 20.13443 | 19.83828 | 20.01702 | 19.99835 | 19.94526 | 20.01415 | 19.96707 |

En términos estadísticos, se puede decir que los datos anteriormente mostrados son generados por una *variable aleatoria* $X$ donde

````{prf:definition} Variable aleatoria
 :label: variable-aleatoria
 Una variable aleatoria es una variable que tiene un valor numérico único, determinado por casualidad, para cada resultado de un procedimiento. 
````

Suponga un sistema simple como un dado en el cual necesitamos conocer la probabilidad de obtener un "3" al lanzar el dado. La probabilidad de obtener este valor es 1/6 o bien, 16.7%. En estadística, podemos escribir esto como

$$
 P(X_{1} = 3) = \frac{1}{6},
$$

donde $P$ es una función de probabilidad que representa la probabilidad del "evento" $X_{1} = 3$ como un número entre $0$ y $1$. Para tal efecto, definimos

````{prf:definition} Eventos y espacio muestral
 :label: eventos-espacio
 1. Un *evento* es cualquier colección de resultados o resultados de un procedimiento.
 2. Un *evento simple* es un resultado o un evento que no se puede dividir en componentes más simples.
 3. El *espacio muestral* para un procedimiento se conforma de todos los eventos simples posibles.
````

Por ejemplo, el espacio muestral para el ejemplo del dado está dado por el siguiente conjunto

$$
 S = \left\{ 1, 2, 3, 4, 5, 6 \right\}
$$
y todos los subconjuntos $A \subset S$ como $A_{1} = \{1, 2\}$ o $A_{2} = \{1, 3, 5 \}$ son eventos que pertenecen a un espacio muestral.

La función de probabilidad $P$ parte de su definición en axiomas. Sin embargo, podemos definir probabilidad como sigue:

````{prf:proposition} Probabilidad
 :label: probabilidad
 Dado un espacio muestral $S$, la *función de probabilidad* $P$ que asigna a cada evento $A \subset $ un número $P(A) \in [0,1]$, llamada *probabilidad" del evento $A$, que dará una medida precisa de la posibilidad de que ocurra $A$.
````

````{prf:proposition} Enfoque clásico de probabilidad
 :label: probabilidad-clasica
 Un procedimiento dado tiene $n$ eventos simples diferentes y que cada uno de esos eventos simples tiene las mismas posibilidades de ocurrir. Si el evento $A$ puede ocurrir de estas $n$ maneras, entonces

 $$
  P(A) = \frac{s}{n}.
 $$
````

La {prf:proposition}`probabilidad-clasica` aplica para el ejemplo del dado así como para otras *variables discretas aleatorias* similares que involucran un número finito de resultados posibles igualmente probables. No obstante, no aplica para *variables aleatorias continuas* con un número infinito de posibles resultados similares a la variable aleatoria $X_{2}$.

Para el espacio muestral dado por el conjunto

$$
 S = \left\{ x \in \mathbb{R} | 0 \leq x < 15 \right\}
$$
que involucra un número inifito de posibles resultados continuamente distribuidos entre 0 y 15, se puede utilizar la siguiente expresión

````{prf:proposition} Aproximación de frecuencia relativa
 :label: aproximacion-relativa
 Asuma que dado que un procedimiento es repetido $n$ veces, y $f_{n}(A)$ denota la frecuencia relativa con la cual un evento $A$ ocurre, entonces

 $$
  P(A) = \lim_{n \rightarrow \infty} f_{n}(A)
 $$
````

## Representación de sistemas dinámicos en forma lineal con respecto a los parámetros.

En los modelos de regresión (MR) se involucra el análisis de una variable dependiente en términos de una o más variables independientes. En estos modelos, los parámetros son ajustados para describir a los datos experimentales. Algunos autores consideran que los modelos de regresión son sistemas entrada-salida ya que contienen los elementos característicos de estos sistemas. Es decir, una entrada $x$, una salida $y$, un sistema tipo caja negra que transforma $x$ en $y$.

### Modelo de regresión lineal

Suponga que se tiene un conjunto de datos $\left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \dots, \left( x_{m}, y_{m} \right)$ $\left( x_{i}, y_{i} \in \mathbb{R}, i=1, \dots, m, ~      m \in \mathbb{N} \right)$, entonces es posible describir datos experimentales utilizando una *función de regresión* o *función de modelo* de la forma

$$
 \hat{y}(x) = \beta_{0}x + \beta_{1},
$$ (eqn:linear_regression)

donde los coeficientes $\beta_{0}$ y $\beta_{1}$ son llamados *coeficientes de regresión* o *parámetros* del modelo de regresión. Además, $x$ es usualmente llamada *variable explicativa*, *variable predictora* o *variable independiente*, mientras que $\hat{y}$ es conocida como *variable dependiente* o *variable respuesta*.

```{note}
 La expresión dada en la Ec. {eq}`eqn:linear_regression` es llamada *función de regresión lineal* debido a que los coeficientes $\beta_{0}$, $\beta_{1}$ dependen linealmente de esta función.
```

Se dice que el modelo {eq}`eqn:linear_regression` ajusta los datos experimentales si la diferencia $y_{i}-\hat{y}(x_{i})~(i=1,\dots,m)$ es pequeña. Para lograr este objetivo, es necesario definir la siguiente expresión

$$
 \text{RSQ} = \sum_{i=1}^{m} \left( y_{i} - \hat{y}\left(x_{i}\right) \right)^{2}.
$$

Esta expresión es llamada *suma residual de cuadrados (RSQ)*. RSQ mide la distancia entre los datos experimentales y el modelo; en un problema de regresión estos parámetros pueden ser encontrados planteando un problema de optimización

$$
 \min_{\beta_{0},\beta_{1} \in \mathbb{R}} \left\{ \text{RSQ} \right\}.
$$

La solución de este problema de optimización se puede obtener utilizando el procedimiento de minimización de una función de varias variables visto en cálculo de varias variables. Entonces, obteniendo las derivadas parciales de la función $RSQ(\beta_{0},\beta_{1})$ con respecto $\beta_{0}$ y $\beta_{1}$ a cero.

$$
 \beta_{0} = \frac{\sum_{i=1}^{m}~x_{i}y_{i} - m \overline{x}\overline{y}}{\sum_{i=1}^{m}~x_{i}^{2} - m\overline{x}^{2}},
$$

$$
 \beta_{1} = \overline{y} - \beta_{0} \overline{x}
$$

```{note}
 RSQ es utilizado ya que realiza *estimaciones de máxima verosimilitud* de los parámetros del modelo, $\beta_{0}$ y $\beta_{1}$.
```

#### Ejemplo

Considere los siguientes datos experimentales y encuentre un modelo de regresión lineal.

|     | **1** | **2** | **3** | **4** | **5** |
|-----|:-----:|:-----:|:-----:|:-----:|:-----:|
| $x$ |   10  |   20  |   30  |   40  |   50  |
| $y$ |   3   |   5   |   11  |   12  |   16  |

```{note} Predicción
 Las funciones de regresión pueden ser utilizadas para predecir valores de la variable de respuesta a partir de las variables explicativas. Las buenas predicciones se alcanzan sólo si las funciones de regresión se ajustan lo suficientemente bien a los datos experimentales.
```

### Coeficiente de determinación

El coeficiente de determinación mide la calidad de ajuste entre los datos experimentales y el modelo. Dicho valor se encuntra en una escala entre 0 y 100%, donde 0% representa un ajuste pobre mientras que el 100% implica un ajuste perfecto entre el modelo y los datos. El coeficiente de determinación está definido como

$$
 R^{2} = \frac{\sum_{i=1}^{n}~ \left( \hat{y}_{i} - \overline{y} \right)^{2}}{\sum_{i=1}^{n}~ \left( y_{i} - \overline{y} \right)^{2}},
$$

donde $\hat{y}_{i} = \hat{y}\left( x_{i} \right)$. Para el caso de los modelos de regresión lineal, esto se puede rescribir como

$$
 R^{2} = 1 - \frac{\sum_{i=1}^{n}~ \left( \hat{y}_{i} - \overline{y} \right)^{2}}{\sum_{i=1}^{n}~ \left( y_{i} - \overline{y} \right)^{2}},
$$

```{note}
 Si se obtienen valores negativos de $R^{2}$, entonces el modelo funciona peor que un modelo que produciría el valor medio.
```

### Modelo de regresión no lineal

Debido a que algunos datos experimentales siguen algún patrón curvo no lineal que no se puede describir utilizando un modelo lineal, una alternativa es utilizar una *función de regresión polinomial* de la forma

$$
 \hat{y}(x) = \beta_{0} + \beta_{1}x + \beta_{2}x^{2} + \cdots + \beta_{s}x^{s}.
$$ (eq:nonlinear-regression)

Si bien la Ec. {eq}`eq:nonlinear-regression` representa una función que puede ser altamente no lineal, si $x$ es dado y además $\hat{y}$ es calculado como una combinación lineal de los coeficientes de regresión $\beta_{0},\beta_{1},\dots,\beta_{s}$. Por lo tanto, todas las funciones de regresión se pueden llevar a la forma

$$
 \hat{y}(x) = \beta_{0} + \beta_{1}f_{1}(x) + \beta_{2}f_{2}(x) + \cdots + + \beta_{s}f_{s}(x).
$$

### Regresión lineal múltiple

Suponga un problema en el que se desea predecir la variable de interés $y$ a partir de diversas variables independientes $x_{1}, x_{2}, \dots, x_{n} \left(n \in \mathbb{N}\right)$

## Métodos de estimación de parámetros.
## Diseño de experimentos para la identificación paramétrica.