In [1]:
import numpy as np # arrays
import matplotlib.pyplot as plt # plots
plt.rcParams.update({'font.size': 14})
import IPython.display as ipd # to play signals
np.set_printoptions(precision=5)

import cvxpy as cp

# Introdução e motivação


Um problema inverso em ciência é o processo de calcular, a partir de um conjunto de observações $\textbf{b}$, os fatores causais que as produziram $\textbf{x}$. No cerne do problema está um modelo, frequentemente expressado por uma matriz $\textbf{A}$, de forma que:

\begin{equation}
\textbf{A} \textbf{x} = \textbf{b}
\end{equation}

A gente tem $\textbf{b}$. Pra chegar a $\textbf{x}$ precisamos achar uma forma sensata de obter $\textbf{A}^{-1}$ - o que nem sempre é fácil.

Problemas desse tipo estão em várias áreas:
- o cálculo de uma imagem em tomografia computorizada
- ultrassonografia para exames médicos
- o cálculo da densidade da Terra a partir de medições do seu campo gravitacional;
- Análise de propriedades do campo acústico

Os problemas inversos são alguns dos problemas matemáticos mais importantes nas ciências e na matemática porque nos informam sobre parâmetros que não podemos observar diretamente.

![probinv_conceito.png](attachment:probinv_conceito.png)


Os problemas inversos, por sua vez, pertencem à classe dos problemas mal postos (**ill-posed**). O termo foi foi cunhado no início do século XX por Hadamard, que trabalhou em problemas de física matemática, e ele acreditava que os problemas mal colocados não modelam problemas do mundo real (ele estava errado). A definição de Hadamard diz que um problema linear é bem colocado (**well-posed**) se satisfizer os três requisitos seguintes:

- **Existência:** O problema deve ter uma solução (única). 
- **Singularidade da solução (uniquiness):** Deve haver apenas uma solução para o problema. 
- **Estabilidade:** A solução deve depender continuamente dos dados.

Se o problema não satisfazer qualquer uma dessas condições ele é dito **ill-posed** - o que é muito frequente quando você quer estimar coisas que não mede diretamente.

Vamos considerar alguns sistemas de equações. 

# Well-posed


\begin{gather}
\begin{bmatrix} 1.00 &3.00 \\ 2.70 & 1.80 \end{bmatrix} \ \textbf{x} = 
\begin{bmatrix} 1.00 \\ 2.20  \end{bmatrix}
\end{gather}

Neste caso, o sistema a matriz $\textbf{A}$ tem uma inversa e o sistema uma solução exata. O erro vai ser pequeno e de natureza numérica. Você pode calcular o resído com a norma $\ell^2$ da diferença entre $\textbf{Ax}$ e $\textbf{b}$:

\begin{equation}
\left\|\textbf{Ax-b}\right\|_{2}
\end{equation}

In [33]:
# Measurement
b = np.array([1, 2.2])

# Model
A = np.array([[1.00, 3.00],[2.70, 1.80]])

# Inverse matrix
Ainv = np.linalg.inv(A)

# Solution
x = Ainv @ b

print("Medição: {}".format(b))
print("Modelo:\n {}".format(A))
print("Inversa:\n {}".format(Ainv))
print("Sol: {}".format(x))
print("Norma da sol: {:.6f}".format(np.linalg.norm(x)))
print("Norma do resíduo: {:.16f}".format(np.linalg.norm(A@x-b)))


Medição: [1.  2.2]
Modelo:
 [[1.  3. ]
 [2.7 1.8]]
Inversa:
 [[-0.28571  0.47619]
 [ 0.42857 -0.15873]]
Sol: [0.7619  0.07937]
Norma da sol: 0.766027
Norma do resíduo: 0.0000000000000004


# E se $\textbf{A}$ for quase-singular?

Uma matrix $\textbf{A}$ é singular quando suas linhas (ou colunas) são linearmente relacionadas. Por exemplo:

\begin{gather}
\begin{bmatrix} 1.00 & 3.00 \\ 1.01 & 2.98 \end{bmatrix} \ \textbf{x} = 
\begin{bmatrix} 1 \\ 2.2  \end{bmatrix}
\end{gather}

Isso significa que é muito difícil achar uma solução estável para o sistema de equações. Note que a matriz inversa tem entradas bastante grandes e que a solução ingênua (**inv**) tem uma norma **muito grande**. Aqui estamos lidando com entes puramente matemáticos, mas muitas vezes uma solução com uma norma muito grande não é fisicamente realista. Por exemplo, você tenta estimar a amplitudes de fontes e elas retornam amplitudes excessivamente grandes.

In [13]:
A[1,:] = A[0,:] + np.array([0.01, -0.02])
# Inverse matrix
Ainv = np.linalg.inv(A)
# Solution
x = Ainv @ b

print("Modelo:\n {}".format(A))
print("Inversa:\n {}".format(Ainv))
print("Sol: {}".format(x))
print("Norma da sol: {}".format(np.linalg.norm(x)))
print("Norma do resíduo: {:.16f}".format(np.linalg.norm(A@x-b)))

Modelo:
 [[1.   3.  ]
 [1.01 2.98]]
Inversa:
 [[-59.6  60. ]
 [ 20.2 -20. ]]
Sol: [ 72.4 -23.8]
Norma da sol: 76.21154768143731
Norma do resíduo: 0.0000000000000027


# E se adicionarmos ruído à medição?

No caso anterior, nós medimos $\textbf{b}$ perfeitamente. Mas isto não é realista. No mundo real, as medições tem ruído e inverteza. Vamos investigar o caso em que

\begin{equation}
\textbf{b}_n = \textbf{b} + \textbf{n}
\end{equation}

em que $\textbf{n}$ tem, geralmente, natureza aleatória. Cada vez que medimos $\textbf{n}$ é diferente. Podemos investigar dois casos. 

- No primeiro, a matriz $\textbf{A}$, que representa nosso modelo de mundo, é bem condicionada

\begin{gather}
\begin{bmatrix} 1.00 &3.00 \\ 2.70 & 1.80 \end{bmatrix} \ \textbf{x} = 
\textbf{b + n}
\end{gather}

- No segundo, a matriz $\textbf{A}$ é mal condicionada

\begin{gather}
\begin{bmatrix} 1.00 & 3.00 \\ 1.01 & 2.98 \end{bmatrix} \ \textbf{x} = 
\textbf{b + n}
\end{gather}

In [51]:
# Model - Caso 1
#A = np.array([[1.00, 3.00],[2.70, 1.80]])

# Model - Caso 2
A = np.array([[1.00, 3.00],[1.01, 2.98]])

# Inverse matrix
Ainv = np.linalg.inv(A)

In [59]:
n = np.random.normal(loc = 0.0, scale = 0.05, size = len(b))
bn = b + n
xn = Ainv @ bn
print("Noise: {}".format(n))
print("True Solution: {}".format(x))
print("Solution of noisy: {}".format(xn))
print("Norma do resíduo: {:.16f}".format(np.linalg.norm(A@xn-b)))
print("Erro absoluto: {}".format(np.abs(x-xn)))

Noise: [-0.06525 -0.09706]
True Solution: [0.7619  0.07937]
Solution of noisy: [ 70.4652  -23.17682]
Norma do resíduo: 0.1169595992109533
Erro absoluto: [69.7033  23.25618]


# 1. Existência

É fácil formular problemas que não tem uma solução.

\begin{gather}
\begin{bmatrix} 1 \\ 2 \end{bmatrix} \ x
 =
  \begin{bmatrix}
   1 \\
   2.2 
   \end{bmatrix}
\end{gather}

Este problema tem **quantas equções** e **quantas incógnitas**?

- $x = 1$ ?

- $2x = 2.2, \ \ \ x = 1.1$ ?

### Uma solução é estimar uma solução com mínimos quadrados:

\begin{equation}
\tilde{x} = \text{min}(\left\|\textbf{Ax-b}\right\|^{2}_{2})
\end{equation}

em que estamos minimizando a norma $\ell_2$ do quadrado de uma diferença entre o que o modelo prediz, $\textbf{Ax}$, e o que medimos, $\textbf{b}$, (**Resíduo**). Tal solução é equivalente ao seguinte (para o caso acima):

\begin{equation}
\frac{d(\left\|\textbf{Ax-b}\right\|^{2}_{2})}{dx} = 0
\end{equation}

\begin{equation}
\tilde{x}=\frac{a_{11} b_1 + a_{21} b_2}{a_{11}^{2}+a_{21}^{2}}
\end{equation}

Mas isso não é muito interessante, já que o problema tem uma dimensionalidade bem pequena. Podemos ser mais generalistas.

Seja $\textbf{A}$ uma matrix $M \times L$, e $\textbf{b}$ um vetor $M \times 1$, de forma que $\textbf{x}$ é $L \times 1$. Multiplicamos os dois lados da equação $\textbf{A x} = \textbf{b}$ por $\textbf{A}^{T}$ (pela esquerda). Assim:

\begin{equation}
\textbf{A}^T\textbf{A x} = \textbf{A}^T\textbf{b}
\end{equation}

O que significa que podemos achar uma aproximação para $\textbf{x}$ como

\begin{equation}
\tilde{x} = (\textbf{A}^T\textbf{A})^{-1}\textbf{A}^T\textbf{b}
\end{equation}

desde que $(\textbf{A}^T\textbf{A})^{-1}$ exista.

In [60]:
# Measurement
b = np.array([1.0, 2.2])

# noise
n = np.random.normal(loc = 0.0, scale = 0.1, size = len(b))
b = b + n

# Model
A = np.array([[1],[2]])

# Solution 1

x1 = (np.linalg.inv(A.T @ A)) @ A.T @ b

# Solution 2

x2 = (A[0,0]*b[0] + A[1,0]*b[1]) / (A[0,0]**2 + A[1,0]**2)


# Solution 2
x3, residuals, rank , sigmas = np.linalg.lstsq(A, b, rcond = None)

print("Medição: {}".format(b))
print("Modelo:\n {}".format(A))
print("Sol 1: {0:.5f}".format(x1[0]))
print("Sol 2: {0:.5f}".format(x2))
print("Sol 3: {0:.5f}".format(x3[0]))
print("Rank of A: {}".format(rank))

Medição: [0.86692 2.1495 ]
Modelo:
 [[1]
 [2]]
Sol 1: 1.03319
Sol 2: 1.03319
Sol 2: 1.03319
Rank of A: 1


# Over-determined vs. Under-determined

Nos problemas vistos anteriormente tinhamos mais equações que incógnitas. Neste caso se $\textbf{A}$ é $M \times L$, com $M > L$ temos, em geral, um sistema super-determinado (**over-determined**). Apenas atente se as linhas (ou colunas) de $\textbf{A}$ são linearmente independentes.

In [61]:
A = np.array([[1.0, 3.0],[2.7, 1.8]])
rank1 = np.linalg.matrix_rank(A)

#A[1,:] = 5.3*A[0,:] # linha linearmente relacionada
A[:,1] = 5.3*A[:,0] # coluna linearmente relacionada
rank2 = np.linalg.matrix_rank(A)

print("Shape de A: {}".format(A.shape))
print("Rank 1: {}".format(rank1))
print("Rank 2: {}".format(rank2))

Shape de A: (2, 2)
Rank 1: 2
Rank 2: 1


Sistemas Sub-determinados **(under-determined)** são aqueles em que temos menos equações que incónitas. Note, por exemplo, que quando fizemos a linha 2 (ou coluna 2) de $\textbf{A}$ linearmente dependente da linha 1 (ou coluna 1) que o $\text{rank}(A) = 1$. Essencialmente, ao invés de 2 equações e 2 incógnitas, temos agora 1 equação e 2 incógnitas. Nestes casos há infinitas soluções para o sistema de equações.

# 1. Singularidade da solução

Nós podemos impor alguma outra condição para a solução. Por exemplo, considere o problema

\begin{equation}
x_1 + x_2 = 1 
\end{equation}

ou de forma matricial

\begin{gather}
\begin{bmatrix} 1.0 &  1.0 \end{bmatrix} \ \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}
 =
  1.0
\end{gather}

Como reformular o problema de maneira sensata? Vamos pensar no seguinte:

\begin{equation}
\text{min}(\left\|\textbf{x}\right\|^{2}_{2}), \ \ \, \text{subjected to} \ \ \ \textbf{Ax -  b} = 0
\end{equation}

Conseguimos montar o problema linear usando o multiplicador de Lagrange, que funciona da seguinte forma:

\begin{equation}
\text{min}(f(\textbf{x})), \ \ \, \text{subjected to} \ \ \ g(\textbf{x}) = 0
\end{equation}

A função de Lagrange é

\begin{equation}
\mathcal{L}(\textbf{x}, \lambda) = f(\textbf{x}) + \lambda g(\textbf{x})
\end{equation}

Precisamos encontrar:

\begin{equation}
\frac{\partial \mathcal{L}(\textbf{x}, \lambda)}{\partial x_1} = 0, \ \ \ \frac{\partial \mathcal{L}(\textbf{x}, \lambda)}{\partial x_2} = 0, \ \ \ \frac{\partial \mathcal{L}(\textbf{x}, \lambda)}{\partial \lambda} = 0 
\end{equation}


\begin{equation}
    \begin{cases}
      \frac{\partial \mathcal{L}(\textbf{x}, \lambda)}{\partial \lambda} = g(\textbf{x}) = 0  \\
      \frac{\partial f(\textbf{x})}{\partial x_1} + \lambda \frac{\partial g(\textbf{x})}{\partial x_1} = 0  \\
      \frac{\partial f(\textbf{x})}{\partial x_2} + \lambda \frac{\partial g(\textbf{x})}{\partial x_2} = 0
    \end{cases}\
\end{equation}

No nosso exemplo $f(\textbf{x}) = \left\|\textbf{x}\right\|^{2}_{2} = \sqrt{x_{1}^{2}+x_{2}^{2}}$, com $\frac{\partial f(\textbf{x})}{\partial x_1} = \frac{x_1}{\sqrt{x_{1}^{2}+x_{2}^{2}}}$ e $\frac{\partial f(\textbf{x})}{\partial x_2} = \frac{x_2}{\sqrt{x_{1}^{2}+x_{2}^{2}}}$.

Já  $g(\textbf{x}) = \textbf{Ax -  b} = x_1 + x_2 - 1$, com $\frac{\partial g(\textbf{x})}{\partial x_1} =\frac{\partial g(\textbf{x})}{\partial x_2} = 1$.

Assim, de um sistema com 1 equação e duas incógnitas, fomos para um sistema com 3 incógnitas $(x_1, x_2, \lambda)$ e 3 equações, a saber:

\begin{equation}
    \begin{cases}
      x_1 + x_2 -1 = 0  \ \ \ \ \ \ \ \ \ \ \ \ \ (1)\\
      \frac{x_1}{\sqrt{x_{1}^{2}+x_{2}^{2}}} + 1.0 \ \lambda = 0 \ \ \ \ \ \ (2) \\
      \frac{x_2}{\sqrt{x_{1}^{2}+x_{2}^{2}}} + 1.0 \ \lambda = 0 \ \ \ \ \ \ (3)
    \end{cases}\
\end{equation}

Fazendo (2) - (3): $x_1 = x_2$ (4). Colocando (4) em (1) vemos que $2 x_1 - 1 = 0$, $x_1 = x_2 = 1/2$.

Com um problema tão pequeno, é fácil montar o problema na mão e resolver. Mas vamos usar o **cvxpy** para montar e resolver o problema computacionalmente.

In [62]:
# Model
A = np.array([1.0, 1.0])

# Measurement
b = 1.0

# Create variable to be solved for.
x = cp.Variable(shape = 2)

# Create constraint.
constraints = [A@x - b == 0]

# Form objective.
obj = cp.Minimize(cp.norm(x, 2))

# Form and solve problem.
prob = cp.Problem(obj, constraints)
prob.solve();

print("Sol: {}".format(x.value))

Sol: [0.5 0.5]


# 3. Estabilidade da solução

A condição de estabilidade é muito mais difícil de "lidar" porque uma violação implica que perturbações arbitrariamente pequenas **nos dados medidos** podem produzir **perturbações arbitrariamente grandes na solução**. Pelo menos, isto é verdade para problemas de dimensão infinita; para problemas de dimensão finita, a perturbação é sempre finita, mas isto é irrelevante se a perturbação da solução for, digamos, da ordem de $10^{12}$.

Mais uma vez, a chave é reformular o problema de modo a que a nova solução seja menos sensível às perturbações. Dizemos que estabilizamos ou **regularizamos** o problema, de modo a que a solução se torne mais estável e regular. 

Talvez impor uma restrição do tipo $\left\|\textbf{Ax -  b}\right\|^{2}_{2} = 0$ não seja realista. Podemos pensar no seguinte. Toda medição vai ter uma contaminação por ruído, de forma que:

\begin{equation}
\textbf{A x} = \textbf{b} + \textbf{n} 
\end{equation}

assim, podemos pensar que a norma $\ell_2$ do resíduo, $\left\|\textbf{Ax -  b}\right\|^{2}_{2} \leq \left\|\textbf{n}\right\|^{2}_{2}$, estará limitado ao ruído, e escrever:

\begin{equation}
\text{min}(\left\|\textbf{x}\right\|^{2}_{2}), \ \ \, \text{subjected to} \ \ \ \left\|\textbf{Ax -  b}\right\|^{2}_{2} \leq \left\|\textbf{n}\right\|^{2}_{2}
\end{equation}

de forma que o resíduo entre modelo e medição seja menor que o ruído presente na medição.

In [70]:
# Model
A = np.array([1.0, 1.0])

# Measurement
b = 1.0
n = np.random.normal(loc = 0.0, scale = 0.05, size = 1)
bn = b + n

# Create variable to be solved for.
x = cp.Variable(shape = 2)

# Create constraint.
constraints = [cp.norm(A@x - b, 2) <= cp.norm(n,2)]

# Form objective.
obj = cp.Minimize(cp.norm(x, 2))

# Form and solve problem.
prob = cp.Problem(obj, constraints)
prob.solve();

print("SNR: {}".format(-10*np.log10(np.abs(n)**2/np.abs(b)**2)))
print("Sol: {}".format(x.value))

SNR: [22.11582]
Sol: [0.46081 0.46081]


### Vamos considerar mais um exemplo com "3 equações" e 2 incógnitas:

\begin{gather}
\begin{bmatrix} 0.16 & 0.10 \\ 0.17 & 0.11 \\ 2.02 & 1.29 \end{bmatrix} \ \textbf{x} = 
\begin{bmatrix} 0.26 \\ 0.28 \\ 3.31 \end{bmatrix} + \textbf{n}
\end{gather}

Neste caso 

\begin{gather}
\textbf{x}_{\text{exact}} =  
\begin{bmatrix} 1.00 \\ 1.00 \end{bmatrix}
\end{gather}

In [110]:
A = np.array([[0.16, 0.10],[0.17, 0.11],[2.02, 1.29]])
x_exact = np.array([1, 1]).T 
b_exact = A @ x_exact

print("Modelo:\n {}".format(A))
print("Medição exata (s/ ruído):\n {}".format(b_exact))
print("Sol exata: {}".format(x_exact))
print("Norma da sol.: {:.2f}".format(np.linalg.norm(x_exact)))

Modelo:
 [[0.16 0.1 ]
 [0.17 0.11]
 [2.02 1.29]]
Medição exata (s/ ruído):
 [0.26 0.28 3.31]
Sol exata: [1 1]
Norma da sol.: 1.41


### Agora, adicionamos ruído e notamos que a solução por mínimos quadrados não é estável.

Isto está ligado ao fato de que a matriz $\textbf{A}$ é mal-condicionada.

In [107]:
n = np.random.normal(loc = 0.0, scale = 0.01, size = len(b_exact))
bn = b_exact + n

# Solution 2
x_est, residuals, rank , sigmas = np.linalg.lstsq(A, bn, rcond = None)

print("Medição (c/ ruído):\n {}".format(bn))
print("Sol. estimada: {}".format(x_est))
print("Norma da sol.: {:.2f}".format(np.linalg.norm(x_est)))
print("Erro: {}".format(x_est-x_exact))
print("Rank of A: {}".format(rank))

Medição (c/ ruído):
 [0.24903 0.29592 3.29981]
Sol. estimada: [-3.34547  7.79737]
Norma da sol.: 8.48
Erro: [-4.34547  6.79737]
Rank of A: 2


### Vamos reformular o problema para

\begin{equation}
\text{min}(\left\|\textbf{x}\right\|^{2}_{2}), \ \ \, \text{subjected to} \ \ \ \left\|\textbf{Ax -  b}\right\|^{2}_{2} \leq \left\|\textbf{n}\right\|^{2}_{2}
\end{equation}

In [119]:
n = np.random.normal(loc = 0.0, scale = 0.001, size = len(b_exact))
bn = b_exact + n

# Create variable to be solved for.
x_est = cp.Variable(shape = 2)

# Create constraint.
constraints = [cp.norm(A @ x_est - bn, 2) <= cp.norm(n,2)]

# Form objective.
obj = cp.Minimize(cp.norm(x_est, 2))

# Form and solve problem.
prob = cp.Problem(obj, constraints)
prob.solve();

print("Sol: {}".format(x_est.value))
print("Norma da sol.: {:.2f}".format(np.linalg.norm(x_est.value)))
print("Erro: {}".format(x_est.value-x_exact))


Sol: [1.05938 0.90681]
Norma da sol.: 1.39
Erro: [ 0.05938 -0.09319]
