# Normas e número de condição

*Créditos: os exemplos deste notebook foram retirados de Campos Filho, Frederico Ferreira, Algoritmos Numéricos 2a. edição, LTC.*

Vimos anteriormente que:
 * Nem sempre é possível representar números de forma exata. Isso pode acontecer mesmo na hora de representar $A$ e $b$, quando se deseja resolver um sistema linear $Ax=b$.
 * Erros de arredondamento podem acontecer durante as operações realizadas por um método de fatoração ou de solução.

Muitos desses sistemas lineares são construídos a partir de medições. Por exemplo: medição da corrente passando por pontos de um circuito, temperatura, umidade, etc. Essas medições normalmente possuem um erro, que pode ser visto como uma perturbação nos valores exatos de $A$ ou $b$. Estas perturbações são uma terceira causa para erros na solução encontrada.

## Como é que perturbações em A e b afetam a solução encontrada?

Considere o exemplo a seguir:

In [38]:
import numpy as np

A = np.array([[1,0.99],[0.99,0.98]])
b = np.array([1.99,1.97])

x = np.linalg.solve(A,b)
print(x)

[1. 1.]


Agora iremos aplicar uma pequena perturbação no vetor $b$ e obter $\tilde{b}$:

In [2]:
b_til = b + np.array([0.,0.01])
np.linalg.solve(A,b_til)

array([100., -99.])

E se aplicarmos uma perturbação à matrix $A$?

In [6]:
A_til = A.copy()
A_til[1,1] += 0.01

np.linalg.solve(A_til,b)

array([ 2.        , -0.01010101])

A solução de $Ax = b$ é muito diferente das soluções de $Ax = \tilde{b}$ e de $\tilde{A}x = b$. Por quê? 

**Nota:** O sistema $Ax=b$ é um exemplo de sistema malcondiconado. Quando o sistema é malcondicionado, o resíduo não é um bom indicador da precisão da solução. Isto porque uma solução precisa ou exata para o sistema incorreto (resíduo pequeno) pode estar muito distante da solução exata para o sistema correto.

**Q**: Será que malcondiconamento a ver com o determinante de $A$?

In [7]:
np.linalg.det(A)

-0.00010000000000000026

**R**: Não. Contra-exemplo:

In [28]:
B = np.array([[1e-3,1e-3],[-1e-3,1e-3]])
np.linalg.det(B)

2.000000000000001e-06

Embora o determinante de $B$ seja pequeno, a matriz é muito bem condicionada. Seu determinante é pequeno porque seus elementos são pequenos.

Na verdade, o malcondicionamento é medido pelo número de condição $\kappa$ (às vezes denotado por $\eta$) de uma matriz, definido por

$$
\kappa(A) = \|A\| \|A^{-1}\|,
$$

onde $\|.\|$ é alguma norma matricial (p. ex.: norma-1, norma-2, norma-infinito, norma de Frobenius).

## Parênteses: normas vetorias e matriciais

**Definição** (Wikipedia): em álgebra linear, *norma* é uma função que associa um comprimento ou tamanho estritamente positivo a cada vetor de um espaço vetorial, exceto ao vetor nulo, para o qual a norma é zero.

**Dica**: as normas vetoriais e matriciais são definidas de forma diferente.

*Material suplementar pode ser encontrado [aqui](http://www.cis.upenn.edu/~cis515/cis515-12-sl4.pdf).*

### Normas vetoriais

Todas as normas vetoriais são variações da norma-p. Para um vetor $v=(v_1,\ldots,v_n)$, ela é definida como

$$
\|v\|_p = \sqrt[p]{\sum_{i=1}^n |v_i|^p}.
$$

As normas vetoriais principais são:
 * Norma-1: $\sum_{i=1}^n |v_i|$
 * Norma-2 (Euclidiana): $\sqrt{\sum_{i=1}^n |v_i|^2}$
 * Norma-$\infty$: ???

### Normas matriciais

Se $\|.\|$ é uma norma vetorial no $\mathbb{R}^n$, definimos a função $\|.\|$ no ${R}^{m \times n}$ por

$$
\|A\| = \max_{x \in \mathbb{R}^n,\,x \neq 0} \frac{\|Ax\|}{\|x\|} = \max_{x \in \mathbb{R}^n} \|Ax\|.
$$

A função $A \mapsto \|A\|$ é chmada de norma matricial subordinada ou operador norma induzido pela norma $\|.\|$.

Usando a definição acima, é possível mostrar que as normas matriciais induzidas pelas normas anteriores são:
* Norma-$\infty$ ou norma de soma máxima de linha:
$\|A\|_\infty = \max_{1 \leq i \leq m} \sum_{j=1}^n |a_{ij}|$
* Norma-1 ou norma de soma máxima de coluna:
$\|A\|_1 = \max_{1 \leq j \leq n} \sum_{i=1}^m |a_{ij}|$
* Norma-2 ou norma espectral:
$\|A\|_2 = \begin{cases}\lambda_\max & \textrm{se } A = A^\top \\
\sigma_\max & \textrm{caso contrário} \end{cases}$, onde
 * $\lambda_\max$ é o maior autovalor de $A$ em módulo
 * $\sigma_\max$ é o maior valor singular de $A$ (que já vimos ser $\sigma_\max = \sqrt{\lambda_\max(A^\top A)}$).
 
Uma outra norma matricial importante é a 
 * Norma de Frobenius:
$\|A\|_F = \sqrt{ \sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^2}$.
Embora ela não seja induzida por nenhuma das normas vetoriais anteriores, ela serve como um limite superior para a Norma-2:
$$
\|A\|_2 \leq \|A\|_F.
$$

## Cálculo do número de condição

O número de condição varia segundo a escolha da norma. Considere e matriz $A = \begin{bmatrix} 1 & 4 \\ 0 & 2 \end{bmatrix}$ cuja inversa é
$A^{-1} = \begin{bmatrix} 1 & -2 \\ 0 & 0.5 \end{bmatrix}$. O número de condição de $A$ é:
* Norma-1: ???
* Norma-infinito: ???
* Norma-2: ???

Note que a Norma-2 pode ser calculada sem que usemos a inversa de $A$:
$$
\kappa_2(A) = \begin{cases}
\frac{\lambda_\max}{\lambda_\min} & \textrm{se $A = A^\top$},\\
\frac{\sigma_\max}{\sigma_\min} & \textrm{se $A \neq A^\top$}.
\end{cases}
$$

O sistema é dito malcondicionado se $\kappa(A) \gg 1$.

## Sensibilidade da solução

O número de condição $\kappa(A)$ nos permite derivar limites superiores para o erro da solução de $Ax = b$:
 * Quando o vetor $b$ é perturbado:
 $$
 \frac{\| \delta x \|}{\| x \|} \leq \kappa(A) \frac{\| \delta b \|}{\| b \|}.
 $$
 * Quando a matriz $A$ é perturbada:
 $$
 \frac{\| \delta x \|}{\| x + \delta x\|} \leq \kappa(A) \frac{\| \delta A \|}{\| A \|}.
 $$

In [31]:
A

array([[1.  , 0.99],
       [0.99, 0.98]])

In [37]:
# nao use lambda como nome de variavel
# palavra reservada usada para funções anônimas

Lambda,V = np.linalg.eig(A)
cond = max(abs(Lambda))/min(abs(Lambda))
cond, np.linalg.cond(A,p=2)

(39205.99997457373, 39205.99997449362)

In [40]:
delta_b = np.array([0,0.01])
x1 = np.linalg.solve(A,b+delta_b)
delta_x1 = x1 - x

In [42]:
LHS = np.linalg.norm(,ord=2)/np.linalg.norm(,ord=2)
RHS = cond * np.linalg.norm(,ord=2)/np.linalg.norm(,ord=2)
LHS,RHS

(99.50125627347623, 39304.62843611766)

In [44]:
delta_A = np.array([[0,0],[0,0.01]])
x2 = np.linalg.solve(A+delta_A,b)
delta_x2 = x2 - x
LHS = np.linalg.norm(delta_x2,ord=2)/np.linalg.norm(x2,ord=2)
RHS = cond * np.linalg.norm(delta_A,ord=2)/np.linalg.norm(A,ord=2)
LHS, RHS

(0.7106779366933601, 198.00505037663498)