![CC-BY-SA](https://mirrors.creativecommons.org/presskit/buttons/88x31/svg/by-sa.svg)


This notebook was created by [Bernardo Freitas Paulo da Costa](http://www.im.ufrj.br/bernardofpc),
and is licensed under Creative Commons BY-SA.

Antes de enviar este Teste, verifique que tudo está funcionando como esperado.
Por exemplo, **rode o código inteiro, do zero**.
Para isso, vá no menu, escolha _Kernel_, depois _Restart & Run All_.

Verifique, também, que você respondeu todas as questões:
* as questões de código têm `YOUR CODE HERE` (e você pode apagar o `raise NotImplemented` ao incluir sua resposta)
* as questões discursivas têm "YOUR ANSWER HERE".

---

In [1]:
import numpy as np
import matplotlib.pyplot as plt

# Parte 1: Cálculo vetorial

## Questão 1: Derivadas direcionais

As derivadas direcionais são obtidas por um limite um pouco mais complicado:

$$ \frac{\partial f}{\partial v}(x)= \lim_{h\to0} \frac{f(x+hv) - f(x)}{h}. $$

(às vezes, também se escreve $\nabla_v f(x)$ ou $f'_v(x)$ para a derivada direcional.)

Generalize a função `df` para que ela calcule derivadas direcionais.

In [2]:
def df(f,x,v,h=1e-8):
    return (f(x+h*v) - f(x))/h

### Algumas funções vetoriais

In [3]:
def norm1(x):
    return np.sum(np.abs(x))
def norm2(x):
    return np.sum(x**2)
def estranha(x):
    x1,x2 = x
    return np.cos(x1) + 2*np.sin(x2/2)

#### Testes simples

In [4]:
df(norm2, np.array([3,4]), np.array([0,2]))

15.999999902760464

In [5]:
assert np.isclose(df(norm2, np.array([3,4]), np.array([0,2])), 16)
assert np.isclose(df(norm2, np.array([3,4]), np.array([1,-1])), -2)

In [6]:
assert np.isclose(df(estranha, np.array([1,2]), np.array([2,1])), -1.1426397161784507)
assert np.isclose(df(estranha, np.array([1,2]), np.array([2,1]), h=1e-3), -1.1426397161784507, rtol=2e-3)

In [7]:
assert np.isclose(df(norm1, np.array([3,3]), np.array([0,2])), 2)
assert np.isclose(df(norm1, np.array([3,3]), np.array([1,-1])), 0)

#### Testando propriedades

In [8]:
assert np.isclose(df(norm2, np.array([0,3]), np.array([1,0])), 
                  -df(norm2, np.array([0,3]), np.array([-1,0])))

assert np.isclose(df(norm1, np.array([0,3]), np.array([1,0])), 
                  df(norm1, np.array([0,3]), np.array([-1,0])))

**Pergunta:** Como interpretar (em Cálculo) estas duas últimas igualdades?  Porque a segunda não tem um sinal de menos?

As duas ultimas igualdades, representam que dentro da norma 2, a derivada direcional no ponto $[0,3]$ vai resultar em sentidos de crescimento ou decrescimento opostos ao analisar as direções (tambem opostas) dadas pelos vetores $[1,0]$ e $[-1,0]$ . Enquanto para a análise da norma 1, essas direções opostas dadas pelos vetores, vai resultar em uma derivada direcional com mesmo sentido de crescimento ou decrescimento.

Na segunda igualdade não existe um sinal de menos, ou seja, a derivada direcional (crescimento e decrescimento no eixo das abcissas dado pelos vetores de direção) nesse ponto $[0,3]$ tem o mesmo valor. Como temos uma função de módulo, e sua derivada pode ser dada por $f'(x) = \frac{|x|}{x} $, nos valores onde sua coordenada é 0, como no eixo das abcissas, temos uma indeterminação (divisao por 0), e portanto a derivada direcional é a mesma, já que estamos analisando os sentidos do eixo das abcissas e no ponto de analise, a coordenada deste eixo se encontra zerada. 

## Questão 2: Gradientes

Vamos usar a nova função `df` para calcular [gradientes](https://pt.wikipedia.org/wiki/Gradiente) e outros objetos do cálculo vetorial.

Usando a função `len` (para descobrir a dimensão!), implemente `grad(f,x,delta)`,
onde cada derivada parcial é calculada com um passo de tamanho $\delta$.

In [9]:
def grad(f,x,delta=1e-8):
  dim = len(x)
  g = []

  for i in range(dim):
    v = np.zeros(dim)
    v[i] = 1
    #g = np.vstack([g, df(f, x, v , delta )])
    g.append(df(f, x, v , delta ))
  return np.array(g)

In [10]:
p = np.array([3,4])
assert np.allclose(grad(norm2, p, delta=1e-5), 2*p, rtol=1e-5)

In [11]:
assert np.allclose(grad(norm1, np.array([3,4])), [1,1])
assert np.allclose(grad(norm1, np.array([3,-4])), [1,-1])

In [12]:
ans = [-0.14112000805986724, -0.41614683654714246]
assert np.allclose(grad(estranha, np.array([3,4]), 1e-8), ans)

## Questão 3: Funções vetoriais

Agora, vejamos o que acontece quando a função $f$ vai de $R^n$ em $R^m$.
Supondo que a função (programada) `f` receba um vetor (de dimensão $n$) e retorne um vetor (de dimensão $m$),
dê a fórmula da $j$-ésima coordenada do vetor `df(f,x,v,h)`,
onde `df` é a sua função da questão 1.

**Sugestão:** use $f(p)[j]$ para a $j$-ésima coordenada do vetor `f(p)`.

Da questão 1, temos que:

$$ df(f,x,v,h) = \lim_{h\to0} \frac{f(x+hv) - f(x)}{h}. $$




Supondo agora, que a função programada receba um vetor como parametro de entrada, temos que nossa função $df$ também será um vetor. Desse modo, a $j$-ésima coordenada do vetor $df(f,x,v,h)$, será dada por: 

$$ df(f,x,v,h)[j] = \lim_{h\to 0} \frac{f(x+hv)[j] - f(x)[j]}{h}$$



### Mais funções vetoriais

In [13]:
def curva1(t):
    return np.array([np.cos(t), np.sin(t), t])

def superficie1(t):
    u,v = t
    return np.array([u*np.exp(v-u), v*np.cos(u+v), np.sin(v)])

In [14]:
assert np.allclose(df(superficie1, np.array([0,0]), np.array([1,2])), [1,2,2])

In [15]:
ans = [-0.9092974268256819, -0.41614683654714246, 1.0]
assert np.allclose(df(curva1, 2, 1, 1e-5), ans, rtol=2e-5)

## Questão 4: Ordem dos eixos

A sua função `grad` deveria retornar um `np.array`, e para a função `superficie1`,
de $R^2$ em $R^3$, isso deve dar a matriz com todas as derivadas parciais.

In [16]:
grad(superficie1, np.array([1,2]), delta=1e-5)

array([[-1.35913059e-05, -2.82230116e-01,  0.00000000e+00],
       [ 2.71829542e+00, -1.27222402e+00, -4.16151383e-01]])

Observando o resultado acima, o que você pode dizer sobre as linhas e colunas da matriz gradiente?
Elas coincidem com a ordem típica da matriz Jacobiana do cálculo 2?

Não coincide com a ordem típica da matriz jacobiana, pois a jacobiana dessa função está representada em uma matriz 3x2, enquanto a matriz é 2x3. Desse modo, podemos reparar que o retorno da função grad() na verdade é a matriz jacobiana transposta. 

## Questão 5: Divergente

Adapte o cálculo do gradiente para obter o divergente de uma função vetorial de $R^n$ em $R^n$:

$$ \text{div} F(x) = \sum \frac{\partial F_i}{\partial x_i}(x). $$

In [17]:
def div(f,x,delta=1e-8):
  g = grad(f,x,delta)
  dim = len(g)
  id = np.identity(dim, dtype=float)
  g = g* id
  soma = np.sum(g)
  return soma

In [18]:
def polar(p):
    rho,theta = p
    return rho*np.array([np.cos(theta), np.sin(theta)])

def gravity(p):
    return -p/sum(p**2)

In [19]:
assert np.isclose(div(polar, np.array([1,0]), delta=1e-3), 2, rtol=1e-3)

In [20]:
gpolar = grad(polar, np.array([1,0]), delta=1e-3)

assert np.allclose(gpolar, np.eye(2), rtol=1e-3, atol=1e-3)
assert np.sum(np.abs(gpolar - np.eye(2))) > 1e-4

In [21]:
assert np.isclose(div(gravity, np.array([1,2,1]), delta=1e-6), -1/6, rtol=1e-6)

In [22]:
assert np.isclose(div(gravity, np.array([1,1,1,1,1])), -0.6, rtol=1e-8)

# Parte 2: Mais precisão

Se, em vez de usarmos derivadas laterais, usarmos derivadas centrais,
deveríamos obter mais precisão na resposta.

## Questão 6: Derivadas centrais

Modifique as funções `grad` e `div` para serem simétricas:

In [23]:
def df_sym(f,x,v,h):
  return (f(x+v*h) - f(x-v*h))/(2*h)

def grad_sym(f,x,delta=1e-5):
  dim = len(x)
  g = []

  for i in range(dim):
    v = np.zeros(dim)
    v[i] = 1
    g.append(df_sym(f, x, v , delta ))
  return np.array(g)

def div_sym(f,x,delta=1e-5):
  g = grad_sym(f,x,delta)
  dim = len(g)
  id = np.identity(dim, dtype=float)
  g = g* id
  soma = np.sum(g)
  return soma

In [24]:
gpolar = grad_sym(polar, np.array([1,0]), delta=1e-3)

assert np.allclose(gpolar, np.eye(2), rtol=1e-6, atol=1e-6)
assert np.sum(np.abs(gpolar - np.eye(2))) > 1e-8

In [25]:
assert np.isclose(div_sym(gravity, np.array([1,2,1])), -1/6, atol=1e-10, rtol=1e-10)

## Questão 7: A derivada é linear

Sabemos que, se a função $F : R^n \to R^m$ for derivável,
então podemos calcular derivadas direcionais usando a matriz jacobiana $DF(x)$:
$$
  \frac{\partial F}{\partial v}(x) = DF(x) \cdot v.
$$

In [26]:
x = np.array([1,2])
vs = [np.array([1,3]), np.array([3,1]), np.array([1,1]), np.array([1,-1])]

for v in vs:
    DF_norm2 = grad(norm2, x, delta=1e-3)
    parcial  = df(norm2, x, v, h=1e-3)
    print(DF_norm2 @ v - parcial)

-0.006000000001726846
-0.005999999999950489
0.0
-0.002000000000279556


Porquê aparece este erro?

O erro aparece porque para cada elemento da matriz, é feito o calculo de df (derivada direcional) com base em algum eixo cartesiano, cálculo que leva algum erro, justamente por conta dos termos que sobram da expansão de taylor da derivada lateral. 

Assim, ao fazer df para cada direção, estaremos repetindo esse erro em cada elemento do gradiente calculado, ou seja, para cada elemento da matriz retornada pela funcao grad(). 



Expanda em série de Taylor a fórmula da derivada lateral e a fórmula do "gradiente lateral",
e encontre uma expressão para o erro entre
1. a derivada lateral; e
2. a matriz jacobiana vezes o vetor diretor.

Nossa fórmula é:
$$ \frac{\partial f}{\partial v}(x)= \lim_{h\to0} \frac{f(x+hv) - f(x)}{h} $$


$$ df(x, h) = \frac{f(x+hv) - f(x)}{h} $$


expandido em série de Taylor, temos:

$$ f(x+h) = f(x)+ f'(x) \cdot h + \frac{f''(x)\cdot h^{2}}{2} + O(h^3) ...$$

Logo, 


$$ df(x, h) = \frac{f(x+h) - f(x)}{h} = \frac{f(x)+ f'(x) \cdot h + \frac{f''(x)\cdot h^{2}}{2} + O(h^3) -f(x)}{h} $$



$$ df(x, h) =  \frac{ f'(x) \cdot h + \frac{f''(x)\cdot h^{2}}{2} + O(h^3)}{h} $$


$$ df(x, h) =   f'(x)+ \frac{f''(x)\cdot h}{2} + O(h^2) $$

Como estamos realmente interessados na derivada, temos que o erro será dado pela seguinte parte da expanssão de Taylor:


$$ \epsilon_x = \frac{f''(x)\cdot h}{2} + O(h^2) $$ 


Desse modo, para cada elemento da matriz jacobiana retornada pela funcao grad, temos esse erro. 



## Questão 8: melhorando a linearidade?

Agora, vejamos o que acontece com derivadas simétricas:

In [27]:
for v in vs:
    DF_norm2 = grad_sym(norm2, x, delta=1e-3)
    parcial  = df_sym(norm2, x, v, h=1e-3)
    print(DF_norm2 @ v - parcial)

print()
for v in vs:
    DF_norm2 = grad_sym(estranha, x, delta=1e-3)
    parcial  = df_sym(estranha, x, v, h=1e-3)
    print(DF_norm2 @ v - parcial)

-1.7763568394002505e-12
-4.440892098500626e-13
0.0
0.0

5.403024694317082e-07
-3.3658822395921106e-06
0.0
-2.220446049250313e-13


O erro é menor, mas não apenas.
O que acontece de especial no caso da norma 2?

Dica: expanda a série de Taylor para ver qual o erro da derivada central.

Nossa fórmula é:
$$ \frac{\partial f}{\partial v}(x)= \lim_{h\to0} \frac{f(x+hv) - f(x-hv)}{2h} $$


$$ df(x, h) = \frac{f(x+h) - f(x-h)}{2h} $$


expandido esses termos em série de Taylor, temos que:

$$ f(x+h) = f(x)+ f'(x) \cdot h + \frac{f''(x)\cdot h^{2}}{2} + \frac{f'''(x)\cdot h^{3}}{6}  + O(h^4) ...$$



$$ f(x -h) = f(x) - f'(x) \cdot h + \frac{f''(x)\cdot h^{2}}{2} - \frac{f'''(x)\cdot h^{3}}{6}  + O(h^4) ...$$
Logo, 


$$ df(x, h) = \frac{f(x+h) - f(x-h)}{2h} = \frac{(f(x)+ f'(x) \cdot h + \frac{f''(x)\cdot h^{2}}{2} + \frac{f'''(x)\cdot h^{3}}{6}  + O(h^4)) - (f(x) - f'(x) \cdot h + \frac{f''(x)\cdot h^{2}}{2} - \frac{f'''(x)\cdot h^{3}}{6}  + O(h^4))}{2h} $$



$$ df(x, h) = \frac{f(x)+ f'(x) \cdot h + \frac{f''(x)\cdot h^{2}}{2} + \frac{f'''(x)\cdot h^{3}}{6}  + O(h^4) - f(x) + f'(x) \cdot h - \frac{f''(x)\cdot h^{2}}{2} + \frac{f'''(x)\cdot h^{3}}{6}  - O(h^4)}{2h} $$

Cortando os termos possiveis:


$$ df(x, h) = \frac{ 2 \cdot( f'(x) \cdot h + \frac{f'''(x)\cdot h^{3}}{6}) }{2h} $$



$$ df(x, h) = \frac{ f'(x) \cdot h + \frac{f'''(x)\cdot h^{3}}{6} }{h} $$

$obs:$ ainda existe a parte da expressao $O(h^5)$ que não é cortada, logo:


$$ df(x, h) = \frac{ f'(x) \cdot h + \frac{f'''(x)\cdot h^{3}}{6} + O(h^5)}{h}  $$

$$ df(x, h) = f'(x) + \frac{f'''(x)\cdot h^{2}}{6} + O(h^4)$$ 

Como estamos realmente interessados na derivada, temos que o erro da derivada central será dado pela seguinte parte da expansão de Taylor:


$$ \epsilon_x = \frac{f'''(x)\cdot h^{2}}{6} + O(h^4)$$ 


Sendo assim, podemos verificar, que pela expansao de Taylor da derivada central, o erro predominante depende do tamanho de $h$ e da terceira derivada da função:  $f'''(x)$. Logo, em especial na norma 2, temos que a terceira derivada dessa funcao quadrática, será $0$ para cada dimensão do vetor. Enquanto na função estranha, temos alguma função trigonométrica, como a soma entre senos e cossenos, função que tem um valor maximo pré-definido maior que $0$. 

Por esse motivo, temos que o erro na derivada central da função da norma 2 é tão pequeno, por conta das parcelas da expansao de taylor, que na derivada central, concentra o erro na parcela predominante da terceira derivada, enquanto a expansao de Taylor da derivada central, tem um erro aproximado pela parcela da segunda derivada. Vale lembrar que o erro da expansao de taylor, ainda leva em conta um erro $O(h^2)$ para derivada lateral e $O(h^4)$ para derivada central, que representam os termos nao expandidos da serie de taylor. 