# Estudaremos nessa aula:
- Conceitos básicos de  Cálculo para *Machine Learning*

- Material de suporte, baseado em: [Book: Dive into Deep Learning](http://d2l.ai/chapter_preliminaries/ndarray.html)
- [Youtube vídeo sobre Cálculo](https://youtu.be/WUvTyaaNkzM)
- Conhece a biblioteca [Matplotlib](https://matplotlib.org/)
- Regra da cadeia [youtube](https://youtu.be/p9xjPa1EVrw)


Em ***Machine Learning***, treinamos modelos, atualizando-os sucessivamente para que eles fiquem cada vez melhores à medida que são inseridos mais e mais dados.
Geralmente, melhorar a acurácia de uma rede neural, significa minimizar uma função de perda (*loss function*), que responde à pergunta "quão ruim seria este modelo?".
Por fim, o que realmente interessa é produzir um modelo com um bom desempenho para dados que nunca foram apresentados ao modelo durante o treinamento. 

Assim, a tarefa de ajustar (*fitting*) os modelos possuem duas preocupações principais: i) otimização: o processo de ajustar o modelos aos dados apresentados; ii) generalização: a capacidade de produzir modelos cuja validade se estende além do conjunto de dados (*dataset*) utilizados para treiná-los.


In [None]:
#importanto bibliotecas
import numpy as np
import matplotlib.pyplot as plt

# Derivadas e Diferenciação

O cálculo de derivadas é essencial para quase todos os algoritmos de otimização no *machine learning*, incluindo sua utilização em *loss functions*, que são diferenciáveis em relaçao aos parâmetros do nosso modelo.

Considerando a seguinte função: $f: \mathbb{R} \rightarrow \mathbb{R}$,
na qual a entrada e saída são escalares, a derivada de $f$ é definida como:

$$f'(x) = \lim_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h},$$

:eqlabel:`eq_derivada`

Se o limite $f'(x)$ existe, é dito que $f$ é diferenciável em $x$. Podemos interpretar a derivada $f'(x)$ in :eqref:`eq_derivada` como a taxa de variação instantânea (*instantaneous rate*) de $f(x)$ em relação a $x$. Essa taxa de variação é baseada na variação $h$ em $x$, se aproximando de $0$.

Por exemplo:
$u = f(x) = 3x^2-4x$.

In [None]:
#função para cauclular f(x)
 
def f(x):
  return 3*x**2-4*x

print(f(1))

-1


Definindo $x=1$ e permitindo que $h$ se aproxime de $0$, o resultado numérico de $\frac{f(x+h) - f(x)}{h}$ em :eq:`eq_derivada` se apxoxima de $2$.
Da mesma forma, veremos que a derivada $u'$ é $2$ quando $x=1$.

In [None]:
#função para calcular a derivada

def derivada(x,h):
  return (f(x+h) - f(x))/h

(f(1.1)-f(1))/0.1
#estrutura de repetição para calcular a derivada
h=0.1
x=1

for i in range(30):
  print('h=%.10f x=%d limit=%.10f' % (h, x, derivada(x,h)))
  h*=0.1

Segue algumas notações úteis para os estudos sobre diferenciação.
Dado $y = f(x)$, temos $x$ and $y$ como variáveis independentes, e dependentes da função $f$, respectivamente. As seguintes expressões são equivalentes:

$$f'(x) = y' = \frac{dy}{dx} = \frac{df}{dx} = \frac{d}{dx} f(x) = Df(x) = D_x f(x),$$

onde os símbolos $\frac{d}{dx}$ e $D$ são operadores diferencias utilizados para o cálculo das derivadas. Algumas regras de diferenciação podem ser facilmente aplicadas em funções comuns:

* $DC = 0$ ($C$ é uma constante),
* $Dx^n = nx^{n-1}$ (regra da potência, $n$ é um número real),
* $De^x = e^x$,
* $D\ln(x) = 1/x.$

Para o cálculo de derivadas em funções simples, algumas regras poder ser aplicadas.
Suponha que a $f$ e $g$ são ambas diferenciáveis e $C$ é uma constante, temos:

a regra da *constante*

$$\frac{d}{dx} [Cf(x)] = C \frac{d}{dx} f(x),$$

a regar da *soma*

$$\frac{d}{dx} [f(x) + g(x)] = \frac{d}{dx} f(x) + \frac{d}{dx} g(x),$$

a regra do *produto*

$$\frac{d}{dx} [f(x)g(x)] = f(x) \frac{d}{dx} [g(x)] + g(x) \frac{d}{dx} [f(x)],$$

e a regra do *quociente*

$$\frac{d}{dx} \left[\frac{f(x)}{g(x)}\right] = \frac{g(x) \frac{d}{dx} [f(x)] - f(x) \frac{d}{dx} [g(x)]}{[g(x)]^2}.$$


Pode-se aplicar algumas dessas regras para se calcular a derivada de uma função, por exemplo, para $u' = f'(x) = 3 \frac{d}{dx} x^2-4\frac{d}{dx}x = 6x-4$, considerando $x = 1$, tem-se $u' = 2$. Esta derivada também é chamada de *slope* da reta tangente à curva $u = f(x)$ when $x = 1$.

(Exercício)

Utilizando o *matplotlib*, escreva um programa que permita visualizar(plotar) a função original $f(x)= 3x^2 - 4x$ e sua derivada (reta tangente), em um dado ponto, veja a figura exemplo do professor.

Obs: Se possível, realizar update dinânico do gráfico, permitindo a visalização em tempo real. 


In [None]:
# Definindo a função principal quadrática
def f(x):
  return 3*x**2-4*x

# Definindo sua derivada
def slope(x): 
  return 6*x-4

def derivada(x,h):
  return (f(x+h) - f(x))/h

# Definindo o dados para o eixo x
x = np.linspace(-10,10,1000)

# Escolhendo os pontops para plotar a linha tangente
x1 = 1
y1 = f(x1)

# Calculando a linha
# y = m*(x - x1) + y1
def line(x, x1, y1):
  #return slope(x1)*(x - x1) + y1
  return derivada(x1,0.1)*(x - x1) + y1

# Formatando a reta tangente para visualização
xrange = np.linspace(x1-2, x1+2, 100)

# Plotando figura
plt.plot(x, f(x)) #função 
plt.scatter(x1, y1, color='C1', s=50) #ponto para tangente
plt.plot(xrange, line(xrange, x1, y1), 'C1--', linewidth = 2) #reta tangente
plt.xlabel('x') 
plt.ylabel('f(x)')

## Derivadas Parciais

No *machine learning* geralmente é necesário lidar com funções que possuem muitas variáveis, portanto, precisamos estender a ideia de diferenciação para múltiplas variáveis.

Considerando $y = f(x_1, x_2, \ldots, x_n)$ uma função com $n$ variáveis. A derivada parcial de $y$ em relação a $x_i$ em $i^\mathrm{th}$ seria:

$$ \frac{\partial y}{\partial x_i} = \lim_{h \rightarrow 0} \frac{f(x_1, \ldots, x_{i-1}, x_i+h, x_{i+1}, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}.$$

Para calcular $\frac{\partial y}{\partial x_i}$, basta considerar $x_1, \ldots, x_{i-1}, x_{i+1}, \ldots, x_n$ como constantes e calcular a derivada de $y$ com respeito a $x_i$.

Sobre notações, as seguintes sãão equivalentes:

$$\frac{\partial y}{\partial x_i} = \frac{\partial f}{\partial x_i} = f_{x_i} = f_i = D_i f = D_{x_i} f.$$



## Gradientes

- Assistir o vídeo: Gradient Descent and Neural Network Learn: https://youtu.be/IHZwWFHWa-w

Pode-se concatenar derivadas parciais em funções com múltiplas variáveis com respeito a essas variáveis, chamamos isso de Gradiente e é extremamente útil no *machine learning*, principalmente para otimização dos algoritmos de *deep learning*.

Suponha que uma função de entrada $f: \mathbb{R}^n \rightarrow \mathbb{R}$ é um vator $n$-dimensional $\mathbf{x} = [x_1, x_2, \ldots, x_n]^\top$ e sua saída é um escalar. O gradiente desta função $f(\mathbf{x})$ com respeito a $\mathbf{x}$ é um vetor de $n$ derivadas parciais:

$$\nabla_{\mathbf{x}} f(\mathbf{x}) = \bigg[\frac{\partial f(\mathbf{x})}{\partial x_1}, \frac{\partial f(\mathbf{x})}{\partial x_2}, \ldots, \frac{\partial f(\mathbf{x})}{\partial x_n}\bigg]^\top,$$

onde o operador $\nabla_{\mathbf{x}} f(\mathbf{x})$ é normalmente substituído por $\nabla f(\mathbf{x})$.

Dado $\mathbf{x}$ um vetor $n$-dimensional, as regras a seguir são comumente utilizadas para cálculo de derivadas em funções com múltiplas variáveis:

* Para todo $\mathbf{A} \in \mathbb{R}^{m \times n}$, $\nabla_{\mathbf{x}} \mathbf{A} \mathbf{x} = \mathbf{A}^\top$,
* Para todo  $\mathbf{A} \in \mathbb{R}^{n \times m}$, $\nabla_{\mathbf{x}} \mathbf{x}^\top \mathbf{A}  = \mathbf{A}$,
* para todo  $\mathbf{A} \in \mathbb{R}^{n \times n}$, $\nabla_{\mathbf{x}} \mathbf{x}^\top \mathbf{A} \mathbf{x}  = (\mathbf{A} + \mathbf{A}^\top)\mathbf{x}$,
* $\nabla_{\mathbf{x}} \|\mathbf{x} \|^2 = \nabla_{\mathbf{x}} \mathbf{x}^\top \mathbf{x} = 2\mathbf{x}$.

De forma similar, para qualquer matriz $\mathbf{X}$, temm-se $\nabla_{\mathbf{X}} \|\mathbf{X} \|_F^2 = 2\mathbf{X}$. 

## Regra da Cadeis (*Chain Rule*)

- Vídeo:

Entretando, achar esses gradients pode não ser uma tarefa fácil. Principalmente pelo fato de que em *deep learning* as funções multivariáveis serem funções compostas, então as regras acima não podem ser aplicadas diretamente. Assim, para diferenciação de funções compostas, utilzamos a regra da cadeia (*chain rule*).

Considerando inicialmente as funções de uma única variável. Suponha que $y=f(u)$ e $u=g(x)$ sejam diferenciáveis, aplicando a regra da cadeia teríamos: 


$$\frac{dy}{dx} = \frac{dy}{du} \frac{du}{dx}.$$

Em um cenário mais geral onde as funções possuem um número arbitrário de variáveis, suponha que a função diferenciável $y$ tenha as variáveis
$u_1, u_2, \ldots, u_m$, onde cada função diferenciável $u_i$ tenha variáveis $x_1, x_2, \ldots, x_n$.
Note que $y$ é uma função de $x_1, x_2, \ldots, x_n$.
A regra da cadeia fornece:

$$\frac{dy}{dx_i} = \frac{dy}{du_1} \frac{du_1}{dx_i} + \frac{dy}{du_2} \frac{du_2}{dx_i} + \cdots + \frac{dy}{du_m} \frac{du_m}{dx_i}$$

para todo $i = 1, 2, \ldots, n$.



## Python: Utilzando variáveis simbólicas com o *sympy*
- Vejam a documentação: https://docs.sympy.org/latest/modules/vector/api/vectorfunctions.html



In [3]:
# import sympy 
from sympy import *

x, y = symbols('x y') 
res = x**2 + 2 * y + y**3
print("Expressão : {} ".format(res)) 

# Usando o sympy.Derivative() method 
res_diff_x = diff(res, x) 
res_diff_y = diff(res, y) 
	
print("Derivada da expressao em x : {}".format(res_diff_x)) 
print("Derivada da expressao em y : {}".format(res_diff_y)) 

Expressão : x**2 + y**3 + 2*y 
Derivada da expressao em x : 2*x
Derivada da expressao em y : 3*y**2 + 2


(Exercício) Utilizando a regra da cadeia, calcule a derivada $dy/dx$ da função y = ($3x^2 - 5x + 2)^6$ no papel, depois resolva utilizando variáveis simbólicas para comparar os resultados. Por fim, plote o gráfico da função e de sua reta tangente em um dado ponto.


In [None]:
# Exercicio com sympy
