# Derivada 
## Conceito de derivada

Matemáticamente, a derivada em um ponto é a inclinação da linha tangente à curva da função naquele ponto. A linha tangente é a linha q toca a curva em apenas um ponto e tem a mesma direção que a curva nesse ponto.

Dizemos que a derivada é a taxa de variação de uma função $y=f(x)$ em relação à x, dada pela relação:

$$\delta x/ \delta y$$

Considerando uma função $y = f(x)$, a sua derivada no ponto $x = x_0$ corresponde à tangente do ângulo formado pela interseção entre a reta e a curva da função $y = f(x)$, isto é, o coeficiente angular da reta tangente à curva.

A derivada é indicada como $f'(x)$ e pode ser calculada através do limite.

**Def 1.** Seja $f$ uma função e $p$ um ponto do seu domínio. O limite:

$$\lim_{x \to p} \frac{f(x) - f(x)}{x - p}$$
quando existe e é finito, o chamamos de derivada de $f$ em $p$ e indica-se por $f'(p)$. Ou seja:
$$f'(p)  \lim_{x \to p} \frac{f(x) - f(x)}{x - p}$$
Se $f$ admite derivada mem $p$, então dizemos que $f$ é diferenciável ou derivável em $p$.


## Derivada em python

A derivada mede a sensibilidade à mudança da função (valor de saída) em relação a uma mudança na sua entrada.

Em termos mais simples, a derivada de uma função em um ponto específico é a taxa na qual a função está mudando naquele ponto. Isso é frequentemente entendido como a inclinação da linha tangente à função naquele ponto.

Por exemplo, se temos uma função que descreve a posição de um carro em movimento ao longo do tempo, a derivada dessa função em um ponto específico nos dá a velocidade de carro naquele momento.

A derivada de uma função f(x) é normalmente escrita como f'(x) ou df/dx. O processo de encontrar a derivada é chamado de diferenciação.

A derivada de $$f(x) = x^n$$ é dada por $$f'(x) = n x^{(n-1)}$$

In [2]:
import torch
import numpy as np
import sympy
from sympy import symbols, diff

In [4]:
# Definindo variável simbolica
x = symbols('x')

f'(x) = x³ 2x² - x + 1 

In [5]:
funcao = x**3 + 2*x**2 - x + 1
derivada = diff(funcao, x)
derivada

3*x**2 + 4*x - 1

no ponto x = 1

In [6]:
derivada.subs(x, 1)  

6

Derivada da função f(x) = 2x²:

In [7]:
f = x**2
diff(f, x)

2*x

## Representação geométrica

 1. Escolher a função:
        f(x) = x²
 2. Plotar a função:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def f(x):
    return x**2

def df(x):
    return 2*x

# Gerando valores de x
x = np.linspace(-10, 10, 100)

# Calculando f(x) e f'(x)
y = f(x)
dy = df(x)

# Plotando a função e sua derivada
plt.figure(figsize=(10, 5))
plt.plot(x, y, label='f(x) = x²', color='blue')
plt.plot(x, dy, label="f'(x) = 2x", color='red', linestyle='--')
plt.title('Função e sua Derivada')
plt.xlabel('x')
plt.ylabel('y')
plt.axhline(0, color='black',linewidth=0.5, ls='--')
plt.axvline(0, color='black',linewidth=0.5, ls='--')
plt.legend()
plt.grid()
plt.show()


## Função Composta - REgra da Cadeia (Chain Rule)

A Regra da Cadeia (Chain Rule) é uma fórmula para calcular a derivada de uma composição de funções.
É usada quando temos uma "função dentro de uma função", também conhecida como função composta.

Vamos considerar duas funções, $f(x)$ e $g(x)$. Se temos uma função $h(x)$ que é a composição dessas duas funções, isto é, $h(x) = f(g(x))$, então a Regra da Cadeia diz que a derivada de $h(x)$ é a derivada de f em relação a g, multiplicada pela derivada de g em relação a x.

Matematicamente, isso é expresso da seguinte maneira:

$$h'(x) = f'(g(x)) * g'(x)$$

Essa fórmula nos diz que, para derivar a função composta h(x) = f(g(x)), primeiro derivamos a função externa f em relação à função interna g, e então multiplicamos pelo resultado da derivação da função interna g em relação a x.

Vamos ilustrar isso com um exemplo:

Suponha que temos
 $$h(x) = (3x + 1)^2$$
Esta é uma composição de 
 $$f(u) = u^2 \\ g(x) = 3x + 1$$
 

 Se quisermos encontrar h'(x), 
 primeiro derivamos f(u) em relação a u para obter 2u, e então substituímos u por g(x) para obter 2*(3x + 1). Depois derivamos g(x) em relação a x para obter 3. 

$$f'(u)=2u \\ g'(x) = 3$$

Finalmente, multiplicamos esses dois resultados para obter 
$$h'(x) = f'(u).g'(x) =\\ 2 . (3x + 1) . 3 = \\ 6 . (3x + 1) = \\ 18x + 6 $$


https://www.deeplearningbook.com.br/algoritmo-backpropagation-parte1-grafos-computacionais-e-chain-rule/

### Regra da Cadeia em python

In [2]:
import sympy
from sympy import symbols, diff


Podemos usar a biblioteca `sympy` para calcular a derivada de uma função composta. 

Vamos considerar a função $h(x) = (3x + 1)^2$ como mencionado na explicação acima.

Aqui está o código Python:

In [3]:
x = symbols("x")

In [4]:
# Definindo a função composta h(x) = (3x + 1)^2
h = (3*x + 1)**2

# Calculando a derivada de h(x) usando a regra da cadeia
derivada_h = diff(h, x)
derivada_h

18*x + 6

## Aplicando regra da cadeira em redes neurais artificiais

O uso mais comum da regra da cadeia em redes neurais artificiais está na implementação do algoritmo de retropropagação (backpropagation), que é usado para treinar redes neurais.

A retropropagação é um algoritmo que calcula o gradiente da função de perda (loss function) com respeito aos pesos da rede. Esse gradiente é então usado para ajustar os pesos na direção que minimiza a perda. A regra da cadeia é usada para calcular esse gradiente.

O gradiente de uma função é um vetor que contém as derivadas parciais da função em relação a cada uma de suas variáveis. Ele fornece a direção do maior aumento da função e a magnitude desse aumento é dada pelo valor do gradiente naquele ponto.

A regra da cadeia é um teorema no cálculo que permite a diferenciação de funções compostas. No contexto de funções de múltiplas variáveis, a regra da cadeia permite calcular a derivada de uma função composta considerando as derivadas das funções componentes.

Quando se calcula o gradiente de uma função composta usando a regra da cadeia, o que se obtém é uma expressão para a taxa de variação da função composta em relação a cada uma de suas variáveis. Em outras palavras, o gradiente resultante nos dá a direção e magnitude do maior aumento da função composta no espaço de várias dimensões.

Essa informação é extremamente útil em uma série de aplicações, incluindo otimização de funções, onde se deseja encontrar o ponto mínimo ou máximo de uma função, bem como em métodos numéricos e aplicações de Machine Learning, como no treinamento de redes neurais com o método do gradiente descendente.

Vamos implementar uma rede neural simples com apenas um neurônio (também chamado de perceptron) para demonstrar isso. Usaremos a biblioteca PyTorch, que lida automaticamente com a regra da cadeia durante a retropropagação.

Considere Fórmula Matemática: 
$$y = x * w$$ 

**y**: variável de saída\
**x**: variável de entrada\
**w**: o que estabelece esse relacionamento de x e y

Para criar nosso exemplo, vamos definir os conceitos abaixo:

**Cálculo do Gradiente**: Em redes neurais, o processo de aprendizado envolve otimizar os parâmetros (ou pesos) da rede para minimizar a função de perda (ou erro). Isso é feito usando técnicas de otimização como o gradiente descendente. Para aplicar essas técnicas, é necessário calcular o gradiente da função de perda em relação a cada parâmetro. O gradiente é essencialmente a taxa de mudança da função de perda com respeito a esses parâmetros, ou seja, a derivada.

**Backpropagation**: O cálculo do gradiente é realizado através de um processo chamado backpropagation. Para isso, as bibliotecas de aprendizado de máquina mantêm um grafo de computação que registra todas as operações realizadas nos tensores que têm requires_grad definido como True. Quando a função de perda é calculada, o gradiente dessa perda é propagado de volta através do grafo e os gradientes em relação a cada tensor são acumulados.

**requires_grad=True**: Ao definir requires_grad=True para um tensor no PyTorch, você está informando à biblioteca que deseja que ela calcule os gradientes desse tensor durante a passagem para trás (backpropagation). Normalmente, isso é feito para os parâmetros da rede que você deseja otimizar. Por exemplo, pesos e vieses em uma rede neural teriam requires_grad=True.

**Otimização e Atualização de Parâmetros**: Durante o treinamento, esses gradientes são usados por otimizadores (como SGD, Adam, etc.) para atualizar os parâmetros da rede na direção que minimiza a função de perda.

In [5]:
import torch
import numpy as np

In [6]:
# Inicializa o tensor de entrada x
x = torch.tensor(1.0, requires_grad=True)
x

tensor(1., requires_grad=True)

In [8]:
# Inicializa o tensor de peso w (coeficiente do modelo, o que o modelo vai aprender no treinamento )
w = torch.tensor(0.03, requires_grad=True)
w

tensor(0.0300, requires_grad=True)

In [11]:
# Inicializa o tensor de saída y (previsão do modelo)
y = torch.tensor(1.0)
y

tensor(1.)

In [16]:
# Define a função de ativação como função de identidade (f(x) = x)
funcao_ativacao = torch.nn.Identity()

Uma das principais razões para usar funções de ativação é introduzir não linearidade no modelo. Redes neurais são projetadas para aproximar funções complexas e a maioria dos problemas do mundo real que queremos modelar são não lineares por natureza. Sem funções de ativação não lineares, uma rede neural, independentemente de sua profundidade (número de camadas), seria equivalente a um modelo linear e, portanto, incapaz de modelar a complexidade encontrada em tarefas reais como reconhecimento de imagem, processamento de linguagem natural, etc.

In [62]:
# Calcula a saída da rede neural
y_previsto = funcao_ativacao(w * x)
y_previsto

tensor(0.0300, grad_fn=<MulBackward0>)

Calcular o erro quadrado médio (MSE, do inglês Mean Squared Error)

In [63]:
funcao_de_erro = (y_previsto - y)**2
funcao_de_erro

tensor(0.9409, grad_fn=<PowBackward0>)

In [64]:
funcao_de_erro = torch.nn.MSELoss()
erro = funcao_de_erro(y_previsto, y)
# Usa a retropropagação para calcular o gradiente do erro em relação a w
erro.backward()
w.grad

tensor(-7.7600)

O script Python acima define um neurônio com uma entrada (x) e um peso (w), e usa a regra da cadeia para calcular o gradiente da função de perda com respeito ao peso. O valor de gradiente resultante pode ser usado para atualizar o peso e treinar a rede neural.

## Compreendendo o Algoritmo da Descida do Gradiente

O algoritmo da descida do gradiente é um método de otimização utilizado principalmente para encontrar o ponto mínimo de uma função. Ele é amplamente utilizado em aprendizado de máquina e inteligência artificial, especialmente no treinamento de modelos de redes neurais. Vamos entender como ele funciona.

**Objetivo**: O objetivo principal da descida do gradiente é minimizar uma função de custo ou erro. Essa função mede a diferença entre a saída prevista pelo modelo e a saída real dos dados. Por exemplo, em um modelo de regressão linear, a função de custo pode ser o erro quadrático médio entre as previsões do modelo e os valores reais.

**Gradiente**: O gradiente é o vetor de derivadas parciais da função de custo. Ele aponta na direção do maior aumento da função. Intuitivamente, você pode pensar no gradiente como uma bússola que indica em qual direção você deve ir para mudar o valor da função o mais rápido possível.

**Passo Inverso**: Na descida do gradiente, em vez de seguir na direção do aumento da função, vamos na direção oposta, ou seja, seguimos o gradiente negativo. Isso é feito porque queremos minimizar a função de custo, não maximizá-la.

**Taxa de Aprendizado**: Este é um parâmetro essencial no algoritmo da descida do gradiente. A taxa de aprendizado define o tamanho dos passos que você dá na direção oposta ao gradiente. Se for muito pequena, o algoritmo demora muito para convergir para o mínimo. Se for muito grande, pode ultrapassar o mínimo ou até divergir.

**Atualização Iterativa:** O processo é iterativo. Em cada etapa, calculamos o gradiente da função de custo com base nos parâmetros atuais, e então atualizamos esses parâmetros subtraindo o produto da taxa de aprendizado pelo gradiente. Esse processo se repete até que o algoritmo converge, o que significa que os parâmetros não mudam significativamente, ou até que um número máximo de iterações seja alcançado.

**Variações**: Existem diversas variações da descida do gradiente, como a descida do gradiente estocástico (SGD) e o gradiente descendente com momentum. Essas variações tentam melhorar a eficiência e a eficácia do algoritmo em diferentes cenários, como evitar mínimos locais ou acelerar a convergência.

### Gradiente Descendente via Operações Matemáticas com Linguagem Python

Uma aplicação comum de derivadas em Data Science é na implementação do algoritmo de gradiente descendente, usado para otimizar funções de custo em modelos de aprendizado de máquina, como regressão linear ou redes neurais.

Aqui está um exemplo de como isso pode ser feito em Python para a tarefa de regressão linear. Para simplificar, vamos considerar uma regressão linear simples com apenas uma variável de entrada.

No exemplo abaixo, o código cria um conjunto de dados aleatório, inicializa os parâmetros da regressão linear de forma aleatória (a variável theta), e então executa o algoritmo de gradiente descendente por um número fixo de iterações.

A cada iteração, o algoritmo calcula o gradiente da função de custo em relação aos parâmetros (gradientes) e, em seguida, atualiza os parâmetros na direção oposta ao gradiente (isso é o que a linha theta = theta - lr * gradientes faz). O tamanho do passo é determinado pela taxa de aprendizado (lr).

Ao final do processo, os parâmetros da regressão linear (ou seja, a inclinação e o intercepto) são armazenados na variável theta. Esses parâmetros minimizam a função de custo e, portanto, representam a melhor linha de ajuste aos dados.

Considere que X é o diâmetro de uma Pizza que um cliente pediu e y a gorjeta dada por um cliente. Conseguimos prever a gorjeta com base no diâmetro da Pizza?

Vamos definir uma relação linear entre X e y:

y = coef1 + (coef2 * X)

In [72]:
# Cpnjunto de dados sintéticos
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

In [73]:
lr = 0.1  # Taxa de aprendizado (controla a velocidade de mudança dos pesos)
n_interations = 1000  # Número de iterações para o treinamento
m = 100  # Número de amostras no conjunto de dados

In [74]:
theta = np.random.randn(2,1)  # Inicializa os parâmetros (pesos) aleatoriamente
theta

array([[0.6740945 ],
       [0.52394803]])

In [None]:
# Adiciona a coluna de 1s a X para o termo de interceptação
X_b = np.c_[np.ones((m, 1)), X] 
X_b[0:5]

array([[1.        , 0.03212476],
       [1.        , 1.47162265],
       [1.        , 0.69924422],
       [1.        , 1.77730675],
       [1.        , 0.06804411]])

A função de custo (erro quadrático médio) é definida como:

$$
J(\theta) = \frac{1}{m} \sum_{i=1}^m \big( \hat{y}^{(i)} - y^{(i)} \big)^2
$$

onde:

- $m$ = número de exemplos de treino  
- $\hat{y}^{(i)} = X^{(i)}\theta$ = predição do modelo  
- $y^{(i)}$ = valor real  

Na forma vetorial:

$$
J(\theta) = \frac{1}{m} (X\theta - y)^T (X\theta - y)
$$


Expandindo a multiplicação:

$$
J(\theta) = \frac{1}{m} \Big[ \theta^T X^T X \theta - 2y^T X \theta + y^T y \Big]
$$

Derivada em relação a $\theta$

Usamos as seguintes regras de derivada matricial:

1. $$\frac{\partial}{\partial \theta} \big( \theta^T A \theta \big) = (A + A^T)\theta$$  
   Se $A$ é simétrica: $$= 2A\theta$$  

2. $$\frac{\partial}{\partial \theta} (b^T \theta) = b$$  

3. $$\frac{\partial}{\partial \theta} (c) = 0$$  

Aplicando essas regras:

$$
\nabla_\theta J(\theta) = \frac{1}{m} \Big( 2X^T X \theta - 2X^T y \Big)
$$

Simplificação:

$$
\nabla_\theta J(\theta) = \frac{2}{m} X^T (X\theta - y)
$$

Interpretação:

- $(X\theta - y)$ → vetor dos **erros (resíduos)**  
- $X^T (X\theta - y)$ → projeta os erros de volta nas direções das variáveis de entrada  
- $\tfrac{2}{m}$ → normalização  

Atualização dos parâmetros

No **gradiente descendente**, atualizamos:

$$
\theta := \theta - \eta \nabla_\theta J(\theta)
$$

onde $\eta$ é a taxa de aprendizado (*learning rate*).  


Resultado final:

$$
\boxed{\nabla_\theta J(\theta) = \frac{2}{m} X^T (X\theta - y)}
$$

In [None]:
for interation in range(n_interations):
  
   # Calcula o gradiente (derivada do erro em relação aos parâmetros)
   gradiente = 2/m * X_b.T.dot( X_b.dot(theta) - y)

   # Atualiza os parâmetros
   theta = theta - lr * gradiente

In [80]:
print(gradiente)

[[-3.55271368e-15]
 [ 2.01616501e-15]]


In [81]:
print(theta)

[[4.01120076]
 [3.0594992 ]]


---
Materiais Sobre Derivada:

https://estudoemcasaapoia.dge.mec.pt/recurso/nocao-de-derivada-num-ponto 

https://br.neurochispas.com/calculo/10-exercicios-de-derivadas-usando-limites/

https://embuscadosaber.com/derivada-de-uma-funcao-usando-definicao/

https://www.infoescola.com/matematica/calculo-de-derivadas/

https://brasilescola.uol.com.br/matematica/introducao-ao-estudo-das-derivadas.htm
