# Aula: Gradiente e Otimização - O Papel da Derivada e da Integral

## Introdução
O gradiente e os métodos de otimização são fundamentais para o aprendizado de modelos matemáticos, redes neurais e inteligência artificial. A base matemática dessas técnicas vem do **cálculo diferencial e integral**, que nos permite compreender como uma função muda e como podemos minimizar seu erro.

## 1. O Papel da Derivada na Otimização
A **derivada** mede a taxa de variação instantânea de uma função. Em outras palavras, ela nos diz quão rápido uma função está crescendo ou diminuindo em um determinado ponto.

Se tivermos uma função \( f(x) \), sua derivada é dada por:

$$ f'(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} $$

A derivada é crucial na otimização porque permite encontrar **pontos críticos** de uma função, ou seja, onde sua inclinação é zero, indicando um **máximo ou mínimo local**.

### Exemplo: Derivada de uma Função Quadrática

In [1]:
import sympy as sp

x = sp.Symbol('x')
f = x**2  # Função quadrática
f_deriv = sp.diff(f, x)
print("Derivada de f:", f_deriv)

Derivada de f: 2*x


Isso indica que o gradiente da função é **2x**, mostrando como a função varia em diferentes valores de \( x \).

## 2. A Integral e o Acúmulo de Mudanças
Enquanto a derivada nos diz **como uma função muda**, a **integral** nos informa o **acúmulo** dessas mudanças ao longo de um intervalo. Na otimização, a integral é usada para entender o comportamento global da função e em técnicas como **regularização**.

A integral definida de uma função \( f(x) \) no intervalo \([a, b]\) é:

$$ \int_a^b f(x)dx $$

### Exemplo: Cálculo da Integral de uma Função Quadrática

In [2]:
integral = sp.integrate(f, (x, 0, 2))
print("Área sob a curva de f(x) de 0 a 2:", integral)

Área sob a curva de f(x) de 0 a 2: 8/3


Isso nos dá a soma acumulada da função no intervalo dado.

## 3. Como a Derivada e a Integral Relacionam-se com a Descida do Gradiente
A **descida do gradiente** é um método de otimização baseado na derivada para encontrar os mínimos locais de uma função. Ele segue a equação:

$$ x_{novo} = x_{atual} - \alpha f'(x) $$

Onde:
- \( \alpha \) é a **taxa de aprendizado** (define o tamanho do passo da atualização).
- \( f'(x) \) é a **derivada da função**.

A derivada permite que a descida do gradiente saiba **em que direção mover-se** para minimizar a função.

### Implementação da Descida do Gradiente


In [8]:
def gradient_descent(start_x, learning_rate=0.11, iterations=1000):
    x = start_x
    for _ in range(iterations):
        grad = 2 * x  # Derivada de x^2 é 2x
        x -= learning_rate * grad
    return x

resultado = gradient_descent(10)
print("Mínimo encontrado:", resultado)

Mínimo encontrado: 1.2433766019241796e-107


Isso mostra que a descida do gradiente nos levou ao **mínimo da função**.

## 4. O Papel da Integral na Regularização
Em alguns problemas de otimização, buscamos minimizar não apenas o erro da previsão, mas também penalizar a complexidade do modelo. Esse processo é feito com **regularização**, que usa a **integral do quadrado dos pesos** para suavizar a função de custo:

$$ L(w) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda \int w^2 dx $$

Isso impede que a função aprenda padrões errôneos devido ao **overfitting**.

### Implementação da Regularização com Integral

In [9]:
w = sp.Symbol('w')
regularization = sp.integrate(w**2, w)
print("Regularização da função de custo:", regularization)

Regularização da função de custo: w**3/3


## Conclusão
O **cálculo diferencial e integral** é a base da otimização e da descida do gradiente:
- A **derivada** nos diz como uma função muda, permitindo encontrar mínimos e máximos.
- A **integral** nos dá o acúmulo de mudanças, ajudando na regularização e suavização do modelo.
- A **descida do gradiente** usa a derivada para encontrar a melhor solução iterativamente.

Compreender esses conceitos é essencial para o desenvolvimento de algoritmos eficientes e modelos de aprendizado de máquina mais robustos.
