# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Matemática Para Data Science</font>

## <font color='blue'>Regra da Cadeia (Chain Rule) em Linguagem Python</font>

In [1]:
# Versão da Linguagem Python
# Você pode usar a versão indicada nos vídeos ou a versão abaixo!
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.10.9


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
# !pip install -q -U watermark

## Função Composta - Regra da Cadeia (Chain Rule)

A Regra da Cadeia (ou Chain Rule, em inglês) é uma fórmula para calcular a derivada de uma composição de funções. Em outras palavras, é usada quando temos uma "função dentro de uma função", também conhecida como função composta.

Vamos considerar duas funções, f(x) e g(x). Se temos uma função h(x) que é a composição dessas duas funções, isto é, h(x) = f(g(x)), então a Regra da Cadeia diz que a derivada de h(x) é a derivada de f em relação a g, multiplicada pela derivada de g em relação a x.

Matematicamente, isso é expresso da seguinte maneira:

h'(x) = f'(g(x)) * g'(x)

Essa fórmula nos diz que, para derivar a função composta h(x) = f(g(x)), primeiro derivamos a função externa f em relação à função interna g, e então multiplicamos pelo resultado da derivação da função interna g em relação a x.

Vamos ilustrar isso com um exemplo:

Suponha que temos h(x) = (3x + 1)^2. Esta é uma composição de f(u) = u^2 e g(x) = 3x + 1. Se quisermos encontrar h'(x), primeiro derivamos f(u) em relação a u para obter 2u, e então substituímos u por g(x) para obter 2*(3x + 1). Depois derivamos g(x) em relação a x para obter 3. 

Finalmente, multiplicamos esses dois resultados para obter h'(x) = 2*(3x + 1)3 = 6(3x + 1) = 18x + 6.

A Regra da Cadeia é uma ferramenta fundamental no cálculo diferencial e é frequentemente usada quando se lida com funções compostas.

https://www.deeplearningbook.com.br/algoritmo-backpropagation-parte1-grafos-computacionais-e-chain-rule/

Podemos usar a biblioteca sympy para calcular a derivada de uma função composta. Vamos considerar a função h(x) = (3x + 1)^2 como mencionado na explicação acima.

Aqui está o código Python:

In [3]:
import sympy
from sympy import symbols, diff

In [4]:
# Definir a variável simbólica x
x = symbols('x')

In [5]:
# Definir a função composta h(x)
h = (3*x + 1)**2

In [6]:
# Calcular a derivada de h(x) usando a regra da cadeia
h_prime = diff(h, x)

In [7]:
print(f"Derivada de (3x + 1)^2: {h_prime}")

Derivada de (3x + 1)^2: 18*x + 6


Esta é a derivada de h(x) = (3x + 1)^2. Como mencionado antes, a regra da cadeia foi aplicada automaticamente pela função diff do sympy.

## Regra da Cadeia em Redes Neurais Artificiais

O uso mais comum da regra da cadeia em redes neurais artificiais está na implementação do algoritmo de retropropagação (backpropagation), que é usado para treinar redes neurais.

A retropropagação é um algoritmo que calcula o gradiente da função de perda (loss function) com respeito aos pesos da rede. Esse gradiente é então usado para ajustar os pesos na direção que minimiza a perda. A regra da cadeia é usada para calcular esse gradiente.

O gradiente de uma função é um vetor que contém as derivadas parciais da função em relação a cada uma de suas variáveis. Ele fornece a direção do maior aumento da função e a magnitude desse aumento é dada pelo valor do gradiente naquele ponto.

A regra da cadeia é um teorema no cálculo que permite a diferenciação de funções compostas. No contexto de funções de múltiplas variáveis, a regra da cadeia permite calcular a derivada de uma função composta considerando as derivadas das funções componentes.

Quando se calcula o gradiente de uma função composta usando a regra da cadeia, o que se obtém é uma expressão para a taxa de variação da função composta em relação a cada uma de suas variáveis. Em outras palavras, o gradiente resultante nos dá a direção e magnitude do maior aumento da função composta no espaço de várias dimensões.

Essa informação é extremamente útil em uma série de aplicações, incluindo otimização de funções, onde se deseja encontrar o ponto mínimo ou máximo de uma função, bem como em métodos numéricos e aplicações de Machine Learning, como no treinamento de redes neurais com o método do gradiente descendente.

Vamos implementar uma rede neural simples com apenas um neurônio (também chamado de perceptron) para demonstrar isso. Usaremos a biblioteca PyTorch, que lida automaticamente com a regra da cadeia durante a retropropagação.

In [8]:
import torch

In [9]:
# Inicializa o tensor de entrada x e o tensor de peso w com requires_grad = True, 
# que permitirá que o PyTorch calcule os gradientes.
x = torch.tensor([2.0], requires_grad = True)
w = torch.tensor([3.0], requires_grad = True)

In [10]:
# Alvo (valor que queremos prever)
target = torch.tensor([1.0])

> Fórmula matemática: target = x * w

In [11]:
# Define a função de ativação como a função identidade (f(x) = x) e a função de perda como o quadrado da diferença 
# entre a saída e o alvo.
activation_function = torch.nn.Identity()
loss_function = torch.nn.MSELoss()

In [12]:
# Calcula a saída da rede neural
output = activation_function(w * x)

In [13]:
# Calcula a perda comparando a saída ao alvo
loss = loss_function(output, target)

In [14]:
# Usa retropropagação para calcular os gradientes
loss.backward()

In [15]:
# Print do gradiente de w.
print(f"Gradiente de w: {w.grad}")

Gradiente de w: tensor([20.])


O script Python acima define um neurônio com uma entrada (x) e um peso (w), e usa a regra da cadeia para calcular o gradiente da função de perda com respeito ao peso. O valor de gradiente resultante pode ser usado para atualizar o peso e treinar a rede neural.

In [16]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

torch: 2.0.1
sympy: 1.11.1



# Fim