# Notação
Notação matemática para deep learning.

## Tamanhos
| Notação | Significado |
| -------------- | ------------------ |
| $m$ | Número de exemplos no dataset |
| $n_{x}$ | Tamanho da entrada  |
| $n_{y}$ | Tamanho da saída (ou número de classes)  |
| $n_{h}^{[l]}$ | Número de unidades ocultas da camada $l^{th}$ |
| $L$ | Número de camadas na rede |

**Observação**: Em um _loop_, é possível denotar $n_{x} = n_{h}^{[0]}$ e $n_{y} = n_{h}^{numero\_de\_camadas + 1}$.

## Objetos
| Notação | Significado |
| -------------- | ------------------ |
| $X \in \mathbb{R}^{n_{x} \times m}$ | Matriz de entrada |
| $x^{(i)} \in \mathbb{R}^{n_{x}}$ | Representa o vetor da columa $i^{th}$  |
| $Y \in \mathbb{R}^{n_{y} \times m}$ | Matriz de rótulos |
| $y^{(i)} \in \mathbb{R}^{n_{y}}$ | Rótulo de saída para o exemplo $i^{th}$  |
| $W^{[l]} \in \mathbb{R}^{numero\_de\_unidades\_na\_proxima\_camada \times numero\_de\_unidades\_na\_camada\_anterior}$ | É a matriz de peso, $[l]$ indica a camada |
| $b^{[l]} \in \mathbb{R}^{numero\_de\_unidades\_na\_proxima\_camada}$ | É o vetor de viés na camada $l^{th}$ |
| $\hat{y} \in \mathbb{R}^{n_{y}}$ | É o vetor de saída previsto. Também pode ser denotado como $a^{[L]}$, onde $L$ é o número de camadas na rede |
\begin{equation}
X_{n_{x} \times m} =
  \begin{bmatrix}
    \vdots & \vdots &\vdots &   & \vdots \\
    x^{(1)} & x^{(2)} & x^{(3)} & \dots  & x^{(m)} \\
    \vdots & \vdots &\vdots &   & \vdots
  \end{bmatrix}
Y_{1 \times m} =
  \begin{bmatrix}
    y^{(1)} & y^{(2)} & y^{(3)} & \dots  & y^{(m)}
  \end{bmatrix}
\end{equation}

## Outros

| Notação | Significado |
| -------------- | ------------------ |
| $(x^{(1)}, y^{(1)})$ | Exemplo de treinamento único |

# Regressão Logística
Regressão logística é um algoritmo de classificação binária, isso quer dizer que é um algoritmo de aprendizagem que usamos quando os rótulos de saída $Y$ em um problema de aprendizado supervisionado são ou $0$ ou $1$.

Dado um vetor de característica $x$, nós queremos prever $\hat{y}$, que é a probabilidade de $y$ ser igual a $1$. Em outras palavras: se $x$ é uma imagem, $\hat{y}$ nos dirá se o objeto que estamos procurando está na imagem ou não.

\begin{equation}
    \hat{y} = \underbrace{P(y = 1|x)}_{0 \leq \hat{y} \leq 1}
\end{equation}

Os parâmetros de regressão logística serão: $w$, que é um vetor de dimensão $n_{x}$, e $b$, que é um número real.

\begin{equation}
    w \in \mathbb{R}^{n_{x}} \\
    b \in \mathbb{R}
\end{equation}

Se estivessemos usando regressão linear, poderiamos declarar que $\hat{y} = w^{t} \times x + b$. O problema é que essa equação pode resultar em números muito maiores que 1 ou até mesmo números negativos, o que não é nada correto visto que nosso problema é de classificação binária. Devido isso, aplicamos a função sigmóide na equação anterior (chamaremos a equação anterior de $z$):

\begin{equation}
    \hat{y} = \sigma(\underbrace{w^{t} \times x + b}_{z})
\end{equation}

## Função sigmóide
A função sigmóide é uma função de ativação, isso quer dizer que ela atende a dois critérios:
1.  Deve estar ativa (próxima de $+1$) para entradas "corretas" e inativa (próxima a $0$) para entradas "erradas";
2.  Deve ser não linear para que a rede como um todo possa representar funções não-lineares.

O gráfico a seguir mostra o comportamento dela ($z$ nesse caso seria o eixo horizontal):

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/320px-Logistic-curve.svg.png">

Podemos perceber, por exemplo, que ela cruza o eixo vertical em $0.5$.

Sua equação é:

\begin{equation}
    \sigma(z) = \frac{1}{1+e^{-z}}
\end{equation}

Podemos realizar algumas observações, como:
1.  Se $z$ é muito grande, então $e^{-z}$ será próximo de zero. Dessa forma: $\sigma(z) \thickapprox \frac{1}{1+0} \thickapprox 1$;
1.  Se $z$ é muito pequeno ou é um número negativo muito grande, então $e^{-z}$ será um número muito grande. Dessa forma: $\sigma(z) \thickapprox \frac{1}{1+numero\_grande} \thickapprox 0$;

## Função de custo
Serve para medir o quão bem os seus parâmetros $w$ e $b$ estão perfomando no conjunto de treinamento. Consiste em ser a média da função de perda (que pode ser vista logo mais abaixo) de cada exemplo treinado.
\begin{equation}
    J(w,b) = \frac{1}{m}\sum_{i=1}^{m} \mathcal{L}(\hat{y}^{i}, y^{i}) = -\frac{1}{m}\sum_{i=1}^{m} \begin{bmatrix}
    y^{i} \log \hat{y}^{i} + (1-y^{i})\log(1-\hat{y}^{i})
  \end{bmatrix}
\end{equation}

### Função de perda
Também chamada de **função de erro**, é usada para medir o quão boa é a saída prevista $\hat{y}$, quando o rótulo verdadeiro for $y$. Podemos definir a perda quando o algoritmo dá o resultado, $\hat{y}$, em relação ao rótulo verdadeiro, $y$, como:

\begin{equation}
    \mathcal{L}(\hat{y}, y) = \frac{1}{2}(\hat{y}-y)^{2}
\end{equation}

O problema dessa equação acima é que nos deparamos com o problema de otimização com múltiplas ótimos saídas, pois não será convexo. Devido a isso, nossa função de perda deverá ser:

\begin{equation}
    \mathcal{L}(\hat{y}, y) = (y \log \hat{y} + (1-y)\log(1-\hat{y}))
\end{equation}

Essa equação acima faz sentido se observarmos dois casos: $y=0$ e $y=1$.

1.  $y=1 \Longrightarrow \mathcal{L}(\hat{y}, y) = - \log \hat{y}$, quanto mais $\hat{y}$ se aproxima de $0$, $- \log \hat{y}$ cresce exponencialmente para o infinito. Porém a função sigmóide não permite que seja maior que $1$, portanto será próximo de $1$.
1.  $y=0 \Longrightarrow \mathcal{L}(\hat{y}, y) = - \log(1-\hat{y})$, quanto mais $\hat{y}$ se distancia de $0$, $\log(1-\hat{y})$ vai para infinito. Vale notar o sinal $-$ no início da equação. Logo, como a função sigmóide não permite ser menor que $0$, $\hat{y}$ será próximo de $0$. 


## Gradiente decrescente
Trata-se de um método iterativo de otimização, com ele iremos aprender os parâmetros $w$ e $b$ do conjunto de treinamento.

Inicialmente atribuímos valores para $w$ e $b$, normalmente se atribui $0$, mas também pode ser valores aleatórios. Após isso será cálculado um valor referente a $w$ e $b$ que servirá para indicar a direção da descida mais íngreme ou descer o mais rápido possível. Esse passo será repetida várias vezes até convergir ao ponto ideal ou chegue o mais próximo dele.

\begin{equation}
      w := w - \alpha \frac{\partial J(w, b)}{\partial w} \\
      b := b - \alpha \frac{\partial J(w, b)}{\partial b} \\
\end{equation}

Onde:
- $\alpha$ - É a taxa de aprendizagem e controla o quão grande será o passo tomado em cada iteração do gradiente decrescente
- $\frac{\partial J(w, b)}{\partial w}$ - Derivada de $w$, representa a atualização ou mudança desejada no parâmetro $w$. O mesmo vale para $\frac{\partial J(w, b)}{\partial b}$.

Vale lembrar que a derivada é a inclinação de uma função no ponto. Dessa forma:
- Se a derivada for positiva, $w$ sobre uma subtração;
- Se a derivada for negativa, $w$ sobre uma adição;
- Se a derivada der zero, significa que chegamos no ponto crítico da função. Por se tratar de uma função convexa, existe apenas um único ponto crítico.


## Derivação
A derivada de uma função $f(x) = y$, num ponto $x = x_{0}$, é igual ao valor da tangente trigonométrica do ângulo formado pela tangente geométrica à curva representativa de $f(x) = y$, no $x = x_{0}$, ou seja, a derivada é o coeficiente angular da reta tangente ao gráfico da função no ponto $x_{0}$. Em outras palavras, podemos dizer que a derivada em um ponto de função $f(x) = y$ representa a taxa de variação instantânea do $y$ em relação a $x$ neste ponto.

### Algumas propriedades
Agora iremos ver algumas propriedades da derivação.

- i) Se $f(x) = a$, então $f'(x) = 0$
- ii) Se $f(x) = ax$, então $f'(x) = a$
- iii) (Regra do tombo) Se $f(x) = x^{a}$, então $f'(x) = a \times x^{a-1}$
- iv) (Derivada da soma) $\begin{bmatrix}f(x) + g(x)\end{bmatrix}' = f'(x) + g'(x)$
- v) $[a \times f(x)]' = a \times f'(x)$
- vi) (Regra do produto) $[f(x) \times g(x)]' = f(x)' \times g(x) + f(x) \times g(x)'$
- vii) (Regra do quociente) $\begin{bmatrix}\frac{f(x)}{g(x)}\end{bmatrix}'
= \frac{f'(x) \times g(x) - f(x) \times g'(x)}{\begin{bmatrix}g(x)\end{bmatrix}^{2}}$

### Algumas derivadas básicas

- Derivada de uma constante: $\frac{d}{dx}(c) = 0$
- Derivada de soma/subtração: $\frac{d}{dx}(z \pm w) = \frac{dz}{dx} \pm \frac{dw}{dx}$
- Produto por uma constante: $\frac{d}{dx}(c \times w) = c\frac{dw}{dx}$
- Derivada do produto: $\frac{d}{dx}(z \times w) = z\frac{dw}{dx} + w\frac{dz}{dx}$
- Derivada da divisão:  $\frac{d}{dx}(\frac{z}{w})
= \frac{w\frac{dz}{dx} - z\frac{dw}{dx}}{w^{2}}$
- Derivada de $ln$: $f(x) = ln(x)$, então $f'(x) = \frac{1}{x}$