### Regressão logística

Um modelo de regressão logística aplica o sigmóide ao modelo de regressão linear. Na qual podemos representar do seguinte modo:

$$ f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = g(\mathbf{w} \cdot \mathbf{x}^{(i)} + b ) \tag{1} $$ 

  na qual,

$$g(z) = \frac{1}{1+e^{-z}}\tag{2}$$

Portanto o modelo de regressão logística é:

$$ f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = \frac{1}{1+e^{-(\mathbf{w} \cdot \mathbf{x}^{(i)} + b)}}\tag{3}$$

Nosso objetivo é encontrar os valores de $\mathbf{w}$ e $b$. Uma forma de fazer isso é minimizando uma medida de erro entre as previsões $f_{\mathbf{w},b}(\mathbf{x}^{(i)})$ e o verdadeiro valor $y^{(i)}$.

A função de custo, utilizando a entropia cruzada, é dada por:

$$ J(\mathbf{w},b) = \frac{1}{m} \sum_{i=0}^{m-1} \left[ loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) \right] \tag{4}$$

onde
* $loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)})$ é o custo de um único ponto de dados:

    $$loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) = -y^{(i)} \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - y^{(i)}\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) \tag{5}$$
    
* $m$ é o número de exemplos de treinamento, e $n$ é o número de features.

Na regressão logística, utilizamos os dados de treinamento para ajustar os parâmetros $\mathbf{w}$ e $b$, a fim de minimizar a função de custo $J(\mathbf{w},b)$. Para encontrar os valores dos parâmetros, utilizamos o método de gradiente descendente.

#### Derivadas

As derivadas nos ajudam a encontrar o mínimo da função de custo. Deste modo, as derivadas parciais da função de custo $J(\mathbf{w},b)$ em relação $\mathbf{w}$ e a $b$ são dadas por:

$$\begin{align*}
\frac{\partial J(\mathbf{w},b)}{\partial w_j}  &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})x_{j}^{(i)} \tag{6} \\
\frac{\partial J(\mathbf{w},b)}{\partial b}  &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)}) \tag{7} 
\end{align*}$$

#### Atualização dos Parâmetros

Os parâmetros $w$ e $b$ são atualizados simultaneamente da seguinte maneira:

$$w_j = w_j -  \alpha \frac{\partial J(\mathbf{w},b)}{\partial w_j} \tag{8}$$  para $j=0,.., n-1$

$$b = b -  \alpha \frac{\partial J(\mathbf{w},b)}{\partial b} \tag{9}$$

onde $\alpha$ é a taxa de aprendizado, que controla o tamanho dos passos de atualização dos parâmetros.

O processo é repetido iterativamente até que a função de custo $J(w, b)$ atinja um valor mínimo.
