## Regressão Linear

Regressão Linear é um algoritmo de regressão que modela variáveis por meio de uma função linear

$$ŷ = \beta_0 + \beta_1 X_1 + \beta_n X_n + \epsilon$$

$\beta$ = Coeficientes

$X$ = Entradas

$\epsilon$ = Erro

![image.png](attachment:image.png)

Função de Custo

A função de custo (Loss Function) indica quão erradas estão as predições, sendo necessário minimizar a função de custo

Geralmente, a função de custo é a MSE (Mean Squared Error)

$$J(\theta) = \frac{1}{2m} \sum_{i= 1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})²}$$

Otimização

Um método de otimização dos parâmetros é calcular as derivadas parciais da função de custo em cada parâmetro $\theta_i$ e igualar a 0 para achar o valor de $\theta$

Fazer isso é muito custoso e com complexidade.

$$\frac{\partial J(\theta)}{\partial \theta_0} = \frac{1}{m} \sum_{i= 1}^{m}{(h_{\theta}(x^{(i)}) - y^{(i)})}$$

$$\frac{\partial J(\theta)}{\partial \theta_1} = \frac{1}{m} \sum_{i= 1}^{m}{(h_{\theta}(x^{(i)}) - y^{(i)})x^{(i)}}$$

O problema de custo e complexidade é resolvido com o método Gradient Descent.

Gradient Descent realiza a atualização iterativa do parâmetros.

$$\theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}$$

Learning rate:

Parâmetro $\alpha$. 

A taxa de aprendizado é responsável por ajustar o tamanho do "passo" de atualização dos nossos parâmetros.

![image.png](attachment:image.png)

Regularização

Evitar overfitting por meio da adição de penalidades à função de perda.

Função de perda: 

$$L(x,y) \equiv \sum_{i= 1}^{n}{(y_i - h_{\theta})² + \lambda \sum_{i= 1}^{n}{\theta_i^2}}$$

Penalidade L1: $R(\omega) := \frac{1}{2}\sum_{i= 1}^{n}{|\omega_i|}$

Penalidade L2: $R(\omega) := \frac{1}{2} \sum_{i= 1}^{n}{\omega_i²}$

Penalidade de Rede elástica: 

$$R(\omega) := \frac{\phi}{2}\sum_{i= 1}^{n}{\omega_i²} + (1 - \phi)\sum_{i= 1}^{n}{|\omega|}$$

Linearidade:

Para utilizar o algoritmo da regressão linear, os dados devem ser lineares. Isto pode ser observado plotando h(x)-x.

Para aplicar o modelo em dados não lineares, pode-se fazer:

* Aplicar a transformação em y: log(y)

* Adicionar features que são features de x: $x_1²$, $log(x_1)$, $cos(x_1)$, $x_1 x_2$

Vantagens

* Algoritmo simples e eficiente

* Interpretável e permite que obtenhamos informações sobre a influência de cada feature no resultado

## Regressão Logística

Algoritmo de classificação semelhante a Regressão linear.

Utiliza-se a função sigmóide:

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

Função sigmóide

A função mapeia os valores em um intervalo [0,1].

![image.png](attachment:image.png)

O valor de z passado será a função linear construída a partir das entradas e construirá uma fronteiro de decisão

$$y = 1, se \theta^T x \geq 0$$
$$y = 0, se \theta^Tx < 0$$

Função de Custo

A função de custo utilizada para a regressão logística é a entropia cruzada.

$$-log(h_{\theta}(x)), y = 1$$
$$-log(1 - h_{\theta}(x)), y = 0$$
$$-[y log(h_{\theta}(x)) + (1-y)log(1 - h_{\theta}(x))]

A função representa a perda individual de cada instância. Para obter a loss completa faz-se a média de todas as instâncias.

$$J(\theta) = \frac{1}{m}\sum_{i= 1}^{m}{loss(h_{\theta}(x^{(i)},y^{(i)}))} = $$
$$= -\frac{1}{m}\sum_{i= 1}{m}{[y^{(i)}log(h_{\theta}(x^{(i)})) + (1 - y^{(i)})log(1- h_{\theta}(x^{(i)}))]}$$


Aplicando esta loss no gradiente descente:

$$\frac{\partial J(\theta)}{\partial \theta_j} = \frac{1}{m} \sum_{i= 1}^{m}{(h_{\theta}(x^{(i)}) - y^{(i)})x^{(i)}_j}$$

Classificação Multiclasses

Para a classificação de mais que 2 classes, necessita-se expandir o algoritmo.

One vs Rest

Treinamento de c classificadores distintos, sendo que cada um faz uma classificação binária. Desta forma, o resultado vai ser dado pelo classificador de maior probabilidade

Regressão Logística Multinomial

Modelo formado por um único classificador

Conjunto de pesos $W_i$ que geram a probabilidade de x pertencer a classe i.

Tem-se vários outputs $W^T_i x$ = $y_i$, então aplica-se a função softmax.

A saída é um vetor de probabilidades $P(C_i|c, W_i)$

$$\sigma(z)_i = \frac{e^{zi}}{\sum_{j= 1}^{K}{e^{zj}}}$$