# Classificação Binária

De maneira geral uma classificação binária é: Dada uma entrada __X__ prever se label __Y__ correspondente é __0__ ou __1.__

___Notação:___

* Par unico de treino: <br>
    * $(x, y)$ $|$ $x \in \Re^{n_x}, y \in \{0,1\}$

* Amostras de treinos:
    * $m: [(x^1, y^1), (x^2, y^2)...(x^m, y^m)]$

* Train/Test:
    * Conjunto de treino: $m_{treino}$
    * Conjunto de teste: $m_{teste}$
    
* Matriz de input
    * Matriz contendo em cada coluna os valores de cada feature
    * $X \in \Re^{n_x,m}$

* Matriz de saida
    * Matriz contendo as labels de saida
    * $Y \in \Re^{1, m}$

# Regressão Logistica

Dado $x$ queremos prever a saída $ŷ$, tal que $ŷ = P(y=1|x)$

Em que $x \in \Re^{n_x}$, e numa regressão logística temos: $w \in \Re^{n_x}, b \in \Re$

Para prever uma saída $ŷ$ poderiamos usar uma função linear dos parametros para chegar na saída:

$ŷ = w^Tx + b$

Porém neste caso $ŷ$ poderá assumir valores muito maiores que 1 e até mesmo negativo, o que não faz sentido se estamos interessados na probabilidade de saída. Sendo assim aplicamos a função ___sigmoide___ a esta equação:

\begin{equation*}
    ŷ = \sigma(w^Tx + b)
\end{equation*}

Onde $\sigma(z) = \frac{1}{1 + e^{-z}}, z \in \Re$

E fazendo $z = w^Tx + b$ temos:

\begin{equation*}
    ŷ = \sigma(z)
\end{equation*}

Portanto:
* Se $z \rightarrow +\infty$ então $\sigma(z) \approx \frac{1}{1 + 0} = 1$


* Se $z \rightarrow -\infty$ então $\sigma(z) \approx \frac{1}{1 + \infty} = 0$


Portanto, ao treinar uma regressão logística, o trabalho é aprender os parametros $w$ e $b$ de forma que $ŷ$ seja uma boa estimativa da chance de $y$ ser igual a $1$

## RL - Função Custo

Dado que temos como entrada $\{(x^1, y^1)...(x^m, y^m)\}$, e queremos $ŷ^i \approx y^i$. Então para cada $ŷ^i$ teremos:

$ŷ^i = \sigma(w^Tx^i + b),$ onde $\sigma(z^i) = \frac{1}{1 + e^{-z^i}}$ e $z^i = w^Tx^i + b$


_OBS: o índice "$i$" refere-se aos dados de treinamento_

Podemos determinar o quanto o modelo desempenha bem, avaliando a sua perda, ou seja, quando o algortimo da o resulta $ŷ$ em relação a label verdadeira $y$ - __Loss (error) Function.__


Poderiamos definir a Loss function como a metade do erro quadrado médio:
$L(ŷ, y) = \frac{1}{2}(ŷ - y)^2$

Porém em casos onde conhecemos as labels, teremos uma Loss function com flutuações, ou seja com muitos _minimos locais_ e sendo assim podemos ter um gradiente que nunca encontre um _minimo global._

Portanto em Regressão Logística a Loss Function usada é:

$L(ŷ, y) = -(ylogŷ + (1 - y) log(1 - ŷ))$

Pois a idéia é que esta função assuma o __menor valor possível__ (minimo global).

___Exemplo:___

Se $y = 1$ : $L(ŷ, y) = -logŷ$ $\rightarrow$ $logŷ$ deve ser o maior possível então $ŷ \rightarrow \infty$

Se $y = 0$ : $L(ŷ, y) = -log(1 - ŷ)$ $\rightarrow$ $log(1 - ŷ)$ deve ser o maior possível então $ŷ \rightarrow -\infty$

A Loss Function avalia como o modelo desempenha sobre um exemplo treino, queremos então definir uma função que nos dê essa estimativa sobre todo o conjunto de treino: __Cost Function__.

Logo, a cost function avalia o desempenho de todo o conjunto de treino, dado os parametros $w$ e $b.$ 

\begin{equation*}
J(w, b) = \frac{1}{m} \sum^{m}_{i=1}L(ŷ^i, y^i) = -\frac{1}{m}\sum^{m}_{i=1}[y^ilogŷ^i + (1 - y^i) log(1 - ŷ^i)]
\end{equation*}

Por tanto ao treinar uma Regressão Logística queremos determinar os parâmetros $w$ e $b$ que minimizam a função custo total $J$

## Gradient Descent

![](gd.png)

__Gradiente Descent__ é um metodo de otimização para alcançar o minimo global. Através de iterações repetidas, realizando derivadas e encontrando assim a menor direção para a convergência, os parametros ( _w e b_ ) são atualizados até que se chegue ao minimo global.

\begin{equation*}
    w := w - \alpha \frac{dJ(w)}{dw}
\end{equation*}


Onde $\alpha$ é o __Learning Rate__, e determina o quão grande será o proximo passo tomado a cada iteração do gradiente decrescente.

OBS: Convenciona-se que $\frac{dJ(w)}{dw} := dw$

__OBS1:__ ___O conceito de "Back Propagation" refere-se a regra da cadeia___

__OBS2:__ ___O resultado final da regra da cadeira convenciona-se que será___ $dvar$

### Gradient Descent in Logistic Regression

Para todo o conjunto de treino teremos:

$\frac{d}{dw_1} J(w, b) = \frac{1}{m} \sum^{m}_{i=1} \frac{d}{dw_i} L(a^i, y^i) $

# Vetorização

Utiliza-se __vetorização__ para evitar os " _loops_ " no código e assim obter mais eficiência no programa.

Seja, numa regressão logistica $z = w^T + b$, onde $w$ e $x$, com $w \in \Re^{n_x}$ e $x \in \Re^{n_x}$ são "vetores colunas".

__Exemplo:__

In [10]:
import numpy as np

a = np.array([1,2,3,4])
print(a)

[1 2 3 4]


In [20]:
import time
a = np.random.rand(1000000)
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a, b)
toc = time.time()

print(c)
print("Vectorizer version: " + str(1000*(toc-tic)) + "ms")
print()

c = 0
tic = time.time()
for i in range(1000000):
    c += a[i]*b[i]
toc = time.time()

print(c)
print("For loop: " + str(1000*(toc-tic)) + "ms")

250176.34278775906
Vectorizer version: 1.5251636505126953ms

250176.3427877512
For loop: 696.0258483886719ms


__Mais Exemplos:__

Se fossemos implementar o Grandiente Descendente sem usar vetorização teriamos algo como:

$J = 0$, $dw_1 = 0$, $dw_2 = 0$, $db = 0$<br>
for i=1 to m: <br>
$z^i = w^T x^i + b$ <br>
$a^i = \sigma(z^i)$ <br>
$J += -[y^ilogŷ^i + (1 - y^i)log(1 - ŷ^i)]$ <br>
$dz^i = a^i(1 - a^i)$ <br>
$dw_1 = x_1^i dz^i$ <br>
$dw_2 = x_2^i dz^i$ <br>
$db += dz^i$ <br>
<br>
$J = J/m$, $dw_1 = dw_1/m$, $sw_2 = dw_2/m$, $db = db/m$


Observando que neste caso temos duas _features_ , porem a medida que as features aumentam o algoritmo tb aumentaria

Agora implementando com vetorização seria:

$J = 0$, $dw = np.zeros((nx, 1))$, $db = 0$<br>
for i=1 to m: <br>
$z^i = w^T x^i + b$ <br>
$a^i = \sigma(z^i)$ <br>
$J += -[y^ilogŷ^i + (1 - y^i)log(1 - ŷ^i)]$ <br>
$dz^i = a^i(1 - a^i)$ <br>
$dw += x^i dz^i$ <br>
$db += dz^i$ <br>
<br>
$J = J/m$, $dw = dw/m$, $db = db/m$

OBS: Desta maneira teremos apenas _1 loop_

## Vetorizando uma Regressão Logística

### Entrada do gradiente descendente

Numa RL precisamos utilizar a regra da cadeia sobre cada exemplo de treino para realizar uma previsão, vejamos como podemos implementar isso sem utilizar _loops._

Seja $X = [x^1, x^2, ..., x^m]$ uma matriz $(n_x, m)$, queremos calcular $z^i = w^Tx^i + b$ para todos os elementos do conjunto de treino, sendo assim, ao final dos calculos teriamos um vetor de $z_s$, ou seja: <br>
$[z^1, z^2, ..., z^m]$


Então, teriamos que: <br>
$[z^1, z^2, ..., z^m] = w^T X + [b,b, ..., b] = [(w^Tx^1 + b), (w^Tx^2 + b), ..., (w^Tx^m + b)]$

Vemos então que: <br>
$z^1 = w^Tx^1 + b$, $z^2 = w^Tx^2 + b$, .... 

Portanto, em Python podemos simplesmente fazer:

In [None]:
Z = np.dot(w.T, X) + b

"""
w.T --> vetor transposto
+ b --> Python broadcasting: expande b em um vetor (1, m) e aplica a soma sobre o vetor anterior
"""

O mesmo vale para o que seria a próxima etapa da __back propagation__ (aplicação da regra da cadeia) que é: <br>
$a^1 = \sigma(z^1)$, $a^2 = \sigma(z^2)$, ..., $a^m = \sigma(z^m)$

Teremos ao final: <br>
$[a^1, a^2, ..., a^m]$

Portanto bastaria fazermos: <br>
$A = [a^1, a^2, ..., a^m] = \sigma(z)$

### Saída do gradiente descendente

Temos que $A = [a^1, a^2, ..., a^m]$ e como saida do modelo, as previsões, teriamos $Y = [y^1, y^2, ..., y^m]$


Como visto anteriormente a derivada de $z$, podemos então verificar que: <br>
$dZ = A - Y = [a^1 - y^1, a^2 - y^2, ..., a^m - y^m]$


Portanto temos:<br> 
$db = \frac{1}{m} \sum^m_{i=1} dz^i$ <br>
$dw = \frac{1}{m} X dZ^T = \frac{1}{m} [x^1, x^2, ..., x^m][dz^1, dz^2, ..., dz^m] = \frac{1}{m} [x^1dz^1, x^2dz^2, ..., x^mdz^m]$

Sendo assim, em Python temos:

In [None]:
db = 1/m * np.sum(dZ)

dw = 1/m * X * dZ.T

### Juntando tudo

Para uma implementação vetorizada da regressão logística, temos:

$Z = w^TX + b$ <br>
$A = \sigma(Z)$ <br>
$dz = A - Y$ <br>
$dw = \frac{1}{m} X dZ^T$ <br>
$db = \frac{1}{m} np.sum(dZ)$ <br>

Assim temos o calculo para back propagation e retro-propagation, que são simplesmente as etapadas da regra da cadeia.

Para a atualização dos pesos:

$w := w - \alpha dw$ <br>
$b := b - \alpha db$

# Python/numpy Tips

Exemplo:

In [33]:
import numpy as np

a = np.random.randn(5)
print(a)

[ 0.11372434  1.31904447 -1.39430473 -0.54826907  1.51755754]


In [34]:
# Ao printar a vetor criado acima, vemos que ele não é do tipo "Vetor linha" nem do tipo "Vetor Coluna"
print(a.shape)

(5,)


Tal estrutura de dado acima (5,) chama-se " __rank 1 array__ ", e possui comportamentos esquisitos

In [35]:
# Isso pode levar a alguns erros de interpretação
# Transposta
print(a.T)

[ 0.11372434  1.31904447 -1.39430473 -0.54826907  1.51755754]


Podemos então imaginar que multiplicando a por sua transposta teremos uma matriz simétrica, ou outra matriz, porem...

In [36]:
print(np.dot(a, a.T))

6.300477082523405


___Tip: Não utilizar estruturas da forma (n,) sempre "forçar" a dimensão da estrutura, (n,1)___

In [37]:
a = np.random.rand(5,1)
print(a)

[[0.82388622]
 [0.36344221]
 [0.04575223]
 [0.67015828]
 [0.18260092]]


In [38]:
print(a.T)

[[0.82388622 0.36344221 0.04575223 0.67015828 0.18260092]]


In [39]:
print(np.dot(a, a.T))

[[0.6787885  0.29943503 0.03769463 0.55213417 0.15044238]
 [0.29943503 0.13209024 0.01662829 0.24356381 0.06636488]
 [0.03769463 0.01662829 0.00209327 0.03066124 0.0083544 ]
 [0.55213417 0.24356381 0.03066124 0.44911212 0.12237152]
 [0.15044238 0.06636488 0.0083544  0.12237152 0.03334309]]


In [48]:
a = np.random.randn(3, 3)
b = np.random.randn(3, 1)
c = a*b
c

array([[-1.30814041, -0.24600646,  1.760964  ],
       [ 0.56626059, -0.09426146, -0.6328777 ],
       [-0.26841861,  0.58378288,  0.21296354]])