# Classificação Binaria
---
  
  
  
<div align="center">
  <img width="460" height="300" src="https://aigeekprogrammer.com/wp-content/uploads/2019/10/Logistic-Regression-learning.png">
</div>

Um modelo previsor de classificação se refere a um problema no qual precisamos declarar de forma clara se um elemento faz parte de um determinado grupo ou não.  

No mundo atual, estamos rodeados de modelos que fazem essas classificações para a gente, de forma rotineira, ao ponto em que algumas vezes nem sabemos de sua existencia. Por exemplo:  
- Dado o comportamento recente de um usuário, se é um usuário ativo ou não.  
- Um modelo que classifica se o novo email recebido deve ir para a caixa de spam ou não.  
- Se o local onde você está fazendo compra é um lugar de seu costume e definir se a compra de trata de um fraude ou não.  

Para fazer tal previsão, primariamente, é necessário um conjunto onde podemos treinar nossos dados, atraves de variaveis que representam o comportamente anterior e seu resultado, ou seja, o modelo usará os dados de treino para encontrar a melhor forma possível para rotular os elementos. Por consequencia, os dados de treino deve ser suficientemente representativo em relação ao problema que desejamos prever e ter uma amostra grande o suficiente para representar cada classe possível.

Existem diversos modelos de previsão disponíveis para esses diversos problemas, então de maneira geral, não existe um modelo especificado para cada situação, em vez disso, é recomendado que seja testado o maior número de modelos possível de acordo com a restrição de tempo e renda disponibilizada, para verificar qual deles tras o melhor resultado dentre o problema envolvido. 

Como o modelo preditivo se baseia na ideia das classificações, uma das maneira que verificamos essa capacidade, vem de acordo com a acuracia dos resultados finais gerados pelo modelo ao completar a tarefa sugerida. 

Geralmente para a classificação binária nos deparamos com um clase em seu comportamento comum e o outra classe em seu estado anormal. Por exemplo, para a situação de prever spam, temos que em o email está em seu estado comum e o spam é seu estado "anormal". Também é comum, mas não é regra, classificar como 0 o rótulo de estado comum e 1 como estado anormal, porém para a construção de um Behaviour Score, pois é essencial para o Score que não haja betas invertidos, sendo um valor apenas que aumenta e nunca diminui. 

Para esse estudo, faremos uso da Regressão Lógistica, pois além de ser um método muito popular para a classificação binária, ela também contém um certa relação de uso com as redes neurais, que será aprofundado futuramente.

# Regressão Logística 
--- 

Como boa parte das técnicas estatísticas, a Regressão Logística foi criada no século XVIII graças a alguns estudos sobre crescimento populacional. Segundo CRAMER (2002), após 40 anos, esse estudo foi reutilizado para a previsão populacional de alguns países Europeus, porém recebeu sua primeira publicação apenas em 1845, através de Pierre-François Verhust. Nessa época, ela foi chamada de curva logística. Logo caracterizou-se por ser capaz de descrever as relações entre uma variável dependente qualitativa binária, em relação ao restante das variáveis. Devido à natureza da Regressão Logística, sua utilidade e campo de aplicação são vastos e permitem aplicação em diversas áreas de estudo. Hoje em dia, percebe-se que há uma preferência sobre esse método no mercado de crédito, pois permite a previsão de pessoas que não pagarão suas pendências, com uma função relativamente simples.  

 Pois, esse método regressivo ser tornou componente integral de qualquer análise de dados, devido a sua capacidade de descrever a relação entre a variável resposta e uma ou mais viáveis exploratórias. E frequentemente, nossa variável resposta é uma variável discreta, tendo apenas dois ou poucos mais valores. Nas últimas décadas o modelo de Regressão Linear se tornou o padrão para análises desse tipo de situação. (LEMESHOW; HOSMER, 2000)
 Em suma, analisaremos o comportamento de adimplentes, atribuindo o valor 1 para os inadimplentes, e 0 para os adimplentes. Assim, conseguiremos ver a taxa relativa de forma mais compreensível. 

$$ 
Y=
  \begin{cases}
    0, & \text{se o usuario é inadimplente.} \newline
    1, & \text{caso contrário.} 
  \end{cases}
$$ 

Como citado anteriormente, faremos uso dessa forma, pois colocando o adimplente como 1, ao multiplicarmos essa flag, teremos um incremento no score final do usuario ao fim da previsão, e por conveniencia evitamos um beta negativo. 


### O Modelo Logístico
--- 

O modelo logístico é um modelo probalistico recomendado para prever a probabilidade de um elemento fazer parte de um determinado grupo ou evento de interesse do estudo. Como exemplos, temos os citados sobre a classificação binária. Em resumo, é um modelo estatístico relativamente simples que preve outputs binários. 

Para compreendermos a Regressão Logística, é necessário englobar alguns conceitos do modelo. 

A função logistica é o que denominamos como função sigmoide, basicamente uma função que tem uma aparência curva, semelhante a um "S", e apesar de usualmente a sigmoide ser associada a lógistica, ela contêm uma gama diversa de funções, tal como as expressas na figura abaixo: 

<div align="center">
  <img width="460" height="300" src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/6f/Gjl-t%28x%29.svg/1280px-Gjl-t%28x%29.svg.png" >
    <figcaption>Funções Sigmoides</figcaption>
</div>

A função logística, por sua vez tem a seguinte forma: 
$$\sigma(t)=\frac{e^{t}}{e^{t}+1}=\frac{1}{1+e^{-t}}$$

E de certa forma, ela é analoga ao modelo linear, porém, ela sofre uma transformação de forma que ele possa ser interpretada como um probalidade em relação a apenas dois cenários possíveis. Onde o modelo linear não possui uma boa capacidade de previsão, contêm maiores com relação quando é necessário lidar com outliers, e pode apresentar incoerências e interpretações.

Um exemplo citado por Matheus Facure, apresenta uma boa apresentação sobre esses caso: 

"Como exemplo ilustrativo, vamos supor que somos uma agência de seguros e estamos decidindo se devemos ou não segurar um carro, com base nas informações sociais dos seus donos. Por motivos de simplicidade, vamos dizer que a probabilidade da pessoa bater o carro só dependa do tempo que ela gastou na autoescola; nós temos acesso a esse tempo, mas não sabemos exatamente como ele se relaciona com a probabilidade da pessoa segurada sofrer um acidente automobilístico.

Nós então olhamos no nosso arquivo os casos de 15 pessoas, onde temos tanto os dados de tempo na autoescola e se elas sofreram ou não acidente. Se colocarmos nossos dados em um gráfico (x, y) ele seria mais ou menos da seguinte forma:

<div align="center">
  <img width="460" height="300" src="https://matheusfacure.github.io/img/tutorial/binaria.png" >
    <figcaption>Funções Sigmoides</figcaption>
</div>

No eixo y, temos marcado com 1 se a pessoa sofreu um acidente e 0 caso contrário. No eixo x, temos o tempo que ela passou na autoescola. Nós podemos ver então que a maioria das pessoas que sofreram um acidente de carro passou pouco tempo na autoescola. Mas queremos mais do que isso. Queremos algum modelo capaz de prever a probabilidade da pessoa sofrer um acidente com base no tempo que durou a autoescola dela.

Uma forma ingênua de resolver esse problema é utilizar regressão linear. Como regressão linear produz como previsão um valor contínuo, nós podemos estabelecer algum limiar para as previsões. Vamos supor que fixemos esse limiar em 0,5: pessoas cuja previsão de acidente for maior do que isso serão consideradas de alto risco e não seriam seguradas (ou o seriam a um preço maior). A nossa esperança é que regressão linear produza como previsão a probabilidade da pessoa sofrer acidente, dado o tempo dela na autoescola (e nós veremos que isso não será o caso). A nossa linha de melhor ajuste então seria assim:

<div align="center">
  <img width="460" height="300" src="https://matheusfacure.github.io/img/tutorial/bi_linregr.png" >
    <figcaption>Funções Sigmoides</figcaption>
</div>

Nesse caso, utilizar regressão linear e estabelecer um limiar funcionaria muito bem! Se colocássemos o nosso limiar em 0.5, preveríamos que todos à direita da curva pontilhada não sofreriam um acidente e erraríamos em apenas dois casos! No entanto, suponha agora que nos nossos dados haja uma pessoa com muitas horas de autoescola. Digamos, umas 100 horas. Essa pessoa não sofreu nenhum acidente e de certa forma ter ela nos dados não traz muita informação nova: ela foi tão treinada que dificilmente preveríamos que sofreria um acidente. Em outras palavras, essa observação não gera incerteza O ideal seria então que o nosso algoritmo de previsão não desse muita atenção a essa pessoa e se concentrasse mais nas regiões de fronteira, onde é realmente difícil saber se a pessoa é de baixo ou alto risco. Infelizmente isso não acontece com regressão linear:

<div align="center">
  <img width="460" height="300" src="https://matheusfacure.github.io/img/tutorial/bi_lin_out.png" >
    <figcaption>Funções Sigmoides</figcaption>
</div>

A presença dessa pessoa super treinada faz com que nossa linha de regressão seja puxada para a direita. Como consequência, iremos classificar muitas das pessoas de baixo risco como tendo alta probabilidade de sofrer acidentes. Podemos ver mais um comportamento estranho com o algoritmo de regressão linear: para pessoas com mais de 70 horas de autoescola, ele está prevendo uma probabilidade negativa de acidente, o que simplesmente não tem sentido."

Como podemos ver, esse modelo apresenta diversos problemas para a nossa análise, porém em frente, também veremos que o modelo linear faz parte do modelo logisto, e por isso ele é expressado a seguir. 

$$\text{Modelo Linear}$$
$$y=\beta_0+\beta_1x_1+...+\beta_nx_n+\varepsilon$$
$$ou$$
$$y=X\beta+\varepsilon$$

A função logistica, por sua vez, consegue lidar com qualquer numero real para $t, (t\in\mathbb{R})$ e sua saída é um valor entre zero e um. Dentro dessa forma de modelagem, podemos interpretar esse valor como uma probablidade. 

A função logistica padrão com $\sigma:\mathbb{R}\to(0,1)$ a definida seguir com:

$$\sigma(t)=\frac{e^{t}}{e^{t}+1}=\frac{1}{1+e^{-t}}$$

Sendo o gráfico gerado na figura abaixo.

<div align="center">
  <img width="460" height="300" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/600px-Logistic-curve.svg.png">
</div>

Então vamos assumir que $t$ seja uma regressão linear simples com apenas uma variavel explicatoria $x$. Podemos definir $t$ da seguinte forma: 

$$t=\beta_0+\beta_1x$$

Por consequencia, aplicando uma transformação de achatamento na Regressão Linear, nossa função toma a seguinte forma: 

$$\sigma(t)={{1}\over{1+e^{-t}}}={{1}\over{1+e^{-\beta_0+\beta_1x_1}}}=p(x)$$

E de maneira similar para estudos onde temos mais de uma varivel explicatória para $X$, podemos expressar nossa função como:

$$t=\beta_0+\beta_1x_1+...+\beta_{n-1}+\beta_n$$

E em seguida:

$$\sigma(t)={{1}\over{1+e^{-t}}}={{1}\over{1+e^{-\beta_0+\beta_1x_1+...+\beta_{n-1}+\beta_n}}}=p(x)$$

E como dito anteriormente, interpretamos $p(x)$ como a probabilidade da variavel dependente $Y$. 

É valido mencionar que é facilmente aplicavel a inversa da função anterior atravez do uso de um log, onde teremos:

$$g(x)=\ln({{1}\over{1+e^{-t}}})=\beta_0+\beta_1x_1+\ldots+\beta_nx_n$$

O uso desse artificio pode ser útil para uma análise mais detalhada sobre algum aspecto especifo do modelo, como alguma a possível correlação de algumas da variaveis causando algum ponto de inflação no score e contribuindo de maneira semelhante para o score. 

Dando continuidade as validações teoricas de um modelo, iremos esbarar em conceitos como a função de custo, dado que o que desejamos ao aplicarmos um modelo de previsão é evitar que erremos, e para isso desejamos minimizar o máximo possível as diferenças entre nossas estimativas e os valores observados. 

Então a seguir daremos uma olhada nesse tópico.

### Função Custo 
--- 

O intuito da modelagem é que ela nos dê valores estimados, resultantes de $\hat{y}=\sigma(X\hat{\beta})$, que esteja o mais próximo possível dos valores observados nas amostras. Para isso nosso objetivo é que cheguemos em valores para $\hat{\beta}$ de forma que ele minize os erros. E para termos uma visão objetiva sobre a performance do nosso modelos, iremos utilizar da função custo. 

Este conceito, além de ser extremamente relevante para o estudo de Regressões, ele será também de extrema importância para a conceituação do vetor gradiente descendente que veremos mais profundamente ao adentramos os temas de redes neurais. Mas para inicio do tema, também faremos algumas observações sobre as observações convexas e não convexar que será relevante mais a frente. 

<div align="center">
  <img width="460" height="300" src="https://media.springernature.com/original/springer-static/image/chp%3A10.1007%2F978-1-4842-4246-9_6/MediaObjects/332789_2_En_6_Fig1_HTML.png">
    <figcaption>Função Convexa e Não-convexa</figcaption>
</div>

<br/>
Prosseguindo para a função custo, é rotineiro o uso do EQM para a análise dos resíduos na Regressão Linear, tendo a seguinte forma:  <br/><br/>

$$\text{Função Custo: Regressão Linear}$$
$$EQM=\frac{1}{n}\sum_{i=1}^{n}(\hat{y_i}-y_i)^2$$

Porém, esse método para a análise dos resíduos não é recomendado para a Regressão Logística, pois esse método gera muitos pontos de maximos e mínimos locais o que dificulta a otimização dos valores para $\hat{\beta}$. Esse resultado estranho ocorre devido a função sigmoide apresentada na Regressão Logística, que é uma função não-linear. E estamos interessado em um gráfico convexo, de forma que facilite encontrar nosso ponto de otimização. 

E para isso, quando estamos lidando com a regressão logística, a função custo utilizada é a Entropia Cruzada, também conhecida como Log-Loss.

De maneira enxuta, a **entropia cruzada**, nada mais é que identificarmos a diferença das distribuições probabilisticas entre os valores reais dos valores observados, enquanto que para o EQM, avaliamos a diferença geométrica média entre os elementos. 

A vantagem dessa metódologia, é que ao verificarmos as diferenças entre os valores observados dos previstos, ela gera um formato curvo que não apresenta pontos de máximos e mínimos locais, mas sim um ponto global, e isso nos dá suporte para minimizar a **entropia cruzada** de forma mais eficiente e precisa. 

$$\text{Função Custo: Regressão Logística}$$
$$L=\frac{1}{n}\sum_{i=1}^{n}L(\hat{y_i},y_i)=-\frac{1}{n}\sum_{i=1}^{n}[y_i\ln{(\hat{y})}+(1-y_i)\ln(1-\hat{y_i})]$$

Podendo ser simplificada da seguinte forma:
$$
L=
  \begin{cases}
    -\log(\hat{y}) & \text{se, y = 1} \newline
    -\log(1-\hat{y}), & \text{se, y = 0} 
  \end{cases}
$$

Como citado anteriomente essa função nos dará uma forma convexa devido as seguintes situações: 

$y=1, \hat{y}=1, -\log(\hat{y})\to 0$

Quanto temos que nosso observado e nossa previsão tente para 1, o valor do log, tende para 0.

$y=1, \hat{y}=0, -\log(\hat{y})\to \infty$

Quanto temos que nosso observado é 1 e nossa previsão tente 0, o valor do log, tende para infinito.

$y=0, \hat{y}=0, -\log(1-\hat{y})\to 0$

Quanto temos que nosso observado e nossa previsão tente a 0, o valor do log, também tende para 0

$y=0, \hat{y}=1, -\log(1-\hat{y})\to \infty$

Quanto temos que nosso observado é 0 e nossa previsão tente 1, o valor do log, tende para infinito.

<div align="center">
  <img width="615" height="597" src="https://conorsdatablog.files.wordpress.com/2018/03/log_loss.png?w=615&h=597">
</div>


Fazendo uso da formula padrão da Log-Loss, faremos uso de derivadas para encontrar seu ponto de otimização.

$$L=-\frac{1}{n}\sum_{i=1}^{n}[y_i\ln{(\hat{y})}+(1-y_i)\ln(1-\hat{y_i})]$$

Então substitituindo nosso $\hat{y}$ por $\sigma(X\beta)$ e diferenciando $L$ podemos encontrar o valor otimo dos parametros. 

Para simplificamos um pouco a explicação das derivadas envolvidas, farei uso da Função Perca, que é a mesma formula da Função Custa aplicada apenas um elemento. Então para nossa função perca, toma-se a seguinte formula: 

$$L=-(y_i\ln{(\hat{y})}+(1-y_i)\ln(1-\hat{y_i}))$$

Fazendo a seguintes derivadas 

$$
\begin{align*}
\frac{dL}{d\hat{y}}
&= \frac{1-y}{1-\hat{y}}-\frac{y}{\hat{y}} \\
&= \frac{-y+\hat{y}y+\hat{y}-\hat{y}y}{\hat{y}(1-\hat{y})} \\
&= \frac{\hat{y}-y}{\hat{y}(1-\hat{y})}
\end{align*}
$$

**OBS:** Lembre-se que $\hat{y}=\sigma(X\beta)$, e que $\sigma(X\beta)$ é a função sigmoíde. Portanto para o próximo passo, faremos a derivada da função sigmóide da seguinde forma: 

$$\frac{1}{1+e^{-X\beta}}$$

E fazendo $X\beta=z$:

$$
\begin{align*}
\frac{d\sigma(z)}{dz}
&= \frac{1}{1+e^{-z}} \\
&= (1+e^{-z})^{-1} \\
&= (-1) \cdot (1+e^{-z})^{-2} \cdot (-e^{-z}) \\
&= \frac{e^{-z}}{(1+e^{-z})^{-2}}
\end{align*}
$$

Agora para simplifcar a formula, faremos os seguintes passos: 

$$
\begin{align*}
\frac{e^{-z}}{(1+e^{-z})^{-2}}
&= \frac{1}{(1+e^{-z})} \cdot \frac{e^{-z}}{(1+e^{-z})} \\
&= \frac{1}{(1+e^{-z})} \cdot \frac{e^{-z}\color{red}{+1-1}}{(1+e^{-z})} \\
&= \frac{1}{(1+e^{-z})} \cdot [\frac{(1+e^{-z})}{(1+e^{-z})}-\frac{1}{(1+e^{-z})}] \\ 
&= \frac{1}{(1+e^{-z})} \cdot [1-\frac{1}{(1+e^{-z})}] \\
&= \sigma(z)[1-\sigma(z)]
\end{align*}
$$

Como $\hat{y}=\sigma(z)$, podemos simplificar ainda mais o resultado anterior como: 

$$\frac{d\sigma(z)}{dz} = \hat{y} \cdot (1-\hat{y})$$

Então pra finalizarmos as formulas de otimização da função Log, teremos: 

$$\frac{dL}{dz}=\frac{dL}{d\hat{y}} \cdot \frac{d\hat{y}}{dz}= \frac{\hat{y}-y}{\hat{y}(1-\hat{y})} \cdot \hat{y} \cdot (1-\hat{y}) = \hat{y} - y$$

De forma que nossa função de custo para a otimização demonstrada, é apenas a adição da somatória: 

$$L=\frac{1}{n}  \sum_{i-1}^{n}(\hat{y} - y)$$