# Regressão Binária

- [Probit vs Logit](https://vitalflux.com/logit-vs-probit-models-differences-examples/)

Modelos de regressão binária são modelos utilizados para classificar uma variável binária _genial, não?_, geralmente representados por 0 e 1.

Estamos interessados em modelos de regressão linear, dados pela seguinte fórmula:

$$ g(\mu_i) = \eta_i = \beta X $$

- Onde $g(\mu_i)$ é uma função monótona crescente chamada de **função de ligação**;
  - Por conta dessa característica, muitas vezes opta-se por utilizar fda's conhecidas para esta função.
- Para problemas de classificação binária $g:\mathbb{R}\to [0,1]$;

As principais funções de ligação para dados binários são:

<center>

|   Nome  	|                 $g(\eta)$                 	|                $g^{-1}(p_i)$                	|
|:-------:	|:-----------------------------------------:	|:-------------------------------------------:	|
|  logit  	| $p_i = \frac{\exp(\eta)}{1+\exp(\eta_i)}$ 	| $\eta=\ln \left( \frac{p_i}{1-p_i} \right)$ 	|
|  probit 	|            $p_i = \Phi(\eta_i)$           	|          $\eta_i = \Phi^{-1}(p_i)$          	|
| cauchit 	|   $p_i =0.5+\frac{\arctan(\eta_i)}{\pi}$  	|        $\eta_i = \tan(\pi(p_i-0.5))$        	|
|  loglog 	|        $p_i = \exp(-\exp(-\eta_i))$       	|          $\eta_i = -\ln(-\ln(p_i))$         	|
| cloglog 	|        $p_i=1-\exp(-\exp(\eta_i))$        	|          $\eta_i=\ln(-\ln(1-p_i))$          	|

</center>

- $\Phi(\cdot)$ é a fda da distribuição normal padrão;
- Ligação Cauchit é a fda da distribuição Cauchy;
- Ligação loglog é a fda da distribuição Gumbel;
- Ligação cloglog é o complementar da fda da distribuição Gumbel.

In [64]:
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.genmod.families.links import Logit, Probit, LogLog, CLogLog, Power, Cauchy

# Preparo da base de dados
iris = pd.read_csv(
    r"G:\Meu Drive\Data Science\Bases\Classificação\Iris.csv"
)

iris.drop('Id', axis = 1, inplace = True)

# Transforma o problema em um de classificação binária:
iris['Species'].replace(
    {
        'Iris-setosa' : 0,
        'Iris-versicolor' : 0,
        'Iris-virginica' : 1
    },
    inplace = True
)

# Modelagem

iris = sm.add_constant(iris)

model = smf.glm(
    formula = "Species ~ SepalLengthCm + SepalWidthCm + PetalLengthCm + PetalWidthCm",
    data = iris,
    family = sm.families.Binomial(
        link = Logit() 
    )
)

result = model.fit()

print(result.summary())

                 Generalized Linear Model Regression Results                  
Dep. Variable:                Species   No. Observations:                  150
Model:                            GLM   Df Residuals:                      145
Model Family:                Binomial   Df Model:                            4
Link Function:                  Logit   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -5.9493
Date:                Tue, 19 Sep 2023   Deviance:                       11.899
Time:                        23:53:21   Pearson chi2:                     13.2
No. Iterations:                    12   Pseudo R-squ. (CS):             0.6969
Covariance Type:            nonrobust                                         
                    coef    std err          z      P>|z|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept       -42.6378     25.708     -1.659