# A Regressão Logística
- É um modelo linear para **classificação** usando uma função dada por:
<img src="https://drive.google.com/uc?id=1YXiCkxBJ0vf8WQRjLgiw6uI-Xp2T56cZ" style='width: 300px;' />
- Onde, **para calcular s, vamos usar os mesmos conceitos que falamos na regressão linear (coef, intercept)**
<br><br>
- Na regressão logística, ao invés de determinar um valor binário para a classe (0 ou 1, maça ou banana, fraude ou não), ela retorna **a probabilidade de um evento ocorrer**
    - Como ele calcula probabilidades, é muito usado em problemas de classificação de crédito, previsão de saída de clientes (churn) e até probabilidade de doenças
<br><br>
- Considerando uma única variável (petal width (cm)) para fazer a previsão do dataset iris (que já falamos), podemos visualizar primeiramente os dados e então traçar essa função logística
<img src="https://drive.google.com/uc?id=1aSA66H2y8tiS2oVDz05BHgUhM218DcnL" style='width: 600px;' />
- Com isso, podemos fazer a previsão para qualquer novo valor
<img src="https://drive.google.com/uc?id=1lIvPbsn2PD0fPe-6m-HZnItzVh_gM0Oj" style='width: 2000px;' />

- **Para começar, podemos já usar o dataset iris**
    - https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris

In [None]:
# Importando o dataset
from sklearn.datasets import load_iris
X,y = load_iris(return_X_y = True, as_frame=True)

In [None]:
# Considerando apenas a coluna 'petal width (cm)' e os targets 0 e 1
X = X.loc[y.isin([0,1]),'petal width (cm)'].values
y = y[y.isin([0,1])].values

- E separar em treino e teste
    - https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
# Separando em treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

- Visualizando graficamente a relação do petal width (cm) com a classe
    - https://matplotlib.org/stable/plot_types/basic/scatter_plot.html#sphx-glr-plot-types-basic-scatter-plot-py

In [None]:
# Visualizando graficamente
import matplotlib.pyplot as plt

fig, ax = plt.subplots()

ax.scatter(X_train, y_train)

ax.set(yticks=[0,1],xticks=[0,0.3,0.6,0.9,1.2,1.5])

plt.show()

- **Utilizando a regressão logística**
    - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

In [None]:
# Importando a regressão logística

In [None]:
# Criando o nosso classificador

In [None]:
# Verificando o coeficiente angular

In [None]:
# E o coeficiente linear

- Para traçar esse gráfico, já temos a função `expit` do scipy
    - https://docs.scipy.org/doc/scipy/reference/generated/scipy.special.expit.html
    - `expit(x) = 1/(1+exp(-x))`

In [None]:
# Importando o expit

In [None]:
# Importando o numpy e criando um array de 0 a 2
import numpy as np
valores_x = np.linspace(X_train.min(),X_train.max(),100)

- Para o caso binário, podemos calcular a curva em função do coef_ e do intercept_ fazendo `expit(x*w1+w0)`
    - https://scikit-learn.org/stable/modules/linear_model.html#binary-case

In [None]:
# Calculando o valor para cada valor de y

In [None]:
# Visualizando graficamente

In [None]:
# Podemos exibir os dados de treino em cima dessa curva
y_curva = expit(X_train*clf.coef_[0][0]+clf.intercept_[0])

In [None]:
# Visualizando graficamente
fig, ax = plt.subplots()

ax.scatter(X_train, y_train)
ax.plot(valores_x,valores_y)
ax.scatter(X_train, y_curva)

ax.axhline(y=0.5,c='m',linestyle='--')

ax.plot([0.1,0.1],[0,0.07883025],'--g')
ax.plot([0.2,0.2],[0,0.11156652],'--g')
ax.plot([0.3,0.3],[0,0.15560101],'--g')
ax.plot([0.4,0.4],[0,0.21285167],'--g')
ax.plot([0.5,0.5],[0,0.28408003],'--g')
ax.plot([0.6,0.6],[0,0.36800066],'--g')
ax.plot([1,1],[0.72972574,1],'--g')
ax.plot([1.1,1.1],[0.79846697,1],'--g')
ax.plot([1.2,1.2],[0.85324086,1],'--g')
ax.plot([1.3,1.3],[0.89508404,1],'--g')
ax.plot([1.4,1.4],[0.92603135,1],'--g')
ax.plot([1.5,1.5],[0.94837655,1],'--g')
ax.plot([1.6,1.6],[0.96423221,1],'--g')

ax.set(yticks=[0,1],xticks=[0,0.3,0.6,0.9,1.2,1.5])

plt.show()

In [None]:
# Fazendo a previsão das probabilidades

In [None]:
# Verificando o X_train

In [None]:
# e o y_train

- **Utilizando essa previsão na base de teste**

In [None]:
# Verificando a previsão da probabilidade

In [None]:
# Verificando graficamente

In [None]:
# E apenas a previsão

In [None]:
# Avaliando o erro

- **O caso binomial pode ser estendido para quantas classses quisermos, porém há um aumento na complexidade**
    - https://scikit-learn.org/stable/modules/linear_model.html#binary-case
- **Podemos considerar todos as classes e todas as colunas**

In [None]:
# Importando novamente o dataset

In [None]:
# Separando em treino e teste

In [None]:
# Criando novamente o classificador

In [None]:
# Verificando o coef_

In [None]:
# e o intercept

In [None]:
# Fazendo a previsão das classes

In [None]:
# Avaliando o erro