# Regressão Logística

<br>
<img src="img/regressao_logistica.png">
<br>


A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias[1][2]

A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações, como modelo logístico, modelo logit, e classificador de máxima entropia. A regressão logística é utilizada em áreas como as seguintes:

- Em medicina, permite por exemplo determinar os factores que caracterizam um grupo de indivíduos doentes em relação a indivíduos sãos.
- No domínio dos seguros, permite encontrar fracções da clientela que sejam sensíveis a determinada política securitária em relação a um dado risco particular.
- Em instituições financeiras, pode detectar os grupos de risco para a subscrição de um crédito.
- Em econometria, permite explicar uma variável discreta, como por exemplo as intenções de voto em atos eleitorais.

O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos.

Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo facto de a variável resposta ser categórica.

Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neurais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de as colocar em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver.

Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros factores. É um modelo linear generalizado que usa como função de ligação a função logit. 

Calculando a probabilidade de um certo evento booleano ser verdadeiro:

<br>
\begin{equation*}
P(y=1|X)= \dfrac{1}{e^{-z}} = P_i
\end{equation*}
<br>

Da mesma forma, o mesmo evento tem a seguinte probabilidade de ser falso:

<br>
\begin{equation*}
P(y=0|X)= \dfrac{1}{e^{z}} = 1 - P_i
\end{equation*}
<br>

Dividindo-se uma equação pela outra:

<br>
\begin{equation*}
\dfrac{P_i}{1-P_i} = \dfrac{1}{e^{-z}} * \dfrac{e^{z}}{1}
\end{equation*}
<br>

Aplicando o Logatítmo Neperiano (Log de base _e_) dos dois lados da equação:

<br>
\begin{equation*}
z = ln(\dfrac{P_i}{1-P_i})
\end{equation*}
<br>

# Exemplo de Regressão Logistica

Vamos estudar como analisar as correlações parciais e os impactos causais em variaveis dependentes binárias.

<br>
<img src="img/diabetes.png" / width = 200>
<br>


Cerca de um em cada sete adultos dos EUA tem diabetes agora, de acordo com os Centros para Controle e Prevenção de Doenças. Mas até 2050, essa taxa pode disparar para até um em três. Com isto em mente, isso é o que vamos fazer hoje: Aprender a usar o Aprendizado de Máquina para nos ajudar a prever o Diabetes. Vamos começar!

Dataset1: Diabetes
    1. Number of times pregnant
    2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test
    3. Diastolic blood pressure (mm Hg)
    4. Triceps skin fold thickness (mm)
    5. 2-Hour serum insulin (mu U/ml)
    6. Body mass index (weight in kg/(height in m)^2)
    7. Diabetes pedigree function
    8. Age (years)
    9. Class variable (0 or 1)

### Importando as bibliotecas e os dados

In [None]:
import matplotlib.pyplot as plt 
import pandas as pd  
import statsmodels.api as sm  
import numpy as np  
from bokeh.plotting import figure, show, output_file
from bokeh.io import output_notebook, push_notebook, show
from ipywidgets import interact
import scipy.special
import statsmodels.formula.api as smf
from scipy import stats


output_notebook()

#read the data in  
df = pd.read_csv('../../99 Datasets/diabetes.csv.zip')  

### Lendo e analisando os dados

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
df.corr().round(2)

In [None]:
df['class'].value_counts()

In [None]:
colormap = {'tested_positive': 'red', 'tested_negative': 'blue'}
colors = [colormap[x] for x in df['class']]

colors[:5]

# DICA DO PROFESSOR

Uma opção de biblioteca de vizualização me Python, com a geração de gráficos interativos é o BOKEH.

# BOKEH: Biblioteca para plotagem de gráficos em Python


<br>
<img src="img/bokeh_logo.png" / width = 200>
<br>



O Bokeh é uma biblioteca de visualização interativa voltada para os navegadores da Web modernos para apresentação. Seu objetivo é fornecer uma construção elegante e concisa de gráficos versáteis e estender esse recurso com interatividade de alto desempenho em conjuntos de dados muito grandes ou de fluxo contínuo. O Bokeh pode ajudar qualquer pessoa que queira criar de forma rápida e fácil plotagens interativas, painéis e aplicativos de dados.

O Bokeh é um projeto patrocinado fiscalmente do NumFOCUS, uma organização sem fins lucrativos dedicada a apoiar a comunidade de computação científica de código aberto. Se você gosta do Bokeh e quer apoiar nossa missão, por favor, considere fazer uma doação para apoiar nossos esforços.

<br>
<img src="img/bokeh.png" / width = 600>
<br>

Para documentação oficial [clique aqui](https://bokeh.pydata.org/en/latest/)

# Exemplos do quanto o bokeh é flexivel e poderoso

- http://bokeh.pydata.org/en/0.10.0/docs/gallery/periodic.html
- https://bokeh.pydata.org/en/latest/docs/gallery.html

In [None]:
import bokeh
bokeh.sampledata.download()

In [None]:
x = np.linspace(0,2*np.pi, 2000)
y = np.sin(x)


p = figure(title='teste seno', plot_height=300, plot_width=600, y_range=(-5,5))
r = p.line(x, y, color='#2222aa', line_width=3)


def update(f, w=1, A=1, phi=0):
    if f == 'sin': func = np.sin
    elif f == 'cos': func = np.cos
    elif f == 'tan': func = np.tan
    r.data_source.data['y'] = A * func(w * x + phi)
    push_notebook()

In [None]:
show(p, notebook_handle=True)

In [None]:
interact(update, f=['sin', 'cos', 'tan'], w=(0,100), A=(1,5), phi=(0,20, 0.1))

In [None]:
import pandas as pd

from bokeh.palettes import Spectral4
from bokeh.plotting import figure, output_file, show
from bokeh.sampledata.stocks import AAPL, IBM, MSFT, GOOG

p = figure(plot_width=800, plot_height=250, x_axis_type="datetime")
p.title.text = 'Click on legend entries to mute the corresponding lines'

for data, name, color in zip([AAPL, IBM, MSFT, GOOG], ["AAPL", "IBM", "MSFT", "GOOG"], Spectral4):
    temp = pd.DataFrame(data)
    temp['date'] = pd.to_datetime(temp['date'])
    p.line(temp['date'], temp['close'], line_width=2, color=color, alpha=0.8,
           muted_color=color, muted_alpha=0.2, legend=name)

p.legend.location = "top_left"
p.legend.click_policy="mute"

show(p)

In [None]:
import numpy as np
import scipy.special

from bokeh.layouts import gridplot
from bokeh.plotting import figure, show, output_file

def make_plot(title, hist, edges, x, pdf, cdf):
    p = figure(title=title, tools='', background_fill_color="#fafafa")
    p.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:],
           fill_color="navy", line_color="white", alpha=0.5)
    p.line(x, pdf, line_color="#ff8888", line_width=4, alpha=0.7, legend="PDF")
    p.line(x, cdf, line_color="orange", line_width=2, alpha=0.7, legend="CDF")

    p.y_range.start = 0
    p.legend.location = "center_right"
    p.legend.background_fill_color = "#fefefe"
    p.xaxis.axis_label = 'x'
    p.yaxis.axis_label = 'Pr(x)'
    p.grid.grid_line_color="white"
    return p

# Normal Distribution

mu, sigma = 0, 0.5

measured = np.random.normal(mu, sigma, 1000)
hist, edges = np.histogram(measured, density=True, bins=50)

x = np.linspace(-2, 2, 1000)
pdf = 1/(sigma * np.sqrt(2*np.pi)) * np.exp(-(x-mu)**2 / (2*sigma**2))
cdf = (1+scipy.special.erf((x-mu)/np.sqrt(2*sigma**2)))/2

p1 = make_plot("Normal Distribution (μ=0, σ=0.5)", hist, edges, x, pdf, cdf)

# Log-Normal Distribution

mu, sigma = 0, 0.5

measured = np.random.lognormal(mu, sigma, 1000)
hist, edges = np.histogram(measured, density=True, bins=50)

x = np.linspace(0.0001, 8.0, 1000)
pdf = 1/(x* sigma * np.sqrt(2*np.pi)) * np.exp(-(np.log(x)-mu)**2 / (2*sigma**2))
cdf = (1+scipy.special.erf((np.log(x)-mu)/(np.sqrt(2)*sigma)))/2

p2 = make_plot("Log Normal Distribution (μ=0, σ=0.5)", hist, edges, x, pdf, cdf)

# Gamma Distribution

k, theta = 7.5, 1.0

measured = np.random.gamma(k, theta, 1000)
hist, edges = np.histogram(measured, density=True, bins=50)

x = np.linspace(0.0001, 20.0, 1000)
pdf = x**(k-1) * np.exp(-x/theta) / (theta**k * scipy.special.gamma(k))
cdf = scipy.special.gammainc(k, x/theta)

p3 = make_plot("Gamma Distribution (k=7.5, θ=1)", hist, edges, x, pdf, cdf)

# Weibull Distribution

lam, k = 1, 1.25
measured = lam*(-np.log(np.random.uniform(0, 1, 1000)))**(1/k)
hist, edges = np.histogram(measured, density=True, bins=50)

x = np.linspace(0.0001, 8, 1000)
pdf = (k/lam)*(x/lam)**(k-1) * np.exp(-(x/lam)**k)
cdf = 1 - np.exp(-(x/lam)**k)

p4 = make_plot("Weibull Distribution (λ=1, k=1.25)", hist, edges, x, pdf, cdf)

# output_file('histogram.html', title="histogram.py example")

show(gridplot([p1,p2,p3,p4], ncols=2, plot_width=400, plot_height=400, toolbar_location=None))

In [None]:
from numpy import linspace
from scipy.stats.kde import gaussian_kde

from bokeh.io import output_file, show
from bokeh.models import ColumnDataSource, FixedTicker, PrintfTickFormatter
from bokeh.plotting import figure
from bokeh.sampledata.perceptions import probly

import colorcet as cc

# output_file("ridgeplot.html")

def ridge(category, data, scale=20):
    return list(zip([category]*len(data), scale*data))

cats = list(reversed(probly.keys()))

palette = [cc.rainbow[i*15] for i in range(17)]

x = linspace(-20,110, 500)

source = ColumnDataSource(data=dict(x=x))

p = figure(y_range=cats, plot_width=900, x_range=(-5, 105), toolbar_location=None)

for i, cat in enumerate(reversed(cats)):
    pdf = gaussian_kde(probly[cat])
    y = ridge(cat, pdf(x))
    source.add(y, cat)
    p.patch('x', cat, color=palette[i], alpha=0.6, line_color="black", source=source)

p.outline_line_color = None
p.background_fill_color = "#efefef"

p.xaxis.ticker = FixedTicker(ticks=list(range(0, 101, 10)))
p.xaxis.formatter = PrintfTickFormatter(format="%d%%")

p.ygrid.grid_line_color = None
p.xgrid.grid_line_color = "#dddddd"
p.xgrid.ticker = p.xaxis[0].ticker

p.axis.minor_tick_line_color = None
p.axis.major_tick_line_color = None
p.axis.axis_line_color = None

p.y_range.range_padding = 0.12

show(p)

# Voltando para os dados

Estabelecendo cores para os resultados dos testes de diabetes (Positivo=Vermelho, Negativo=Azul), podemos plotar uma despersão do índice de massa corpórea por idade, para tentar identificar alguma tendência nos dados

In [None]:
df['class'].value_counts()

In [None]:
colormap = {'tested_positive': 'red', 'tested_negative': 'blue'}
colors = [colormap[x] for x in df['class']]

colors[:5]

In [None]:
# Plotando a de

p = figure(title = "Diabeyes")
p.xaxis.axis_label = 'Age'
p.yaxis.axis_label = 'IMC'

p.circle(df["age"], df["mass"],
         color=colors, fill_alpha=0.3, size=7)

show(p)

## Plotando uma dispersão com reta de tendência (best fit line) do nível de gordura da pele pela insulina

In [None]:
import numpy as np
from bokeh.plotting import figure
from bokeh.io import show

#the data
x=df['skin']
y=df['insu']

# determine best fit line
par = np.polyfit(x, y, 1, full=True)
slope=par[0][0]
intercept=par[0][1]
y_predicted = [slope*i + intercept  for i in x]

# plot it
fig=figure()
fig.circle(x,y)
fig.line(x,y_predicted,color='red',legend='y='+str(round(slope,2))+'x+'+str(round(intercept,2)))
show(fig)

## Identificando o nível de correlação das pessoas com diabetes (tested_positive) com todas as variáveis do DataSet

In [None]:
df['class'].unique()

In [None]:
df['y'] = df['class'] == 'tested_positive'

In [None]:
df.head()

In [None]:
df.corr().round(2)['y']

## Plotando a dispersão da concentração de glicose

Quando plotamos a dispersão da concentração de glicose pelos casosde teste positivo em diabetes, não parece algo que possa ser representado por uma reta de tendência para representação dos dados

In [None]:
x=df['plas']
y=df['y']

fig=figure()
fig.circle(x,y)
show(fig)

# Quando usamos OLS para estimar esse efeito, temos um modelo linear de probabilidade


- pode ser usado porque a categórica tem distribuição de Bernouli e sua média é a própria probabilidade
- Pode ser maior que 1 e menor que zero (que não faz muito sentido)

In [None]:
# determine best fit line
par = np.polyfit(x, y, 1, full=True)
slope=par[0][0]
intercept=par[0][1]
y_predicted = [slope*i + intercept  for i in x]

fig=figure()
fig.circle(x,y)
fig.line(x,y_predicted,color='red',legend='y='+str(round(slope,2))+'x+'+str(round(intercept,2)))
show(fig)

## Rodando uma Regressão Linear dos testes positivos de diabetes pela concentração de glicose

In [None]:
df['y'] = df['y'].astype(int)

In [None]:
function1 = 'y ~ plas'

model1 = smf.ols(function1, df).fit()
print(model1.summary2())

## Rodando a Regressão Linear com todas as variáveis do DataSet

In [None]:
list(df)

In [None]:
function1 = 'y ~ preg + plas + pres + skin + insu + mass + pedi + age'

model1 = smf.ols(function1, df).fit()
print(model1.summary2())

# Rodando a Regressão Logística

In [None]:
logit = smf.logit(function1, df).fit()

In [None]:
print(logit.summary2())

## Cálculo do valor predito para que o indivíduo tenha diabetes de acordo com a Regressão Logistica

Este cálculo deve trazer o valor da __PROBABILIDADE__ do indivíduo ter diabetes, de acordo com a fórmula da regressão (que segue o mesmo princípio da regrassão linear), trazendo a composição dos efeitos de cada variável de aacordo com seus __Betas.__

<br>
<br>
\begin{equation}
  (\text{Diabete} = 1 \mid \text{Id, Imc, Ins}) = \frac{\text{exp}(\beta_0 + \beta_1 \text{Idade} + \beta_2 \text{IMC} + \beta_{3} \text{Insulina)} }{1 + \text{exp}(\beta_0 + \beta_1 \text{Idade} + \beta_2 \text{IMC} +  \beta_{3} \text{Insulina})} \label{eq:glm1}
  \end{equation}

In [None]:
# verificando os valores para a primeira observação

df.head(1)

In [None]:
# definindo o valor do intercepto 

logit.conf_int().mean(axis=1)[0]

In [None]:
# verificando o código para cada posição dos valores da primeira observação

df.iloc[0, 0]

In [None]:
# calculando a soma dos valores para a primeira observação

soma = 0

for index, beta in enumerate(list(logit.conf_int().mean(axis=1))):
    if index == 0:
        soma = soma + beta
    else:
        betax = beta * df.iloc[0, index-1]
        print(df.iloc[0, index-1], beta, betax)
        soma += betax

print(soma)

In [None]:
1/(1+np.exp(-soma))

In [None]:
# Comparando com o valor nominal temos o mesmo resultado

logit.predict()[0]

## Plotando a dsitribuição dos valores preditos pelo modelo de Regressão Logística

In [None]:
df['yhat'] = logit.predict()

In [None]:
df['yhat'].plot.hist()

In [None]:
df['yhat'].plot.kde()

In [None]:
df['class'].value_counts()

# Analisando probabilidade condicional com pandas

In [None]:
df.head()

In [None]:
df['yresult'] = 0

threshold = 0.5

for (i, p) in enumerate(df['yhat']):
    if p > threshold:
        df['yresult'][i] = 1 


In [None]:
df.head()

In [None]:
df['yresult'].value_counts()

## Matriz de Confusão

<br>
<img src="img/confusion_matrix.png" / width = 600>
<br>


No campo de Machine Learning e especificamente o problema da classificação estatística, uma matriz de confusão, também conhecida como matriz de erro, é um layout de tabela específico que permite a visualização do desempenho de um algoritmo, tipicamente um aprendizado supervisionado (em aprendizagem não supervisionada é geralmente chamado de matriz de correspondência). Cada linha da matriz representa as instâncias em uma classe prevista, enquanto cada coluna representa as instâncias em uma classe real (ou vice-versa). O nome deriva do fato de que fica mais fácil ver se o sistema está confundindo duas classes (ou seja, comumente errando um nome como outro).

É um tipo especial de tabela de contingência, com duas dimensões ("atual" e "previsto") e conjuntos idênticos de "classes" em ambas as dimensões (cada combinação de dimensão e classe é uma variável na tabela de contingência).

In [None]:
from sklearn.metrics import confusion_matrix

import warnings
warnings.filterwarnings("ignore")

result_matrix = confusion_matrix(df.y, df.yresult)
result_matrix

In [None]:
tn, fp, fn, tp = confusion_matrix(df.y, df.yresult).ravel()

In [None]:
# Cálculo da Precisão

precision = tp / (tp+fp)
precision

In [None]:
# Cálculo da Sensiblidade

recall = tp / (tp+fn)
recall

## Alterando o limite da condição 

In [None]:
df['yresult'] = 0

threshold = 0.7

for (i, p) in enumerate(df['yhat']):
    if p > threshold:
        df['yresult'][i] = 1 

In [None]:
df['yresult'].value_counts()

In [None]:
result_matrix = confusion_matrix(df.y, df.yresult)
result_matrix

In [None]:
tn, fp, fn, tp = confusion_matrix(df.y, df.yresult).ravel()

In [None]:
# Cálculo da Precisão

precision = tp / (tp+fp)
precision

In [None]:
# Cálculo da Sensiblidade

recall = tp / (tp+fn)
recall

### Com o aumento do limite de corte da probabilidade, ganhamos em precisão mas perdemos em sensibilidade

# Logit x Probit (Poisson x OLS)

## Modelo Probit

_fonte: Wikipedia_

Na estatística, um modelo de __probit__ é um tipo de regressão onde a variável dependente pode levar apenas dois valores, por exemplo, casado ou não. A palavra é uma mala, vinda da probabilidade + unidade. O objetivo do modelo é estimar a probabilidade de que uma observação com características particulares caia em uma das categorias específicas. Além disso, classificar as observações com base em suas probabilidades previstas é um tipo de modelo de classificação binária.

Um modelo de probit é uma especificação popular para um modelo de resposta ordinal ou binária. Como tal, trata o mesmo conjunto de problemas que a regressão logística usando técnicas semelhantes. O modelo __probit__, que emprega uma função probit link, é mais frequentemente estimado usando o procedimento padrão de máxima verossimilhança, sendo essa estimativa chamada de regressão probit.

Os modelos probit foram introduzidos por Chester Bliss em 1934 como um método rápido para calcular as estimativas de máxima verossimilhança; para eles foi proposto por Ronald Fisher como um apêndice ao trabalho de Bliss em 1935.

In [None]:
fig = plt.figure(figsize=(12,8))
ax = fig.add_subplot(111)
support = np.linspace(-6, 6, 1000)
ax.plot(support, stats.logistic.cdf(support), 'r-', label='Logistic')
ax.plot(support, stats.norm.cdf(support), label='Probit')
ax.legend();

In [None]:
fig = plt.figure(figsize=(12,8))
ax = fig.add_subplot(111)
support = np.linspace(-6, 6, 1000)
ax.plot(support, stats.logistic.pdf(support), 'r-', label='Logistic')
ax.plot(support, stats.norm.pdf(support), label='Probit')
ax.legend();

# Multiplicando-se a Legistica pelo desvio padrão da logistica, obtém-se a probit