<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/2s2024/TIC/Aula_03_Regressao_logistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Regressão Logística**

A regressão logística é um modelo estatístico utilizado para modelar a probabilidade de ocorrência de um evento ou resultado, especialmente em situações binárias, onde a variável de saída pode ter apenas dois valores possíveis.

As variáveis explicativas em um modelo de regressão logística são aquelas que são usadas para prever a variável de saída binária. Elas são chamadas de variáveis independentes, preditoras ou explicativas. No contexto da regressão logística, essas variáveis podem ser numéricas ou categóricas e são utilizadas para calcular a probabilidade de ocorrência do evento de interesse.

Por exemplo, se estivermos analisando a probabilidade de um cliente comprar um produto (evento = compra), as variáveis explicativas podem incluir informações como idade, sexo, renda, histórico de compras anteriores, entre outros. Essas variáveis ajudarão a modelar como cada uma delas influencia a probabilidade de compra.

Os modelos de regressão logística são particularmente úteis em problemas de classificação, onde se deseja estimar em qual categoria os dados devem ser classificados. Como possíveis aplicações pode-se citar as seguintes áreas:
<br>
<br>

**Médica:** Determinar as chances de se desenvolver uma determinada doença, baseado em caracteristicas gerais do paciente.

**Financeira:** Determinar se um empréstimo pode ser concedido a um cliente ou não.

**Social:** Estimar as chances de uma pessoa votar em um candidato ou não.

**Industrial:** Estimar as chances de falhas em processos produtivos.

**Marketing:** Estimar as chances de um cliente adquirir um determinado produto ou pacote de serviços.

## Exemplo

Suponha que se deseja analisar as chances de um indivíduo ter problemas cardiovascular. Existem diversos fatores que influenciam este problema, mas para este exemplo vamos considerar apenas um: o nível de colesterol ruim no sangue (LDL). Considere que um determinado hospital possui uma base de dados com 100 pessoas, seus níveis de LDL, e também se sofrem de alguma doença cardiovascular.

A variável dependente é a ocorrencia de doença cardiovascular. Ter doença cardiovascular é igual a 1 e não ter é igual a 0. A variável independente é o nível de LDL na sangue.



## O que acontece se usarmos a Regressão Linear?

O *Scatterplot* abaixo mostra a aplicação da Regressão Linear em um dado sintético (gerado aleatoriamente) acerca de níveis de LDL e a presença (ou ausência) de doenças cardiovasculares.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_regr_logistica_fit_linear.png'>

Embora a Reressão Linear possa ser usada para decidir sobre a presença ou não da doença (dizendo, por exemplo, que classificaremos como tendo se o LDL for maior que 130 - este seria o limiar de decisão), temos alguns problemas:

- Um modelo linear não tem como saída probabilidades. Ele trata os valores (classes) o e 1 como números a serem preditos e ajusta a reta minimizando o erro entre os pontos reais e o estimado. Então, o resultado não pode ser interpretado como probabilidade.

- Um modelo linear também extrapola os limitantes inferior e superior, resultando em valores menores que 0 ou maiores que 1. Isso não faz sentido no contexto da classificação.

- Como o resultado predito é uma interpolação linear entre pontos, o limiar de decisão não tem muito sentido para diferenciar uma classe de outra. Ele faria mais sentido se fosse probabilidades.



## A Regressão Logística como ferramenta para problemas de classificação

Nesse exmplo, o que a Regressão Logística se propõe a fazer é a criação de um modelo logístico que possa estimar a probabilidade de um individuo ter doença cardiovascular, baseado em seu nível de LDL. Sendo assim, ao invés de ajustar uma reta (ou hiperplano), a Regressão Logísica usa a função logística (ou sigmóide) para ajustar a saída do modelo no intervalo [0,1].

Para um valor de $x$, a função logística é dada por:

$$logistic(x) = \frac{1}{1+\exp(-x)},$$

onde $exp(\cdot)$ é a função exponencial. Veja abaixo como é o formato dessa curva.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_regr_logistica_sigmoide.png'>

Note que, quanto maior o valor de $x$, mais a função se aproxima de 1. Por outro lado, quanto menor o valor de $x$, mais a função se aproxima de 0. Mas nunca ultrapassa esses limites.

O modelo da Regressão Logística é de certa forma intuitivo. Lembre-se que na Regressão Linear nós considerávamos que a relação entre as variáveis explicativas a saída do modelo era dada por

$$\hat{y}_i=\beta_0 + \beta_1 x_{1,i} + \beta_2 x_{2,i} + ...+ \beta_r x_{r,i}.$$

No problema de classificação, para adequar o modelo para uma saída na forma de probabilidade (entre 0 e 1), nós consideramos a reta de regressão dentro da função logística. Temos, então, que a probabilidade de uma amostra $i$ ser classificada como sendo da classe 1 é igual a

$$P(y_i = 1) = \hat{y_i} = \frac{1}{1+\exp(-\left( \beta_0 + \beta_1 x_{1,i} + \beta_2 x_{2,i} + ...+ \beta_r x_{r,i} \right))},$$

onde $y_i \in \{0,1\}$ indica a classe verdadeira que a amostra $i$ pertence, $\hat{y_i}$ é a probabilidade da amostra $i$ pertencer à classe 1 e $x_{1,i},...,x_{r,i}$ são as variáveis explicativas. Assumindo um liminar de 0.5, por exemplo, dizemos que a amostra pertence á classe 1 se a probabilidade $\hat{y_i}$ associada for maior que 0.5.

O *Scatterplot* abaixo mostra (em um dado sintético gerado aleatoriamente) a relação entre níveis de LDL e a presença (ou ausência) de doenças cardiovasculares aplicando a função logística.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_regr_logist.png'>

## Modelo de otimização

Na Regressão Logística, ajustamos os parâmetros do modelo ($\beta_0, \beta_1, \ldots, \beta_r$) por meio da medida de dissimilaridade baseada na entropia cruzada. Seja $y_i$ o rótulo verdadeiro da amostra $i$ e $\hat{y}_i$ a probabilidade obtida pelo modelo de Regressão Logística. O complemento de $y_i$ é dado por $1 - y_i$ e o complemento de $\hat{y}_i$ é dado por $1 - \hat{y}_i$. A entropia cruzada é dada por

$$H(y_i,\hat{y}_i) = - \left[y_i \log\hat{y}_i + (1 - y_i) \log(1 - \hat{y}_i) \right].$$

Para formular o modelo de otimização para ajustar os parâmetros da Regressão Logística, minimizamos a média da soma das entropias cruzadas de todas as amostras do conjunto de dados de treinamento. O problema de otimização é o seguinte:

$$\min_{\beta_0, \beta_1, \ldots, \beta_r} -\frac{1}{n} \sum_{i=1}^{n} \left[y_i \log\hat{y}_i + (1 - y_i) \log(1 - \hat{y}_i) \right], $$

onde
$$\hat{y_i} = \frac{1}{1+\exp(-\left( \beta_0 + \beta_1 x_{1,i} + \beta_2 x_{2,i} + ...+ \beta_r x_{r,i} \right))}.$$

A resolução desse problema é, normalmente, obtida a partir do método do gradiente.

## *Odds* (Chance)

Com a probabilidade calculada, pode-se calcular também as chances de ocorrência de um evento.

No exemplo anterior, se o modelo preve que uma pessoa com nível de LDL de 135 tem a probabilidade de **p= 0,8** (80%) de desenvolver problemas cardiovasculares, então podemos dizer que essa pessoa tem a probabilidade de **1-p = 0,2** (20%) de não ter esse problema.

A chance é definida como:
<br>
<br>
$$ Chance = p/(1-p)$$ nesse caso, $$Chance = 0,8/0,2$$ $$Chance = 4$$
<br>
O que significa uma pessoa nessas condições tem 4x mais chances de desenvolver uma doença cardiovascular do que de não desenvolver.

## Interpretando os parâmetros

Na Regressão Linear, a interpretação dos parâmetros era clara. O aumento em uma unidade de $x_j$ levava a um aumento de $\beta_j$ unidades no valor predito. No entanto, a interpretação na Regressão Logística não é tão clara.

Voltando às chances mencionadas anteriromente (também chamada de *odds*), temos que

$$odds = \frac{P(y = 1)}{P(y = 0)} = \frac{P(y = 1)}{1 - P(y = 1)} = \exp\left( \beta_0 + \beta_1 x_{1} + \beta_2 x_{2} + ...+ \beta_r x_{r} \right).$$

Para avaliar o que acontece com o aumento em uma unidade de $x_j$, olhamos para a razão entre duas predições:

$$\frac{odds_{x_j + 1}}{odds_{x_j}} = \frac{\exp\left( \beta_0 + \beta_1 x_{1} + \ldots + \beta_j (x_{j} + 1) + ...+ \beta_r x_{r} \right)}{\exp\left( \beta_0 + \beta_1 x_{1} + \ldots + \beta_j x_{j} + ...+ \beta_r x_{r} \right)} = \exp( \beta_j (x_{j} + 1) - \beta_j x_{j}) = \exp( \beta_j ).$$

A interpretação que temos é a seguinte. O aumento em uma unidade de $x_j$ altera a *odds* por um fator de $\exp( \beta_j )$. Por exemplo, se você tem uma *odds* igual a dois (ou seja, a probabilidade da amostra ser classificada como da classe 1 é duas vezes a probabilidade de ser classificada como da classe 0) e se $\beta_j = 0.7$, o aumento em uma unidade de $x_j$ multiplica a *odds* por aproximadamente 2, alterando para 4.

## Comparativo

**Regressão linear**


*   Variáveis contínuas
*   Resolve problemas de regressão
*   Função é uma reta
*   A interpretação dos coeficientes se dá no valor predito

**Regressão logistica**


*   Variável resposta categórica
*   Resolve problemas de classificação
*   Função logística (ou sigmóide)
*   A interpretação dos coeficientes se dá no *odds*

## Uma regressão logística simples

Vamos começar com uma regressão simples de valores aleatórios apenas para você se familiarizar com a construção do modelo.

In [None]:
import pandas                  as pd
import numpy                   as np
import matplotlib.pyplot       as plt
import seaborn                 as sns
import statsmodels.formula.api as sm
import warnings
warnings.filterwarnings("ignore")

Gerando uma amostra de 5 valores "aleatórios" a partir de uma função linear.

In [None]:
rng = np.random.RandomState(0)
notas = []
for nota in rng.rand(5)*10:    #gera 5 números aleatórios entre 0 e 1, e multiplica por 10
    notas.append(round(nota,1)) #arredonda o resultado para 1 casa deciamal

print(notas)

Vamos definir o critério de aprovação/reprovação em 6, mas o modelo **não** vai ter acesso a esse número. Na verdade, o modelo deve ser capaz de observar os dados e entender o critério que foi adotado.

In [None]:
situacao = []
for nota in notas:
    if nota>=6.0:
        situacao.append('aprovado')
    else:
        situacao.append('reprovado')

print(situacao)

In [None]:
df_notas = pd.DataFrame({'nota':notas})
df_situacao = pd.DataFrame({'situacao':situacao})

In [None]:
# import da ferramenta
from sklearn.linear_model import LogisticRegression

# Inicializar o modelo com parametros padrão
logreg = LogisticRegression()

# ajusta o modelo com as informacoes
logreg.fit(df_notas,df_situacao)

Vamos agora gerar 100 notas aleatórias, e verificar se o nosso modelo é capaz de determinar quais alunos devem ser aprovados e quais não.

In [None]:
novosAlunos = []
for item in rng.rand(100)*10:    #gera 100 números aleatórios entre 0 e 1, e multiplica por 10
    novosAlunos.append(round(item,1)) #arredonda o resultado para 1 casa deciamal


#cria um df para os novos alunos, contendo inicialmente apenas as notas.
df_novosAlunos = pd.DataFrame({'nota':novosAlunos})

#utiliza o modelo para prever a situação dos novos alunos
y_pred=logreg.predict(df_novosAlunos)

#acrescenta uma coluna no df, para representar a situacao prevista dos novos alunos
df_novosAlunos['Previsao'] = y_pred

df_novosAlunos

Vamos visualizar o limiar de decisão criado pelo modelo ajustado.

In [None]:
# prevendo os valores
valores = np.arange(int(df_novosAlunos.nota.min()),int(df_novosAlunos.nota.max()),0.01).reshape(-1, 1)
df_predicted_prob = pd.DataFrame({'predicted_probabilities': logreg.predict_proba(valores)[:,0]})

# Scatterplot com Reta de Regressão
situacao_classe = []
for nota in df_novosAlunos.nota:
    if nota>=6.0:
        situacao_classe.append(1)
    else:
        situacao_classe.append(0)

plt.scatter(df_novosAlunos.nota, situacao_classe, color='blue', label='Dados Observados')
plt.scatter(valores, df_predicted_prob.predicted_probabilities, color='red', label='Curva de Regressão Logística', marker='.', s=2)

plt.xlabel('Nota')
plt.ylabel('Aprovado (1) ou Reprovado (0)')
plt.title('Scatterplot com Curva de Regressão Logística')
plt.legend()
plt.show()


In [None]:
print(df_predicted_prob)

Mas será que o modelo funcionou bem? Vamos contar quantas vezes ele errou.

In [None]:
# erro tipo 1
falso_positivo = len(df_novosAlunos[(df_novosAlunos['nota']<6) & (df_novosAlunos['Previsao']=='aprovado') ])

# erro tipo 2
falso_negativo = len(df_novosAlunos[(df_novosAlunos['nota']>=6) & (df_novosAlunos['Previsao']=='reprovado') ])

verdadeiro_positivo = len(df_novosAlunos[(df_novosAlunos['nota']>=6) & (df_novosAlunos['Previsao']=='aprovado') ])
verdadeiro_negativo = len(df_novosAlunos[(df_novosAlunos['nota']<6) & (df_novosAlunos['Previsao']=='reprovado') ])

acertos = verdadeiro_positivo + verdadeiro_negativo
erros = falso_positivo + falso_negativo

print('Erros   : ', erros)
print('Acertos : ',acertos)
print('--------')
print('Porcentagem de acertos : ', acertos/(acertos+erros))

Lembre-se, tudo o que modelo tinha para tomar a decisão, eram 5 valores apenas!
<br>
<br>
Mas **Cuidado**, os modelos de regressão logística podem não ser assim tão eficientes... No caso, utilizamos um exemplo simples onde a variável dependente ('situação') é determinada com base em uma única variável independente ('nota'), e o critério é o de que essa variável deve ser maior que um determinado valor.
Esse exemplo, além de simples, também beneficia o modelo já que este utiliza por padrão, uma equação que se encaixa perfeitamente nesse tipo de situação.

## Examplo: Conjunto de dados Pima Indian Diabetes

Vamos agora usar um conjunto de dados, chamada [Pima Indian Diabetes](https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database) para avaliar o desempenho do uso da Reressão Logística como método classificador. O objetivo desse conjunto de dados é prever se uma paciente (de um total de 768) possui ou não diabetes com base em algumas medidas (diagnósticos) coletadas.

In [None]:
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_diabetes_pima.csv")
df.head()

Para uma primeira construçao do modelo, vamos considerar apenas a variável *Glucose* para prever a doença.

Para isso, o primeiro passo vai ser separar so dados de entrada dos dados de saída.

In [None]:
# Separando dados de entrada e de saída

X = df['Glucose']
y = df['Outcome']

Em seguida, vamos separar os dados (tanto de entrada quanto de saída) em treinamento e teste. Lembre-se que os dados de treinamento serão utilizados para construir o modelo e os dados de teste para avaliar seu desempenho. Vamos considerar 20% para teste e sem estratificar em relação ao vetor de saída (presença ou não de diabetes). Use como semente o valor 101.

In [None]:
from sklearn.model_selection import train_test_split # Função que separa os dados em treinamento e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=101)

print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

Agora, podemos contruir o modelo e aplicá-lo nos dados que foram separados para teste.

In [None]:
from sklearn.linear_model import LogisticRegression # Função que constrói o modelo de regressão logística

# Construção do modelo

logreg = LogisticRegression()
logreg.fit(pd.DataFrame(X_train),y_train) # Aqui só convertemos para um DataFrame pois usamos apenas uma variável. Se tivessem mais, não precisaria.

# Avaliando o desempenho

y_pred = logreg.predict(pd.DataFrame(X_test))

Agora vamos verificar a qualidade do modelo através da medida de acurácia. O Python já tem a função pronta para calcular os elementos (verdadeiro/falso positivo/negativo) usados no cálculo dessa métrica.

In [None]:
from sklearn import metrics

cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

A célula anterior calculou e apresentou a matrix de confusão, que pode ser interpretada como:

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_matriz_confusao.png'>


In [None]:
verdadeiro_positivo = cnf_matrix[0][0]
verdadeiro_negativo = cnf_matrix[1][1]

falso_positivo = cnf_matrix[0][1] # erro tipo 1
falso_negativo = cnf_matrix[1][0] # erro tipo 2

acertos = verdadeiro_positivo + verdadeiro_negativo
erros = falso_positivo + falso_negativo

print('Erros   : ', erros)
print('Acertos : ',acertos)
print('--------')
print('Porcentagem de acertos : ', acertos/(acertos+erros))

Também podemos utilizar o modelo para consultar a probabilidade de uma paciente ser classificada como diabética ou não-diabética, utilizando `logmodel.predict_proba`.

In [None]:
y_pred_prob = logreg.predict_proba(pd.DataFrame(df['Glucose']))

p_diabetes = []
p_ndiabetes = []

for linha in y_pred_prob:
    p_diabetes.append(linha[1])
    p_ndiabetes.append(linha[0])

df['p_diabetes'] = p_diabetes
df['p_ndiabetes'] = p_ndiabetes

df.head()

Agora, vamos repetir os passos anteriores para criar o modelo de Regressão Logística, mas agora usando todas as variáveis preditoras. Considere os mesmos parâmetros (semente 101 e 20% dos dados para teste).

In [None]:
# Lendo os dados novamente (nos códigos anteriores criamos colunas que não fazem parte dos dados)

df = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_diabetes_pima.csv")
df.head()

In [None]:
# Separando os dados de treinamento e teste

X = df.drop('Outcome', axis=1)
y = df.Outcome

In [None]:
# Separando entre treinamento e teste

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=101)

print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

Agora, podemos contruir o modelo e aplicá-lo nos dados que foram separados para teste.

In [None]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression()
logreg.fit(X_train,y_train)

y_pred = logreg.predict(X_test)

Verificando a qualidade do modelo:

In [None]:
from sklearn import metrics

cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

In [None]:
verdadeiro_positivo = cnf_matrix[0][0]
verdadeiro_negativo = cnf_matrix[1][1]

falso_positivo = cnf_matrix[0][1] # erro tipo 1
falso_negativo = cnf_matrix[1][0] # erro tipo 2

acertos = verdadeiro_positivo + verdadeiro_negativo
erros = falso_positivo + falso_negativo

print('Erros   : ', erros)
print('Acertos : ',acertos)
print('--------')
print('Porcentagem de acertos : ', acertos/(acertos+erros))

Consultando as probabilidades:

In [None]:
y_pred_prob = logreg.predict_proba(df.drop('Outcome',axis=1))

p_diabetes = []
p_ndiabetes = []

for linha in y_pred_prob:
    p_diabetes.append(linha[1])
    p_ndiabetes.append(linha[0])

df['p_diabetes'] = p_diabetes
df['p_ndiabetes'] = p_ndiabetes

df.head()

Agora, vamos interpretar o modelo de Regressão Logística em relação à variável *Pregnancies*.

In [None]:
parametros = logreg.coef_
print(parametros)
print(parametros.shape)

*Pregnancies* é a primeira variável preditora do modelo. Então, ao coletar os parâmetros, ela também será a primeira nesse vetor. Para analisar o impacto do número de gestações que a mulher teve na predição da diabetes, calculamos o exponencial desse parâmetro.

In [None]:
np.exp(parametros[0,0])

## Conclusão

1. Modelos de Regressão Logistica simples são bem definidos (determinísticos).
1. Funcionam para quaisquer dimensões.
1. Podem ser aplicados a quaisquer conjunto de dados, desde que a variável dependente seja dicotômica.
1. São muito empregados em problemas de classificação.

# Referência

Para consultar o referencial da implementação em Python da Regressão Logística, acesse [este link](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html).

###**Exercício (só para treinar, não vale nota)**
Repita os dois modelos anteriores, mas deixando 20% dos dados para treinamento do modelo e 80% para realização de testes. Qual a nova porcentagem de acertos do modelo?