### Regressão Logística

Algoritmo utilizado para classificação, segue a mesma ideia que a Regressão Linear, porém nesse caso estamos trabalhando com valores discretos e não contínuos, já que queremos prever classes/rótulos de um certo problema.

A regressão Logística é construída a partir da aplicação de uma transformação/função (denominada função logística ou sigmoide) sobre a Regressão Linear.

Temos a função sigmóide:

\begin{align}
    p = \frac{1}{1 + e^{-y}}
    \end{align}

Em que:
\begin{align}
    y = {B_0} + {B_1}{x_1} + ... + {B_n}{x_n}
    \end{align}

### Carregar e explorar os dados

In [3]:
from ISLP import load_data
import pandas as pd

# Carregar os dados
df = load_data('Default')

In [None]:
# Informações sobre as colunas e tipos de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   default  10000 non-null  category
 1   student  10000 non-null  category
 2   balance  10000 non-null  float64 
 3   income   10000 non-null  float64 
dtypes: category(2), float64(2)
memory usage: 176.1 KB


In [None]:
# Informações estatísticas
df.describe()

Unnamed: 0,balance,income
count,10000.0,10000.0
mean,835.374886,33516.981876
std,483.714985,13336.639563
min,0.0,771.967729
25%,481.731105,21340.462903
50%,823.636973,34552.644802
75%,1166.308386,43807.729272
max,2654.322576,73554.233495


### Preparação dos dados

In [4]:
# Preparação dos dados
# Converter a variável 'default' para binária (1 para Yes, 0 para No)
df['default'] = df['default'].apply(lambda x: 1 if x == 'Yes' else 0)

# Converter a variável 'student' para binária
df['student'] = df['student'].apply(lambda x: 1 if x == 'Yes' else 0)

### Dividir os dados em treino e teste

In [5]:
from sklearn.model_selection import train_test_split

# Dividir os dados em conjuntos de treino e teste (70% treino, 30% teste)
X = df[['student', 'balance', 'income']]
y = df['default']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

print("Tamanho do dataset de treino: ", len(X_train))
print("Tamanho do dataset de teste: ", len(X_test))

Tamanho do dataset de treino:  7000
Tamanho do dataset de teste:  3000


### Modelo de regressão logística

In [93]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score

def train_model(X_train, X_test, y_train, y_test):
  model = LogisticRegression()
  model.fit(X_train, y_train)
  y_pred = model.predict(X_test)

  accuracy = accuracy_score(y_test, y_pred)
  conf_matrix = confusion_matrix(y_test, y_pred)

  print(f"Acurácia: {accuracy:.4f}")
  print("Matriz de Confusão:\n", conf_matrix)
  print("\n")

  return model, y_pred

In [9]:
# Treinando com cada variável individualmente
print("Treinando com 'balance'...")
model, y_pred = train_model(X_train[['balance']], X_test[['balance']], y_train, y_test)
# Coeficientes
print("Coeficiente de intercepto:", model.intercept_.round(4))
print("Variável independente:", model.feature_names_in_)
print("Coeficiente independente:", model.coef_.round(4))

print("\nTreinando com 'student'...")
model_2, y_pred_2 = train_model(X_train[['student']], X_test[['student']], y_train, y_test)
# Coeficientes
print("Coeficiente de intercepto:", model_2.intercept_.round(4))
print("Variável independente:", model_2.feature_names_in_)
print("Coeficiente independente:", model_2.coef_.round(4))

print("\nTreinando com 'income'...")
model_3, y_pred_3 = train_model(X_train[['income']], X_test[['income']], y_train, y_test)
# Coeficientes
print("Coeficiente de intercepto:", model_3.intercept_.round(4))
print("Variável independente:", model_3.feature_names_in_)
print("Coeficiente independente:", model_3.coef_.round(6))

# Treinando com todas as variáveis juntas
print("\nTreinando com todas as variáveis (balance, student, income)...")
model_4, y_pred_4 = train_model(X_train, X_test, y_train, y_test)
# Coeficientes
print("Coeficiente de intercepto:", model_4.intercept_.round(4))
print("Variável independente:", model_4.feature_names_in_)
print("Coeficiente independente:", model_4.coef_.round(6))

Treinando com 'balance'...
Acurácia: 0.9727
Matriz de Confusão:
 [[2894   12]
 [  70   24]]


Coeficiente de intercepto: [-10.8001]
Variável independente: ['balance']
Coeficiente independente: [[0.0056]]

Treinando com 'student'...
Acurácia: 0.9687
Matriz de Confusão:
 [[2906    0]
 [  94    0]]


Coeficiente de intercepto: [-3.5289]
Variável independente: ['student']
Coeficiente independente: [[0.53]]

Treinando com 'income'...
Acurácia: 0.9687
Matriz de Confusão:
 [[2906    0]
 [  94    0]]


Coeficiente de intercepto: [-2.9572]
Variável independente: ['income']
Coeficiente independente: [[-1.2e-05]]

Treinando com todas as variáveis (balance, student, income)...
Acurácia: 0.9733
Matriz de Confusão:
 [[2895   11]
 [  69   25]]


Coeficiente de intercepto: [-11.1082]
Variável independente: ['student' 'balance' 'income']
Coeficiente independente: [[-4.67459e-01  5.78900e-03  6.00000e-06]]


A partir da matriz de confusão treinando com todas as variáveis juntas, concluímos:  
**Verdadeiro positivo:** 2895 casos (previu que é inadimplente e era inadimplente)  
**Falso positivo:** 11 casos (previu que é inadimplente e não era inadimplente)  
**Falso negativo:** 69 casos (previu que não é inadimplente e era inadimplente)  
**Verdadeiro negativo:** 25 casos (previu que não era inadimplente e não era inadimplente)

### Análise dos coeficientes e interpretação

A partir dos resultados, já podemos começar nossa análise:

Coeficiente explicativo *balance:*  seu valor de 0.56% mostra que ele, sozinho, explica pouco a variável dependente que queremos classificar (a indadimplência). Ou seja, o saldo médio em seu cartão de crédito influencia (pouco) a chance de uma pessoa ser inadimplnte.

Coeficiente explicativo *student:* seu alto valor de 53% mostra que essa característica influencia diretamente uma pessoa ser inadimplente ou não. Ou seja, temos uma variação de 53% observada na inadimplência se a pessoa for um estudante ou não.

Coeficiente explicativo *income:* é o coeficiente que possui o menor valor explicativo sozinho, o que mostra que essa variável não explica bem a variabilidade nos dados de saída (a inadimplência).

Explicação dos coeficientes obtidos:
Intercepto: zerando as variáveis explicativas,

### Avaliação do modelo

In [125]:
# Testando o modelo criado com um exemplo fictício de dados
input = pd.DataFrame({
    "student": [1],
    "balance": [1881],
    "income": [49903]
})

# Usar o model_4 porque esse modelo foi criado considerando todas as variáveis de entrada (student, balance, income)
y_prob_defaulter = model_4.predict_proba(input)[0][1].round(3)
y_prob_not_defaulter = model_4.predict_proba(input)[0][0].round(3)
print(f"Probabilidade de inadimplência: {y_prob_defaulter}")
print(f"Probabilidade de não inadimplência: {y_prob_not_defaulter}")

# Mudando o threshold (limiar de inadimplência) pra 0.3 ao invés de 0.5
threshold = 0.3
if y_prob_defaulter > threshold:
  print("O cliente é inadimplente")
else:
  print("O cliente não é inadimplente")

Probabilidade de inadimplência: 0.402
Probabilidade de não inadimplência: 0.598
O cliente é inadimplente


### Ajuste do limiar de decisão

In [126]:
# Utilizar o novo limiar para recalcular as métricas para o modelo
y_prob_defaulter = model_4.predict_proba(X_test)[:, 1]
y_prob_defaulter

# Defina o limiar personalizado (por exemplo, 0.3) para prever inadimplência
threshold = 0.4
y_pred_custom = (y_prob_defaulter > threshold).astype(int)  # Gera um array binário (0 ou 1) para todas as amostras de teste

# Calcule as métricas de desempenho com o novo limiar
accuracy = accuracy_score(y_test, y_pred_custom)
precision = precision_score(y_test, y_pred_custom)
conf_matrix = confusion_matrix(y_test, y_pred_custom)

print(f"Acurácia: {accuracy:.4f}")
print(f"Precisão: {precision:.4f}")
print(f"Matriz de Confusão:\n{conf_matrix}")

Acurácia: 0.9707
Precisão: 0.5536
Matriz de Confusão:
[[2881   25]
 [  63   31]]


Se diminuirmos ainda mais o threshold, a acurácia diminui também. É perceptível que, como abaixamos o threshold, o modelo preve muitos mais casos de Falsos Positivos (preveu que era inadimplente, mas não é), que somam 41 de acordo com a matriz de confusão, o que faz sentido já que o limiar ficou mais baixo para a previsão de inadimplência.