<a href="https://colab.research.google.com/github/daniel-usp/MachineLearning/blob/main/02-Regress%C3%A3o%20Log%C3%ADstica/Regress%C3%A3o_Log%C3%ADstica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regressão Logística

## Introdução à Regressão Logística

A **Regressão Logística** é um método estatístico de aprendizado de máquina usado para classificação. Ao contrário da regressão linear, que prevê valores contínuos, a regressão logística é usada para prever a probabilidade de uma variável categórica binária (com dois possíveis resultados, geralmente 0 e 1).

## Aplicações em Finanças, Marketing e Negócios

### Finanças
- **Classificação de Crédito**: Determinar a probabilidade de um cliente inadimplir um empréstimo.
- **Detecção de Fraude**: Prever a probabilidade de uma transação ser fraudulenta.

### Marketing
- **Previsão de Churn de Clientes**: Estimar a probabilidade de um cliente deixar de usar um serviço ou produto.
- **Resposta a Campanhas de Marketing**: Avaliar a probabilidade de um cliente responder positivamente a uma campanha de marketing.

### Negócios
- **Previsão de Sucesso de Produtos**: Determinar a probabilidade de sucesso ou falha de um novo produto no mercado.
- **Classificação de Clientes Potenciais**: Identificar a probabilidade de um lead se tornar um cliente.

## Conceitos Principais da Regressão Logística

A fórmula da Regressão Logística para estimar a probabilidade de Y ser 1 é dada por:

$$ P(Y=1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X)}} $$

onde \\( \beta_{0} \\) e \\( \beta_{1} \\) são os coeficientes do modelo, \\( X \\) é a variável independente, e \\( e \\) é a base do logaritmo natural.


### Valor-P e Taxa de Acerto (Acurácia)

- **Valor-P**: Semelhante à regressão linear, o valor-P na regressão logística indica a significância das variáveis. Um valor-P baixo sugere que a variável é um bom preditor para o resultado.
  
- **Taxa de Acerto (Acurácia)**: Mede a proporção de previsões corretas (tanto positivas quanto negativas) em relação ao total de casos. Uma acurácia mais alta indica um modelo mais eficaz.

A Regressão Logística é uma ferramenta poderosa para classificação e tomada de decisões em diversas áreas, especialmente quando é crucial entender a probabilidade de ocorrência de um evento.



In [None]:
import pandas as pd
import numpy as np

df = pd.read_excel('https://github.com/daniel-usp/MachineLearning/raw/main/02-Regress%C3%A3o%20Log%C3%ADstica/varejo.xlsx')
df

Unnamed: 0,pagamento,solteiro,idade,mulher
0,1,0,20,0
1,1,0,34,1
2,1,0,21,1
3,1,0,22,1
4,1,0,22,1
...,...,...,...,...
175,0,1,20,0
176,0,1,23,0
177,0,1,18,0
178,0,0,24,1


In [None]:
import statsmodels.api as sm

# Supondo que o DataFrame df já existe e tem as colunas 'Vendas', 'Youtube' e 'Instagram'

# Definir a variável dependente y e as independentes X
y = df['pagamento']
X = df.drop('pagamento', axis = 1)

# Adicionar uma constante ao conjunto de variáveis independentes
X = sm.add_constant(X)

# Ajustar o modelo
model = sm.Logit(y, X)
results = model.fit()


# Mostrar a tabela de resultados
print(results.summary())


Optimization terminated successfully.
         Current function value: 0.407352
         Iterations 7
                           Logit Regression Results                           
Dep. Variable:              pagamento   No. Observations:                  180
Model:                          Logit   Df Residuals:                      176
Method:                           MLE   Df Model:                            3
Date:                Thu, 22 Jun 2023   Pseudo R-squ.:                  0.3106
Time:                        15:26:29   Log-Likelihood:                -73.323
converged:                       True   LL-Null:                       -106.35
Covariance Type:            nonrobust   LLR p-value:                 2.981e-14
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.9659      1.123     -1.751      0.080      -4.166       0.234
Solteiro      -2.9509      0.

In [None]:
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Supondo que o DataFrame df já existe e tem as colunas 'pagamento', 'Youtube' e 'Instagram'

# Definir a variável dependente y e as independentes X
y = df['pagamento']
X = df.drop('pagamento', axis=1)

# Adicionar uma constante ao conjunto de variáveis independentes
X = sm.add_constant(X)

# Dividir os dados em amostra de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajustar o modelo de regressão logística na amostra de treino
model = sm.Logit(y_train, X_train)
results = model.fit()

# Fazer previsões na amostra de teste
y_pred = results.predict(X_test)
y_pred = [1 if pred > 0.5 else 0 for pred in y_pred]


# Calcular a acurácia
accuracy = accuracy_score(y_test, y_pred)
print("Acurácia:", accuracy)


Optimization terminated successfully.
         Current function value: 0.405818
         Iterations 7
Acurácia: 0.8055555555555556


In [None]:
import numpy as np

# Definir novos valores para Solteiro, Idade e Mulher
new_X = np.array([[1, 1, 25, 0],  # 1 para a constante
                  [1, 0, 40, 1],  # 1 para a constante
                  [1, 1, 45, 0]]) # 1 para a constante

# Calcular as previsões
probabilidades = results.predict(new_X)

# Imprimir as previsões
for i, pred in enumerate(probabilidades):
    print(f"A probabilidade de pagamento para o conjunto {i+1} é igual: {pred:.2f}")




A probabilidade de pagamento para o conjunto 1 é igual: 0.13
A probabilidade de pagamento para o conjunto 2 é igual: 0.99
A probabilidade de pagamento para o conjunto 3 é igual: 0.66


['NÃO PAGA', 'PAGA', 'PAGA']