# Regressão Logística com Python e Scikit-Learn

A regressão logística é um modelo estatístico utilizado para prever a probabilidade de uma amostra pertencer a uma determinada classe. É uma técnica de **classificação** especialmente útil em problemas binários (duas classes, como 0 e 1), mas também pode ser estendida para múltiplas classes.

## Conceito de Regressão Logística

A regressão logística calcula a probabilidade de um evento ocorrer, mas ao invés de prever diretamente a classe, ela calcula uma **probabilidade** entre 0 e 1. A função sigmoide transforma os valores da predição linear (positivos ou negativos) para uma escala entre 0 e 1:

\[
P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_nX_n)}}
\]

onde:
- \( Y \) é a variável alvo binária (0 ou 1).
- \( X \) representa as variáveis de entrada.
- \( \beta \) são os coeficientes do modelo.

Se o valor da função for maior que um limite (geralmente 0,5), a previsão é a classe 1; caso contrário, é a classe 0.

## Implementação da Regressão Logística com Python e Scikit-Learn

O `scikit-learn` facilita a implementação de uma regressão logística. Aqui está um exemplo de como usá-la em Python.

### Passo 1: Importar as bibliotecas necessárias




In [8]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import pandas as pd

### Passo 2: Preparar os dados
Suponha que você tenha um conjunto de dados com variáveis independentes (X) e uma variável dependente binária (y). Neste exemplo, usaremos o dataset de câncer de mama do `scikit-learn`.

In [9]:
from sklearn.datasets import load_breast_cancer

# Carregar o dataset
data = load_breast_cancer()
X = data.data  # Variáveis independentes
y = data.target  # Variável dependente binária (0 ou 1)
feature_names = data.feature_names


### Passo 3: Dividir o conjunto de dados
Divida os dados em conjuntos de treino e teste para avaliar o modelo.

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Passo 4: Treinar o modelo
Instancie e treine o modelo de regressão logística usando o conjunto de treino.

In [11]:
model = LogisticRegression(max_iter=10000)  # Aumente o max_iter se o modelo demorar a convergir
model.fit(X_train, y_train)

### Passo 5: Fazer previsões e avaliar o modelo
Agora, você pode usar o modelo para fazer previsões e avaliar seu desempenho.

In [12]:
# Prever usando o conjunto de teste
y_pred = model.predict(X_test)

# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
print("Acurácia:", accuracy)

# Relatório de classificação
print(classification_report(y_test, y_pred))

# Matriz de confusão
print("Matriz de Confusão:\n", confusion_matrix(y_test, y_pred))

Acurácia: 0.956140350877193
              precision    recall  f1-score   support

           0       0.97      0.91      0.94        43
           1       0.95      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114

Matriz de Confusão:
 [[39  4]
 [ 1 70]]


### Explicação dos Resultados
- **Acurácia**: Mede a proporção de previsões corretas.
- **Relatório de Classificação**: Inclui métricas como precisão (precision), revocação (recall) e F1-score para avaliar o desempenho.
- **Matriz de Confusão**: Mostra a contagem das previsões corretas e incorretas divididas por classe.
$
\begin{bmatrix}
TN & FP\\
FN & TP \\
\end{bmatrix}
$


### Análise Adicional: Probabilidade de Classe
A função `predict_proba` permite que você visualize as probabilidades previstas para cada classe.
Esse processo fornece uma visão geral da probabilidade de cada amostra pertencer à classe 0 ou 1, e permite ajustar o limite de decisão se necessário.

In [13]:
# Previsão das probabilidades
y_proba = model.predict_proba(X_test)
proba_df = pd.DataFrame(y_proba, columns=model.classes_)
proba_df.columns = [f"Probabilidade de {data.target_names[cls]}" for cls in model.classes_]
print(proba_df.head())
print("Probabilidades:\n", y_proba)

   Probabilidade de malignant  Probabilidade de benign
0                    0.121055             8.789451e-01
1                    1.000000             3.045987e-08
2                    0.998408             1.591506e-03
3                    0.001215             9.987850e-01
4                    0.000140             9.998604e-01
Probabilidades:
 [[1.21054905e-01 8.78945095e-01]
 [9.99999970e-01 3.04598723e-08]
 [9.98408494e-01 1.59150617e-03]
 [1.21503181e-03 9.98784968e-01]
 [1.39598209e-04 9.99860402e-01]
 [1.00000000e+00 1.96219673e-10]
 [1.00000000e+00 6.11948707e-11]
 [9.80780423e-01 1.92195766e-02]
 [1.57617474e-02 9.84238253e-01]
 [5.65511081e-03 9.94344889e-01]
 [7.05742485e-02 9.29425752e-01]
 [9.99193939e-01 8.06060937e-04]
 [1.10460572e-02 9.88953943e-01]
 [8.24743955e-01 1.75256045e-01]
 [7.82885982e-04 9.99217114e-01]
 [9.98255554e-01 1.74444606e-03]
 [1.18705729e-03 9.98812943e-01]
 [1.17457632e-05 9.99988254e-01]
 [5.87025103e-07 9.99999413e-01]
 [9.99999284e-01 7.1566653

In [14]:
# Obter os coeficientes
coefficients = model.coef_[0]

# Criar um DataFrame para visualizar as features e seus coeficientes
coef_df = pd.DataFrame({'Feature': feature_names, 'Coeficiente': coefficients})
coef_df['Impacto Absoluto'] = coef_df['Coeficiente'].abs()

# Ordenar pelo impacto absoluto para ver as features mais influentes
coef_df = coef_df.sort_values(by='Impacto Absoluto', ascending=False)

# Exibir as primeiras 10 features mais influentes
print(coef_df.head(10))

                 Feature  Coeficiente  Impacto Absoluto
26       worst concavity    -1.413401          1.413401
11         texture error     1.398896          1.398896
0            mean radius     0.982940          0.982940
25     worst compactness    -0.762836          0.762836
28        worst symmetry    -0.733242          0.733242
6         mean concavity    -0.520696          0.520696
21         worst texture    -0.515640          0.515640
27  worst concave points    -0.500243          0.500243
2         mean perimeter    -0.369570          0.369570
24      worst smoothness    -0.304357          0.304357
