# Regressão Logística

Neste notebook, vamos aplicar uma regressão logística e construir uma curva ROC sobre o modelo resultante. Vamos usar um dataset presente no módulo `datasets` do sklearn, representando um problema de classificação binário.

In [None]:
#imports
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, roc_auc_score, roc_curve
import matplotlib.pyplot as plt

## Carregamento dos dados

In [None]:
X, y = load_breast_cancer(return_X_y=True)
X.shape

## Transformação dos dados

Os atributos tem escalas bastante diferentes. Vamos estandardizar os dados.

In [None]:
X = (X - X.mean()) / X.std()

## Separação dos dados

São poucos exemplos e idealmente usaríamos K-Folds, mas vamos apenas fazer a separação treino/teste por simplicidade.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

## Treinamento do modelo

In [None]:
modelo = LogisticRegression()
modelo_treinado = modelo.fit(X_train, y_train)

## Avaliação do modelo treinado

Vamos avaliar da maneira tradicional, utilizando o método `predict`. Como a regressão logística apenas dá como resultado uma probabilidade, este método internamente utiliza o limiar de 0,5 para decidir a classe.

In [None]:
y_pred = modelo.predict(X_test)
print(classification_report(y_test, y_pred))

Vamos também construir a curva ROC e observar como a taxa de falsos positivos (FPR) e taxa de positivos verdadeiros (TPR) varia para diferentes limiares. Para tanto, usamos o método `predict_proba`, que fornece a probabilidade associada *para cada classe*. 

Ao usarmos o método `roc_curve`, passamos apenas as probabilidades da classe positiva (classe 1). Experimente passar também a classe 0 para ver o resultado e pense por que a curva se altera.

In [None]:
# Este método retorna uma probabilidade para cada classe, para cada exemplo
y_prob = modelo.predict_proba(X_test)

# Vamos usar apenas as probabilidades associadas a classe positiva (classe 1)
fpr, tpr, _ = roc_curve(y_test, y_prob[:,1])

plt.plot(fpr, tpr, linewidth=3)
plt.plot([0,1],[0,1], color='gray', linestyle='--') # vamos traçar também a diagonal para referência
plt.xlabel("FPR")
plt.ylabel("TPR")

Vamos aproveitar e também calcular a AUC.

In [None]:
print(roc_auc_score(y_test, y_prob[:,1]))

Um desafio final: reconstruir o método `roc_curve` e `roc_auc_score`, sem utilizar métodos pré-prontos do sklearn (talvez usando apenas numpy).