# Regressão Logística
---
**Aula Prática 04**: Regressão Logística


**Objetivo**: Treinar um modelo de classificação utilizando regressão logística.

Banco de dados:


**Breast cancer wisconsin dataset**
Fonte: Disponível via `sklearn`

**Descrição do Dataset**
O conjunto de dados Breast Cancer Wisconsin contém características extraídas de imagens digitalizadas de aspirados por agulha fina (FNA) de massas mamárias. As características descrevem os núcleos das células presentes nas imagens.
* ID number: Identificador único para cada amostra.
* Diagnosis: Diagnóstico da amostra (0 = maligno, 1 = benigno).
* Características (3-32): Dez características reais calculadas para cada núcleo celular:

1. Radius: Média das distâncias do centro aos pontos no perímetro.
2. Texture: Desvio padrão dos valores de escala de cinza.
3. Perimeter: Perímetro do núcleo.
4. Area: Área do núcleo.
5. Smoothness: Variação local nos comprimentos dos raios.
6. Compactness: (Perímetro² / Área) - 1.0.
7. Concavity: Severidade das porções côncavas do contorno.
8. Concave Points: Número de porções côncavas do contorno.
9. Symmetry: Simetria do núcleo.
10. Fractal Dimension: ("Aproximação da linha costeira" - 1).

## Import das principais funções e leitura dos dados


---



In [None]:
import pandas as pd
import numpy as np
from sklearn import datasets

In [None]:
data = datasets.load_breast_cancer()

In [None]:
df = pd.DataFrame(data.data, columns=data.feature_names)

In [None]:
target = pd.DataFrame(data.target, columns=['Target'])
df = pd.concat([df, target], axis=1)

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.describe().T

In [None]:
df.Target.mean()

## Treino de modelo de regressão Logística
---


Para treinar um modelo de regressão logística, utilizaremos o pacote `sklearn`.


### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split


``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
* X: DataFrame contendo as features do modelo.
* Y: DataFrame contendo a variável target.
* test_size: Percentual de dados que será utilizado para teste (neste caso, 30%).
* random_state: Controla a aleatoriedade da divisão dos dados, garantindo reprodutibilidade.

Separar os dados em treino e teste é crucial para que possamos treinar o modelo com um conjunto de dados e avaliá-lo com outro, garantindo uma avaliação imparcial da performance do modelo.



### Treinamento do Modelo
Agora que já possuímos os dados de treino e teste, vamos treinar o nosso modelo de regressão logística utilizando o módulo `LogisticRegression`:

``` python
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(penalty='none')
model.fit(X_train, Y_train)
```

No código acima, o objeto `model` é do tipo `LogisticRegression`. Ele será utilizado para ajustar o modelo, realizar predições e armazenar os coeficientes do modelo.

Para acessar os coeficientes e o intercepto do modelo, bem como realizar predições, utilizamos os seguintes métodos:

``` python
# Para acessar os coeficientes
model.coef_
# Para acessar o intercepto
model.intercept_
# Para fazer predições de classes
model.predict(X_test)
# Para fazer predições de probabilidade
model.predict_proba(X_test)
```


### Avaliação do modelo
Para avaliar o modelo treinado, utilizaremos as métricas discutidas na aula teórica:

``` python
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve, RocCurveDisplay


# Métricas acurácia, precisão, recall, f1-score
print(classification_report(Y_test, Y_predit))


# Matriz de confusão
confusion_matrix(Y_test, Y_predit)


# AUC
roc_auc = roc_auc_score(Y_test, Y_predict)
fpr, tpr, thresholds = roc_curve(Y_test, Y_predict)
display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc)
display.plot()
```


Também é possível obter cada uma das métricas individualmente:

``` python
from sklearn.metrics import recall_score, precision_score, f1_score, accuracy_score


recall_score(Y_test, Y_predict, pos_label=1)
```


### Primeiro modelo

---

Exercício:
1. Separe os dados em treino e teste, utilizando 30% dos dados para o conjunto de teste. Faça a divisão com todas as variáveis.
2. Treine um modelo de regressão logística.
3. Qual é a interpretação do coeficiente para mean radius?
4. Qual é a interpretação do coeficiente para mean concavity?
5. Realize as análises de apuração do modelo.

Dica:
Para obter um DataFrame com os coeficientes e seus respectivos nomes, utilize o seguinte código:

``` python
pd.DataFrame(model.coef_.T, index=X_train.columns)
```

In [None]:
X = pd.DataFrame(data.data, columns=data.feature_names)
Y = data.target

#### Exercício:

* Busca o limiar em que se obtém a melhor acurácia.

Dica:
Para realizar a busca faça:
1. Gere o score de probabilidade
2. Percorra uma lista de valores de limiar e a cada valor calcule a acurácia
3. Obtenha o limiar com maior acurácia


Para acessar P(Y=1) faça predict_proba()[:, 1]

In [None]:
np.arange(0, 1, .1)

#### Exercício:


* Construa um gráfico que analise os valores de precisão, recall e f1 score para cada limiar.


Dica:
Para realizar a busca faça:
1. Gere o score de probabilidade
2. Percorra uma lista de valores de limiar e a cada valor calcule as métricas e salve em uma lista


Construa um dataframe através dessa lista
Utilize a função de line do plotly.express para gerar o gráfico.


``` python
import plotly.express as px
px.line(df, x='limiar', y=['precisao', 'recall', 'f1'])
```