# Regressão Logística
---
**Aula Prática 04**: Regressão Logística


**Objetivo**: Treinar um modelo de classificação utilizando regressão logística.

Banco de dados:


**Breast cancer wisconsin dataset**
Fonte: Disponível via `sklearn`

**Descrição do Dataset**
O conjunto de dados Breast Cancer Wisconsin contém características extraídas de imagens digitalizadas de aspirados por agulha fina (FNA) de massas mamárias. As características descrevem os núcleos das células presentes nas imagens.
* ID number: Identificador único para cada amostra.
* Diagnosis: Diagnóstico da amostra (0 = maligno, 1 = benigno).
* Características (3-32): Dez características reais calculadas para cada núcleo celular:

1. Radius: Média das distâncias do centro aos pontos no perímetro.
2. Texture: Desvio padrão dos valores de escala de cinza.
3. Perimeter: Perímetro do núcleo.
4. Area: Área do núcleo.
5. Smoothness: Variação local nos comprimentos dos raios.
6. Compactness: (Perímetro² / Área) - 1.0.
7. Concavity: Severidade das porções côncavas do contorno.
8. Concave Points: Número de porções côncavas do contorno.
9. Symmetry: Simetria do núcleo.
10. Fractal Dimension: ("Aproximação da linha costeira" - 1).

## Import das principais funções e leitura dos dados


---



In [1]:
import pandas as pd
import numpy as np
from sklearn import datasets

In [2]:
data = datasets.load_breast_cancer()

In [15]:
df = pd.DataFrame(data.data, columns=data.feature_names)

In [16]:
target = pd.DataFrame(data.target, columns=['Target'])
df = pd.concat([df, target], axis=1)

In [5]:
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,Target
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


In [12]:
df.shape

(569, 31)

In [13]:
df.dtypes

mean radius                float64
mean texture               float64
mean perimeter             float64
mean area                  float64
mean smoothness            float64
mean compactness           float64
mean concavity             float64
mean concave points        float64
mean symmetry              float64
mean fractal dimension     float64
radius error               float64
texture error              float64
perimeter error            float64
area error                 float64
smoothness error           float64
compactness error          float64
concavity error            float64
concave points error       float64
symmetry error             float64
fractal dimension error    float64
worst radius               float64
worst texture              float64
worst perimeter            float64
worst area                 float64
worst smoothness           float64
worst compactness          float64
worst concavity            float64
worst concave points       float64
worst symmetry      

In [6]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
mean radius,569.0,14.127292,3.524049,6.981,11.7,13.37,15.78,28.11
mean texture,569.0,19.289649,4.301036,9.71,16.17,18.84,21.8,39.28
mean perimeter,569.0,91.969033,24.298981,43.79,75.17,86.24,104.1,188.5
mean area,569.0,654.889104,351.914129,143.5,420.3,551.1,782.7,2501.0
mean smoothness,569.0,0.09636,0.014064,0.05263,0.08637,0.09587,0.1053,0.1634
mean compactness,569.0,0.104341,0.052813,0.01938,0.06492,0.09263,0.1304,0.3454
mean concavity,569.0,0.088799,0.07972,0.0,0.02956,0.06154,0.1307,0.4268
mean concave points,569.0,0.048919,0.038803,0.0,0.02031,0.0335,0.074,0.2012
mean symmetry,569.0,0.181162,0.027414,0.106,0.1619,0.1792,0.1957,0.304
mean fractal dimension,569.0,0.062798,0.00706,0.04996,0.0577,0.06154,0.06612,0.09744


In [11]:
df.Target.mean()

np.float64(0.6274165202108963)

## Treino de modelo de regressão Logística
---


Para treinar um modelo de regressão logística, utilizaremos o pacote `sklearn`.


### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split


``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
* X: DataFrame contendo as features do modelo.
* Y: DataFrame contendo a variável target.
* test_size: Percentual de dados que será utilizado para teste (neste caso, 30%).
* random_state: Controla a aleatoriedade da divisão dos dados, garantindo reprodutibilidade.

Separar os dados em treino e teste é crucial para que possamos treinar o modelo com um conjunto de dados e avaliá-lo com outro, garantindo uma avaliação imparcial da performance do modelo.



### Treinamento do Modelo
Agora que já possuímos os dados de treino e teste, vamos treinar o nosso modelo de regressão logística utilizando o módulo `LogisticRegression`:

``` python
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(penalty='none')
model.fit(X_train, Y_train)
```

No código acima, o objeto `model` é do tipo `LogisticRegression`. Ele será utilizado para ajustar o modelo, realizar predições e armazenar os coeficientes do modelo.

Para acessar os coeficientes e o intercepto do modelo, bem como realizar predições, utilizamos os seguintes métodos:

``` python
# Para acessar os coeficientes
model.coef_
# Para acessar o intercepto
model.intercept_
# Para fazer predições de classes
model.predict(X_test)
# Para fazer predições de probabilidade
model.predict_proba(X_test)
```


### Avaliação do modelo
Para avaliar o modelo treinado, utilizaremos as métricas discutidas na aula teórica:

``` python
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve, RocCurveDisplay


# Métricas acurácia, precisão, recall, f1-score
print(classification_report(Y_test, Y_predit))


# Matriz de confusão
confusion_matrix(Y_test, Y_predit)


# AUC
roc_auc = roc_auc_score(Y_test, Y_predict)
fpr, tpr, thresholds = roc_curve(Y_test, Y_predict)
display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc)
display.plot()
```


Também é possível obter cada uma das métricas individualmente:

``` python
from sklearn.metrics import recall_score, precision_score, f1_score, accuracy_score


recall_score(Y_test, Y_predict, pos_label=1)
```


### Primeiro modelo

---

Exercício:
1. Separe os dados em treino e teste, utilizando 30% dos dados para o conjunto de teste. Faça a divisão com todas as variáveis.
2. Treine um modelo de regressão logística.
3. Qual é a interpretação do coeficiente para mean radius?
4. Qual é a interpretação do coeficiente para mean concavity?
5. Realize as análises de apuração do modelo.

Dica:
Para obter um DataFrame com os coeficientes e seus respectivos nomes, utilize o seguinte código:

``` python
pd.DataFrame(model.coef_.T, index=X_train.columns)
```

In [17]:
X = pd.DataFrame(data.data, columns=data.feature_names)
Y = data.target

In [18]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)

In [19]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(penalty=None)
model.fit(X_train, Y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [20]:
pd.DataFrame(model.coef_.T, index=X_train.columns)

Unnamed: 0,0
mean radius,1.30341
mean texture,-0.211982
mean perimeter,0.577481
mean area,-0.031617
mean smoothness,-0.043944
mean compactness,-0.224728
mean concavity,-0.320241
mean concave points,-0.133335
mean symmetry,-0.068992
mean fractal dimension,-0.014417


In [22]:
model.intercept_

array([0.23278488])

#### Exercício:

* Busca o limiar em que se obtém a melhor acurácia.

Dica:
Para realizar a busca faça:
1. Gere o score de probabilidade
2. Percorra uma lista de valores de limiar e a cada valor calcule a acurácia
3. Obtenha o limiar com maior acurácia


Para acessar P(Y=1) faça predict_proba()[:, 1]

In [None]:
np.arange(0, 1, .1)

#### Exercício:


* Construa um gráfico que analise os valores de precisão, recall e f1 score para cada limiar.


Dica:
Para realizar a busca faça:
1. Gere o score de probabilidade
2. Percorra uma lista de valores de limiar e a cada valor calcule as métricas e salve em uma lista


Construa um dataframe através dessa lista
Utilize a função de line do plotly.express para gerar o gráfico.


``` python
import plotly.express as px
px.line(df, x='limiar', y=['precisao', 'recall', 'f1'])
```