#Regressão Logística
---
**Aula Prática 04**: Regressão Logística


**Objetivo**: Treinar modelo de classificação


Banco de dados:


**Breast cancer wisconsin dataset**


Disponível via sklearn


> Features are computed from a digitized image of a fine needle aspirate (FNA) of a breast mass.  They describe characteristics of the cell nuclei present in the image.
>
> 1) ID number
>
> 2) Diagnosis (0 = malignant, 1 = benign)
>
> 3-32)
>
> Ten real-valued features are computed for each cell nucleus:
>
> a) radius (mean of distances from center to points on the perimeter)
>
> b) texture (standard deviation of gray-scale values)
>
> c) perimeter
>
> d) area
>
> e) smoothness (local variation in radius lengths)
>
> f) compactness (perimeter^2 / area - 1.0)
>
> g) concavity (severity of concave portions of the contour)
>
> h) concave points (number of concave portions of the contour)
>
> i) symmetry
>
> j) fractal dimension ("coastline approximation" - 1)

##Import das principais funções e leitura dos dados


---



In [1]:
import pandas as pd
import numpy as np
from sklearn import datasets

In [2]:
data = datasets.load_breast_cancer()

In [11]:
df = pd.DataFrame(data.data, columns=data.feature_names)

In [13]:
target = pd.DataFrame(data.target, columns=['Target'])
df = pd.concat([df, target], axis=1)

In [14]:
df.head()

In [15]:
df.shape

In [16]:
df.dtypes

In [17]:
df.describe().T

##Treino de modelo de regressão Logística
---


Para treinar um modelo de regressão utilizaremos o pacote sklearn.


### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split


``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
No exemplo acima X é um dataframe contendo as features do modelo e Y um dataframe com a variável target.


O parâmetro test_size controla o percentual de dados que será utilizado para teste.


O parâmetro random_state controla a aleatoriedade da geração do dado, permitindo que ao reexecutar o código seja gerado os mesmos bancos de treino e teste.


É importante separar o banco entre treino e teste, pois utilizaremos o banco de treino para treinar modelos e o banco de teste para avaliar os modelos.


### Treino do modelo
Agora que já possuímos os dados de treino e teste vamos treinar o nosso modelo de regressão para isso utilizaremos o módulo LogisticRegression




``` python
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(penalty='none')
model.fit(X_train, Y_train)
```


No código acima o objeto model é do tipo LogisticRegression, nele iremos fazer o ajuste do nosso modelo, realizar predições e também ficará armazenado nele os coeficientes do modelo.


``` python
# Para acessar os coeficientes
model.coef_
# Para acessar o intercepto
model.intercept_
# Para fazer predições de classes
model.predict(X_test)
# Para fazer predições de probabilidade
model.predict_proba(X_test)
```


### Avaliação do modelo
Para avaliar o modelo treinado utilizaremos as métricas vistas na aula teórica.




``` python
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve, RocCurveDisplay


# Métricas acurácia, precisão, recall, f1-score
print(classification_report(Y_test, Y_predit))


# Matriz de confusão
confusion_matrix(Y_test, Y_predit)


# AUC
roc_auc = roc_auc_score(Y_test, Y_predict)
fpr, tpr, thresholds = roc_curve(Y_test, Y_predict)
display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc)
display.plot()
```


Também é possível se obter cada uma das métricas do report
``` python
from sklearn.metrics import recall_score, precision_score, f1_score, accuracy_score


recall_score(Y_test, Y_predict, pos_label=1)
```


### Primeiro modelo




---




Exercício:


* Separe o banco entre treino e teste. Use 30% do banco para teste. Faça a quebra com todas as variáveis.


* Treine um modelo.
* Qual a interpretação do coeficiente para mean radius?
* Qual a interpretação do coeficiente para mean concavity?
* Faça as análises de apuração do modelo


Dica:


Para se obter um dataframe com os coeficientes e seus respectivos nomes faça:


``` python
pd.DataFrame(model.coef_.T, index=X_train.columns)
```

In [20]:
X = pd.DataFrame(data.data, columns=data.feature_names)
Y = data.target

#### Solução

In [41]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)

In [42]:
Y_train.mean()

In [43]:
X_train.head()

In [25]:
X_train.shape

In [44]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(penalty='none')
model.fit(X_train, Y_train)

In [45]:
pd.DataFrame(model.coef_.T, index=X_train.columns)

In [28]:
model.intercept_

In [29]:
1/(1+np.exp(-model.intercept_))

In [30]:
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve, RocCurveDisplay

In [46]:
pred_class = model.predict(X_test)

In [47]:
pred_class

In [50]:
sum(Y_test)

In [52]:
len(Y_test)

In [32]:
print(classification_report(Y_test, pred_class))

In [55]:
(0.86+0.94)/2 macro

In [56]:
(0.86*63 + 0.94*108)/(63+108) weighted

In [54]:
(57+99)/(63+108)  acuracia

In [57]:
57/(57+9) precisao para o 0

In [58]:
99/(99+6) precisao para o 1

In [59]:
57/(57+6) recall para o 0

In [60]:
99/(99+9) recall para o 1

In [53]:
confusion_matrix(Y_test, pred_class)

In [36]:
from sklearn.metrics import recall_score

In [61]:
recall_score(Y_test, pred_class)

In [62]:
recall_score(Y_test, pred_class, pos_label=0)

In [63]:
roc_auc = roc_auc_score(Y_test, pred_class)
roc_auc

In [64]:
fpr, tpr, thresholds = roc_curve(Y_test, pred_class)
display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc)
display.plot()

Exercício:

* Busca o limiar em que se obtém a melhor acurácia.

Dica:
Para realizar a busca faça:
1. Gere o score de probabilidade
2. Percorra uma lista de valores de limiar e a cada valor calcule a acurácia
3. Obtenha o limiar com maior acurácia


Para acessar P(Y=1) faça predict_proba()[:, 1]

In [72]:
np.arange(0, 1, .1)

#### Solução

In [73]:
predict_proba = model.predict_proba(X_test)

In [75]:
predict_proba[:, 1]

In [76]:
predict_proba[:, 1] >= .5

In [77]:
from sklearn.metrics import accuracy_score


predict_proba = model.predict_proba(X_test)[:, 1]
acc_atual = 0
thr_otimo = 0
for thr in np.arange(0, 1, .1):
  acc = accuracy_score(Y_test, predict_proba>=thr)
  if acc >= acc_atual:
    thr_otimo = thr
    acc_atual = acc

In [78]:
acc_atual

In [79]:
thr_otimo

In [95]:
np.round(predict_proba[100:110],3)

In [98]:
pred_class[100:110]

In [96]:
predict_proba[100:110] >= .5

In [99]:
predict_proba[100:110] >= .7

In [110]:
np.round(predict_proba, 3)

In [113]:
import plotly.express as px

acc_lista = []
for thr in np.arange(0, 1, .01):
  acc_lista.append(accuracy_score(Y_test, predict_proba>=thr))

px.line(x=np.arange(0, 1, .01), y=acc_lista)

In [103]:
confusion_matrix(Y_test, pred_class)

In [101]:
confusion_matrix(Y_test, predict_proba>=.7)

Exercício:


* Construa um gráfico que analise os valores de precisão, recall e f1 score para cada limiar.


Dica:
Para realizar a busca faça:
1. Gere o score de probabilidade
2. Percorra uma lista de valores de limiar e a cada valor calcule as métricas e salve em uma lista


Construa um dataframe através dessa lista
Utilize a função de line do plotly.express para gerar o gráfico.


``` python
import plotly.express as px
px.line(df, x='limiar', y=['precisao', 'recall', 'f1'])
```

#### Solução

In [105]:
from sklearn.metrics import f1_score, precision_score, recall_score


predict_proba = model.predict_proba(X_test)[:, 1]
row = []
for thr in np.arange(0, 1, .1):
  pre = precision_score(Y_test, predict_proba>thr)
  rec = recall_score(Y_test, predict_proba>thr)
  f1 = f1_score(Y_test, predict_proba>thr)

  row.append((thr, pre, rec, f1))

df = pd.DataFrame(row, columns=['thr', 'pre', 'rec', 'f1'])
px.line(df, x='thr', y=['pre', 'rec'])

In [106]:
from sklearn.metrics import f1_score, precision_score, recall_score


predict_proba = model.predict_proba(X_test)[:, 1]
row = []
for thr in np.arange(0, 1, .1):
  pre = precision_score(Y_test, predict_proba>thr, pos_label=0)
  rec = recall_score(Y_test, predict_proba>thr, pos_label=0)
  f1 = f1_score(Y_test, predict_proba>thr, pos_label=0)

  row.append((thr, pre, rec, f1))

df = pd.DataFrame(row, columns=['thr', 'pre', 'rec', 'f1'])
px.line(df, x='thr', y=['pre', 'rec', 'f1'])