![](https://portaldoservidor.al.ce.gov.br/media/k2/items/cache/51bfc9a1b080d1f314d0d70e4d86c1a1_M.jpg)

# Novembro Azul: mês mundial de combate ao câncer de próstata
---

O câncer de próstata, tipo mais comum entre os homens, é a causa de morte de 28,6% da população masculina que desenvolve neoplasias malignas. 

No Brasil, um homem morre a cada 38 minutos devido ao câncer de próstata, segundo os dados mais recentes do Instituto Nacional do Câncer (Inca).

_fonte_: _https://bvsms.saude.gov.br/novembro-azul-mes-mundial-de-combate-ao-cancer-de-prostata/_
  


Total de linhas: **100**

Total de Colunas: **9**

|      |  Coluna               |Quantidade de Não-Nulos |Tipo da Coluna    |  
|------|:---------------------|:-----:|--------:|
|0     |Resultado_Diagnóstico  |100 non-null    |string 
|1     |Raio                   |100 non-null    |inteiro  
|2     |Textura                |100 non-null    |inteiro  
|3     |Perímetro              |100 non-null    |inteiro  
|4     |Área                   |100 non-null    |inteiro  
|5     |Suavidade              |100 non-null    |float
|6     |Compacidade            |100 non-null    |float
|7     |Simetria               |100 non-null    |float
|8     |Dimensão Fractal       |100 non-null    |float

### Dados
1. ID
2. Raio
3. Textura
4. Perímetro
5. Área
6. Suavidade
7. Compacidade
8. Resultado_Diagnóstico
9. Simetria
10. Dimensão Fractal

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

from sklearn import metrics

sns.set_theme(style="whitegrid")

In [2]:
df_prostate_cancer = pd.read_csv('../input/prostate-cancer/Prostate_Cancer.csv')

In [3]:
df_prostate_cancer = df_prostate_cancer.drop(['id'], axis=1)

In [4]:
df_prostate_cancer.columns = [ 'Resultado_Diagnóstico', 'Raio', 'Textura', 'Perímetro','Área', 'Suavidade', 'Compacidade', 'Simetria', 'Dimensão_Fractal']

In [5]:
df_prostate_cancer['Resultado_Diagnóstico'] = df_prostate_cancer['Resultado_Diagnóstico'].map({'M': 'Maligno', 'B': 'Benigno'})

### Exibindo as 5 primeiras linhas do conjunto de dados

In [6]:
head = df_prostate_cancer.head()
head

### Resumo Estatístico dos Dados

In [7]:
df_prostate_cancer.describe()

## Mapa de Correlação Entre Variáveis
---
**Em estatística, correlação é qualquer relação entre duas variáveis, mas que não implica causalidade, que envolva dependência entre duas variáveis.**

**Quanto mais próximo de 1, significa que há uma alta correlação possitiva, quanto mais próximo de -1, significa que há uma alta correlação negativa, e quando está mais próximo de 0, não há correlação entre essas variáveis**

![](https://i0.wp.com/www.abgconsultoria.com.br/blog/wp-content/uploads/img1-2.png?w=1500)

![](https://i0.wp.com/www.abgconsultoria.com.br/blog/wp-content/uploads/img2-2.png?w=1500)

In [10]:
corr = df_prostate_cancer.corr()
plt.figure(figsize=(10, 8))
plt.title('Mapa de Correlação Entre Variáveis\n')
sns.heatmap(corr, annot=True, vmin=-1, vmax=1);

## Histograma das Variáveis

In [13]:
df_prostate_cancer.hist(figsize=(19,9));

## Quantidade de Diagnósticos

In [15]:
plt.figure(figsize=(8,7))
ax = sns.countplot(data=df_prostate_cancer, x='Resultado_Diagnóstico')
ax.set_title('Quantidade de Diagnósticos\n')
ax.bar_label(ax.containers[0]);

## Visualização da Combinação das Variáveis

In [16]:
sns.pairplot(df_prostate_cancer, hue='Resultado_Diagnóstico');

In [17]:
df_prostate_cancer_2 = df_prostate_cancer.copy()

In [18]:
le = LabelEncoder()
df_prostate_cancer_2['Resultado_Diagnóstico'] = le.fit_transform(df_prostate_cancer_2['Resultado_Diagnóstico'])

In [19]:
df_prostate_cancer_2 = df_prostate_cancer_2.drop(['Área'], axis=1)

In [20]:
X = np.array(df_prostate_cancer_2.iloc[:, 1:])
y = np.array(df_prostate_cancer_2.iloc[:, 0])

## Separando os Dados em Treino e Teste

In [21]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
print('Dados para treino:', X_train.shape[0])
print('Dados para teste:', X_test.shape[0])

# Modelo Estatístico Utilizado
---

## Regressão Logística



![](https://cdn-icons-png.flaticon.com/512/1998/1998661.png)

A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.

_fonte_: _https://pt.wikipedia.org/wiki/Regress%C3%A3o_log%C3%ADstica_


In [22]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(random_state=10)
print(lr)
lr.fit(X_train, y_train)

y_pred = lr.predict(X_test)

## Avaliação do Modelo

In [23]:
print('\nAcurácia:\n', metrics.accuracy_score(y_test, y_pred))
print('\nF1 Score:\n', metrics.f1_score(y_test, y_pred))
print('\nPrecisão:\n', metrics.precision_score(y_test, y_pred))
print('\nAcurácia Balanceada por Classe:\n', metrics.balanced_accuracy_score(y_test, y_pred))
print('\nRecall:\n', metrics.recall_score(y_test, y_pred, average=None))

In [31]:
cm = metrics.confusion_matrix(y_test, y_pred)
disp = metrics.ConfusionMatrixDisplay(
    confusion_matrix=cm,
    display_labels=le.inverse_transform(lr.classes_)
)
disp.plot()
plt.grid(False)
plt.show()