In [1]:
import pandas as pd
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.neural_network import MLPClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Modelos preditivo para o CBIS-DDSM

## Importação

Iniciamos com a importação do conjunto de dados e realizamos a visualização das 5 primeiras linhas para verificar a estrutura dos dados.

In [2]:
breast_cancer = pd.read_csv("../../outputs/mamografia/matriz_features_glcm.csv")
breast_cancer.head()

Unnamed: 0,dissimilarity_0,dissimilarity_90,correlation_0,correlation_90,homogeneity_0,homogeneity_90,contrast_0,contrast_90,ASM_0,ASM_90,energy_0,energy_90,pathology
0,1.558669,1.330008,0.991838,0.99325,0.700942,0.718123,15.089312,12.688345,0.374834,0.374206,0.612237,0.611724,BENIGN
1,2.675529,2.502785,0.994682,0.995176,0.43801,0.454717,16.133688,14.702494,0.065477,0.067049,0.255886,0.258937,BENIGN
2,1.631688,1.372944,0.992358,0.994149,0.687811,0.705508,12.983167,10.130144,0.357444,0.357212,0.597867,0.597672,BENIGN
3,1.631688,1.372944,0.992358,0.994149,0.687811,0.705508,12.983167,10.130144,0.357444,0.357212,0.597867,0.597672,BENIGN
4,2.473641,2.381861,0.994516,0.994735,0.474037,0.486832,14.635021,14.176513,0.090544,0.092386,0.300906,0.303951,BENIGN


Como próximo passo, verificamos a distribuição das classes. Após análizar, foi visto que cerca de 60% dos dados são da classe BENIGN e o restante 40% são da classe MALIGNANT. 

In [3]:
breast_cancer['pathology'].value_counts(normalize=True)

BENIGN       0.591648
MALIGNANT    0.408352
Name: pathology, dtype: float64

Nesta Etapa, realizamos a separação dos dados em Features e labels

In [4]:
X, y = breast_cancer.drop('pathology', axis=1), breast_cancer['pathology']
X.shape, y.shape

((3568, 12), (3568,))

Como etapa final do estágio de importação, realizamos a divisão dos dados em treino e teste.

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((2676, 12), (892, 12), (2676,), (892,))

## Pré-Processamento

Na etapa de pré-processamento, realizamos o tratamento das variáveis categóricas utilizando a abordagem Label Enconding. 

In [6]:
y_train = y_train.map({'BENIGN': 0, 'MALIGNANT': 1})
y_test = y_test.map({'BENIGN': 0, 'MALIGNANT': 1})

## Treinamento do modelo

Como estimador, utilizamos o modelo Random Forest Classifier. A configuração do modelo utilizada foi três camadas com 12 neurônios cada.

In [7]:
cfr = RandomForestClassifier(n_estimators=200)
mlp = MLPClassifier(hidden_layer_sizes = (30,30,30))

Por fim da etapa de treinamento, realizamos o treinamento do modelo com os dados de treino.

In [8]:
cfr.fit(X_train, y_train), mlp.fit(X_train, y_train)

(RandomForestClassifier(n_estimators=200),
 MLPClassifier(hidden_layer_sizes=(30, 30, 30)))

## Previsões e Avaliação

In [9]:
predictions_cfr = cfr.predict(X_test)
predictions_mlp = mlp.predict(X_test)

Avaliamos o modelo Random Forest Classifier

In [10]:
print(confusion_matrix(y_test, predictions_cfr))
print(accuracy_score(y_test, predictions_cfr))

[[385 146]
 [197 164]]
0.6154708520179372


Avaliamos o modelo Multi-Layer Perceptron Classifier

In [11]:
print(confusion_matrix(y_test, predictions_mlp))
print(accuracy_score(y_test, predictions_mlp))

[[339 192]
 [224 137]]
0.5336322869955157
