
Utilizando o modelo de Naive Bayes juntamente com o dataset de câncer de mama, o primeiro passo consiste em separar as entradas (variáveis preditoras) e as saídas (variável alvo) para o treinamento do modelo. As entradas correspondem aos parâmetros ou características utilizados na análise do câncer, como espessura do tumor, tamanho das células, uniformidade do núcleo, entre outros. Em seguida, essas entradas são organizadas e preparadas para o processo de treinamento do modelo, que utilizará o algoritmo de Naive Bayes para realizar a classificação e prever o diagnóstico com base nos dados fornecidos.

In [32]:
from sklearn.datasets import load_breast_cancer
from sklearn.naive_bayes import GaussianNB

input_cancer, output_cancer = load_breast_cancer(return_X_y=True)

#raio
raio = input_cancer[:, 0]

#textura
text = input_cancer[:, 1]

#perimetro
perin = input_cancer[:, 2]

#area
area = input_cancer[:, 3]

#suavidade
suave = input_cancer[:, 4]

#compactaçao
compac = input_cancer[:, 5]

#concavidade
conc = input_cancer[:, 6]

#pontos_concavos
p_conc = input_cancer[:, 7]

#simetria
simet = input_cancer[:, 8]

#dimensao_fractal
dim_frac = input_cancer[:, 9]

O código abaixo serve para transformar entradas do tipo string em números, o que é comum quando se trabalha com dados categóricos. No entanto, como o dataset de câncer de mama já utiliza valores inteiros para representar suas características, esse passo de conversão é desnecessário. Nesse caso, podemos ignorar essa transformação, já que os dados estão prontos para serem processados diretamente pelo modelo de Naive Bayes. 

In [33]:
from sklearn import preprocessing

encoder = preprocessing.LabelEncoder()

rio_num = encoder.fit_transform(raio)
text_num = encoder.fit_transform(text)
perin_num = encoder.fit_transform(perin)
area_num = encoder.fit_transform(area)
suave_num = encoder.fit_transform(suave)
compac_num = encoder.fit_transform(compac)
conc_num = encoder.fit_transform(conc)
p_conc_num = encoder.fit_transform(p_conc)
simet_num = encoder.fit_transform(simet)
dim_frac_num = encoder.fit_transform(dim_frac)

print(rio_num)
print(text_num)
print(perin_num)
print(area_num)
print(suave_num)
print(compac_num)
print(conc_num)
print(p_conc_num)
print(simet_num)
print(dim_frac_num)

[370 426 406  98 418 159 376 233 192 160 324 322 394 323 234 273 280 328
 410 222 196  28 310 436 341 351 274 381 308 362 382 125 347 398 328 343
 259 194 295 217 213  73 391 206 201 383   4 201 137 218 122 227 131 375
 301 106 397 282 195   9  49   8 259  19 170 285  27  91  17 176 388  14
 353 239 151 326 221 373 415 181 100 208 451 392 134 379 270 390 154 279
 278 311 205 214 299 417 142  41 109 266 225   0 142  43  58 197 113 154
 443  94  40 167 260  59  11 130  15 289 322 369  97 384 449 271 209 242
 225 389 301 408 143 312 330 319 378 175 119  99 292  88  37 327  99 185
  65 129 123 292 267 235 192   5  36  81 199 148 364 345 138  70 121 396
 404 153 446 294  66 344 360 294 152 212 312  78  63  10  44 338 193 178
 453 434 318  97 307  47 377 119 124 150 258 175  35 153 288 186 237 374
 395 268 147 361 447 240 161 302  43 346 197 306 427 125 455 358 256 243
 128  51 409 402 228 223  50 321 205 263  56 296 166 179 348  92  84 424
  29 251 445 423 258 359 227 157  90 236 399  57 20

Em seguida, seria necessário reorganizar os dados obtidos, criando listas de vetores das características correspondentes a cada saída do dataset. No entanto, como mencionado anteriormente, o dataset fornecido já apresenta as entradas devidamente organizadas. Isso significa que as características  já estão associadas às suas respectivas saídas de maneira adequada, eliminando a necessidade de realizar essa reorganização manualmente.

In [34]:
entrada = list(zip(rio_num,
                    text_num,
                    perin_num,
                    area_num,
                    suave_num,
                    compac_num,
                    conc_num,
                    p_conc_num,
                    simet_num,
                    dim_frac_num))

print(entrada)

[(370, 1, 455, 452, 444, 531, 521, 526, 416, 483), (426, 186, 486, 513, 120, 215, 321, 396, 219, 91), (406, 324, 478, 487, 403, 459, 478, 516, 348, 184), (98, 297, 164, 95, 471, 533, 507, 493, 426, 498), (418, 60, 493, 506, 332, 414, 480, 492, 216, 147), (159, 107, 223, 200, 463, 477, 440, 423, 355, 470), (376, 282, 445, 458, 251, 333, 374, 402, 207, 114), (233, 313, 308, 293, 446, 465, 335, 362, 388, 465), (192, 349, 280, 243, 462, 497, 469, 468, 407, 459), (160, 407, 238, 196, 445, 524, 501, 436, 339, 490), (324, 391, 388, 404, 82, 146, 144, 259, 62, 101), (322, 189, 393, 399, 280, 396, 350, 385, 237, 210), (394, 418, 484, 471, 285, 526, 485, 502, 413, 480), (323, 403, 394, 401, 107, 299, 349, 337, 241, 22), (234, 378, 326, 294, 418, 521, 490, 421, 348, 473), (273, 451, 358, 348, 424, 458, 443, 401, 403, 431), (280, 287, 342, 365, 306, 174, 296, 332, 90, 164), (328, 306, 409, 405, 439, 505, 460, 491, 383, 455), (410, 364, 478, 498, 301, 310, 424, 474, 86, 28), (222, 61, 279, 283, 294

Assim, após definir as entradas e saídas, o próximo passo é realizar o treinamento do modelo. Utilizamos as entradas  e as saídas previamente organizadas para ajustar o modelo de Naive Bayes.

In [35]:
nb = GaussianNB()
nb.fit(input_cancer, output_cancer)

In [36]:
nb.predict([[370, 1, 455, 452, 444, 531, 521, 526, 416, 483]])

array([0])

 Ao inserir esses valores, o modelo calculará a probabilidade de que o câncer seja benigno ou maligno. A precisão do modelo ao prever que o câncer seja benigno pode ser avaliada ao comparar as previsões com os resultados reais.

In [37]:
nb.predict_proba([[370, 1, 455, 452, 444, 531, 521, 526, 416, 483]])

array([[9.99999998e-01, 2.08136010e-09]])

Por exemplo, se o modelo de Naive Bayes retornar uma probabilidade de 0.999 ou 99,9% de que o câncer seja benigno e uma probabilidade muito baixa, como 2e-9 ou 0%, de que seja maligno, isso indica que o modelo está fortemente inclinado a classificar o caso como benigno.

In [38]:
nb.score(input_cancer, output_cancer)

0.9121265377855887


Para realizar uma análise mais precisa da eficácia do treinamento, o dataset é separado em duas partes: dados de treino (80%) e dados de teste (20%). A divisão permite que o modelo seja treinado em uma porção dos dados e posteriormente avaliado em dados não vistos, o que é essencial para verificar a generalização do modelo.

Após a separação, realizamos o treinamento do modelo utilizando o classificador Naive Bayes Gaussiano, que é adequado para variáveis contínuas. O modelo é ajustado com os dados de treino, aprendendo as relações entre as características e as classes (benigno ou maligno). Posteriormente, ele é avaliado com os dados de teste para verificar seu desempenho, como precisão, recall e outras métricas importantes.

In [41]:
from sklearn.model_selection import train_test_split

# separa os dados em treino e teste
entrada_treino, entrada_teste, saida_treino, saida_teste = train_test_split(input_cancer, output_cancer, test_size=0.2)

# cria o modelo de classificação e treina
nb_model = GaussianNB()
nb_model.fit(entrada_treino, saida_treino)

Após o treinamento, utilizamos os dados que foram previamente separados para o teste e pedimos ao modelo para classificá-los. Essa etapa nos permite avaliar a capacidade do modelo de Naive Bayes Gaussiano em fazer previsões precisas para novos dados não vistos durante o treinamento. Ao comparar as previsões do modelo com os rótulos reais das amostras de teste, podemos verificar se o treinamento foi bem-sucedido. Métricas como a acurácia, precisão, recall e F1-score podem ser calculadas para medir a eficácia do modelo em classificar corretamente os casos de câncer como benignos ou malignos.

In [40]:
from sklearn.metrics import classification_report

# realiza a predição e imprime o relatório de classificação
print(classification_report(saida_teste, nb_model.predict(entrada_teste)))

              precision    recall  f1-score   support

           0       0.87      0.89      0.88        46
           1       0.93      0.91      0.92        68

    accuracy                           0.90       114
   macro avg       0.90      0.90      0.90       114
weighted avg       0.90      0.90      0.90       114

