### Importando bibliotecas, dataset

In [74]:
import pandas as pd
from sklearn.model_selection import train_test_split
import sklearn.naive_bayes 
from sklearn.metrics import accuracy_score
import itertools as itt

# Carregar o dataset do arquivo .data 
dataset = pd.read_csv('breast-cancer.data', header=None)

### Visualizando o dataset

In [75]:
dataset.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,no-recurrence-events,30-39,premeno,30-34,0-2,no,3,left,left_low,no
1,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,right,right_up,no
2,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,left,left_low,no
3,no-recurrence-events,60-69,ge40,15-19,0-2,no,2,right,left_up,no
4,no-recurrence-events,40-49,premeno,0-4,0-2,no,2,right,right_low,no


### Separando Features, Target 

In [76]:
# Definir o nome das colunas (substitua 'col1', 'col2', ... pelos nomes reais das colunas)
dataset.columns = ['target', 'age', 'menopause', 'tumor-size', 'inv-nodes', 'node-caps', 'deg-malig', 'breast', 'breast-quad', 'irradiat']

### Checando valores do dataset

In [77]:
# Lista dos valores permitidos para cada coluna
allowed_values = {
    'target': ['no-recurrence-events', 'recurrence-events'],
    'age': ['10-19', '20-29', '30-39', '40-49', '50-59', '60-69', '70-79', '80-89', '90-99'],
    'menopause': ['lt40', 'ge40', 'premeno'],
    'tumor-size': ['0-4', '5-9', '10-14', '15-19', '20-24', '25-29', '30-34', '35-39', '40-44', '45-49', '50-54', '55-59'],
    'inv-nodes': ['0-2', '3-5', '6-8', '9-11', '12-14', '15-17', '18-20', '21-23', '24-26', '27-29', '30-32', '33-35', '36-39'],
    'node-caps': ['yes', 'no'],
    'deg-malig': [1, 2, 3],
    'breast': ['left', 'right'],
    'breast-quad': ['left_up', 'left_low', 'right_up', 'right_low', 'central'],
    'irradiat': ['yes', 'no']
}

# Percorre cada coluna do dataset
for col in dataset.columns:
    # Verifica se os valores da coluna estão contidos nos valores permitidos
    invalid_values = dataset[~dataset[col].isin(allowed_values[col])]
    if not invalid_values.empty:
        print(f"Valores inválidos na coluna '{col}':")
        print(invalid_values[col])


Valores inválidos na coluna 'node-caps':
145    ?
163    ?
164    ?
183    ?
184    ?
233    ?
263    ?
264    ?
Name: node-caps, dtype: object
Valores inválidos na coluna 'breast-quad':
206    ?
Name: breast-quad, dtype: object


### Retirando linhas com valores inconsistentes

In [78]:
invalid_rows_node_caps = dataset[dataset['node-caps'] == '?'].index
invalid_rows_breast_quad = dataset[dataset['breast-quad'] == '?'].index

invalid_rows = set(invalid_rows_node_caps).union(invalid_rows_breast_quad)

data_cleaned = dataset.drop(index=invalid_rows)



### X, y, X_train, y_train

In [79]:
# Separar as variáveis de entrada (X) da variável alvo (y)
X = data_cleaned.drop(columns=['target'])
y = data_cleaned['target']

# Converter as variáveis categóricas em colunas numéricas (one-hot encoding)
X = pd.get_dummies(X)

# Dividir os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

### Visualizando X, tratado

In [80]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', 100)

X.head()

Unnamed: 0,deg-malig,age_20-29,age_30-39,age_40-49,age_50-59,age_60-69,age_70-79,menopause_ge40,menopause_lt40,menopause_premeno,tumor-size_0-4,tumor-size_10-14,tumor-size_15-19,tumor-size_20-24,tumor-size_25-29,tumor-size_30-34,tumor-size_35-39,tumor-size_40-44,tumor-size_45-49,tumor-size_5-9,tumor-size_50-54,inv-nodes_0-2,inv-nodes_12-14,inv-nodes_15-17,inv-nodes_24-26,inv-nodes_3-5,inv-nodes_6-8,inv-nodes_9-11,node-caps_no,node-caps_yes,breast_left,breast_right,breast-quad_central,breast-quad_left_low,breast-quad_left_up,breast-quad_right_low,breast-quad_right_up,irradiat_no,irradiat_yes
0,3,False,True,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,True,False,False,False,True,False
1,2,False,False,True,False,False,False,False,False,True,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,True,False,False,False,False,True,True,False
2,2,False,False,True,False,False,False,False,False,True,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,True,False,False,False,True,False
3,2,False,False,False,False,True,False,True,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,True,False,False,True,False,False,True,False
4,2,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,True,False,False,False,True,False,True,False


### Criando modelo, treinamento e score de acurácia

In [81]:
# Criar o modelo de Naive Bayes
nb_classifier = sklearn.naive_bayes.GaussianNB()

# Treinar o modelo com o conjunto de treinamento
nb_classifier.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = nb_classifier.predict(X_test)

# Avaliar a precisão do modelo
accuracy = accuracy_score(y_test, y_pred)

print(accuracy)

0.44642857142857145


### Teste modelos de classificador

Gaussian

In [82]:
resultados = pd.DataFrame(columns=['accuracy'])

for i in range(0, 200):
    # Dividir os dados em conjunto de treinamento e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=i)

    # Criar o modelo de Naive Bayes
    nb_classifier = sklearn.naive_bayes.GaussianNB()

    # Treinar o modelo com o conjunto de treinamento
    nb_classifier.fit(X_train, y_train)

    # Fazer previsões no conjunto de teste
    y_pred = nb_classifier.predict(X_test)

    # Avaliar a precisão do modelo
    accuracy = accuracy_score(y_test, y_pred)

    resultados.loc[i] = accuracy

print('maximo:', resultados['accuracy'].max(), '\nmedia:', resultados['accuracy'].mean())

maximo: 0.625 
media: 0.41776785714285725


Multinomial

In [83]:
resultados = pd.DataFrame(columns=['accuracy'])

for i in range(0, 200):
    # Dividir os dados em conjunto de treinamento e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=i)

    # Criar o modelo de Naive Bayes
    nb_classifier = sklearn.naive_bayes.MultinomialNB()

    # Treinar o modelo com o conjunto de treinamento
    nb_classifier.fit(X_train, y_train)

    # Fazer previsões no conjunto de teste
    y_pred = nb_classifier.predict(X_test)

    # Avaliar a precisão do modelo
    accuracy = accuracy_score(y_test, y_pred)

    resultados.loc[i] = accuracy

print('maximo:', resultados['accuracy'].max(), '\nmedia:', resultados['accuracy'].mean())

maximo: 0.8571428571428571 
media: 0.7232142857142857


Complement

In [84]:
resultados = pd.DataFrame(columns=['accuracy'])

for i in range(0, 200):
    # Dividir os dados em conjunto de treinamento e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=i)

    # Criar o modelo de Naive Bayes
    nb_classifier = sklearn.naive_bayes.ComplementNB()

    # Treinar o modelo com o conjunto de treinamento
    nb_classifier.fit(X_train, y_train)

    # Fazer previsões no conjunto de teste
    y_pred = nb_classifier.predict(X_test)

    # Avaliar a precisão do modelo
    accuracy = accuracy_score(y_test, y_pred)

    resultados.loc[i] = accuracy

print('maximo:', resultados['accuracy'].max(), '\nmedia:', resultados['accuracy'].mean())

maximo: 0.8392857142857143 
media: 0.7045535714285716


Bernoulli

In [85]:
resultados = pd.DataFrame(columns=['accuracy'])

for i in range(0, 200):
    # Dividir os dados em conjunto de treinamento e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=i)

    # Criar o modelo de Naive Bayes
    nb_classifier = sklearn.naive_bayes.BernoulliNB()

    # Treinar o modelo com o conjunto de treinamento
    nb_classifier.fit(X_train, y_train)

    # Fazer previsões no conjunto de teste
    y_pred = nb_classifier.predict(X_test)

    # Avaliar a precisão do modelo
    accuracy = accuracy_score(y_test, y_pred)

    resultados.loc[i] = accuracy

print('maximo:', resultados['accuracy'].max(), '\nmedia:', resultados['accuracy'].mean())

maximo: 0.8571428571428571 
media: 0.72


Desta forma, o modelo que teve a maior acurácia foi o multimodal. Iremos utilizá-lo daqui em diante:

In [86]:
nb_classifier = sklearn.naive_bayes.MultinomialNB()

### Decidindo features para usar no modelo

In [87]:

# DataFrame original sem o target
X = data_cleaned.drop(columns=['target'])

# DataFrame para armazenar os resultados
resultados = pd.DataFrame(columns=['accuracy', 'columns_combination'])

X = pd.get_dummies(X)

# Lista com todas as colunas do DataFrame X
colunas = X.columns.tolist()
print(colunas)

# Lista com as features originais
features_originais = ['age', 'menopause', 'tumor-size', 'inv-nodes', 'node-caps', 'deg-malig', 'breast', 'breast-quad', 'irradiat']

['deg-malig', 'age_20-29', 'age_30-39', 'age_40-49', 'age_50-59', 'age_60-69', 'age_70-79', 'menopause_ge40', 'menopause_lt40', 'menopause_premeno', 'tumor-size_0-4', 'tumor-size_10-14', 'tumor-size_15-19', 'tumor-size_20-24', 'tumor-size_25-29', 'tumor-size_30-34', 'tumor-size_35-39', 'tumor-size_40-44', 'tumor-size_45-49', 'tumor-size_5-9', 'tumor-size_50-54', 'inv-nodes_0-2', 'inv-nodes_12-14', 'inv-nodes_15-17', 'inv-nodes_24-26', 'inv-nodes_3-5', 'inv-nodes_6-8', 'inv-nodes_9-11', 'node-caps_no', 'node-caps_yes', 'breast_left', 'breast_right', 'breast-quad_central', 'breast-quad_left_low', 'breast-quad_left_up', 'breast-quad_right_low', 'breast-quad_right_up', 'irradiat_no', 'irradiat_yes']


In [100]:
combinacoes = [['age_20-29', 'age_30-39', 'age_40-49', 'age_50-59', 'age_60-69', 'age_70-79'], ['menopause_ge40', 'menopause_lt40', 'menopause_premeno'], ['tumor-size_0-4', 'tumor-size_10-14', 'tumor-size_15-19', 'tumor-size_20-24', 'tumor-size_25-29', 'tumor-size_30-34', 'tumor-size_35-39', 'tumor-size_40-44', 'tumor-size_45-49', 'tumor-size_5-9', 'tumor-size_50-54', 'inv-nodes_0-2'], ['inv-nodes_12-14', 'inv-nodes_15-17', 'inv-nodes_24-26', 'inv-nodes_3-5', 'inv-nodes_6-8', 'inv-nodes_9-11'], ['node-caps_no', 'node-caps_yes'], ['breast_left', 'breast_right'], ['breast-quad_central', 'breast-quad_left_low', 'breast-quad_left_up', 'breast-quad_right_low', 'breast-quad_right_up'], ['irradiat_no', 'irradiat_yes']]

todas_combinacoes = []

for i in range(1, len(combinacoes)):
    todas_combinacoes.extend(itt.combinations(combinacoes, i))

with open('combinacoesFeatures.txt', 'w') as file:
    for comb in todas_combinacoes:
        file.write(str(list(comb)) + '\n') 

### Iterando sobre as combinações presentes no arquivo:

In [113]:
# Abrir o arquivo no modo de leitura
with open('combinacoesFeatures.txt', 'r') as file:
    line_number = 0
    for line in file:
        line_number += 1
        print('line_number: ', line_number)
        # Converter a string da linha em uma lista usando eval()
        lista_de_listas = eval(line)
        # Agora você pode trabalhar com a lista de listas
        for lista in lista_de_listas:
            num_lista = len(lista_de_listas)
            print('num_lista: ', num_lista)


line_number:  1
num_lista:  1
line_number:  2
num_lista:  1
line_number:  3
num_lista:  1
line_number:  4
num_lista:  1
line_number:  5
num_lista:  1
line_number:  6
num_lista:  1
line_number:  7
num_lista:  1
line_number:  8
num_lista:  1
line_number:  9
num_lista:  2
num_lista:  2
line_number:  10
num_lista:  2
num_lista:  2
line_number:  11
num_lista:  2
num_lista:  2
line_number:  12
num_lista:  2
num_lista:  2
line_number:  13
num_lista:  2
num_lista:  2
line_number:  14
num_lista:  2
num_lista:  2
line_number:  15
num_lista:  2
num_lista:  2
line_number:  16
num_lista:  2
num_lista:  2
line_number:  17
num_lista:  2
num_lista:  2
line_number:  18
num_lista:  2
num_lista:  2
line_number:  19
num_lista:  2
num_lista:  2
line_number:  20
num_lista:  2
num_lista:  2
line_number:  21
num_lista:  2
num_lista:  2
line_number:  22
num_lista:  2
num_lista:  2
line_number:  23
num_lista:  2
num_lista:  2
line_number:  24
num_lista:  2
num_lista:  2
line_number:  25
num_lista:  2
num_lista: