In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, KFold
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# Carregando o dataset de câncer de mama
data = load_breast_cancer()
X, y = data.data, data.target

# Dividindo os dados em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializando o modelo de Naive Bayes Gaussiano
model = GaussianNB()

# Definindo o número de folds (k)
k = 5

# Inicializando o objeto KFold no conjunto de treino
kf = KFold(n_splits=k)

# Lista para armazenar as acurácias de cada fold
accuracies = []

# Iterando sobre os folds no conjunto de treino
for train_index, val_index in kf.split(X_train):
    X_train_fold, X_val = X_train[train_index], X_train[val_index]
    y_train_fold, y_val = y_train[train_index], y_train[val_index]

    # Treinando o modelo com o fold atual
    model.fit(X_train_fold, y_train_fold)

    # Prevendo os rótulos para os dados de validação (fold)
    y_pred = model.predict(X_val)

    # Calculando a acurácia e armazenando
    acc = accuracy_score(y_val, y_pred)
    accuracies.append(acc)

# Calculando a média das acurácias obtidas na validação cruzada K-fold
mean_accuracy = sum(accuracies) / len(accuracies)
print(f"Acurácias de cada fold: {accuracies}")
print(f"Média das acurácias: {mean_accuracy}")

# Avaliando no conjunto de teste separado
y_pred_test = model.predict(X_test)
accuracy_test = accuracy_score(y_test, y_pred_test)
print(f"Acurácia no conjunto de teste: {accuracy_test}")


Acurácias de cada fold: [0.9230769230769231, 0.945054945054945, 0.945054945054945, 0.9340659340659341, 0.9230769230769231]
Média das acurácias: 0.9340659340659341
Acurácia no conjunto de teste: 0.9649122807017544
