In [1]:
# Importa o dataset Iris do scikit-learn
from sklearn.datasets import load_iris

# Importa o modelo de Regressão Logística
from sklearn.linear_model import LogisticRegression

# Importa o KFold para validação cruzada
from sklearn.model_selection import KFold

# Importa função para calcular acurácia
from sklearn.metrics import accuracy_score

# Importa o NumPy para cálculo da média
import numpy as np

# Carrega os dados: X são as características, y são os rótulos (espécies de flores)
X, y = load_iris(return_X_y=True)

# Define o número de partes (folds) para a validação cruzada
K = 5

# Inicializa o KFold com 5 divisões, embaralhamento e uma semente para reprodutibilidade
kf = KFold(n_splits=K, shuffle=True, random_state=42)

# Lista para armazenar a acurácia de cada uma das 5 execuções
accuracies = []

# Loop que percorre cada divisão dos dados (K iterações)
for train_index, test_index in kf.split(X):
    # Separa os dados de treino e teste conforme os índices retornados pelo KFold
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # Cria o modelo de Regressão Logística, com um número de iterações suficiente para garantir convergência
    model = LogisticRegression(max_iter=200)

    # Treina o modelo com os dados de treino
    model.fit(X_train, y_train)

    # Realiza previsões com os dados de teste
    y_pred = model.predict(X_test)

    # Calcula a acurácia da iteração e armazena na lista
    acc = accuracy_score(y_test, y_pred)
    accuracies.append(acc)

# Calcula a média das acurácias das 5 iterações
mean_accuracy = np.mean(accuracies)

# Imprime o resultado final
print(f"Média das acurácias com K={K}: {mean_accuracy:.4f}")


Média das acurácias com K=5: 0.9733
