In [1]:
%%capture
%pip install numpy
%pip install scikit-learn
%pip install pandas
%pip install scipy

# Questão 1

In [2]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

X, y = load_iris(return_X_y=True)

estrategias = {
    "Zero Rules": "most_frequent",
    "Aleatório Uniforme": "uniform",
    "Aleatório Estratificado": "stratified"
}

sementes = [7, 11]

# Avaliação com acurácia média, desvio e matriz de confusão
def avaliar(strategy, seed):
    modelo = DummyClassifier(strategy=strategy, random_state=seed)
    skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=seed)

    accs = []
    y_true_total = []
    y_pred_total = []

    for train_idx, test_idx in skf.split(X, y):
        modelo.fit(X[train_idx], y[train_idx])
        y_pred = modelo.predict(X[test_idx])
        acc = accuracy_score(y[test_idx], y_pred)
        accs.append(acc)
        y_true_total.extend(y[test_idx])
        y_pred_total.extend(y_pred)

    media = np.mean(accs)
    desvio = np.std(accs)
    matriz = confusion_matrix(y_true_total, y_pred_total)
    
    return media, desvio, matriz

for nome, strategy in estrategias.items():
    print(f"--- {nome} ---")
    for seed in sementes:
        media, desvio, matriz = avaliar(strategy, seed)
        print(f"Semente {seed} → Acurácia Média: {media:.4f}, Desvio Padrão: {desvio:.4f}")
        print(f"Matriz de Confusão:\n{matriz}\n")

--- Zero Rules ---
Semente 7 → Acurácia Média: 0.3333, Desvio Padrão: 0.0000
Matriz de Confusão:
[[50  0  0]
 [50  0  0]
 [50  0  0]]

Semente 11 → Acurácia Média: 0.3333, Desvio Padrão: 0.0000
Matriz de Confusão:
[[50  0  0]
 [50  0  0]
 [50  0  0]]

--- Aleatório Uniforme ---
Semente 7 → Acurácia Média: 0.3333, Desvio Padrão: 0.0000
Matriz de Confusão:
[[20 20 10]
 [10 10 30]
 [30  0 20]]

Semente 11 → Acurácia Média: 0.2667, Desvio Padrão: 0.0000
Matriz de Confusão:
[[20 30  0]
 [20 20 10]
 [30 20  0]]

--- Aleatório Estratificado ---
Semente 7 → Acurácia Média: 0.2000, Desvio Padrão: 0.0000
Matriz de Confusão:
[[10 30 10]
 [10 20 20]
 [30 20  0]]

Semente 11 → Acurácia Média: 0.4000, Desvio Padrão: 0.0000
Matriz de Confusão:
[[10 10 30]
 [30 20  0]
 [20  0 30]]



# Questão 2

In [3]:
import numpy as np
from sklearn.datasets import load_digits
from sklearn.model_selection import StratifiedKFold
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

X, y = load_digits(return_X_y=True)

estrategias = {
    "Zero Rules": "most_frequent",
    "Aleatório Uniforme": "uniform",
    "Aleatório Estratificado": "stratified"
}

sementes = [7, 11]

# Avaliação com acurácia média, desvio e matriz de confusão
def avaliar(strategy, seed):
    modelo = DummyClassifier(strategy=strategy, random_state=seed)
    skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=seed)

    accs = []
    y_true_total = []
    y_pred_total = []

    for train_idx, test_idx in skf.split(X, y):
        modelo.fit(X[train_idx], y[train_idx])
        y_pred = modelo.predict(X[test_idx])
        acc = accuracy_score(y[test_idx], y_pred)
        accs.append(acc)
        y_true_total.extend(y[test_idx])
        y_pred_total.extend(y_pred)

    media = np.mean(accs)
    desvio = np.std(accs)
    matriz = confusion_matrix(y_true_total, y_pred_total)
    
    return media, desvio, matriz

for nome, strategy in estrategias.items():
    print(f"--- {nome} ---")
    for seed in sementes:
        media, desvio, matriz = avaliar(strategy, seed)
        print(f"Semente {seed} → Acurácia Média: {media:.4f}, Desvio Padrão: {desvio:.4f}")
        print(f"Matriz de Confusão:\n{matriz}\n")

--- Zero Rules ---
Semente 7 → Acurácia Média: 0.1013, Desvio Padrão: 0.0024
Matriz de Confusão:
[[  0  18   0 160   0   0   0   0   0   0]
 [  0  18   0 164   0   0   0   0   0   0]
 [  0  17   0 160   0   0   0   0   0   0]
 [  0  19   0 164   0   0   0   0   0   0]
 [  0  18   0 163   0   0   0   0   0   0]
 [  0  18   0 164   0   0   0   0   0   0]
 [  0  18   0 163   0   0   0   0   0   0]
 [  0  18   0 161   0   0   0   0   0   0]
 [  0  17   0 157   0   0   0   0   0   0]
 [  0  18   0 162   0   0   0   0   0   0]]

Semente 11 → Acurácia Média: 0.1013, Desvio Padrão: 0.0024
Matriz de Confusão:
[[  0  18   0 160   0   0   0   0   0   0]
 [  0  18   0 164   0   0   0   0   0   0]
 [  0  17   0 160   0   0   0   0   0   0]
 [  0  19   0 164   0   0   0   0   0   0]
 [  0  18   0 163   0   0   0   0   0   0]
 [  0  18   0 164   0   0   0   0   0   0]
 [  0  18   0 163   0   0   0   0   0   0]
 [  0  18   0 161   0   0   0   0   0   0]
 [  0  17   0 157   0   0   0   0   0   0]
 [  0

# Questão 3

In [4]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import MaxAbsScaler, MinMaxScaler, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from scipy.stats import wilcoxon, t

X, y = load_iris(return_X_y=True)

preprocessadores = {
    "Sem normalização": None,
    "MaxAbsScaler": MaxAbsScaler(),
    "MinMaxScaler": MinMaxScaler(),
    "StandardScaler": StandardScaler()
}

onn = KNeighborsClassifier(n_neighbors=1)
skf = StratifiedKFold(n_splits=10, shuffle=True)

# Armazenar resultados
resultados = {}

for nome, scaler in preprocessadores.items():
    accs = []
    for train_idx, test_idx in skf.split(X, y):
        X_train, X_test = X[train_idx], X[test_idx]

        if scaler:
            X_train = scaler.fit_transform(X_train)
            X_test = scaler.transform(X_test)

        onn.fit(X_train, y[train_idx])
        y_pred = onn.predict(X_test)
        acc = accuracy_score(y[test_idx], y_pred)
        accs.append(acc)

    accs = np.array(accs)
    media = accs.mean()
    desvio = accs.std()

    # Intervalo de confiança 95%
    t_crit = t.ppf(0.975, df=len(accs) - 1)
    erro_padrao = desvio / np.sqrt(len(accs))
    intervalo = (media - t_crit * erro_padrao, media + t_crit * erro_padrao)
    
    resultados[nome] = {
        "acuracias": accs,
        "media": media,
        "desvio": desvio,
        "intervalo": intervalo
    }

for nome, res in resultados.items():
    print(f"\n=== {nome} ===")
    print(f"Acurácia média: {res['media']:.4f}")
    print(f"Desvio padrão: {res['desvio']:.4f}")
    print(f"Intervalo de confiança 95%: ({res['intervalo'][0]:.4f}, {res['intervalo'][1]:.4f})")
    
print("\n### Teste de Wilcoxon: normalizações vs sem normalização ###")
base_ref = "Sem normalização"
for nome in preprocessadores:
    if nome != base_ref and nome in resultados:
        stat, p = wilcoxon(resultados[nome]["acuracias"], resultados[base_ref]["acuracias"])
        print(f"\n{nome} vs {base_ref}")
        print(f"Estatística W: {stat}, Valor-p: {p:.5f}")
        if p < 0.05:
            print("➡️ Diferença significativa a 95% de confiança.")
        else:
            print("➡️ Diferença NÃO significativa a 95% de confiança.")


=== Sem normalização ===
Acurácia média: 0.9600
Desvio padrão: 0.0327
Intervalo de confiança 95%: (0.9366, 0.9834)

=== MaxAbsScaler ===
Acurácia média: 0.9533
Desvio padrão: 0.0427
Intervalo de confiança 95%: (0.9228, 0.9839)

=== MinMaxScaler ===
Acurácia média: 0.9467
Desvio padrão: 0.0499
Intervalo de confiança 95%: (0.9110, 0.9824)

=== StandardScaler ===
Acurácia média: 0.9400
Desvio padrão: 0.0757
Intervalo de confiança 95%: (0.8858, 0.9942)

### Teste de Wilcoxon: normalizações vs sem normalização ###

MaxAbsScaler vs Sem normalização
Estatística W: 1.0, Valor-p: 1.00000
➡️ Diferença NÃO significativa a 95% de confiança.

MinMaxScaler vs Sem normalização
Estatística W: 5.0, Valor-p: 0.75000
➡️ Diferença NÃO significativa a 95% de confiança.

StandardScaler vs Sem normalização
Estatística W: 9.0, Valor-p: 0.43750
➡️ Diferença NÃO significativa a 95% de confiança.


# Questão 4

In [5]:
import numpy as np
from sklearn.datasets import load_digits
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import MaxAbsScaler, MinMaxScaler, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from scipy.stats import wilcoxon, t

X, y = load_digits(return_X_y=True)

preprocessadores = {
    "Sem normalização": None,
    "MaxAbsScaler": MaxAbsScaler(),
    "MinMaxScaler": MinMaxScaler(),
    "StandardScaler": StandardScaler()
}

onn = KNeighborsClassifier(n_neighbors=1)
skf = StratifiedKFold(n_splits=10, shuffle=True)

# Armazenar resultados
resultados = {}

for nome, scaler in preprocessadores.items():
    accs = []
    for train_idx, test_idx in skf.split(X, y):
        X_train, X_test = X[train_idx], X[test_idx]

        if scaler:
            X_train = scaler.fit_transform(X_train)
            X_test = scaler.transform(X_test)

        onn.fit(X_train, y[train_idx])
        y_pred = onn.predict(X_test)
        acc = accuracy_score(y[test_idx], y_pred)
        accs.append(acc)

    accs = np.array(accs)
    media = accs.mean()
    desvio = accs.std()

    # Intervalo de confiança 95%
    t_crit = t.ppf(0.975, df=len(accs) - 1)
    erro_padrao = desvio / np.sqrt(len(accs))
    intervalo = (media - t_crit * erro_padrao, media + t_crit * erro_padrao)
    
    resultados[nome] = {
        "acuracias": accs,
        "media": media,
        "desvio": desvio,
        "intervalo": intervalo
    }

for nome, res in resultados.items():
    print(f"\n=== {nome} ===")
    print(f"Acurácia média: {res['media']:.4f}")
    print(f"Desvio padrão: {res['desvio']:.4f}")
    print(f"Intervalo de confiança 95%: ({res['intervalo'][0]:.4f}, {res['intervalo'][1]:.4f})")
    
print("\n### Teste de Wilcoxon: normalizações vs sem normalização ###")
base_ref = "Sem normalização"
for nome in preprocessadores:
    if nome != base_ref and nome in resultados:
        stat, p = wilcoxon(resultados[nome]["acuracias"], resultados[base_ref]["acuracias"])
        print(f"\n{nome} vs {base_ref}")
        print(f"Estatística W: {stat}, Valor-p: {p:.5f}")
        if p < 0.05:
            print("➡️ Diferença significativa a 95% de confiança.")
        else:
            print("➡️ Diferença NÃO significativa a 95% de confiança.")


=== Sem normalização ===
Acurácia média: 0.9883
Desvio padrão: 0.0063
Intervalo de confiança 95%: (0.9838, 0.9928)

=== MaxAbsScaler ===
Acurácia média: 0.9872
Desvio padrão: 0.0056
Intervalo de confiança 95%: (0.9832, 0.9912)

=== MinMaxScaler ===
Acurácia média: 0.9872
Desvio padrão: 0.0071
Intervalo de confiança 95%: (0.9821, 0.9923)

=== StandardScaler ===
Acurácia média: 0.9722
Desvio padrão: 0.0108
Intervalo de confiança 95%: (0.9644, 0.9799)

### Teste de Wilcoxon: normalizações vs sem normalização ###

MaxAbsScaler vs Sem normalização
Estatística W: 13.5, Valor-p: 0.57812
➡️ Diferença NÃO significativa a 95% de confiança.

MinMaxScaler vs Sem normalização
Estatística W: 12.0, Valor-p: 0.81250
➡️ Diferença NÃO significativa a 95% de confiança.

StandardScaler vs Sem normalização
Estatística W: 1.0, Valor-p: 0.00391
➡️ Diferença significativa a 95% de confiança.


# Questão 5

In [6]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from scipy.stats import t

X, y = load_iris(return_X_y=True)

k_values = [1, 3, 5, 6, 8]
n_repeats = 3
outer_folds = 10
inner_folds = 4

def nested_cv(X, y, padronizar=True, random_seed=42):
    accs = []
    rng = np.random.default_rng(seed=random_seed)

    for repeat in range(n_repeats):
        outer_cv = StratifiedKFold(n_splits=outer_folds, shuffle=True, random_state=rng.integers(0, 10000))

        for train_idx, test_idx in outer_cv.split(X, y):
            X_train, X_test = X[train_idx], X[test_idx]
            y_train, y_test = y[train_idx], y[test_idx]

            if padronizar:
                scaler = StandardScaler()
                X_train = scaler.fit_transform(X_train)
                X_test = scaler.transform(X_test)

            # Grid Search interno
            param_grid = {'n_neighbors': k_values}
            knn = KNeighborsClassifier()
            inner_cv = StratifiedKFold(n_splits=inner_folds, shuffle=True, random_state=rng.integers(0, 10000))
            grid = GridSearchCV(knn, param_grid, cv=inner_cv, scoring='accuracy')
            grid.fit(X_train, y_train)

            best_model = grid.best_estimator_
            y_pred = best_model.predict(X_test)
            accs.append(accuracy_score(y_test, y_pred))

    return np.array(accs)

acc_pad = nested_cv(X, y, padronizar=True)
acc_raw = nested_cv(X, y, padronizar=False)

def estatisticas(acc):
    media = acc.mean()
    desvio = acc.std(ddof=1)
    erro = desvio / np.sqrt(len(acc))
    t_crit = t.ppf(0.975, df=len(acc) - 1)
    intervalo = (media - t_crit * erro, media + t_crit * erro)
    return media, desvio, intervalo

media_pad, desvio_pad, ic_pad = estatisticas(acc_pad)
media_raw, desvio_raw, ic_raw = estatisticas(acc_raw)

print("\n=== Com base padronizada ===")
print(f"Acurácia média: {media_pad:.4f}")
print(f"Desvio padrão: {desvio_pad:.4f}")
print(f"Intervalo 95%: ({ic_pad[0]:.4f}, {ic_pad[1]:.4f})")

print("\n=== Com base não padronizada ===")
print(f"Acurácia média: {media_raw:.4f}")
print(f"Desvio padrão: {desvio_raw:.4f}")
print(f"Intervalo 95%: ({ic_raw[0]:.4f}, {ic_raw[1]:.4f})")

def t_corrigido_nadeau_bengio(data1, data2, X, n_folds_externos):
    """
    Aplica o teste t corrigido de Nadeau & Bengio (2003) entre duas listas de acurácias,
    usando o tamanho do conjunto de dados X e número de folds externos para estimar n_train e n_test.
    
    Parâmetros:
        data1, data2: listas ou arrays com as acurácias (deve conter n_execuções elementos)
        X: conjunto de dados original (para obter o tamanho total N)
        n_folds_externos: número de folds no loop externo da cross-validation

    Retorna:
        t_stat: valor da estatística t
        p_valor: valor-p do teste bilateral
    """
    N = len(X)  # número total de amostras no dataset
    n = len(data1)  # número de execuções (ex: 3 repetições × 10 folds = 30)

    # Estimativa dos tamanhos dos conjuntos de treino/teste em cada fold externo
    n_test = N // n_folds_externos
    n_train = N - n_test

    # Cálculo da estatística t com correção
    diffs = np.array(data1) - np.array(data2)
    mean_diff = np.mean(diffs)
    std_diff = np.std(diffs, ddof=1)

    se_corrigido = std_diff * np.sqrt(1/n + n_test/n_train)
    t_stat = mean_diff / se_corrigido
    p_valor = 2 * (1 - t.cdf(abs(t_stat), df=n - 1))

    return t_stat, p_valor

print('\nCorrected T Test')
s,p = t_corrigido_nadeau_bengio(acc_pad ,acc_raw, X,10)
print("t: %0.2f p-value: %0.2f\n" % (s,p))
if p < 0.05:
    print("➡️ Diferença significativa a 95% de confiança.")
else:
    print("➡️ Diferença NÃO significativa a 95% de confiança.")
    


=== Com base padronizada ===
Acurácia média: 0.9422
Desvio padrão: 0.0574
Intervalo 95%: (0.9208, 0.9636)

=== Com base não padronizada ===
Acurácia média: 0.9644
Desvio padrão: 0.0419
Intervalo 95%: (0.9488, 0.9801)

Corrected T Test
t: -1.60 p-value: 0.12

➡️ Diferença NÃO significativa a 95% de confiança.


# Questão 6

In [7]:
import numpy as np
from sklearn.datasets import load_wine
from sklearn.model_selection import StratifiedKFold, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from scipy.stats import t

X, y = load_wine(return_X_y=True)

k_values = [1, 3, 5, 6, 8]
n_repeats = 3
outer_folds = 10
inner_folds = 4

def nested_cv(X, y, padronizar=True, random_seed=42):
    accs = []
    rng = np.random.default_rng(seed=random_seed)

    for repeat in range(n_repeats):
        outer_cv = StratifiedKFold(n_splits=outer_folds, shuffle=True, random_state=rng.integers(0, 10000))

        for train_idx, test_idx in outer_cv.split(X, y):
            X_train, X_test = X[train_idx], X[test_idx]
            y_train, y_test = y[train_idx], y[test_idx]

            if padronizar:
                scaler = StandardScaler()
                X_train = scaler.fit_transform(X_train)
                X_test = scaler.transform(X_test)

            # Grid Search interno
            param_grid = {'n_neighbors': k_values}
            knn = KNeighborsClassifier()
            inner_cv = StratifiedKFold(n_splits=inner_folds, shuffle=True, random_state=rng.integers(0, 10000))
            grid = GridSearchCV(knn, param_grid, cv=inner_cv, scoring='accuracy')
            grid.fit(X_train, y_train)

            best_model = grid.best_estimator_
            y_pred = best_model.predict(X_test)
            accs.append(accuracy_score(y_test, y_pred))

    return np.array(accs)

acc_pad = nested_cv(X, y, padronizar=True)
acc_raw = nested_cv(X, y, padronizar=False)

def estatisticas(acc):
    media = acc.mean()
    desvio = acc.std(ddof=1)
    erro = desvio / np.sqrt(len(acc))
    t_crit = t.ppf(0.975, df=len(acc) - 1)
    intervalo = (media - t_crit * erro, media + t_crit * erro)
    return media, desvio, intervalo

media_pad, desvio_pad, ic_pad = estatisticas(acc_pad)
media_raw, desvio_raw, ic_raw = estatisticas(acc_raw)

print("\n=== Com base padronizada ===")
print(f"Acurácia média: {media_pad:.4f}")
print(f"Desvio padrão: {desvio_pad:.4f}")
print(f"Intervalo 95%: ({ic_pad[0]:.4f}, {ic_pad[1]:.4f})")

print("\n=== Com base não padronizada ===")
print(f"Acurácia média: {media_raw:.4f}")
print(f"Desvio padrão: {desvio_raw:.4f}")
print(f"Intervalo 95%: ({ic_raw[0]:.4f}, {ic_raw[1]:.4f})")

def t_corrigido_nadeau_bengio(data1, data2, X, n_folds_externos):
    """
    Aplica o teste t corrigido de Nadeau & Bengio (2003) entre duas listas de acurácias,
    usando o tamanho do conjunto de dados X e número de folds externos para estimar n_train e n_test.
    
    Parâmetros:
        data1, data2: listas ou arrays com as acurácias (deve conter n_execuções elementos)
        X: conjunto de dados original (para obter o tamanho total N)
        n_folds_externos: número de folds no loop externo da cross-validation

    Retorna:
        t_stat: valor da estatística t
        p_valor: valor-p do teste bilateral
    """
    N = len(X)  # número total de amostras no dataset
    n = len(data1)  # número de execuções (ex: 3 repetições × 10 folds = 30)

    # Estimativa dos tamanhos dos conjuntos de treino/teste em cada fold externo
    n_test = N // n_folds_externos
    n_train = N - n_test

    # Cálculo da estatística t com correção
    diffs = np.array(data1) - np.array(data2)
    mean_diff = np.mean(diffs)
    std_diff = np.std(diffs, ddof=1)

    se_corrigido = std_diff * np.sqrt(1/n + n_test/n_train)
    t_stat = mean_diff / se_corrigido
    p_valor = 2 * (1 - t.cdf(abs(t_stat), df=n - 1))

    return t_stat, p_valor

print('\nCorrected T Test')
s,p = t_corrigido_nadeau_bengio(acc_pad, acc_raw, X,10)
print("t: %0.2f p-value: %0.2f\n" % (s,p))
if p < 0.05:
    print(f"➡️ Diferença significativa a 95% de confiança.")
else:
    print(f"➡️ Diferença NÃO significativa a 95% de confiança.")
    


=== Com base padronizada ===
Acurácia média: 0.9627
Desvio padrão: 0.0396
Intervalo 95%: (0.9479, 0.9775)

=== Com base não padronizada ===
Acurácia média: 0.7503
Desvio padrão: 0.0940
Intervalo 95%: (0.7152, 0.7854)

Corrected T Test
t: 5.52 p-value: 0.00

➡️ Diferença significativa a 95% de confiança.


# Questão 7

In [8]:
import numpy as np
from sklearn import datasets
from scipy import stats
from sklearn.model_selection import cross_val_score, GridSearchCV, RepeatedStratifiedKFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

scalar = StandardScaler()

grade={'estimator__n_neighbors': [1,3,5,6,8]}

print("\n=== Com base padronizada sem considerar distância ===")

kNN = KNeighborsClassifier()

pipeline = Pipeline([('transformer', scalar), ('estimator', kNN)])

gs = GridSearchCV(estimator=pipeline, param_grid = grade, scoring='accuracy', cv=4)

rkf = RepeatedStratifiedKFold(n_splits=10, n_repeats=3)

scores = cross_val_score(gs, iris_X, iris_y, scoring='accuracy', cv=rkf)
mean = scores.mean()
std = scores.std()
inf, sup = stats.norm.interval(0.95, loc=mean, scale=std/np.sqrt(len(scores)))
print("\nMean Accuracy: %0.2f Standard Deviation: %0.2f" % (mean, std))
print ("Accuracy Confidence Interval (95%%): (%0.2f, %0.2f)\n" % (inf, sup)) 

print("\n=== Com base padronizada considerando distância ===")

kNN = KNeighborsClassifier(weights = 'distance')

pipeline = Pipeline([('transformer', scalar), ('estimator', kNN)])

gs = GridSearchCV(estimator=pipeline, param_grid=grade, scoring='accuracy', cv=4)

rkf = RepeatedStratifiedKFold(n_splits=10, n_repeats=3)

scores = cross_val_score(gs, iris_X, iris_y, scoring='accuracy', cv=rkf)
mean = scores.mean()
std = scores.std()
inf, sup = stats.norm.interval(0.95, loc=mean, scale=std/np.sqrt(len(scores)))
print("\nMean Accuracy: %0.2f Standard Deviation: %0.2f" % (mean, std))
print ("Accuracy Confidence Interval (95%%): (%0.2f, %0.2f)\n" % (inf, sup)) 

print("\n=== Com base não padronizada sem considerar distância ===")

kNN = KNeighborsClassifier()

grade={'n_neighbors': [1,3,5,6,8]}

gs = GridSearchCV(estimator=kNN, param_grid=grade, scoring='accuracy', cv=4)

scoresWN = cross_val_score(gs, iris_X, iris_y, scoring='accuracy', cv=rkf)
mean = scoresWN.mean()
std = scoresWN.std()
inf, sup = stats.norm.interval(0.95, loc=mean, scale=std/np.sqrt(len(scoresWN)))
print("\nMean Accuracy: %0.2f Standard Deviation: %0.2f" % (mean, std))
print ("Accuracy Confidence Interval (95%%): (%0.2f, %0.2f)\n" % (inf, sup)) 

print("\n=== Com base não padronizada considerando distância ===")

kNN = KNeighborsClassifier(weights='distance')

gs = GridSearchCV(estimator=kNN, param_grid=grade, scoring='accuracy', cv=4)

rkf = RepeatedStratifiedKFold(n_splits=10, n_repeats=3)

scores = cross_val_score(gs, iris_X, iris_y, scoring='accuracy', cv=rkf)
mean = scores.mean()
std = scores.std()
inf, sup = stats.norm.interval(0.95, loc=mean, scale=std/np.sqrt(len(scores)))
print("\nMean Accuracy: %0.2f Standard Deviation: %0.2f" % (mean, std))
print ("Accuracy Confidence Interval (95%%): (%0.2f, %0.2f)\n" % (inf, sup)) 


=== Com base padronizada sem considerar distância ===

Mean Accuracy: 0.95 Standard Deviation: 0.05
Accuracy Confidence Interval (95%): (0.93, 0.97)


=== Com base padronizada considerando distância ===

Mean Accuracy: 0.95 Standard Deviation: 0.06
Accuracy Confidence Interval (95%): (0.93, 0.97)


=== Com base não padronizada sem considerar distância ===

Mean Accuracy: 0.96 Standard Deviation: 0.04
Accuracy Confidence Interval (95%): (0.95, 0.98)


=== Com base não padronizada considerando distância ===

Mean Accuracy: 0.96 Standard Deviation: 0.05
Accuracy Confidence Interval (95%): (0.94, 0.98)

