$k$-NN
===

**Autor:** Mateus de Jesus Mendes

# Introdu√ß√£o

Este *Jupyter Notebook* tem por objetivo implementar o algoritmo $k$-NN para induzir um modelo a partir dos elementos do *dataset* `xtb_dataset.csv`.

## Fundamenta√ß√£o Te√≥rica

### Contextualiza√ß√£o geral


O algoritmo *$k$-Nearest Neighbors* ($k$-NN) √© um estimador n√£o param√©trico, baseado em inst√¢ncias e pertencente √† classe dos m√©todos de aprendizado supervisionado por similaridade **\[[1, 2]()\]**. Diferentemente de modelos param√©tricos tradicionais, o $k$-NN n√£o realiza uma etapa expl√≠cita de treinamento no sentido cl√°ssico: n√£o h√° ajuste de coeficientes, nem infer√™ncia de uma fun√ß√£o global que relacione entradas e sa√≠das. Em vez disso, o modelo armazena o conjunto de dados de treinamento e realiza predi√ß√µes exclusivamente com base na proximidade geom√©trica entre amostras no espa√ßo de atributos **\[[3]()\]**.

Essa caracter√≠stica faz do $k$-NN um m√©todo conceitualmente simples, por√©m poderoso, especialmente adequado para problemas nos quais a rela√ß√£o entre vari√°veis √© altamente local, potencialmente n√£o linear e dif√≠cil de ser capturada por fun√ß√µes globais suaves **\[[1, 4]()\]**. Por outro lado, essa mesma propriedade imp√µe limita√ß√µes claras em termos de escalabilidade, interpretabilidade e extrapola√ß√£o fora do dom√≠nio amostrado.

### Representa√ß√£o do espa√ßo de atributos

Considere um conjunto de dados de treinamento:
$$
\mathcal{D} = {(\mathbf{x}*i, y_i)}*{i=1}^{N}
$$

Em que:
- $\mathbf{x}_i \in \mathbb{R}^d$: Vetor de *features* da (i)-√©sima amostra
- $y_i \in \mathbb{R}$: Valor alvo associado
- $N$: N√∫mero total de observa√ß√µes 

O algoritmo kNN interpreta cada vetor $\mathbf{x}_i$ como um ponto em um espa√ßo m√©trico de dimens√£o (d). A no√ß√£o de similaridade entre duas amostras √© formalizada por meio de uma fun√ß√£o de dist√¢ncia $d(\mathbf{x}, \mathbf{x}')$, cuja escolha √© um hiperpar√¢metro central do m√©todo **\[[2, 3]()\]**.


### M√©tricas de dist√¢ncia


A dist√¢ncia entre duas observa√ß√µes $\mathbf{x}$ e $\mathbf{x}'$ pode ser definida de diversas formas. Entre as m√©tricas mais utilizadas destacam-se **\[[1, 4]()\]**:

- **Dist√¢ncia Euclidiana**:
$$
d_2(\mathbf{x}, \mathbf{x}') = \sqrt{\sum_{j=1}^{d} (x_j - x'_j)^2}
$$

- **Dist√¢ncia Manhattan**:
$$
d_1(\mathbf{x}, \mathbf{x}') = \sum_{j=1}^{d} |x_j - x'_j|
$$

A escolha da m√©trica influencia diretamente a geometria do espa√ßo de vizinhan√ßa. M√©tricas do tipo $\ell_1$ (Manhattan) tendem a ser mais robustas em espa√ßos de alta dimensionalidade e em cen√°rios nos quais as *features* possuem naturezas f√≠sicas distintas ou distribui√ß√µes heterog√™neas **\[[4, 5]()\]**.

### Defini√ß√£o dos $k$ vizinhos mais pr√≥ximos

Dada uma nova observa√ß√£o $\mathbf{x}_*$, o algoritmo identifica o subconjunto:
$$
\mathcal{N}_k(\mathbf{x}_*) \subset \mathcal{D}
$$

O subconjunto encontrado √© composto pelos $k$ pontos do conjunto de treinamento que minimizam a dist√¢ncia $d(\mathbf{x}_*, \mathbf{x}_i)$ **\[[1]()\]**.

O hiperpar√¢metro $k$ controla diretamente o vi√©s‚Äìvari√¢ncia do estimador:
- Valores pequenos de $k$ produzem modelos altamente flex√≠veis, com baixo vi√©s (*bias*) e alta vari√¢ncia;
- Valores maiores de $k$ suavizam as predi√ß√µes, aumentando o vi√©s e reduzindo a sensibilidade a ru√≠do local **\[[2, 6]()\]**.

### Regra de predi√ß√£o para regress√£o

No contexto de regress√£o, a predi√ß√£o associada a $\mathbf{x}_*$ √© obtida como uma m√©dia dos valores alvo dos vizinhos selecionados. Na forma mais simples (*uniform weights*), tem-se:
$$
\hat{y}(\mathbf{x}_*) = \frac{1}{k} \sum_{(\mathbf{x}_i, y_i) \in \mathcal{N}_k(\mathbf{x}_*)} y_i
$$

Uma generaliza√ß√£o amplamente empregada utiliza pondera√ß√£o por dist√¢ncia, na qual vizinhos mais pr√≥ximos exercem maior influ√™ncia na predi√ß√£o **\[[3, 5]()\]**:

$$
\hat{y}(\mathbf{x}_*) = \frac{\sum_{i \in \mathcal{N}_k(\mathbf{x}_*)}w_i(\mathbf{x}_*)y_i}{\sum_{i \in \mathcal{N}_k(\mathbf{x}_*)}w_i(\mathbf{x}_*)}
$$

Com pesos tipicamente definidos por:
$$
w_i(\mathbf{x}_*) = \frac{1}{d(\mathbf{x}_*, \mathbf{x}_i) + \varepsilon}
$$

em que $\varepsilon > 0$ evita singularidades num√©ricas **\[[1]()\]**.

### Natureza n√£o param√©trica e aus√™ncia de treinamento expl√≠cito

O $k$-NN √© classificado como um m√©todo *lazy learning*, pois n√£o constr√≥i um modelo expl√≠cito durante o treinamento **\[[2]()\]**. Todo o custo computacional √© transferido para a etapa de infer√™ncia, na qual √© necess√°rio calcular dist√¢ncias entre a amostra de teste e todas ‚Äî ou muitas ‚Äî das amostras de treinamento.

Essa caracter√≠stica implica:
- Custo de mem√≥ria proporcional a $\mathcal{O}(Nd)$,
- Custo de infer√™ncia proporcional a $\mathcal{O}(Nd)$ por predi√ß√£o, na forma ing√™nua **\[[4]()\]**.

Estruturas de dados como *KD-trees* e *Ball trees* podem reduzir esse custo em situa√ß√µes espec√≠ficas, embora sua efici√™ncia decaia em espa√ßos de alta dimensionalidade **\[[5]()\]**.

### Sensibilidade √† escala e pr√©-processamento

Como o crit√©rio central do $k$-NN √© puramente geom√©trico, o algoritmo √© altamente sens√≠vel √† escala das *features*. Vari√°veis com maior amplitude num√©rica tendem a dominar o c√°lculo de dist√¢ncias, independentemente de sua relev√¢ncia sem√¢ntica ou f√≠sica **\[[1]()\]**.

Por esse motivo, √© pr√°tica comum empregar normaliza√ß√£o ou padroniza√ß√£o dos dados. Contudo, em cen√°rios espec√≠ficos ‚Äî como quando as escalas originais carregam significado f√≠sico coerente ‚Äî o uso do espa√ßo original pode ser justific√°vel, desde que empiricamente validado **\[[4]()\]**.

### Interpretabilidade e limita√ß√µes conceituais

Diferentemente de modelos lineares ou baseados em √°rvores, o $k$-NN n√£o fornece par√¢metros interpret√°veis, coeficientes ou decomposi√ß√µes expl√≠citas de import√¢ncia das *features*. A predi√ß√£o emerge exclusivamente da distribui√ß√£o local dos dados, o que inviabiliza an√°lises diretas de interpretabilidade baseadas em coeficientes ou m√©todos como SHAP **\[[6, 7]()\]**.

Assim, o $k$-NN deve ser compreendido como um estimador emp√≠rico local, cuja for√ßa reside na fidelidade interpolativa e cuja principal limita√ß√£o √© a aus√™ncia de uma representa√ß√£o expl√≠cita da rela√ß√£o funcional subjacente entre vari√°veis.

### Considera√ß√µes finais

O algoritmo $k$-NN constitui um m√©todo conceitualmente simples, matematicamente direto e empiricamente poderoso para problemas de regress√£o e classifica√ß√£o baseados em similaridade. Ao abdicar de hip√≥teses param√©tricas globais, o $k$-NN √© capaz de capturar padr√µes locais complexos e n√£o lineares, desde que o espa√ßo de atributos seja adequadamente amostrado **\[[1, 2]()\]**.

Entretanto, essa flexibilidade vem acompanhada de limita√ß√µes claras em termos de interpretabilidade, escalabilidade e extrapola√ß√£o. Dessa forma, o $k$-NN √© particularmente valioso como *baseline* emp√≠rico de alta fidelidade e como ferramenta complementar a modelos param√©tricos e interpret√°veis, contribuindo para uma avalia√ß√£o abrangente do espa√ßo de solu√ß√µes poss√≠veis em problemas de aprendizado supervisionado.

# Metodologia

### Importa√ß√µes

In [None]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split, KFold
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsRegressor
from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.metrics import root_mean_squared_error
from sklearn.feature_selection import VarianceThreshold
from sklearn.exceptions import ConvergenceWarning

import warnings

from optuna import create_study
from optuna.samplers import TPESampler
from optuna.pruners import HyperbandPruner
from optuna.trial import FixedTrial
from optuna.exceptions import TrialPruned
from optuna import load_study

import os

### Defini√ß√µes Globais

Defini√ß√µes de par√¢metros globais usados ao longo desse *Jupyter Notebook*, a fim de assegurar clareza metodol√≥gica e reprodutibilidade:

In [30]:
RANDOM_SEED = 88
PATH = '../../dataset_processing/xtb_dataset.csv'
TRAIN_SIZE = 0.8
STUDY_NAME = 'knn'

### Leitura dos Dados

Leitura do *dataset*:

In [31]:
df = pd.read_csv(PATH)

X = df.drop(columns=['Delta'])
y = df['Delta']

### Pr√©-processamento dos Dados

Divis√£o do *dataset* em subconjuntos de dados de treino e teste, considerando as *features* e o *target*:

In [32]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=TRAIN_SIZE, random_state=RANDOM_SEED)

### Treino & Otimiza√ß√£o de Hiperpar√¢metros

Inst√¢ncia do modelo com todos os hiperpar√¢metros e tratamentos a serem usados pelo `optuna`.

In [33]:
def inst_knn(trial, n_features):


    # Pr√©-processamento dispon√≠vel

    pre_processing = trial.suggest_categorical(
        "pre_processing", [None, "VT", "PCA"]
    )

    steps = []


    # Normaliza√ß√£o (sempre obrigat√≥ria)

    steps.append(("scale", StandardScaler()))


    # Variance Threshold
    if pre_processing == "VT":
        threshold = trial.suggest_float(
            "variance_threshold", 0.0, 1e-3
        )
        steps.append((
            "vt", VarianceThreshold(threshold=threshold)
        ))


    # PCA
    elif pre_processing == "PCA":
        max_comp = min(n_features, 8)
        n_comp = trial.suggest_int(
            "pca_components", 2, max_comp
        )
        steps.append((
            "pca", PCA(n_components=n_comp)
        ))


    # Hiperpar√¢metros do kNN
    n_neighbors = trial.suggest_int(
        "n_neighbors", 3, 50
    )

    weights = trial.suggest_categorical(
        "weights", ["uniform", "distance"]
    )

    metric = trial.suggest_categorical(
        "metric", ["euclidean", "manhattan", "minkowski"]
    )

    p = 2
    if metric == "minkowski":
        p = trial.suggest_int("p", 1, 2)


    # Modelo kNN
    steps.append((
        "knn", KNeighborsRegressor(
            n_neighbors=n_neighbors,
            weights=weights,
            metric=metric,
            p=p,
            n_jobs=1
        )
    ))

    model = make_pipeline(*[s[1] for s in steps])

    return model


Fun√ß√£o objetivo para valida√ß√£o cruzada:

In [34]:
def objective_function(trial, X, y, NUM_FOLDS=5):
    n_features = X.shape[1]
    cv = KFold(
        n_splits=NUM_FOLDS,
        shuffle=True,
        random_state=RANDOM_SEED
    )

    rmse_folds = []

    for i, (train_idx, test_idx) in enumerate(cv.split(X, y)):
        model = inst_knn(trial, n_features=n_features)

        X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
        y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]

        with warnings.catch_warnings():
            warnings.filterwarnings("ignore", category=ConvergenceWarning)
            model.fit(X_train, y_train)
            y_pred = model.predict(X_test)
            rmse = root_mean_squared_error(y_test, y_pred)

        rmse_folds.append(rmse)

        trial.report(np.mean(rmse_folds), step=i + 1)
        if trial.should_prune():
            raise TrialPruned()

    return float(np.mean(rmse_folds))

Fun√ß√µes para valida√ß√£o cruzada aninhada:

In [35]:
def nested_cv_fold(fold_idx, X, y, outer_splits, inner_splits, n_trials, pasta_estudos):
    outer_cv = KFold(n_splits=outer_splits, shuffle=True, random_state=RANDOM_SEED)

    for fold, (idx_train, idx_test) in enumerate(outer_cv.split(X, y)):
        if fold != fold_idx:
            continue

        print(f"\nFold externo {fold + 1}/{outer_splits}")

        X_train, X_test = X.iloc[idx_train], X.iloc[idx_test]
        y_train, y_test = y.iloc[idx_train], y.iloc[idx_test]

        db_path = os.path.join(
            pasta_estudos,
            f"{STUDY_NAME}_fold_{fold + 1}.db"
        )

        def inner_objective(trial):
            return objective_function(
                trial,
                X_train,
                y_train,
                NUM_FOLDS=inner_splits
            )

        study = create_study(
            study_name=f"{STUDY_NAME}_fold_{fold + 1}",
            direction="minimize",
            sampler=TPESampler(seed=RANDOM_SEED),
            pruner=HyperbandPruner(
                min_resource=1,
                max_resource=inner_splits,
                reduction_factor=2
            ),
            storage=f"sqlite:///{db_path}",
            load_if_exists=True
        )

        study.optimize(
            inner_objective,
            n_trials=n_trials,
            n_jobs=1,
            show_progress_bar=False
        )

        print("Melhores hiperpar√¢metros encontrados:")
        print(study.best_params)

        best_model = inst_knn(
            FixedTrial(study.best_params),
            n_features=X_train.shape[1]
        )

        with warnings.catch_warnings():
            warnings.filterwarnings("ignore", category=ConvergenceWarning)
            best_model.fit(X_train, y_train)
            y_pred = best_model.predict(X_test)
            rmse_test = root_mean_squared_error(y_test, y_pred)

        print(f"RMSE de teste externo (fold {fold + 1}): {rmse_test:.4f}")
        return rmse_test

In [36]:
def nested_cv(X, y, outer_splits=5, inner_splits=3, n_trials=200, studies_folder=f"optuna_{STUDY_NAME}_studies"):
    os.makedirs(studies_folder, exist_ok=True)
    outer_scores = []

    for fold in range(outer_splits):
        rmse_fold = nested_cv_fold(
            fold_idx=fold,
            X=X,
            y=y,
            outer_splits=outer_splits,
            inner_splits=inner_splits,
            n_trials=n_trials,
            studies_folder=studies_folder
        )
        outer_scores.append(rmse_fold)

    outer_scores = np.array(outer_scores)

    print("\n========================")
    print("Resultados do Nested CV:")
    print(f"RMSE m√©dio: {outer_scores.mean():.4f}")
    print(f"Desvio padr√£o: {outer_scores.std():.4f}")
    print("========================")

    return outer_scores

Execu√ß√£o dos estudos de otimiza√ß√£o de hiperpar√¢metros do `optuna`:

> **üìå Observa√ß√£o:** O seguinte c√≥digo est√° comentado como c√©lula Markdown por apresentar elevado custo computacional. Desse modo, √© recomendada execu√ß√£o do *script* `kNN.py` utilizando computa√ß√£o de alto desempenho (HPC) a fim de garantir efici√™ncia e estabilidade computacional na execu√ß√£o dos estudos de otimiza√ß√£o. Ap√≥s isso, basta o diret√≥rio `svr_knn_studies` para o mesmo diret√≥rio desse *Jupyter Notebook* e executar as c√©lulas seguintes.

---
```python
results = nested_cv(X_train, y_train, outer_splits=5, inner_splits=3, n_trials=100)
```
---

Acesso aos estudos de otimiza√ß√£o, para extra√ß√£o dos melhores valores dos hiperpar√¢metros e o desempenho obtido:

In [37]:
studies_folder = f"optuna_{STUDY_NAME}_studies"
db_files = [f for f in os.listdir(studies_folder) if f.endswith(".db")]

print("Arquivos .db encontrados:")
for f in db_files:
    print("-", f)

Arquivos .db encontrados:
- knn_fold_1.db
- knn_fold_2.db
- knn_fold_3.db
- knn_fold_4.db
- knn_fold_5.db


Melhores hiperpar√¢metros obtidos durante a otimiza√ß√£o:

In [38]:
results = []

for file in db_files:
    path = os.path.join(studies_folder, file)
    study_name = file.replace('.db', '')
    
    try:
        study = load_study(study_name=study_name, storage=f"sqlite:///{path}")
        best_trial = study.best_trial
        
        print(f'======= {study_name} =======')
        print(f"  Melhor valor: {best_trial.value:.7f}")
        print(f"  Par√¢metros: {best_trial.params}\n")
        
        results.append({
            "fold": study_name,
            "best_value": best_trial.value,
            "params": best_trial.params
        })
    except Exception as e:
        print(f"N√£o foi poss√≠vel carregar {study_name}: {e}")

# Exibe melhores resultados
if results:
    df_results = pd.DataFrame(results)
    print(f"RMSE m√©dio: {np.mean(df_results['best_value']):.7f}")
    print(f"Desvio padr√£o: {np.std(df_results['best_value']):.7f}")
else:
    print("Nenhum estudo p√¥de ser carregado.")

  Melhor valor: 0.0588802
  Par√¢metros: {'pre_processing': None, 'n_neighbors': 4, 'weights': 'distance', 'metric': 'manhattan'}

  Melhor valor: 0.0580648
  Par√¢metros: {'pre_processing': None, 'n_neighbors': 4, 'weights': 'distance', 'metric': 'manhattan'}

  Melhor valor: 0.0583172
  Par√¢metros: {'pre_processing': None, 'n_neighbors': 4, 'weights': 'distance', 'metric': 'manhattan'}

  Melhor valor: 0.0605619
  Par√¢metros: {'pre_processing': None, 'n_neighbors': 4, 'weights': 'distance', 'metric': 'manhattan'}

  Melhor valor: 0.0581896
  Par√¢metros: {'pre_processing': None, 'n_neighbors': 4, 'weights': 'distance', 'metric': 'manhattan'}

RMSE m√©dio: 0.0588027
Desvio padr√£o: 0.0009227


Desempenho do melhor modelo obtido:

In [39]:
# df j√° cont√©m os melhores trials de cada fold
best_fold = df_results.loc[df_results['best_value'].idxmin()]  # menor RMSE
print("Melhor fold:", best_fold['fold'])
print("Melhor desempenho (RMSE):", best_fold['best_value'])
print("Melhores par√¢metros:", best_fold['params'])

Melhor fold: knn_fold_2
Melhor desempenho (RMSE): 0.05806481966872507
Melhores par√¢metros: {'pre_processing': None, 'n_neighbors': 4, 'weights': 'distance', 'metric': 'manhattan'}


### Teste

Treino e teste finais para avalia√ß√£o do melhor modelo obtido:

In [40]:
knn_model = KNeighborsRegressor(n_neighbors=4, weights='distance', metric='manhattan')

best_model = Pipeline([
    ("scaler", StandardScaler()),
    ("estimator", knn_model)
])
best_model.fit(X_train, y_train)

y_pred = best_model.predict(X_test)

rmse = root_mean_squared_error(y_test, y_pred)
print(f'RMSE do melhor modelo: {rmse}')

RMSE do melhor modelo: 0.03311216742845702


# Resultados

O melhor modelo induzido a partir do algoritmo $k$-NN durante a otimiza√ß√£o de hiperpar√¢metros do `optuna` obteve $\mathrm{RMSE}$ de $\approx 0.06$, dotado dos seguintes hiperpar√¢metros tabulados e com o conjunto de dados original, sem qualquer tipo de pr√©-processamento das *features*.

| Hiperpar√¢metros | Valor       |
|-----------------|-------------|
| `n_neighbors`   | $4$         |
| `weights`       | `distance`  |
| `metric`        | `manhattan` |

Por fim, ao desenvolver o teste final, o modelo induzido com os hiperpar√¢metros supracitados obteve $\mathrm{RMSE}$ de $\approx 0.03$, objetivamente menor, mas com mesma ordem de grandeza.

# Conclus√£o

A an√°lise do desempenho do modelo $k$-NN, fundamentada exclusivamente em m√©tricas quantitativas e no comportamento algor√≠tmico intr√≠nseco do m√©todo, conduz a uma conclus√£o complementar ‚Äî e conceitualmente distinta ‚Äî daquela obtida para os modelos param√©tricos e interpret√°veis empregados ao longo do projeto.

O melhor modelo induzido via otimiza√ß√£o de hiperpar√¢metros com o `optuna` apresentou desempenho preditivo elevado, com $\mathrm{RMSE} \approx 0.06$ durante a etapa de sele√ß√£o e $\mathrm{RMSE} \approx 0.03$ no teste final. Embora o valor obtido no conjunto final seja objetivamente menor, ambos pertencem √† mesma ordem de grandeza, o que indica aus√™ncia de instabilidade severa entre fases de valida√ß√£o e teste, bem como uma generaliza√ß√£o adequada dentro do regime de vizinhan√ßa local caracter√≠stico do $k$-NN.

A configura√ß√£o √≥tima ‚Äî $k = 4$, pondera√ß√£o por dist√¢ncia e m√©trica Manhattan ‚Äî revela aspectos estruturais importantes do espa√ßo de atributos. O baixo n√∫mero de vizinhos indica que o modelo se beneficia de rela√ß√µes altamente locais, explorando regi√µes densas e coerentes do espa√ßo de *features*, em vez de tend√™ncias globais suaves. A escolha de `weights='distance'` refor√ßa essa interpreta√ß√£o, ao atribuir maior influ√™ncia a observa√ß√µes mais pr√≥ximas, reduzindo o impacto de pontos potencialmente ruidosos ou marginalmente similares. J√° a m√©trica Manhattan sugere que diferen√ßas absolutas coordenada a coordenada s√£o mais informativas do que dist√¢ncias euclidianas globais, o que √© consistente com um espa√ßo de atributos heterog√™neo, possivelmente composto por vari√°veis de diferentes naturezas f√≠sicas e escalas.

√â particularmente relevante notar que o melhor desempenho foi obtido sem qualquer tipo de pr√©-processamento das *features*. Esse resultado indica que o pr√≥prio arranjo geom√©trico dos dados no espa√ßo original j√° √© suficientemente informativo para permitir uma boa discrimina√ß√£o local entre inst√¢ncias. Ao mesmo tempo, essa caracter√≠stica evidencia a sensibilidade do $k$-NN √† escala e √† distribui√ß√£o das vari√°veis, refor√ßando que o bom desempenho observado depende fortemente da estrutura espec√≠fica do dataset, e n√£o de uma robustez algor√≠tmica generaliz√°vel no sentido estrito.

Diferentemente dos modelos lineares regularizados e do SVR, o $k$-NN n√£o admite uma decomposi√ß√£o expl√≠cita de contribui√ß√µes individuais das *features*, inviabilizando an√°lises do tipo SHAP. Consequentemente, sua elevada performance n√£o decorre da identifica√ß√£o de uma subestrutura f√≠sica interpret√°vel de baixa dimensionalidade, mas sim da capacidade de interpola√ß√£o local em regi√µes bem amostradas do espa√ßo de dados. Nesse sentido, o modelo atua mais como um estimador n√£o param√©trico de alta fidelidade local do que como um mecanismo de infer√™ncia estrutural.

Em s√≠ntese, o modelo $k$-NN demonstra excelente capacidade preditiva para o dataset em quest√£o, sendo particularmente eficaz na captura de padr√µes locais finos sem impor hip√≥teses funcionais expl√≠citas. Todavia, esse desempenho vem acompanhado de limita√ß√µes claras em termos de interpretabilidade f√≠sica, extrapola√ß√£o e robustez fora do dom√≠nio amostrado. Assim, o $k$-NN se consolida como um modelo de refer√™ncia emp√≠rica de alto desempenho, √∫til para estabelecer limites superiores pr√°ticos de erro, mas conceitualmente complementar ‚Äî e n√£o substituto ‚Äî aos modelos param√©tricos e interpret√°veis que fundamentam a compreens√£o f√≠sica do problema ao longo do projeto.

# Refer√™ncias

[1] HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. *The Elements of Statistical Learning: Data Mining, Inference, and Prediction*. 2. ed. New York: Springer, 2009.

[2] BISHOP, Christopher M. *Pattern Recognition and Machine Learning*. New York: Springer, 2006.

[3] DUDOIT, Sandrine; FRIDLYAND, Jane. Classification in microarray experiments. *Statistical Analysis of Gene Expression Microarray Data*. Boca Raton: Chapman & Hall/CRC, 2003.

[4] JAMES, Gareth et al. *An Introduction to Statistical Learning*. 2. ed. New York: Springer, 2021.

[5] PEDREGOSA, Fabian et al. Scikit-learn: Machine Learning in Python. *Journal of Machine Learning Research*, v. 12, p. 2825‚Äì2830, 2011.

[6] COVER, Thomas; HART, Peter. Nearest neighbor pattern classification. *IEEE Transactions on Information Theory*, v. 13, n. 1, p. 21‚Äì27, 1967.

[7] MOLNAR, Christoph. *Interpretable Machine Learning*. 2. ed. 2022. Dispon√≠vel em: [https://christophm.github.io/interpretable-ml-book/](https://christophm.github.io/interpretable-ml-book/). Acesso em: 26 Dez. 2025.