# 🤯 **Ahhh!!! Meus vizinhos não me deixam em paz!**

Guerreiros da missão: **Tsuru** (Júlia Guedes Almeida dos Santos), **Pólux** (Raquel de Godoy Vianna) e **Tiles** (Thalles José de Souza Cansi).

>Quem com ferro fere, com ferro será ferido

## 🖼️ Enunciado

Escolha um conjunto de dados com pelo menos 3 atributos numéricos
e 1 target numérico. Teste o que acontece com a performance da sua previsão
quando você varia o número de vizinhos do modelo k -NN nestes dados. Discuta
seus resultados e não se esqueça de fazer pelo menos um gráfico para ilustrar seu
resultado (é esperado pelo menos o gráfico de performance por número de vizinhos).

## 📝 Introdução

Comprometida com o avanço do reino de Lumi ~~e, sobretudo, com nossos ideais revolucionários~~, a Aliança da Supernova decidiu se aventurar e voltar seus estudos para a metalurgia!
<div style="text-align: justify;">
Nesse sentido, após pesquisas intensas na biblioteca real, nós, bravos cavaleiros, chegamos à conclusão de que a arte dos metais vai muito além da fabricação de ferramentas e armas, contudo, tal perspectiva, infelizmente, não é muito explorada no reino. Portanto, visando eficiência energética para Lumi e almejando melhorar a comunicação entre os integrantes da guilda e seguidores de nossos ideais, decidimos explorar um tópico extremamente interessante dessa área: o que chamamos de supercondutores! (super vem de Supernova e condutores, bem, é porque podem conduzir o reino de Lumi para um futuro melhor!!*)

Esse tipo de material 'mágico' é capaz de coisas inimagináveis e escolhemos estudá-lo após, durante nossos estudos, chegarmos a uma lenda sobre um mineral mágico que fazia as coisas ao redor dele 'flutuarem' - isso se deve a um possível campo eletromagnético gerado ao redor dele, mas vamos deixar a explicação técnica para lá, o mais importante é saber que são minerais que possuem propriedades incríveis e muito úteis!

Portanto, visando facilitar a identificação, bem como a previsão, desse tipo de material mágico, após encontrar um manuscrito místico contendo certas propriedades de diversos materiais que se enquadram nessa categoria, a Aliança da Supernova buscará realizar previsões de características desses.
</div>


Para esta missão, o modelo utilizado foi o <strong><em>k -NN </em> vizinhos </strong> (k-Nearest Neighbors), assim como na missão anterior! Contudo, após desenvolver um <strong><em> k-NN classificador</strong></em>, uma dúvida ficou no ar: **A eficácia do modelo <strong><em>k -NN </em> vizinhos </strong> pode ser alterada por algum hiperparâmetro, como o número de vizinhos?** É isso que vamos testar hoje!

*É importante ressaltar que isso é somente uma brincadeira com a ideia de que a Aliança da Supernova teria "catalogado" uma nova categoria de materiais no reino de Lumi

# 🗡️ Que comecem os códigos!

### 📚 Importação de bibliotecas

In [160]:
import pandas as pd
import os
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import root_mean_squared_error
import plotly.graph_objects as go

### 🗂️ Importação do dataset, tratamento  e normalização dos dados

Para continuar a análise, pedimos para que, por favor, adquira o manuscrito místico (baixe o banco de dados de supercondutividade) disponibilizado pela guilda [1].
Abaixo, estamos importando o arquivo excel (é importante que o arquivo se encontre no mesmo terminal que o notebook).

In [161]:
dataset_condutividade = pd.read_csv("../data/train.csv")

Como constatado anteriormente, os dados devem ser tratados antes de serem utilizados, portanto, abaixo as linhas vazias do dataset são retiradas usando dropna.

In [162]:
dataset_condutividade_tratado = dataset_condutividade.dropna()
display(dataset_condutividade_tratado)

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence,critical_temp
0,4,88.944468,57.862692,66.361592,36.116612,1.181795,1.062396,122.90607,31.794921,51.968828,...,2.257143,2.213364,2.219783,1.368922,1.066221,1,1.085714,0.433013,0.437059,29.00
1,5,92.729214,58.518416,73.132787,36.396602,1.449309,1.057755,122.90607,36.161939,47.094633,...,2.257143,1.888175,2.210679,1.557113,1.047221,2,1.128571,0.632456,0.468606,26.00
2,4,88.944468,57.885242,66.361592,36.122509,1.181795,0.975980,122.90607,35.741099,51.968828,...,2.271429,2.213364,2.232679,1.368922,1.029175,1,1.114286,0.433013,0.444697,19.00
3,4,88.944468,57.873967,66.361592,36.119560,1.181795,1.022291,122.90607,33.768010,51.968828,...,2.264286,2.213364,2.226222,1.368922,1.048834,1,1.100000,0.433013,0.440952,22.00
4,4,88.944468,57.840143,66.361592,36.110716,1.181795,1.129224,122.90607,27.848743,51.968828,...,2.242857,2.213364,2.206963,1.368922,1.096052,1,1.057143,0.433013,0.428809,23.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21258,4,106.957877,53.095769,82.515384,43.135565,1.177145,1.254119,146.88130,15.504479,65.764081,...,3.555556,3.223710,3.519911,1.377820,0.913658,1,2.168889,0.433013,0.496904,2.44
21259,5,92.266740,49.021367,64.812662,32.867748,1.323287,1.571630,188.38390,7.353333,69.232655,...,2.047619,2.168944,2.038991,1.594167,1.337246,1,0.904762,0.400000,0.212959,122.10
21260,2,99.663190,95.609104,99.433882,95.464320,0.690847,0.530198,13.51362,53.041104,6.756810,...,4.800000,4.472136,4.781762,0.686962,0.450561,1,3.200000,0.500000,0.400000,1.98
21261,2,99.663190,97.095602,99.433882,96.901083,0.690847,0.640883,13.51362,31.115202,6.756810,...,4.690000,4.472136,4.665819,0.686962,0.577601,1,2.210000,0.500000,0.462493,1.84


Em seguida, o dataset é normalizado para posterior aplicação do modelo escolhido, visto que as distâncias entre os atributos devem ser comparáveis. (Já aprendemos nossa lição anteriormente: O ideal é sempre normalizarmos os dados!!)

In [163]:
for coluna in dataset_condutividade_tratado.keys():
    
    if dataset_condutividade_tratado[coluna].dtypes in [int or float]:
    
        dados = dataset_condutividade_tratado[coluna].values.reshape(-1, 1)
        
        normalizador = StandardScaler()

        normalizador.fit(dados)

        dados_normalizados = normalizador.transform(dados)
        
        dataset_condutividade_tratado[coluna] = dados_normalizados.flatten()
        
display(dataset_condutividade_tratado)
dp = dataset_condutividade_tratado

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence,critical_temp
0,4,88.944468,57.862692,66.361592,36.116612,1.181795,1.062396,122.90607,31.794921,51.968828,...,2.257143,2.213364,2.219783,1.368922,1.066221,1,1.085714,0.433013,0.437059,29.00
1,5,92.729214,58.518416,73.132787,36.396602,1.449309,1.057755,122.90607,36.161939,47.094633,...,2.257143,1.888175,2.210679,1.557113,1.047221,2,1.128571,0.632456,0.468606,26.00
2,4,88.944468,57.885242,66.361592,36.122509,1.181795,0.975980,122.90607,35.741099,51.968828,...,2.271429,2.213364,2.232679,1.368922,1.029175,1,1.114286,0.433013,0.444697,19.00
3,4,88.944468,57.873967,66.361592,36.119560,1.181795,1.022291,122.90607,33.768010,51.968828,...,2.264286,2.213364,2.226222,1.368922,1.048834,1,1.100000,0.433013,0.440952,22.00
4,4,88.944468,57.840143,66.361592,36.110716,1.181795,1.129224,122.90607,27.848743,51.968828,...,2.242857,2.213364,2.206963,1.368922,1.096052,1,1.057143,0.433013,0.428809,23.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21258,4,106.957877,53.095769,82.515384,43.135565,1.177145,1.254119,146.88130,15.504479,65.764081,...,3.555556,3.223710,3.519911,1.377820,0.913658,1,2.168889,0.433013,0.496904,2.44
21259,5,92.266740,49.021367,64.812662,32.867748,1.323287,1.571630,188.38390,7.353333,69.232655,...,2.047619,2.168944,2.038991,1.594167,1.337246,1,0.904762,0.400000,0.212959,122.10
21260,2,99.663190,95.609104,99.433882,95.464320,0.690847,0.530198,13.51362,53.041104,6.756810,...,4.800000,4.472136,4.781762,0.686962,0.450561,1,3.200000,0.500000,0.400000,1.98
21261,2,99.663190,97.095602,99.433882,96.901083,0.690847,0.640883,13.51362,31.115202,6.756810,...,4.690000,4.472136,4.665819,0.686962,0.577601,1,2.210000,0.500000,0.462493,1.84


### 🔎Definindo o cunjunto treino e o teste!

Como precisamos realizar uma análise da eficiência do modelo, é essencial separarmos o conjunto de dados que possuímos em dados de **treino** (90% do dataset original) e dados **teste** (10% restantes dos dados do conjunto original), por intermédio da função ``train_test_split`` do módulo ``model_selection``. 

In [164]:
tamanho_teste = 0.1
seed = 21062016

indices = dp.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=tamanho_teste, random_state=seed, shuffle=True
)

dp_treino = dp.loc[indices_treino]
dp_teste = dp.loc[indices_teste]

In [165]:
dp_treino

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence,critical_temp
5681,5,93.884544,54.121475,72.605634,35.749032,1.426250,1.423494,148.930920,15.777333,52.840357,...,2.066667,2.168944,2.054799,1.594167,1.223096,1,1.040000,0.400000,0.249444,82.000
15724,3,160.443167,173.393100,154.433718,168.777219,1.063798,0.799105,89.311500,102.437780,40.759190,...,6.160000,6.316360,6.149825,1.095887,0.923218,1,2.720000,0.471405,0.366606,0.550
12371,3,83.357800,83.357800,52.245069,52.245069,0.711939,0.711939,170.207600,56.735867,73.879877,...,4.333333,3.825862,3.825862,0.983961,0.983961,5,1.666667,2.054805,2.054805,5.740
15227,1,95.960000,95.960000,95.960000,95.960000,0.000000,0.000000,0.000000,0.000000,0.000000,...,6.000000,6.000000,6.000000,0.000000,0.000000,0,0.000000,0.000000,0.000000,0.920
12001,2,118.586456,150.142403,92.958542,126.912575,0.485568,0.292117,147.261088,124.453311,73.630544,...,5.142857,4.242641,4.922012,0.636514,0.450561,3,3.428571,1.500000,1.355262,2.460
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1332,4,76.444563,49.619559,59.356672,34.436628,1.199541,1.291214,121.327600,12.347813,43.823354,...,2.066476,2.213364,2.054641,1.368922,1.179708,1,0.869906,0.433013,0.249112,80.000
10991,3,132.194100,123.199662,128.813243,121.586863,1.072131,0.913105,72.061300,56.484724,30.925431,...,4.275862,4.160168,4.180803,1.057905,0.885110,3,2.206897,1.247219,0.943089,4.000
10271,1,28.085500,28.085500,28.085500,28.085500,0.000000,0.000000,0.000000,0.000000,0.000000,...,4.000000,4.000000,4.000000,0.000000,0.000000,0,0.000000,0.000000,0.000000,6.700
16504,2,140.727000,157.228000,131.732841,148.898061,0.629934,0.491117,99.006000,96.412000,49.503000,...,5.333333,4.898979,5.241483,0.673012,0.562335,2,2.666667,1.000000,0.942809,2.900


In [166]:
dp_teste

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence,critical_temp
12636,2,74.470750,95.647075,70.655976,94.845856,0.642369,0.122825,47.05850,90.552925,23.529250,...,5.950000,5.477226,5.945552,0.689009,0.174302,1,5.450000,0.500000,0.217945,10.99
11841,2,84.295000,90.594100,83.483979,90.004904,0.683541,0.477990,23.33000,57.184300,11.665000,...,5.540000,4.898979,5.465756,0.673012,0.449592,2,3.700000,1.000000,0.841665,2.16
6334,4,76.444563,52.567752,59.356672,35.973770,1.199541,1.285953,121.32760,14.824274,43.823354,...,2.079808,2.213364,2.065778,1.368922,1.220879,1,0.802873,0.433013,0.270996,50.30
2603,4,91.808100,55.919622,67.689303,36.287167,1.173514,1.343421,134.36060,11.350615,54.877137,...,2.084291,2.213364,2.069536,1.368922,1.204887,1,0.827586,0.433013,0.277824,78.50
4525,4,76.444563,51.381751,59.356672,35.040763,1.199541,1.291294,121.32760,14.343486,43.823354,...,2.077220,2.213364,2.063611,1.368922,1.203843,1,0.841699,0.433013,0.266940,93.50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
381,5,79.171174,67.760481,59.994943,55.852985,1.389953,1.381899,122.90607,24.948371,50.424957,...,2.142857,2.168944,2.119268,1.594167,1.459482,1,0.714286,0.400000,0.349927,36.70
6220,4,92.505350,60.961000,68.030395,36.899835,1.172035,0.995372,134.36060,36.735514,55.465617,...,2.307143,2.632148,2.259535,1.342113,1.096043,2,1.057143,0.829156,0.505632,17.00
4028,5,92.266740,54.864156,64.812662,35.654674,1.323287,1.533820,188.38390,12.156125,69.232655,...,2.062500,2.168944,2.051331,1.594167,1.390502,1,0.812500,0.400000,0.242061,123.00
7842,5,79.171174,53.781333,59.994943,35.586207,1.389953,1.408828,122.90607,15.462114,50.424957,...,2.115768,2.168944,2.096118,1.594167,1.258423,1,1.042988,0.400000,0.319946,35.00


### 🎯O que vamos prever?

<div style="text-align: justify;">

Antes de partir para o modelo, tem mais uma coisa que precisamos fazer: definir qual valor objetivamos encontrar por meio da previsão (nosso target), bem como nossos atributos, isto é, características nas quais nos pautaremos para tal previsão!

Como estamos lidando com materiais supercondutores, o target mais interessante seria a temperatura crítica - temperatura abaixo da qual tais materiais apresentam resistividade muito próxima de zero - motivo pelo qual essa será nosso target! Assim, a coluna df_treino["critical_temp"] consiste no y do modelo preditivo. Nesse sentido, como atributos, escolhemos utilizar a energia de ionização, o raio atômico, a densidade, condutividade térmica e valência, visto que tais características costumam ter papel mais significativo na determinação da temperatura crítica. Ou seja, df_treino["mean_fie"], df_treino["mean_atomic_radius"], df_treino["mean_Density"], df_treino["mean_ThermalConductivity"] e df_treino["mean_Valence"] correspondem ao x.
</div>

Com o intuito de facilitar a manipulação dos dados, separaremos estes em dois dataframes diferentes: dp_treino_target e dp_treino_features. Em seguida, eles serão convertidos em arrays numpy: X_treino e y_treino. O processo será repetido para o dataframe de teste.
</div>

*Dados de treino:*

In [167]:
target = ["critical_temp"]
features = ["mean_fie", "mean_atomic_radius", "mean_Density", "mean_ThermalConductivity", "mean_Valence"]

dp_treino_target = dp_treino.reindex(target, axis=1)
dp_treino_features = dp_treino.reindex(features, axis=1)

X_treino = dp_treino_features.values
y_treino = dp_treino_target.values.ravel()

*Dados de teste:*

In [168]:
dp_teste_target = dp_teste.reindex(target, axis=1)
dp_teste_features = dp_teste.reindex(features, axis=1)

X_teste = dp_teste_features.values 
y_teste = dp_teste_target.values.ravel()

### 🏡 Definindo o modelo *k-NN* vizinhos!

<div style="text-align: justify;">
O modelo <em> k-NN</em> é pautado na distância entre o objeto de entrada e os objetos previamente utilizados no treino do modelo em um plano. Como foi apresentado no notebook anterior, é possível utilizar o método de distância Manhattan para o cálculo de tal distância, contudo, como neste notebook tratamos de dados que possuem menos de 3 dimensões, será utilizada a distância **euclidiana** (p=2), que calculará a menor distância entre dois pontos.

Enfim, agora que isso foi esclarecido, vamos relembrar a pergunta que move o presente notebook: **A eficácia do modelo <strong><em>k -NN </em> vizinhos </strong> pode ser alterada por algum hiperparâmetro, como o número de vizinhos?**
</div>

Vamos, finalmente, preparar o modelo <em> k-NN</em>  vizinhos para respondê-la!!!

<div style="text-align: justify;">
Chegou o momento mais esperado! Agora, iremos testar tal modelo para diferentes valores de <em>k</em>, em seguida, observaremos como a eficácia do modelo se altera conforme há aumento do número de vizinhos analisados.

Nesse sentido, o número de vizinhos será aumentado de 1 em 1 (partindo do 1 e indo até o 300), para que possamos observar mais claramente o efeito desse aumento na eficácia do nosso modelo. Além disso, é válido ressaltar que os resultados dessas previsões serão armazenados em uma lista para facilitar a manipulação desses dados.
</div>

In [169]:
previsoes_y = []
for numero_vizinhos in range(1,301):
    modelo_knn = KNeighborsRegressor(n_neighbors=numero_vizinhos, p=2)
    modelo_knn.fit(X_treino, y_treino)
    previsao = modelo_knn.predict(X_teste)
    previsoes_y.append(previsao)
    

### 🔬 Análise da eficácia

<div style="text-align: justify;">
Agora, com as previsões armazenadas em uma lista, visando descobrir o efeito que alterar tal hiperparâmetro possui na eficácia da previsão, como estamos lidando com um target numérico, será utilizada a métrica da raiz do erro quadrático médio (RMSE), através do `scikit-lean`. A RMSE consiste em uma métrica de performance de modelo, que, resumidamente, é calculada como a raiz quadrada do MSE, contudo, vale ressaltar que essa métrica é mais interessante que a MSE, pois, como apresenta a mesma unidade do target analisado, facilita a estimativa do quanto o modelo analisado está errando em média.

Para calcular o RMSE, utiliza-se a equação abaixo:

$$
\mathrm{RMSE} = \sqrt{\mathrm{MSE}} = \sqrt{\sum_{i=1}^{N} \frac{(y_i - \hat{y}_i)^2}{N}}.
$$
</div>


In [170]:
RMSEs = []
for previsao_y in previsoes_y:
    RMSE = root_mean_squared_error(y_teste, previsao_y)
    RMSEs.append(RMSE)

RMSEs

[18.058519174421264,
 16.550715140248588,
 16.258633083535596,
 16.568058666634187,
 16.549637192429515,
 16.41592667269567,
 16.60491589666103,
 16.728730616999727,
 16.7798120508633,
 16.888341203665806,
 16.968955697341762,
 17.11931010436307,
 17.353341584787344,
 17.502820206122284,
 17.68917414824595,
 17.856163614426514,
 18.022251600783736,
 18.16257558505085,
 18.267313581722615,
 18.36194680085568,
 18.50296979440263,
 18.603010457297323,
 18.646358913272547,
 18.76971899859205,
 18.84928680758224,
 18.97152661063607,
 19.069904801891568,
 19.16683666821541,
 19.228023767986336,
 19.297962585460017,
 19.37425800552701,
 19.471015586095,
 19.565556835175062,
 19.68179628503633,
 19.77363895962248,
 19.895858530196175,
 20.007168443270228,
 20.100874620190556,
 20.172648123112626,
 20.238854629917004,
 20.311729829182568,
 20.38269975754796,
 20.4706881026665,
 20.541974216834078,
 20.622735582317976,
 20.736938448662027,
 20.81479126842144,
 20.893283910410993,
 20.96394007078

<div style="text-align: justify;">
Com base nos resultados obtidos, é perceptível que, de fato, o número de vizinhos influencia a eficácia do modelo! Contudo, com o aumento desse valor, cada vez pior é a acurácia (é importante ressaltar, porém, que, com relação a somente um vizinho como métrica de comparação, quando esse número aumenta, o RMSE diminui, ou seja, o erro do modelo diminui, o que significa que a eficácia dele aumenta, contudo, isso só ocorre quando comparamos o RMSE ao utilizar somente um vizinho a quando utilizamos mais de um).

De fato, tal situação é condizente, visto que, como tal modelo é baseado na distância entre pontos, quanto mais vizinhos são considerados, maior a margem de erro e, portanto, menor é a precisão do modelo, motivo pelo qual o RMSE aumenta com o aumento desse hiperparâmetro.
</div>


### 📈Representação Gráfica

Visando permitir a visualização dos resultados obtidos a partir da análise das métricas dos modelos k-NN com variados números de vizinhos, foi plotado o gráfico abaixo, que relaciona a quantidade de vizinhos do modelo k-NN ao RMSE, ou seja, ao erro associado ao modelo. Nesse sentido, optamos por criar uma nova lista contendo os número de vizinhos. Em seguida, utilizado plotly, os dados foram representados graficamente.


In [171]:
numero_vizinhos = []
for numero in range (1,301):
    numero_vizinhos.append(numero)

In [172]:
fig = go.Figure()
fig.add_trace(go.Line(x=numero_vizinhos, 
                      y=RMSEs,
                      line=dict(color="blue", width=3),
                      name="Quantidade de vizinhos X RMSE"))
fig.update_layout(
    title="Quantidade de vizinhos X RMSE",
    xaxis_title="Número de Vizinhos",
    yaxis_title="RMSE",
)


plotly.graph_objs.Line is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.scatter.Line
  - plotly.graph_objs.layout.shape.Line
  - etc.




<div style="text-align: justify;">
Levando em consideração o gráfico apresentado acima, é notório que, em geral, com o aumento do número de vizinhos na implementação do modelo <em>k-NN vizinhos</em>, há um aumento da métrica da raiz do erro quadrático médio (RMSE), isto é, aumenta o erro da predição do modelo, ou seja, sua performance piora e sua acurácia é menor. Além disso, é interessante observar que, no intervalo de um a seis vizinhos, há certa oscilação no valor da RMSE! Principalmente para k=1, quer dizer, ao considerarmos um modelo que se pauta em somente um vizinho, quando comparamos com aquele que se pauta em dois, o primeiro possui uma RMSE consideravelmente maior que o último!!!
</div>

## 🛡️ Conclusão

<div style="text-align: justify;">
Após nossos estudos, concluímos que a performance de um modelo <em>k-NN vizinhos</em> é fortemente influenciada pela quantidade de vizinhos que são levados em consideração para a predição! De modo que, de maneira geral, quanto maior for esse número, maior será o erro de predição associado ao modelo (RMSE), isto é, pior será sua eficácia e, consequentemente, sua performance. Contudo, é crucial ressaltar que, quando consideramos somente um vizinho, o erro associado ao modelo é bem alto ao compararmos com o caso de um modelo com dois vizinhos. Nesse sentido, fica claro para a Aliança da Supernova que, para utilizar o modelo <em>k-NN vizinhos</em>, o ideal é pautar-se em um número não muito grande de vizinhos (mas, ao mesmo tempo, é importante não escolher um número muito baixo, pois, como é possível observar no gráfico, no intervalo de um a seis vizinhos, há bastante oscilação na RMSE).

Os cavaleiros Tsuru, Pólux e Tiles esperam que esse trabalho possa ser bem aproveitado pelos cidadãos de Lumi. Que a sede de conhecimento por novos modelos esteja sempre com vocês! ⚔️
</div>

## 📚 Referências

[1] Dataset supercondutividade: https://archive.ics.uci.edu/dataset/464/superconductivty+data.

[2] HAMIDIEH, K. A data-driven statistical model for predicting the critical temperature of a superconductor. Computational Materials Science, v. 154, p. 346–354, nov. 2018.


‌[3] Supercondutividade - Conceitos básicos: https://edisciplinas.usp.br/pluginfile.php/8274184/mod_resource/content/0/1%20-%20Base%20de%20Supercondutividade%20I.pdf.

[4] A TEORIA BCS DA SUPERCONDUTIVIDADE. [s.l: s.n.]. Disponível em: <https://www2.ufjf.br/rodrigo_dias/wp-content/uploads/sites/480/2022/01/A-TEORIA-BCS-DA-SUPERCONDUTIVIDADE.pdf>. Acesso em: 22 de setembro de 2024.

[5] Daniel Roberto Cassar. (2024). Jupyter Notebook *ATP-203 2.1 - Aprendizado de máquina, k-NN e métricas*. [Material não publicado].
