# **<span style="font-family: 'Palatino Linotype', serif;">ü´Ç O bom vizinho sempre tem algo a emprestar...</span>**

*<span style="font-family: 'Angilla Tattoo'">Habitamos em um humilde vilarejo que, se batida a porta, n√£o h√° conhecimento acerca do n√≠vel de bondade do ser que nela bate. Dito isto, voc√™ confiaria mesmo nas palavras de um vizinho? </span>*
<div align="center">
    <img src="assets\mapas\2.png" alt="Mapa: A Batalha Final">
    <figcaption>Descobrindo sobre os vizinhos</figcaption>
</div>

---

**Trabalho Final: üèòÔ∏èPrevis√£o pelo modelo dos k-NN vizinhos**
==========================================================

**Autores:** Sepulcro de Delfos
* Ana Luz
* Caio Ruas
* Caio Matheus
* Giovana Martins

## üö© **Introdu√ß√£o**

Este √© o segundo de uma s√©rie de 4 notebooks que comp√µem o trabalho final da disciplina de Aprendizado de M√°quina. Recomenda-se a leitura do primeiro notebook, que cont√©m a descri√ß√£o do problema e a an√°lise explorat√≥ria dos dados, ele pode ser acessado aqui [link](https://github.com/CaioRuas24010/SepulcroDeDelfos/blob/main/A%20Batalha%20Contra%20Dragao/introducao.ipynb).

O presente trabalho tem como objetivo a implementa√ß√£o de um modelo de classifica√ß√£o baseado no algoritmo dos k-vizinhos mais pr√≥ximos (k-NN) para prever o *band gap* de materiais para aplica√ß√£o em c√©lulas solares.

**Observa√ß√£o** No caderno anterior foi realizada uma an√°lise com o `optuna` em rela√ß√£o √† atributos anteriomente denominados como *derivados* (Numero at√¥mico m√©dio, dentre outros) e *diretos* (Fra√ß√£o molar por elemento), e foi constatado que os atributos *diretos* geraram erros menores para o modelo da floresta aleat√≥ria. Apesar disso, como citado no caderno anterior, os atributos *diretos* s√£o mais dif√≠ceis de serem utilizados e, por isso, optamos por utilizar os atributos *derivados* para o modelo do k-NN.

## üë∑‚Äç‚ôÇÔ∏è **Alicerces do conhecimento**

O primeiro passo a ser feito √© a importa√ß√£o das bibliotecas necess√°rias para que o modelo se torne pr√°tico e funcional:

In [1]:
import pandas as pd
import plotly.express as px

from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error
from sklearn.metrics import root_mean_squared_error

## üé≤ **Obten√ß√£o e manipula√ß√£o dos dados**

Nenhuma casa √© constru√≠da sem seus tijolos. Dito isto, vamos coletar os dados necess√°rios para que o modelo possa ser desenvolvido e a previs√£o ocorra. Os dados j√° foram devidamente apresentados no notebook introdut√≥rio, por isso pularemos etapas descritivas ou explorat√≥rias.

In [2]:
df = pd.read_csv("materials_trabalhado.csv")
print(df)

      Unnamed: 0.1  Unnamed: 0 material_id  theoretical  band_gap   density  \
0                0           0    mp-28967        False    0.7792  5.022717   
1                1           1   mp-766094         True    2.8980  3.764366   
2                2           2    mp-36577         True    1.7212  3.094976   
3                3           3  mp-1102092        False    2.0944  2.901260   
4                4           4   mp-720391        False    7.4812  1.992908   
...            ...         ...         ...          ...       ...       ...   
6242          6242        6242    mp-18741        False    2.7642  3.069872   
6243          6243        6243    mp-20078        False    1.0749  7.854668   
6244          6244        6244     mp-5504        False    4.3974  4.244726   
6245          6245        6245   mp-776470         True    1.0064  7.854668   
6246          6246        6246   mp-752397         True    3.7685  3.739078   

          volume      symmetry  dieletric_constant 

Para a implementa√ß√£o do regressor k-NN, precisamos de dados que sejam bem ajustados, tanto no √¢mbito de dimens√µes, quanto na escolha de atributos e target que ser√£o utilizados posteriormente para o processo de previs√£o.
Para isso, foram escolhidos - para previs√£o do `band gap` - os atributos: 
* `Densidade`
* `Energia de forma√ß√£o por √°tomo`
* `N√∫mero de s√≠tios`
* `Simetria Codificada`
* `Constante diel√©trica`
* `N√∫mero At√¥mico M√©dio`
* `Densidade At√¥mica`

Sendo essas algumas propriedades que influenciam no valor do band gap e ajudam na nossa previs√£o:

In [3]:
atributos = df[["density", "formation_energy_per_atom", "nsites", "symmetry_encoded", "dieletric_constant", "average_atomic_number", "densidade_at√¥mica"]]
target = df["band_gap"]

X = atributos
y = target

## ‚öñÔ∏è **Jogue os dados e a sua vida ser√° normal**

Para que a previs√£o a partir dos atibutos *n√£o seja enviesada* por uma poss√≠vel diferen√ßa de escala dos valores - visto que o algoritmo dos k-NN vizinhos se baseia em medidas de dist√¢ncia -, √© necess√°rio que os dados sejam **normalizados**, distribuindo de maneira justa os pesos entre os atributos escolhidos e resultando numa previs√£o mais fact√≠vel.

In [4]:
normalizador = StandardScaler()
normalizador.fit(X)
X_normalizado = normalizador.transform(X)

## üë§ **E bate √† porta o vizinho...**

Se h√° alguma batida na porta, nada mais justo que atender, mas quem disse que seria s√≥ um vizinho?

Escolhe-se, portanto, um valor referente ao n√∫mero de vizinhos analisados e importa-se a fun√ß√£o *KNeighborsRegressor* da biblioteca `Numpy` para fazer a previs√£o.

Al√©m disso, para o processo de ajuste dos dados (c√°lculo das dist√¢ncias, por exemplo), √© preciso fazer um *fit* nos dados j√° normalizados de atributos e target.


In [5]:
NUM_VIZINHOS = 1000
knn = KNeighborsRegressor(n_neighbors=NUM_VIZINHOS)
knn.fit(X_normalizado, y)

Posterior ao ajuste de dados, precisa-se de um **palpite inicial** que ser√° utilizado para a realiza√ß√£o da **previs√£o** do valor do **band gap**, de forma que cada item ordenado da lista se refira √†s colunas escolhidas como atributos durante o processo de manipula√ß√£o de dados, precisando ser normalizado pelos mesmos motivos de escala.

In [6]:
palpite_x = [
    [5,-1,300,0.8,5,33,0.05],
]
palpite_x_normalizado = normalizador.transform(palpite_x)



Ap√≥s a defini√ß√£o do palpite, √© hora de realizar a **previs√£o**, usando a fun√ß√£o `predict` com os dados normalizados obtidos anteriormente.

In [7]:
previsao = knn.predict(palpite_x_normalizado)
print(previsao)

[2.8763292]


## üìè **M√©trica do Erro Quadrado M√©dio (MSE)**

Para a an√°lise da **efici√™ncia** do modelo dos k-NN vizinhos, pode-se usar a m√©trica de performance do MSE, que pode ser dada por: 

$$
\mathrm{MSE} = \frac{1}{n}\sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

In [8]:
previsao_y = knn.predict(X)
MSE = mean_squared_error(y, previsao_y)
print(f"O MSE do modelo analisando {NUM_VIZINHOS} vizinhos foi de {MSE}")



O MSE do modelo analisando 1000 vizinhos foi de 3.3371470441863798


## ü´ö **M√©trica da Raiz do Erro Quadr√°tico M√©dio (RMSE)**
Outra m√©trica que pode ser utilizada como m√©trica de performance √© o RMSE, que √© representada pela raiz quadrada do valor do MSE, como pode ser visto na equa√ß√£o abaixo:

$$
\mathrm{RMSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
$$

In [9]:
RMSE = root_mean_squared_error(y, previsao_y)
print(f"O RMSE do modelo analisando {NUM_VIZINHOS} vizinhos foi de {RMSE}")

O RMSE do modelo analisando 1000 vizinhos foi de 1.8267859875164303


## üßÆ **Compara√ß√£o entre m√©dia e valor previsto**
Para an√°lise dos dados, tamb√©m √© v√°lido comparar os dados j√° conhecidos com os dados agora previstos, para isso, calculamos a diferen√ßa entre as m√©dias:

In [10]:
media_band_gap = df["band_gap"].mean()
media_band_gap_previsao = previsao_y.mean()
print(f"A m√©dia dos valores de band gap encontrados no DataFrame √© de {media_band_gap}")
print(f"A m√©dia dos valores previstos do band gap pelo modelo foi de {media_band_gap_previsao}")
print()
print(f"Portanto, a diferen√ßa entre as m√©dias encontradas foi de {media_band_gap - media_band_gap_previsao}")

A m√©dia dos valores de band gap encontrados no DataFrame √© de 2.290884184408516
A m√©dia dos valores previstos do band gap pelo modelo foi de 1.3674861237233873

Portanto, a diferen√ßa entre as m√©dias encontradas foi de 0.9233980606851289


## üîé **A vida √© feita de escolhas (e alguns erros)...**

*"Dizem que todos n√≥s somos feitos de erros, mas ser√° que os erros s√£o feitos de todos n√≥s?"*
-Autor desconhecido

Com isso em mente, calcularemos e plotaremos um gr√°fico a partir dos erros encontrados no modelo.

In [11]:
erros = y - previsao_y

fig = px.histogram(x=erros, nbins=40, title="Histograma dos erros do KNN")
fig.show()

A partir da an√°lise do histograma foi poss√≠vel observar uma elevada distribui√ß√£o dos erros, que sugere a efetividade do modelo k-NN, em geral, de realizar boas estimativas a partir dos atributos escolhidos e normalizados, de modo a diminuir o que poderia ser um erro muito grande.

## ‚ö∞Ô∏è **Conclus√£o**

Neste trabalho, foi desenvolvido um algoritmo baseado no m√©todo dos k-vizinhos mais pr√≥ximos  para prever o valor do band gap de materiais, utilizando atributos de dados f√≠sico-qu√≠micos normalizados para busca de um valor de band gap a partir de um palpite inicial. 

A avalia√ß√£o do modelo foi realizada a partir das m√©tricas de performance do Erro Quadr√°tico M√©dio (MSE) e  da Raiz do Erro Quadr√°tico M√©dio  (RMSE). O MSE quantifica a m√©dia dos erros ao quadrado entre os valores previstos e os valores reais do band gap, enquanto o RMSE fornece uma interpreta√ß√£o mais intuitiva ao trazer o erro para a mesma unidade do band gap.

Esses resultados sugerem que, ao combinar a simetria cristalina, propriedades at√¥micas e f√≠sicas, como a densidade e a energia de forma√ß√£o, √© poss√≠vel realizar uma previs√£o do valor do band gap de um material com razo√°vel precis√£o, dependendo de alguns ajustes durante a manipula√ß√£o dos dados, como a escolha do valor dos vizinhos, a escolha de atributos ou o uso de t√©cnicas de otimiza√ß√£o, que influenciam no desempenho medido.

## üìñ **Refer√™ncias**

CASSAR, Daniel. **Aprendizado de m√°quina, k-NN e m√©tricas**. 2024. Material de Aula.

SCIKIT-LEARN DEVELOPERS. **sklearn.neighbors.KNeighborsRegressor**. Dispon√≠vel em: [https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html).

STAT QUEST WITH JOSH STARMER. **StatQuest: K-nearest neighbors, Clearly Explained**. 2017. V√≠deo. Dispon√≠vel em: [https://www.youtube.com/watch?v=HVXime0nQeI](https://www.youtube.com/watch?v=HVXime0nQeI). 

#### **Documenta√ß√µes:**

Este projeto utilizou as seguintes bibliotecas:

**Bibliotecas de Terceiros:**

* **`pandas`:** [https://pandas.pydata.org/docs/](https://pandas.pydata.org/docs/) - Manipula√ß√£o e an√°lise de dados.
* **`matplotlib.pyplot`:** [https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.html](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.html) - Cria√ß√£o de gr√°ficos est√°ticos, interativos e animados.
* **`sklearn.preprocessing.StandardScaler`:** [https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html) - Padroniza√ß√£o de features removendo a m√©dia e escalonando para vari√¢ncia unit√°ria.
* **`sklearn.neighbors.KNeighborsRegressor`:** [https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html) - Regress√£o KNN para prever o valor de novos pontos de dados com base nos vizinhos mais pr√≥ximos.
* **`sklearn.metrics.mean_squared_error`:** [https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html) - Calcula o erro quadr√°tico m√©dio entre os valores reais e previstos.
* **`sklearn.metrics.root_mean_squared_error`:** [https://scikit-learn.org/stable/modules/generated/sklearn.metrics.root_mean_squared_error.html](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.root_mean_squared_error.html) - Calcula a raiz quadrada do erro quadr√°tico m√©dio.

## üë£ **Pr√≥ximos passos**

Este √© o segundo de uma s√©rie de 4 notebooks que comp√µem o trabalho final da disciplina de Aprendizado de M√°quina. No pr√≥ximo caderno, ser√° realizada a etapa de desenvolvimento e avalia√ß√£o do modelo de aprendizado de m√°quina da √Årvore de Decis√£o para prever o *band gap* de materiais, e a otimiza√ß√£o desse modelo para obter a melhor performance. Para acompanhar o desenvolvimento do projeto, acesse os pr√≥ximos [notebooks](https://github.com/CaioRuas24010/SepulcroDeDelfos/tree/main/A%20Batalha%20Contra%20Dragao):

1. **[`introducao.ipynb`](https://github.com/CaioRuas24010/SepulcroDeDelfos/blob/main/A%20Batalha%20Contra%20Dragao/introducao.ipynb) - Baixando e organizando os dados**
2. **[`modelo_dos_k-nn_vizinhos.ipynb`](https://github.com/CaioRuas24010/SepulcroDeDelfos/blob/main/A%20Batalha%20Contra%20Dragao/modelo_dos_k-nn_vizinhos.ipynb) - Estudando o modelo k-NN**
3. **[`arvore_de_decisao.ipynb`](https://github.com/CaioRuas24010/SepulcroDeDelfos/blob/main/A%20Batalha%20Contra%20Dragao/arvore_de_decisao.ipynb) - Estudando o modelo √Årvore de Decis√£o**
4. **[`conclusao.ipynb`](https://github.com/CaioRuas24010/SepulcroDeDelfos/blob/main/A%20Batalha%20Contra%20Dragao/conclusao.ipynb) - Resultados e discuss√µes finais** 

---

# **<span style="font-family: 'Palatino Linotype', serif;">Um curto passo de um longo caminho...</span>**

*<span style="font-family: 'Angilla Tattoo'"> <br> Assim, os vizinhos batem na madeira, mas n√£o sabemos mais se √© realmente s√≥ a da porta. <br> <br> A jornada somente se inicia e outro local at√© ent√£o desconhecido pode ser avistado, n√£o se sabe a proced√™ncia e se √© somente uma simples e bela √°rvore. <br> <br> De certa forma, parece que... n√£o! <br> <br> Nossos algoritmos s√£o or√°culos, nossos dados s√£o ossos ancestrais. <br> Sepulcro de Delfos </span>*