# **<span style="font-family: 'Palatino Linotype', serif;"> üõ°Ô∏è Preparando-se para a batalha!</span>**

*<span style="font-family: 'Angilla Tattoo'">A jornada mais longa come√ßa com um √∫nico passo...</span>*

<div align="center">
    <img src="assets\mapas\1.png" alt="Mapa: A Batalha Final">
    <figcaption>Guerreiros rumo ao Vilarejo Vizinhos</figcaption>
</div>

---

**Trabalho Final: üßë‚Äçüéì Introdu√ß√£o - Apresentando o trabalho**
==========================================================

**Autores:** Sepulcro de Delfos
* Ana Luz 
* Caio Ruas
* Caio Matheus
* Giovana Martins

## üö© **Introdu√ß√£o**

A crescente demanda por energia limpa e renov√°vel impulsionou o desenvolvimento de tecnologias de energia solar, com destaque para as c√©lulas fotovoltaicas. Essas c√©lulas, capazes de converter luz solar diretamente em eletricidade, desempenham um papel crucial na transi√ß√£o para uma matriz energ√©tica mais sustent√°vel. O desempenho de uma c√©lula fotovoltaica √© fortemente influenciado pelas propriedades dos materiais que a comp√µem, particularmente pelo *band gap*, uma propriedade fundamental que determina a efici√™ncia na convers√£o de f√≥tons em el√©trons.

Ele representa a diferen√ßa de energia entre a banda de val√™ncia, onde os el√©trons est√£o ligados aos √°tomos, e a banda de condu√ß√£o, onde os el√©trons est√£o livres para se mover e gerar corrente el√©trica. A import√¢ncia do *band gap* para as c√©lulas fotovoltaicas reside em sua influ√™ncia direta na capacidade de convers√£o da luz solar em energia el√©trica. Para que um el√©tron seja liberado de um √°tomo e contribua para a corrente el√©trica, ele precisa receber uma quantidade m√≠nima de energia, que corresponde ao valor do band gap[1].

A busca por materiais com propriedades otimizadas para aplica√ß√£o em c√©lulas fotovoltaicas √© um desafio constante na ci√™ncia dos materiais. A descoberta de novos materiais e a otimiza√ß√£o de materiais existentes exigem a an√°lise de um vasto espa√ßo de candidatos, o que pode ser acelerado com o uso de t√©cnicas de aprendizado de m√°quina.

Nesse contexto, o **The Materials Project**[2][3] se demonstra uma importante base de dados para informa√ß√µes sobre materiais. Essa iniciativa disponibiliza um banco de dados abrangente com informa√ß√µes sobre as propriedades de milhares de materiais, incluindo suas estruturas cristalinas, propriedades eletr√¥nicas e termodin√¢micas. Essa riqueza de informa√ß√µes oferece uma oportunidade √∫nica para o desenvolvimento de modelos de aprendizado de m√°quina capazes de prever propriedades de materiais com base em atributos estruturais e qu√≠micos.

Este trabalho final prop√µe a utiliza√ß√£o do banco de dados do *Materials Project* e t√©cnicas de aprendizado de m√°quina para investigar a rela√ß√£o entre as propriedades dos materiais e o *band gap*. O objetivo √© treinar um algoritmo capaz de prever o *band gap* de materiais com base em um conjunto de atributos e estudar dois tipos diferentes de algoritmos, sendo eles o **KNN (K-nearest neighbors)** e a **√Årvore de decis√µes**. A aplica√ß√£o de aprendizado de m√°quina nesse contexto pode acelerar a descoberta de novos materiais e otimizar o desenvolvimento de c√©lulas fotovoltaicas mais eficientes, impulsionando a gera√ß√£o de energia solar e a transi√ß√£o para uma matriz energ√©tica mais limpa e sustent√°vel.

**Observa√ß√£o**: Durante todos os notebooks foi utilizada a biblioteca plotly para a cria√ß√£o de gr√°ficos. Entretanto, no github, os gr√°ficos n√£o s√£o renderizados. Para visualiz√°-los, basta executar o notebook em sua m√°quina local ou acessar o link das visualiza√ß√µes disponibilizado sempre que houver um gr√°fico.

## üåø **Preparando o ambiente**

Bibliotecas necess√°rias para a execu√ß√£o do c√≥digo:

In [4]:
import json
import os
import re

import optuna
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

from emmet.core.summary import HasProps
from mp_api.client import MPRester
from pymatgen.core.periodic_table import Element
from scipy.stats.mstats import winsorize
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder



optuna.logging.set_verbosity(optuna.logging.WARNING) # Essa linha de c√≥digo suprime os logs do optuna, facilitando a leitura do notebook.

Caso n√£o esteja familiarizado com alguma das bibliotecas acima, n√£o se preocupe, pois a maioria √© explicada ao longo do c√≥digo. Al√©m disso, todas as documenta√ß√µes podem ser encontradas ao fim do notebook.

Fun√ß√µes que ser√£o utilizadas ao longo do caderno:

In [5]:
def calc_fracao_molar(composicao: str) -> dict:
  """
  Calcula as fra√ß√µes molares de cada elemento presente em uma composi√ß√£o.

  Args:
    composicao (`str`): string de composi√ß√£o, por exemplo, "Ba2 Pd4 S8".

  Returns:
    fractions `dict`: Um dicion√°rio com as fra√ß√µes de cada elemento.
  """

  elements = re.findall(r"([A-Z][a-z]*)(\d*)", composicao)
  total_atoms = 0
  counts = {}
  for element, count in elements:
      count = int(count) if count else 1
      counts[element] = count
      total_atoms += count
  fractions = {element: count / total_atoms for element, count in counts.items()}
  return fractions

In [6]:
def numero_atomico_medio(fracoes: dict) -> float:
    """
    Calcula o n√∫mero at√¥mico m√©dio de uma dada composi√ß√£o.

    Args:
        fracoes (`dict`): dicion√°rio com as fra√ß√µes molares de cada elemento presente na composi√ß√£o.

    Returns:
        numero_atomico (`float`): O n√∫mero at√¥mico m√©dio da composi√ß√£o. 
    """
    numero_atomico = 0
    for elemento, fracao in fracoes.items():
        elemento_obj = Element(elemento)  # Cria um objeto Element do pymatgen
        numero_atomico += fracao * elemento_obj.Z
    return numero_atomico

Testando as fun√ß√µes:

In [7]:
fracoes = calc_fracao_molar("Ba2 Pd4 S8")
print(fracoes)

print(numero_atomico_medio(fracoes))

{'Ba': 0.14285714285714285, 'Pd': 0.2857142857142857, 'S': 0.5714285714285714}
30.285714285714285


Com as bibliotecas e fun√ß√µes definidas e testadas, podemos prosseguir para a pr√≥xima etapa: a prepara√ß√£o dos dados.

**Observa√ß√£o:** O objetivo deste notebook tamb√©m √© testar alguns par√¢metros para a otimiza√ß√£o do modelo. Portanto, existe uma fun√ß√£o baseada no `optuna` que ser√° utilizada para encontrar os melhores par√¢metros para o modelo. Entretanto, ela ser√° definida apenas quando necess√°rio, para facilitar a compreens√£o do c√≥digo.

## üåê **Trabalhando com o banco de dados**

Para acessarmos o banco de dados do Materials Project utilizaremos uma **API** *(Application Programming Interface)*. Essa interface `mp-api` permite que usu√°rios acessem e interajam com o vasto banco de dados do Projeto Materials de forma program√°tica, abrindo um leque de possibilidades para an√°lise e explora√ß√£o de dados. Utilizaremos o ojeto `MPRester`, ele atua como um cliente, permitindo que voc√™ se conecte ao banco de dados e realize consultas de forma simples e intuitiva, sem precisar se preocupar com os detalhes da comunica√ß√£o com a API.

A utiliza√ß√£o da API, simplifica o processo de coleta e organiza√ß√£o dos dados, permitindo que o foco seja direcionado para a an√°lise e o desenvolvimento do modelo de aprendizado de m√°quina. Para que possa utiliza-la, √© necess√°rio ter uma chave de acesso, que pode ser obtida gratuitamente ao criar uma conta no site do projeto ([The Materials Project](https://next-gen.materialsproject.org/)).

Acessando os dados atrav√©s da API:

In [8]:
with open ('secrets.json') as secret:
    api_key = json.load(secret)

In [9]:
mpr = MPRester(api_key["api_key"]) 

print(type(mpr)) # Espera-se como resultado 'mp_api.client.mprester.MPRester'

<class 'mp_api.client.mprester.MPRester'>


Agora com o `MPRester` instanciado, podemos realizar consultas ao banco de dados do *Materials Project*. Para isso, utilizaremos um `subrester`, isto se refere a um conjunto de funcionalidades espec√≠ficas dentro do MPRester que permitem o acesso a diferentes categorias de dados ou a realiza√ß√£o de tarefas espec√≠ficas. Eles s√£o como m√≥dulos especializados que organizam as diferentes funcionalidades da API.

Em espec√≠fico utilizaremos o `summary`, que √© como uma fun√ß√£o que retorna um resumo conciso das propriedades mais importantes de um material. Ele fornece uma vis√£o geral r√°pida e eficiente das caracter√≠sticas principais, sem a necessidade de buscar informa√ß√µes detalhadas em outros subresters. Al√©m disso, √© poss√≠vel especificar filtros e quais propriedades esperamos que a inst√¢ncia retorne, assim como utilizado abaixo [4].

In [10]:
summary_subrester = mpr.materials.summary

resultados = summary_subrester.search(
            has_props = [HasProps.dielectric, HasProps.bandstructure],
            fields = [
        "material_id",         
        "band_gap", 
        "density", 
        "volume",
        "formation_energy",                
        "energy",                  
        "nsites", 
        'elements', 
        'nelements', 
        'composition', 
        'bandstructure',  
        'synthesizable',
        'crystal system',
        'predicted stable',
        'is_gap_direct',
        'ordering',
        'types_of_magnetic_species',
        'total dielectric constant',
        'e_total',
        'theoretical',
        'formation_energy_per_atom',
        'symmetry',
        'density_atomic',
    ]
    )

print(f"O n√∫mero de materiais retornados √©: {len(resultados)}")
print("--Primeiro Material (SummaryDoc)--")
print(resultados[0])

Retrieving SummaryDoc documents:   0%|          | 0/6247 [00:00<?, ?it/s]

O n√∫mero de materiais retornados √©: 6247
--Primeiro Material (SummaryDoc)--
[4m[1mMPDataDoc<SummaryDoc>[0;0m[0;0m
[1mnsites[0;0m=14,
[1melements[0;0m=[Element Ba, Element Pd, Element S],
[1mnelements[0;0m=3,
[1mcomposition[0;0m=Composition('Ba2 Pd4 S8'),
[1mvolume[0;0m=316.34140399923814,
[1mdensity[0;0m=5.022717317257348,
[1mdensity_atomic[0;0m=22.595814571374152,
[1msymmetry[0;0m=SymmetryData(crystal_system=<CrystalSystem.mono: 'Monoclinic'>, symbol='P2_1/m', number=11, point_group='2/m', symprec=0.1, version='2.0.2'),
[1mmaterial_id[0;0m=MPID(mp-28967),
[1mformation_energy_per_atom[0;0m=-1.1240792407142866,
[1mband_gap[0;0m=0.7791999999999999,
[1mis_gap_direct[0;0m=False,
[1mbandstructure[0;0m=BandstructureData(setyawan_curtarolo=BandStructureSummaryData(task_id=MPID(mp-1604877), band_gap=0.7791999999999999, cbm={'band_index': {'1': [54]}, 'kpoint_index': [24, 25], 'kpoint': <pymatgen.electronic_structure.bandstructure.Kpoint object at 0x000002403CBA8

Caso seja necess√°rio avaliar quais op√ß√µes de pesquisa est√£o dispon√≠veis, √© poss√≠vel executar o seguinte c√≥digo:

In [11]:
lista_de_opcoes = mpr.materials.summary.available_fields
print(f"Campos dispon√≠veis para o SummaryDoc s√£o: {lista_de_opcoes}")



Agora √© necess√°rio transformar os resultados obtidos em um DataFrame, para que possamos manipular e analisar os dados de forma mais eficiente. Para isso, sera necess√°rio iterar nos *resultados* obtidos com o `subrester` e ent√£o utilizar a biblioteca `pandas`, que possibilita a cria√ß√£o de um *DataFrame* a partir de um dicion√°rio.

In [12]:
data = []
for doc in resultados:
    data.append({
        'material_id': doc.material_id,
        'theoretical': doc.theoretical,    
        "band_gap": doc.band_gap, 
        "density": doc.density, 
        "volume": doc.volume,
        'symmetry': doc.symmetry.crystal_system,
        "dieletric_constant": doc.e_total, 
        'formation_energy_per_atom': doc.formation_energy_per_atom,
        "densidade_at√¥mica": doc.density_atomic,       
        "nsites": doc.nsites,
        'elements': doc.elements, 
        'nelements': doc.nelements, 
        'composition': doc.composition, 
        'bandstructure': doc.bandstructure,
        'is_gap_direct': doc.is_gap_direct,
        'ordering': doc.ordering,
        'types_of_magnetic_species': doc.types_of_magnetic_species,
    })

df = pd.DataFrame(data)
print(df.head())

  material_id  theoretical  band_gap   density      volume      symmetry  \
0    mp-28967        False    0.7792  5.022717  316.341404    Monoclinic   
1   mp-766094         True    2.8980  3.764366  253.915299  Orthorhombic   
2    mp-36577         True    1.7212  3.094976  196.220495     Triclinic   
3  mp-1102092        False    2.0944  2.901260  620.336826    Monoclinic   
4   mp-720391        False    7.4812  1.860992  374.200384  Orthorhombic   

   dieletric_constant  formation_energy_per_atom  densidade_at√¥mica  nsites  \
0           17.048334                  -1.124079          22.595815      14   
1           17.572010                  -3.099174          15.869706      16   
2           18.488667                  -0.766100          28.031499       7   
3            9.596025                  -1.948264          12.923684      48   
4            6.216546                  -1.970766           9.355010      40   

         elements  nelements     composition  \
0     [Ba, Pd, S]  

Durante a implementa√ß√£o do c√≥digo, percebemos que a leitura direta dos dados para forma√ß√£o do dataframe gerava algum problema para interpreta√ß√£o posterior feita pela m√°quina. Ser√° poss√≠vel at√© perceber diferen√ßas entre o *output* de `.head()` acima e o *output* de `.head()` da c√©lula abaixo (Pode reparar nas coluna *composition* e *elements*).

Infelizmente, n√£o conseguimos compreender a origem do erro para concert√°-lo. Entretanto, para contorn√°-lo, optamos por salvar os dados em um arquivo `.csv` e ent√£o realizar a leitura do mesmo para reforma√ß√£o do dataframe, o que solucionou o problema.

In [13]:
df.to_csv('materials.csv')

df = pd.read_csv('materials.csv')

print(df.head(5))

   Unnamed: 0 material_id  theoretical  band_gap   density      volume  \
0           0    mp-28967        False    0.7792  5.022717  316.341404   
1           1   mp-766094         True    2.8980  3.764366  253.915299   
2           2    mp-36577         True    1.7212  3.094976  196.220495   
3           3  mp-1102092        False    2.0944  2.901260  620.336826   
4           4   mp-720391        False    7.4812  1.860992  374.200384   

       symmetry  dieletric_constant  formation_energy_per_atom  \
0    Monoclinic           17.048334                  -1.124079   
1  Orthorhombic           17.572010                  -3.099174   
2     Triclinic           18.488667                  -0.766100   
3    Monoclinic            9.596025                  -1.948264   
4  Orthorhombic            6.216546                  -1.970766   

   densidade_at√¥mica  nsites                                        elements  \
0          22.595815      14             [Element Ba, Element Pd, Element S] 

Com a leitura dos dados funcionando corretamente, podemos prosseguir.

Para nosso trabalho, decidimos utilizar tamb√©m os elementos que comp√µem cada material como atributo para o algoritmo de aprendizado de m√°quinas. Para isso, aplicaremos as fun√ß√µes definidas previamente para extrair propriedades baseadas nos elementos de cada material e adicionar essas informa√ß√µes ao DataFrame. 

Primeiramente, vamos extrair a fra√ß√£o molar de cada elemento presente em um material. A fra√ß√£o molar de um elemento √© a raz√£o entre o n√∫mero de √°tomos desse elemento e o n√∫mero total de √°tomos no material, e, nesse trabalho chamaremos-na de caracter√≠stica *direta*.

In [14]:
df['fractions'] = df['composition'].apply(calc_fracao_molar)

fractions_df = pd.DataFrame(df['fractions'].tolist()).fillna(0)

df = pd.concat([df, fractions_df], axis=1)

Em segunda inst√¢ncia, al√©m da rela√ß√£o direta feita pela fra√ß√£o molar, tamb√©m √© poss√≠vel extrair informa√ß√µes *derivadas* dos materias, por exemplo, o n√∫mero at√¥mico m√©dio dos elementos presentes em um material. O n√∫mero at√¥mico m√©dio √© uma medida da m√©dia ponderada dos n√∫meros at√¥micos dos elementos presentes em um material, levando em considera√ß√£o a fra√ß√£o molar de cada elemento. 

Essa informa√ß√£o pode facilitar a aplica√ß√£o de algoritmos, pois gerar fra√ß√µes molares gera muitas colunas, o que pode dificultar a interpreta√ß√£o do modelo. Portanto, o n√∫mero at√¥mico m√©dio √© uma forma de resumir as informa√ß√µes dos elementos presentes em um material em um √∫nico valor, facilitando a an√°lise e a interpreta√ß√£o dos dados.

In [15]:
df['average_atomic_number'] = df['fractions'].apply(numero_atomico_medio)

Para continuar, na coluna *symmetry* temos dados categ√≥ricos e precisamos transforma-los em n√∫mericos, para que o modelo de aprendizado de m√°quina possa interpretar esses dados.

Utilizaremos o `LabelEncoder` da biblioteca `sklearn.preprocessing` para transformar a coluna categ√≥rica em valores num√©ricos. Esse processo transforma cada valor categ√≥rico em um valor inteiro √∫nico.

In [16]:
encoder = LabelEncoder()

df['symmetry_encoded'] = encoder.fit_transform(df['symmetry'])

print( df['symmetry_encoded'].unique())

[2 3 5 1 4 6 0]


Por fim, podemos computar algumas caracter√≠sticas do DataFrame, para isso, utilizaremos as fun√ß√µes `info()`, `isnull().sum()` e visualizaremos algumas colunas com a `head()`.

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6247 entries, 0 to 6246
Columns: 101 entries, Unnamed: 0 to symmetry_encoded
dtypes: bool(2), float64(87), int32(1), int64(3), object(8)
memory usage: 4.7+ MB


In [18]:
df.isnull().sum()

Unnamed: 0               0
material_id              0
theoretical              0
band_gap                 0
density                  0
                        ..
Tb                       0
U                        0
Ac                       0
average_atomic_number    0
symmetry_encoded         0
Length: 101, dtype: int64

In [19]:
df.iloc[:, :20].head()

Unnamed: 0.1,Unnamed: 0,material_id,theoretical,band_gap,density,volume,symmetry,dieletric_constant,formation_energy_per_atom,densidade_at√¥mica,nsites,elements,nelements,composition,bandstructure,is_gap_direct,ordering,types_of_magnetic_species,fractions,Ba
0,0,mp-28967,False,0.7792,5.022717,316.341404,Monoclinic,17.048334,-1.124079,22.595815,14,"[Element Ba, Element Pd, Element S]",3,Ba2 Pd4 S8,setyawan_curtarolo=BandStructureSummaryData(ta...,False,NM,[],"{'Ba': 0.14285714285714285, 'Pd': 0.2857142857...",0.142857
1,1,mp-766094,True,2.898,3.764366,253.915299,Orthorhombic,17.57201,-3.099174,15.869706,16,"[Element F, Element Nb, Element O]",3,Nb4 O8 F4,setyawan_curtarolo=BandStructureSummaryData(ta...,False,NM,[],"{'Nb': 0.25, 'O': 0.5, 'F': 0.25}",0.0
2,2,mp-36577,True,1.7212,3.094976,196.220495,Triclinic,18.488667,-0.7661,28.031499,7,"[Element As, Element S, Element Sr]",3,Sr1 As2 S4,setyawan_curtarolo=BandStructureSummaryData(ta...,True,NM,[],"{'Sr': 0.14285714285714285, 'As': 0.2857142857...",0.0
3,3,mp-1102092,False,2.0944,2.90126,620.336826,Monoclinic,9.596025,-1.948264,12.923684,48,"[Element Fe, Element Na, Element O, Element S]",4,Na4 Fe4 S8 O32,setyawan_curtarolo=BandStructureSummaryData(ta...,True,AFM,[Element Fe],"{'Na': 0.08333333333333333, 'Fe': 0.0833333333...",0.0
4,4,mp-720391,False,7.4812,1.860992,374.200384,Orthorhombic,6.216546,-1.970766,9.35501,40,"[Element B, Element F, Element H, Element N]",4,B4 H16 N4 F16,setyawan_curtarolo=BandStructureSummaryData(ta...,False,NM,[],"{'B': 0.1, 'H': 0.4, 'N': 0.1, 'F': 0.4}",0.0


Com a importa√ß√£o e prepara√ß√£o dos dados conclu√≠da, podemos prosseguir para a etapa de an√°lise explorat√≥ria e ajuste dos dados.

## üìà **Analisando os dados**

A partir de agora pode-se analisar os dados obtidos, para isso utilizaremos a biblioteca `plotly`, uma biblioteca de visualiza√ß√£o de dados que permite a cria√ß√£o de gr√°ficos e dashboards interativos, por conta disso √© uma ferramenta poderosa para a visualiza√ß√£o de dados, oferecendo uma variedade de gr√°ficos e recursos interativos que facilitam a explora√ß√£o e a interpreta√ß√£o de dados. 

Primeiramente, √© poss√≠vel visualizar a distribui√ß√£o do *band gap* dos materiais presentes no banco de dados. Para isso, utilizaremos um histograma, um gr√°fico que representa a distribui√ß√£o de frequ√™ncias de um conjunto de dados.

In [20]:
fig = px.histogram(df, x='band_gap', title='Histograma do Band Gap')
fig.add_vline(x=df['band_gap'].mean(), line_dash="dash", line_color="green", annotation_text="M√©dia", annotation_position="top right")
fig.show()

*Gr√°fico*

Esse gr√°fico permite visualizar a distribui√ß√£o dos valores do *band gap* para considerarmos se √© realmente um bom target para o nosso modelo. Caso tivessemos uma distribui√ß√£o muito disbalanceada, poderia significar que nosso dataset n√£o √© bom para treinar um modelo, por ser muito enviesado.

Agora √© poss√≠vel visualizar a rela√ß√£o entre o *band gap* e as outras propriedades dos materiais que selecionaremos como atributos. Para isso, utilizaremos um gr√°fico de dispers√£o, que utiliza pontos para representar os valores de duas vari√°veis em um plano cartesiano, permitindo visualizar a rela√ß√£o entre essas vari√°veis.


In [21]:
fig = make_subplots(rows=2, cols=2, start_cell="top-left", subplot_titles=("Density", "Formation Energy per Atom", "Number of Sites", "Dieletric Constant"))

fig.add_trace(go.Scatter(x=df['band_gap'], y=df['density'], mode='markers', name='density'),
                row=1, col=1)

fig.add_trace(go.Scatter(x=df['band_gap'], y=df['formation_energy_per_atom'], mode='markers', name='formation_energy_per_atom'),
                row=1, col=2)

fig.add_trace(go.Scatter(x=df['band_gap'], y=df['nsites'], mode='markers', name='nsites'),
                row=2, col=1)

fig.add_trace(go.Scatter(x=df['band_gap'], y=df['dieletric_constant'], mode='markers', name='dieletric_constant'),
                row=2, col=2)

fig.update_layout(height=600, width=800, title_text="Matriz de gr√°ficos relacionando o Band gap (x) com os atributos (y)")
fig.show()

Com a matriz de gr√°ficos acima, podemos perceber que h√° uma aparente rela√ß√£o entre o *band gap* e as propriedades dos materiais que escolhemos. Essa rela√ß√£o sugere que essas propriedades podem ser √∫teis para prever o *band gap* de materiais, o que justifica a escolha desses atributos para o desenvolvimento do modelo de aprendizado de m√°quina.

Al√©m disso, tamb√©m podemos perceber alguns pontos ***outliers***, que podem ser considerados anomalias e devem ser tratados mais adiante.

Por fim, precisamos fazer um gr√°fico para a rela√ß√£o entre o *band gap* e a conforma√ß√£o cristalina dos materiais, para isso utilizaremos um gr√°fico boxplot, que √© um gr√°fico que permite visualizar a distribui√ß√£o de um conjunto de dados, representando a mediana, quartis e *outliers*.

In [22]:
fig = px.box(df, x="symmetry", y="band_gap", title="Boxplot do Band Gap por Conforma√ß√£o")
fig.show()

Pelo gr√°fico acima, podemos perceber algumas varia√ß√µes no *band gap* de acordo com a conforma√ß√£o cristalina dos materiais, portanto, pode ser plaus√≠vel considerar essa propriedade como um atributo para o modelo de aprendizado de m√°quina.

Como dito anteriormente, precisamos tratar os *outliers* presentes nos dados. Para isso, utilizaremos a t√©cnica de **Winsoriza√ß√£o**, da biblioteca `scipy.stats`, que consiste em substituir os valores extremos por valores menos extremos, reduzindo a influ√™ncia desses valores na an√°lise dos dados.

Vantagens da windsoriza√ß√£o:
- Preserva a informa√ß√£o dos outliers, mas reduz sua influ√™ncia nos resultados.
- Mais robusta que a remo√ß√£o de outliers, especialmente para conjuntos de dados pequenos.
- Pode ser mais adequada que a imputa√ß√£o pela m√©dia/mediana para distribui√ß√µes assim√©tricas.

In [23]:
df['density'] = winsorize(df['density'], limits=[0.05, 0.05])
df['dieletric_constant'] = winsorize(df['dieletric_constant'], limits=[0.05, 0.05])
df['nsites'] = winsorize(df['nsites'], limits=[0.05, 0.05])
df['formation_energy_per_atom'] = winsorize(df['formation_energy_per_atom'], limits=[0.05, 0.05])

fig = make_subplots(rows=2, cols=2, start_cell="top-left", subplot_titles=("Density", "Formation Energy per Atom", "Number of Sites", "Dieletric Constant"))

fig.add_trace(go.Scatter(x=df['band_gap'], y=df['density'], mode='markers', name='density'),
                row=1, col=1)

fig.add_trace(go.Scatter(x=df['band_gap'], y=df['formation_energy_per_atom'], mode='markers', name='formation_energy_per_atom'),
                row=1, col=2)

fig.add_trace(go.Scatter(x=df['band_gap'], y=df['nsites'], mode='markers', name='nsites'),
                row=2, col=1)

fig.add_trace(go.Scatter(x=df['band_gap'], y=df['dieletric_constant'], mode='markers', name='dieletric_constant'),
                row=2, col=2)

fig.update_layout(height=600, width=800, title_text="Matriz de gr√°ficos relacionando o Band gap (x) com os atributos (y) ap√≥s winsoriza√ß√£o")
fig.show()


Agora percebemos menos *outliers* presentes nos dados, o que pode melhorar a performance do modelo de aprendizado de m√°quina. Portanto, com os dados trabalhados, podemos prosseguir para as etapas finais. Vale ressaltar que essa opera√ß√£o faz aparecerem gr√°ficos com aspectos "quadrad√µes", mas isso √© esperado, pois a t√©cnica de Winsoriza√ß√£o altera os valores extremos para valores dentro de um limite.

## üìä **Testando features**

Para testar a efic√°cia das features selecionadas, √© poss√≠vel utilizar o `optuna`, uma biblioteca de otimiza√ß√£o de hiperpar√¢metros que permite encontrar os melhores par√¢metros para um modelo de aprendizado de m√°quina. Apesar de normalmente ser utilizada para otimizar hiperpar√¢metros, neste caso utilizaremos o optuna para verificar o funcionamento de um modelo `RandomForestRegressor` com as features selecionadas, verificando se s√£o funcionais.

Em primeiro caso, iremos aplicar o `optuna` nos dados *derivados* citados anteriormente, para verificar a efic√°cia das features selecionadas.

In [24]:
def objective_teste1(trial):
    """
    Fun√ß√£o objetivo para otimiza√ß√£o de hiperpar√¢metros do RandomForestRegressor.

    Args:
        trial: Objeto Trial do Optuna para gerenciar os hiperpar√¢metros.

    Returns:
        float: Erro quadr√°tico m√©dio (MSE) nos dados de teste.
    """

    features = ["density", "formation_energy_per_atom", "nsites", 
                "symmetry_encoded", "dieletric_constant", "average_atomic_number", 
                "densidade_at√¥mica"]
    target = "band_gap"
    X = df[features]
    y = df[target]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

    model = RandomForestRegressor(
        n_estimators=trial.suggest_int("n_estimators", 2, 20),
        max_depth=trial.suggest_int("max_depth", 2, 20),
    )

    model.fit(X_train, y_train)

    y_pred = model.predict(X_test)

    mse = mean_squared_error(y_test, y_pred)

    return mse

study = optuna.create_study(direction="minimize")
study.optimize(objective_teste1, n_trials=50, show_progress_bar=True)

print(f'Os melhores par√¢metros encontrados foram: {study.best_params}')
print(f'O melhor valor encontrado de RMSE foi: {study.best_value}')
print(f'O melhor trial foi: {study.best_trial}')

optuna.visualization.plot_optimization_history(study)

  0%|          | 0/50 [00:00<?, ?it/s]

Os melhores par√¢metros encontrados foram: {'n_estimators': 20, 'max_depth': 16}
O melhor valor encontrado de RMSE foi: 1.081536934792846
O melhor trial foi: FrozenTrial(number=9, state=1, values=[1.081536934792846], datetime_start=datetime.datetime(2024, 10, 7, 5, 49, 32, 169592), datetime_complete=datetime.datetime(2024, 10, 7, 5, 49, 32, 579343), params={'n_estimators': 20, 'max_depth': 16}, user_attrs={}, system_attrs={}, intermediate_values={}, distributions={'n_estimators': IntDistribution(high=20, log=False, low=2, step=1), 'max_depth': IntDistribution(high=20, log=False, low=2, step=1)}, trial_id=9, value=None)


Agora, iremos aplicar o `optuna` nos dados *diretos* citados anteriormente, para verificar a efic√°cia das features selecionadas.

Vale ressaltar que, pelo grande n√∫mero de colunas novas adicionadas para fra√ß√£o molar, √© mais f√°cil definir as *features* pelo que n√£o queremos, do que pelo que queremos. Portanto, utilizaremos a fun√ß√£o `drop` para retirar as colunas que n√£o queremos.

In [25]:
def objective_teste2(trial):
    """
    Fun√ß√£o objetivo para otimiza√ß√£o de hiperpar√¢metros do RandomForestRegressor.

    Args:
        trial: Objeto Trial do Optuna para gerenciar os hiperpar√¢metros.

    Returns:
        float: Erro quadr√°tico m√©dio (MSE) nos dados de teste.
    """
    #Como utilizaremos muitas colunas de elementos, √© melhor trabalhar excluindo as colunas irrelevantes de nossa feature.
    excluded_columns = [
        "band_gap", "material_id", "elements", "composition", "bandstructure",
        "fractions", "symmetry", "is_gap_direct", "ordering", 
        "types_of_magnetic_species"
    ]
    X = df.drop(columns=excluded_columns)
    y = df["band_gap"]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

    model = RandomForestRegressor(
        n_estimators=trial.suggest_int("n_estimators", 2, 20),
        max_depth=trial.suggest_int("max_depth", 2, 20),
    )

    model.fit(X_train, y_train)

    y_pred = model.predict(X_test)

    mse = mean_squared_error(y_test, y_pred)

    return mse

study = optuna.create_study(direction="minimize")

study.optimize(objective_teste2, n_trials=50, show_progress_bar=True, )

print(f'Os melhores par√¢metros encontrados foram: {study.best_params}')
print(f'O melhor valor encontrado de RMSE foi: {study.best_value}')
print(f'O melhor trial foi: {study.best_trial}')

optuna.visualization.plot_optimization_history(study)

  0%|          | 0/50 [00:00<?, ?it/s]

Os melhores par√¢metros encontrados foram: {'n_estimators': 17, 'max_depth': 19}
O melhor valor encontrado de RMSE foi: 0.7005673772752169
O melhor trial foi: FrozenTrial(number=24, state=1, values=[0.7005673772752169], datetime_start=datetime.datetime(2024, 10, 7, 5, 49, 56, 839781), datetime_complete=datetime.datetime(2024, 10, 7, 5, 49, 57, 704394), params={'n_estimators': 17, 'max_depth': 19}, user_attrs={}, system_attrs={}, intermediate_values={}, distributions={'n_estimators': IntDistribution(high=20, log=False, low=2, step=1), 'max_depth': IntDistribution(high=20, log=False, low=2, step=1)}, trial_id=24, value=None)


Pelos resultados acima, podemos notar que aparentemente as features selecionadas s√£o eficazes para a previs√£o do *band gap* dos materiais, uma vez que o modelo obteve um desempenho razo√°vel. Al√©m disso, a sele√ß√£o *direta* apresentou um desempenho ligeiramente superior ao da sele√ß√£o *derivada*, indicando uma prefer√™ncia de uso. Entretanto isso pode variar de acordo com o modelo utilizado.

Por fim, pode-se escrever o conjunto de dados como um arquivo excel, para que possa ser utilizado em outros trabalhos, assim como ocorrer√° nos pr√≥ximos notebooks.

In [26]:
df.to_csv('materials_trabalhado.csv')

## ‚öîÔ∏è **Conclus√£o**

Neste caderno conseguimos realizar com efic√°cia a coleta e organiza√ß√£o dos dados do *Materials Project*, utilizando a API `mp-api` e o objeto `MPRester`. A extra√ß√£o de features baseadas nos elementos presentes em cada material permitiu enriquecer o conjunto de dados e fornecer informa√ß√µes valiosas para o modelo de aprendizado de m√°quina. 

Al√©m disso, a an√°lise explorat√≥ria dos dados revelou insights importantes sobre as rela√ß√µes entre as features e o *band gap*, guiando a sele√ß√£o de features para o modelo, principalmente com o teste utilizando o `optuna`.

## üìñ **Refer√™ncias Bibliogr√°ficas**

1. MATOS, Fernando Barbosa. **Modelagem Computacional do Comportamento de C√©lulas Fotovoltaicas Baseado nas Propriedades F√≠sicas dos Materiais.** 2006. 125 f. Disserta√ß√£o (Mestrado em Engenharia El√©trica) - Universidade Federal de Uberl√¢ndia, Uberl√¢ndia, 2006.

2. JAIN, A. et al. **Commentary: The Materials Project: A materials genome approach to accelerating materials innovation.** APL Materials, v. 1, n. 1, p. 011002, jul. 2013.

3. MATERIALSPROJECT. **GitHub - materialsproject/api: New API client for the Materials Project**. Dispon√≠vel em: <https://github.com/materialsproject/api>. Acesso em: 7 out. 2024. 

4. e**mmet/emmet-core/emmet/core/summary.py at 1852752d6d283f2a16fb2e0a77c6db65393d15b0 ¬∑ materialsproject/emmet.** Dispon√≠vel em: <https://github.com/materialsproject/emmet/blob/1852752d6d283f2a16fb2e0a77c6db65393d15b0/emmet-core/emmet/core/summary.py#L17-L42>. Acesso em: 7 out. 2024. 

#### **Documenta√ß√µes:**

Este projeto utilizou as seguintes bibliotecas:

**Bibliotecas Python:**

* **`json`:** [https://docs.python.org/3/library/json.html](https://docs.python.org/3/library/json.html) - Manipula√ß√£o de arquivos JSON.
* **`os`:** [https://docs.python.org/3/library/os.html](https://docs.python.org/3/library/os.html) - Intera√ß√£o com o sistema operacional.
* **`re`:** [https://docs.python.org/3/library/re.html](https://docs.python.org/3/library/re.html) -  Opera√ß√µes com express√µes regulares.

**Bibliotecas de Terceiros:**

* **`optuna`:** [https://optuna.readthedocs.io/en/stable/](https://optuna.readthedocs.io/en/stable/) - Otimiza√ß√£o de hiperpar√¢metros.
* **`pandas`:** [https://pandas.pydata.org/docs/](https://pandas.pydata.org/docs/) - Manipula√ß√£o e an√°lise de dados.
* **`plotly.express`:** [https://plotly.com/python/plotly-express/](https://plotly.com/python/plotly-express/) - Cria√ß√£o de gr√°ficos interativos.
* **`plotly.graph_objects`:** [https://plotly.com/python/graph-objects/](https://plotly.com/python/graph-objects/) - Cria√ß√£o de gr√°ficos com maior controle.
* **`plotly.subplots`:** [https://plotly.com/python/subplots/](https://plotly.com/python/subplots/) - Cria√ß√£o de m√∫ltiplos gr√°ficos em uma figura.
* **`emmet.core.summary`:**  - Biblioteca para an√°lise de materiais[3].
* **`mp_api.client`:**  - Interface para a API do Materials Project[3]. 
* **`pymatgen.core.periodic_table`:** [https://pymatgen.org/](https://pymatgen.org/) - Acesso √† tabela peri√≥dica e propriedades dos elementos.
* **`scipy.stats.mstats.winsorize`:** [https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mstats.winsorize.html](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mstats.winsorize.html) -  Fun√ß√£o para windsoriza√ß√£o (tratamento de outliers).
* **`sklearn.ensemble`:** [https://scikit-learn.org/stable/modules/ensemble.html](https://scikit-learn.org/stable/modules/ensemble.html) - Algoritmos de ensemble learning.
* **`sklearn.metrics`:** [https://scikit-learn.org/stable/modules/model_evaluation.html](https://scikit-learn.org/stable/modules/model_evaluation.html) - M√©tricas para avalia√ß√£o de modelos.
* **`sklearn.model_selection`:** [https://scikit-learn.org/stable/modules/cross_validation.html](https://scikit-learn.org/stable/modules/cross_validation.html) - Ferramentas para sele√ß√£o e avalia√ß√£o de modelos.
* **`sklearn.preprocessing`:** [https://scikit-learn.org/stable/modules/preprocessing.html](https://scikit-learn.org/stable/modules/preprocessing.html)- Pr√©-processamento de dados.


## üë£ **Pr√≥ximos passos**

Este √© o primeiro de uma s√©rie de 4 notebooks que comp√µem o trabalho final da disciplina de Aprendizado de M√°quina. Nos pr√≥ximos cadernos, ser√£o realizadas as etapas de desenvolvimento e avalia√ß√£o de modelos de aprendizado de m√°quina para prever o *band gap* de materiais, e a otimiza√ß√£o dos modelos para obter a melhor performance. Para acompanhar o desenvolvimento do projeto, acesse os pr√≥ximos [notebooks](https://github.com/CaioRuas24010/SepulcroDeDelfos/tree/main/A%20Batalha%20Contra%20Dragao):

1. **[`introducao.ipynb`](https://github.com/CaioRuas24010/SepulcroDeDelfos/blob/main/A%20Batalha%20Contra%20Dragao/introducao.ipynb) - Baixando e organizando os dados**
2. **[`modelo_dos_k-nn_vizinhos.ipynb`](https://github.com/CaioRuas24010/SepulcroDeDelfos/blob/main/A%20Batalha%20Contra%20Dragao/modelo_dos_k-nn_vizinhos.ipynb) - Estudando o modelo k-NN**
3. **[`arvore_de_decisao.ipynb`](https://github.com/CaioRuas24010/SepulcroDeDelfos/blob/main/A%20Batalha%20Contra%20Dragao/arvore_de_decisao.ipynb) - Estudando o modelo √Årvore de Decis√£o**
4. **[`conclusao.ipynb`](https://github.com/CaioRuas24010/SepulcroDeDelfos/blob/main/A%20Batalha%20Contra%20Dragao/conclusao.ipynb) - Resultados e discuss√µes finais** 

---

# **<span style="font-family: 'Palatino Linotype', serif;">A jornada continua...</span>**

*<span style="font-family: 'Angilla Tattoo'"> <br> E assim, com os mapas estelares decifrados e as runas ancestrais traduzidas, os bravos guerreiros concluem sua prepara√ß√£o. <br> <br> Mas a jornada apenas come√ßa. O caminho √† frente √© longo e repleto de perigos. A primeira parada ser√° o misterioso vilarejo de vizinhos, onde a sabedoria ancestral dos KNN, os guardi√µes da  profecia, poder√° revelar a localiza√ß√£o do covil do drag√£o. L√°, nossos her√≥is enfrentar√£o o primeiro desafio, usando a for√ßa da uni√£o e o poder da similaridade para desvendar os segredos ancestrais e se aproximar da vit√≥ria. <br> <br> Que os deuses ancestrais os aben√ßoem nesta jornada! Avante, her√≥is, rumo ao destino e √† gl√≥ria! <br> <br> Nossos algoritmos s√£o or√°culos, nossos dados s√£o ossos ancestrais. <br> Sepulcro de Delfos </span>*