скачиваем из базы MaterialsProject CIF файлы для новых материалов

## Библиотеки

In [1]:
from dotenv import load_dotenv # для загрузки ключа из файла .env
import os as os
from pymatgen.ext.matproj import MPRester
from tqdm import tqdm

In [194]:
import pandas as pd

## Ключ API

In [3]:
# импортируем ключ API
load_dotenv()
mp_api_key = os.environ.get('MP_API_KEY')

## Загрузка данных

In [None]:
# Определяем параметры для фильтрации данных
nelements_max = 3  # Максимальное количество элементов в системе, например
is_stable_ = True   # Только стабильные материалы
# is_stable_ = False  # Только Нестабильные материалы

# Создаем объект для работы с API
with MPRester(mp_api_key) as mpr:

    docs = mpr.summary._search(
        nelements_max=nelements_max, # Число элементов в составе: от 1 до 3
        crystal_system="Cubic",             # Фильтр по кубической кристаллической системе
        # elements=["Si",'Ge', 'Ga', 'As', 'In', 'P'],  # Материалы, содержащие
        elements=["Si"],  # Материалы, содержащие кремний
        fields=[
            "material_id", "formula_pretty", 
            'symmetry',                # Поле, которое также может включать информацию о симметрии
        ],
        num_chunks=1,  # Устанавливаем ограничение на количество загружаемых строк
        chunk_size=1000
        )

In [None]:
# смотрим, что получили
docs[2]

[4m[1mMPDataDoc<SummaryDoc>[0;0m[0;0m(
[1mformula_pretty[0;0m='ZrSb',
[1msymmetry[0;0m=SymmetryData(crystal_system=<CrystalSystem.cubic: 'Cubic'>, symbol='P2_13', number=198, point_group='23', symprec=0.1, version='2.5.0'),
[1mmaterial_id[0;0m=MPID(mp-569671),
)

In [92]:
# смотрим, что получили
len(docs)

559

In [1]:
# # смотрим, что получили
# docs[0:100]

In [100]:
# смотрим, что получили
docs[0].symmetry

SymmetryData(crystal_system=<CrystalSystem.cubic: 'Cubic'>, symbol='Pa-3', number=205, point_group='m-3', symprec=0.1, version='2.5.0')

In [101]:
# смотрим, что получили
docs[0].symmetry.crystal_system

<CrystalSystem.cubic: 'Cubic'>

In [103]:
# смотрим, что получили
material_id = docs[2].material_id
material_id

MPID(mp-1200830)

In [104]:
structure = mpr.get_structure_by_material_id(material_id)

Retrieving MaterialsDoc documents:   0%|          | 0/1 [00:00<?, ?it/s]

In [2]:
# смотрим какие атрибуты структуры можно получить
# structure.index
# structure.lattice
# structure.alphabetical_formula
# structure.atomic_numbers
# structure.composition
# structure.density
# structure.CellType
# structure.cart_coords
# structure.charge
# structure.chemical_system
# structure.chemical_system_set
# structure.distance_matrix
# structure.DISTANCE_TOLERANCE
# structure.elements
# structure.formula
# structure.frac_coords
# structure.is_3d_periodic
# structure.is_ordered
# structure.labels
# structure.n_elems
# structure.ntypesp
# structure.num_sites
# structure.pbc
# structure.properties
# structure.REDIRECT
# structure.reduced_formula
# structure.site_properties
# structure.sites
# structure.species
# structure.species_and_occu
# structure.symbol_set
# structure.volume
# structure.types_of_specie
# structure.types_of_species
# structure._charge
# structure._lattice
# structure._properties
# structure._sites
# structure.__annotations__
# structure.__class__
# structure.__dict__
# structure.__doc__
# structure.__module__
# structure.__slots__
# structure.add_site_property
# structure.add_oxidation_state_by_element
# structure.apply_operation
# structure.as_dict

In [172]:
# смотрим, что получили
type(structure)

pymatgen.core.structure.Structure

In [None]:
# смотрим, что получили
structure.frac_coords

array([[ 0.78659388,  0.39175378,  0.13262899],
       [ 0.3948401 ,  0.74087421,  0.60824622],
       [ 0.65396589,  0.86737101,  0.25912579],
       [ 0.65396589,  0.25912579,  0.86737101],
       [ 0.78659388,  0.13262899,  0.39175378],
       [ 0.3948401 ,  0.60824622,  0.74087421],
       [ 0.25912579,  0.65396589,  0.86737101],
       [ 0.13262899,  0.78659388,  0.39175378],
       [ 0.60824622,  0.3948401 ,  0.74087421],
       [ 0.39175378,  0.78659388,  0.13262899],
       [ 0.74087421,  0.3948401 ,  0.60824622],
       [ 0.86737101,  0.65396589,  0.25912579],
       [ 0.74087421,  0.60824622,  0.3948401 ],
       [ 0.86737101,  0.25912579,  0.65396589],
       [ 0.39175378,  0.13262899,  0.78659388],
       [ 0.60824622,  0.74087421,  0.3948401 ],
       [ 0.25912579,  0.86737101,  0.65396589],
       [ 0.13262899,  0.39175378,  0.78659388],
       [ 0.21340612,  0.34603411,  0.6051599 ],
       [ 0.6051599 ,  0.21340612,  0.34603411],
       [ 0.34603411,  0.6051599 ,  0.213

## Формируем CIF-файлы с данными по структуре

In [None]:
# Сохраняем CIF-файлы
for material in tqdm(docs):
    material_id = material.material_id
    formula = material.formula_pretty

    # Загружаем структуру в формате CIF
    structure = mpr.get_structure_by_material_id(material_id)
    # cif_filename = f"{formula}_{material_id}.cif"
    cif_filename = f"{material_id[3:]}.cif"
    path_ = (f'C:/Users/lazarevnv/Desktop/materials_science/code_materials/graphs_code/for_cif_files/{cif_filename}')
    structure.to(filename=path_, fmt="cif")

    print(f"Сохранен: {cif_filename}")

## Формируем файл с прогнозируемой величиной - Энергией образования материала

In [192]:
# Список для хранения данных
data = []

In [180]:
# выберем материал для примера
material_example = docs[100]

In [181]:
material_example

[4m[1mMPDataDoc<SummaryDoc>[0;0m[0;0m(
[1mformula_pretty[0;0m='SiO2',
[1msymmetry[0;0m=SymmetryData(crystal_system=<CrystalSystem.cubic: 'Cubic'>, symbol='Fd-3c', number=228, point_group='m-3m', symprec=0.1, version='2.5.0'),
[1mmaterial_id[0;0m=MPID(mp-556257),
)

In [182]:
material_id = material.material_id
formula = material.formula_pretty
material_id

MPID(mp-1220929)

In [187]:
# Запрашиваем информацию о целевом свойстве материала
material_data = mpr.summary.get_data_by_id(material_id, fields=["formation_energy_per_atom"])

# таким образом можно запрашивать любые доступные свойства
# material_data = mpr.summary.get_data_by_id(material_id, fields=["formation_energy_per_atom", 'structure'])

  material_data = mpr.summary.get_data_by_id(material_id, fields=["formation_energy_per_atom"])
  material_data = mpr.summary.get_data_by_id(material_id, fields=["formation_energy_per_atom"])


Retrieving SummaryDoc documents:   0%|          | 0/1 [00:00<?, ?it/s]

In [189]:
material_data

[4m[1mMPDataDoc<SummaryDoc>[0;0m[0;0m(
[1mformation_energy_per_atom[0;0m=0.113019668777092,
)

In [191]:
# Получим значение энергии образования вещества эВ/атом
formation_energy = material_data.formation_energy_per_atom
formation_energy

0.113019668777092

In [200]:
data.append([material_id.parts[1], formation_energy])

In [199]:
material_id.parts[1]

1220929

In [201]:
data

[[MPID(mp-1220929), 0.113019668777092], [1220929, 0.113019668777092]]

In [202]:
# Создаём датафрейм
df = pd.DataFrame(data, columns=['materials_id', 'formation_energy_per_atom'])
df

Unnamed: 0,materials_id,formation_energy_per_atom
0,mp-1220929,0.11302
1,1220929,0.11302


In [None]:
# Список для хранения данных
data = []

# Формируем содержимое файла в цикле
for material in tqdm(docs):
    material_id = material.material_id
    formula = material.formula_pretty

    # Запрашиваем информацию о целевом свойстве материала
    material_data = mpr.summary.get_data_by_id(material_id, fields=["formation_energy_per_atom"])

    # Получим значение энергии образования вещества эВ/атом
    formation_energy = material_data.formation_energy_per_atom

    # добавляем донные в список
    data.append([material_id.parts[1], formation_energy])

In [208]:
len(data)

559

In [209]:
# Создаём датафрейм
df = pd.DataFrame(data, columns=['materials_id', 'formation_energy_per_atom'])

In [210]:
# смотрим, что получили
df.tail(3)

Unnamed: 0,materials_id,formation_energy_per_atom
556,1194890,-0.066535
557,1194936,-0.049193
558,1220929,0.11302


In [211]:
# сохраняем данные в файле csv по указанной ссылке
PATH_FILE = ('C:/Users/lazarevnv/Desktop/materials_science/code_materials/graphs_code/for_cif_files/id_prop.csv')
df.to_csv(PATH_FILE, index=False, encoding='utf-8', sep=',')