In [2]:
from pymatgen.core.structure import Structure, Lattice, Molecule
from mp_api.client import MPRester
import dotenv
import os

### Часть 1: Материалы
1. Загрузить структуру материала по его названию ("MnFe2O4").  
2. Проанализировать состав и элементы материала.  
3. Вычислить параметры решётки и плотность.

In [4]:
dotenv.load_dotenv()

API_KEY = os.getenv("API_KEY")
client = MPRester(API_KEY)
raw = client.materials.summary.search(formula="MnFe2O4")
structure: Structure = raw[0].structure
print(structure)

Retrieving SummaryDoc documents: 100%|██████████| 6/6 [00:00<?, ?it/s]

Full Formula (Mn10 Fe20 O40)
Reduced Formula: Mn(FeO2)2
abc   :   6.150494   6.100717  30.396005
angles:  60.279723  59.998079  59.837294
pbc   :       True       True       True
Sites (70)
  #  SP           a         b         c    magmom
---  ----  --------  --------  --------  --------
  0  Mn    0.125585  0.12847   0.02481      4.639
  1  Mn    0.002381  0.500143  0.099514     3.989
  2  Mn    0.128669  0.127284  0.224312     4.634
  3  Mn    0.128352  0.122436  0.425415     4.631
  4  Mn    0.000682  0.497553  0.50056      4.116
  5  Mn    0.12062   0.124349  0.627158     4.63
  6  Mn    0.002588  0.501439  0.299683     4.492
  7  Mn    0.122237  0.127152  0.825253     4.642
  8  Mn    0.998346  0.502359  0.700177     4.095
  9  Mn    0.878815  0.874438  0.9738       4.649
 10  Fe    0.502299  0.001466  0.099341     4.369
 11  Fe    0.500029  0.503541  0.999434     4.38
 12  Fe    0.500882  0.499626  0.099371     4.367
 13  Fe    0.497122  0.005267  0.299203     4.371
 14  Fe    0




In [5]:
composition = structure.composition
formula = composition.fractional_composition
print(f"Состав: {formula.as_reduced_dict()}")

Состав: {'Mn': 0.14285714285714285, 'Fe': 0.2857142857142857, 'O': 0.5714285714285714}


In [6]:
print(f"Параметры решетки: {structure.lattice.params_dict}")

Параметры решетки: {'a': 6.150493600289411, 'b': 6.100716953321962, 'c': 30.396005395963694, 'alpha': 60.279723329094324, 'beta': 59.99807904718926, 'gamma': 59.83729374457539}


In [7]:
print(f"Плотность структуры: {structure.density}")

Плотность структуры: 4.744605346781863 g cm^-3


### Часть 2: Последовательности ДНК/РНК
1. Создать или выбрать последовательности по названиям генов или произвольные последовательности.  
2. Вычислить GC-состав каждой последовательности.  
3. Получить обратную комплементарную последовательность и транскрибировать в РНК. 

In [8]:
from Bio.Seq import Seq

In [9]:
sequences = {
    "1st": "ATGCGTACGTTAGC",
    "2d": "GGATCGAATTCGGA",
    "3d": "ATATGGCCGTAACG",
}

def gc_content(seq):
    gc_count = seq.count("G") + seq.count("C")
    return (gc_count / len(seq)) * 100

In [None]:
for name, seq_str in sequences.items():
    seq = Seq(seq_str)
    
    gc = gc_content(seq)
    
    rev_comp = seq.reverse_complement()
    
    rna = seq.transcribe()
    
    print(f"Последовательность: {name}")
    print(f"ДНК: {seq}")
    print(f"GC-состав: {gc:.2f}%")
    print(f"Обратная комплементарная: {rev_comp}")
    print(f"РНК: {rna}")
    print("-"*40)

Последовательность: 1st
ДНК: ATGCGTACGTTAGC
GC-состав: 50.00%
Обратная комплементарная: GCTAACGTACGCAT
РНК: AUGCGUACGUUAGC
----------------------------------------
Последовательность: 2d
ДНК: GGATCGAATTCGGA
GC-состав: 50.00%
Обратная комплементарная: TCCGAATTCGATCC
РНК: GGAUCGAAUUCGGA
----------------------------------------
Последовательность: 3d
ДНК: ATATGGCCGTAACG
GC-состав: 50.00%
Обратная комплементарная: CGTTACGGCCATAT
РНК: AUAUGGCCGUAACG
----------------------------------------


### Часть 3: Белки
1. Выбрать белок альфа Амилаза по названию или UniProt ID и получить его последовательность аминокислот.  
2. Вычислить физико-химические дескрипторы белка (состав аминокислот, частоты дипептидов). 

In [None]:
import requests
from Bio.SeqUtils.ProtParam import ProteinAnalysis

# Human salivary alpha-amylase
uniprot_id = "P00688"

url = f"https://www.uniprot.org/uniprot/{uniprot_id}.fasta"
response = requests.get(url)

if response.status_code == 200:
    fasta_data = response.text
    sequence = "".join(fasta_data.split("\n")[1:])
    print(f"Последовательность белка ({uniprot_id}):\n{sequence}\n")
else:
    print("Ошибка при получении последовательности")

Последовательность белка (P00688):
MKFVLLLSLIGFCWAQYDPHTSDGRTAIVHLFEWRWVDIAKECERYLAPKGFGGVQVSPPNENVVVHNPSRPWWERYQPISYKICTRSGNEDEFRDMVTRCNNVGVRIYVDAVINHMCGAGNPAGTSSTCGSYLNPNNREFPAVPYSAWDFNDNKCNGEIDNYNDAYQVRNCRLTGLLDLALEKDYVRTKVADYMNHLIDIGVAGFRLDAAKHMWPGDIKAVLDKLHNLNTKWFSQGSRPFIFQEVIDLGGEAIKGSEYFGNGRVTEFKYGAKLGTVIRKWNGEKMSYLKNWGEGWGLVPSDRALVFVDNHDNQRGHGAGGSSILTFWDARMYKMAVGFMLAHPYGFTRVMSSYRWNRNFQNGKDQNDWIGPPNNNGVTKEVTINADTTCGNDWVCEHRWRQIRNMVAFRNVVNGQPFSNWWDNNSNQVAFSRGNRGFIVFNNDDWALSATLQTGLPAGTYCDVISGDKVDGNCTGLRVNVGSDGKAHFSISNSAEDPFIAIHADSKL



In [None]:
protein = ProteinAnalysis(sequence)

aa_composition = protein.get_amino_acids_percent()
print("Состав аминокислот (%):")
for aa, perc in aa_composition.items():
    print(f"{aa}: {perc:.2%}")

dipeptides = protein.get_amino_acids_percent()
from itertools import product

aa_letters = 'ACDEFGHIKLMNPQRSTVWY'
seq_len = len(sequence)
dipeptide_counts = {}
for a1, a2 in product(aa_letters, repeat=2):
    dipeptide = a1 + a2
    count = sequence.count(dipeptide)
    dipeptide_counts[dipeptide] = count / (seq_len - 1)  # нормируем на количество возможных дипептидов

print("\nПример частот дипептидов (первые 10):")
for dp, freq in list(dipeptide_counts.items())[:10]:
    print(f"{dp}: {freq:.4f}")

Состав аминокислот (%):
A: 6.50%
C: 2.36%
D: 6.89%
E: 3.74%
F: 4.92%
G: 9.45%
H: 2.56%
I: 4.72%
K: 4.53%
L: 5.71%
M: 2.17%
N: 9.25%
P: 3.94%
Q: 2.56%
R: 5.91%
S: 5.71%
T: 4.13%
V: 7.68%
W: 3.74%
Y: 3.54%

Пример частот дипептидов (первые 10):
AA: 0.0020
AC: 0.0000
AD: 0.0059
AE: 0.0020
AF: 0.0039
AG: 0.0099
AH: 0.0039
AI: 0.0059
AK: 0.0059
AL: 0.0059


