In [11]:
import time
from DNA_RNA_aminoacid_tools import run_genscan, DNASequence, RNASequence, AminoAcidSequence
from custom_random_forest import RandomForestClassifierCustom
from bio_files_processor import OpenFasta
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score

Пример RandomForestClassifierCustom

In [10]:
X, y = make_classification(n_samples=100000)

start_time = time.time()
random_forest_1_thread = RandomForestClassifierCustom(max_depth=30, n_estimators=10, max_features=2, random_state=42)
random_forest_1_thread.fit(X, y, n_jobs=1)
fit_time_1_thread = time.time() - start_time

start_time = time.time()
predictions_1_thread = random_forest_1_thread.predict(X, n_jobs=1)
predict_time_1_thread = time.time() - start_time

start_time = time.time()
random_forest_2_threads = RandomForestClassifierCustom(max_depth=30, n_estimators=10, max_features=2, random_state=42)
random_forest_2_threads.fit(X, y, n_jobs=2)
fit_time_2_threads = time.time() - start_time

start_time = time.time()
predictions_2_threads = random_forest_2_threads.predict(X, n_jobs=2)
predict_time_2_threads = time.time() - start_time

predictions_match = (predictions_1_thread == predictions_2_threads)

print("Время выполнения fit с 1 потоком:", fit_time_1_thread)
print("Время выполнения predict с 1 потоком:", predict_time_1_thread)
print("Время выполнения fit с 2 потоками:", fit_time_2_threads)
print("Время выполнения predict с 2 потоками:", predict_time_2_threads)
print("Полученные предсказания совпадают:", predictions_match)

Время выполнения fit с 1 потоком: 9.016872882843018
Время выполнения predict с 1 потоком: 0.27010178565979004
Время выполнения fit с 2 потоками: 5.020472526550293
Время выполнения predict с 2 потоками: 0.16237664222717285
Полученные предсказания совпадают: [ True  True  True ...  True  True  True]


Пример OpenFasta

In [6]:
with OpenFasta("./data/example_fasta.fasta") as file:
    records = file.read_records()
    for record in records:
        print(record)

FastaRecord(id='GTD323452', description='5S_rRNA NODE_272_length_223_cov_0.720238:18-129(+)', sequence='...')
FastaRecord(id='GTD678345', description='16S_rRNA NODE_80_length_720_cov_1.094737:313-719(+)', sequence='...')
FastaRecord(id='GTD174893', description='16S_rRNA NODE_1_length_2558431_cov_75.185164:2153860-2155398(+)', sequence='...')
FastaRecord(id='GTD906783', description='16S_rRNA NODE_1_length_2558431_cov_75.185164:793941-795479(-)', sequence='...')
FastaRecord(id='GTD129563', description='16S_rRNA NODE_4_length_428221_cov_75.638017:281055-282593(-)', sequence='...')


Пример run_genscan

In [9]:
run_genscan(sequence_file="./data/SHH_gene.txt")

GenscanOutput(status='Successful', cds_list=['MLLLARCLLLVLVSSLLVCSGLACGPGRGFGKRRHPKKLTPLAYKQFIPNVAEKTLGASGRYEGKISRNSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDKLNALAISVMNQWPGVKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRSKYGMLARLAVEAGFDWVYYESKAH', ''], intron_list=[['2.01', 11557, 11155], ['1.01', 642, 5906], ['1.02', 6169, 8737]], exon_list=[['2.01', 11453, 11556], ['2.02', 11156, 11304], ['1.01', 342, 641], ['1.02', 5907, 6168], ['1.03', 8738, 9564]])

Пример DNASequence, RNASequence, AminoAcidSequence

In [13]:
dna_seq = DNASequence("ATCGATCG")
rna_seq = dna_seq.transcribe()
amino_seq = AminoAcidSequence("ARDEKO")
charge = amino_seq.seq_charge()

print("ДНК последовательность:", dna_seq)
print("Транскрибированная РНК последовательность:", rna_seq)
print("Последовательность аминокислот:", amino_seq)
print("Заряд последовательности аминокислот:", charge)

ДНК последовательность: ATCGATCG
Транскрибированная РНК последовательность: UAGCUAGC
Последовательность аминокислот: ARDEKO
Заряд последовательности аминокислот: positive
