In [129]:
from collections import Counter

In [130]:
# متن را از فایل بخوانید
with open('RNA_Sequence_Data.txt', 'r') as file:
    text = file.read().replace('\n', '').upper()

In [113]:
# تعداد bigrams متن را محاسبه کنید
def count_bigrams(text):
    return len(text) - 1

In [114]:
# 20 bigrams برتر را در متن پیدا کنید
def find_top_20_bigrams(text):
    bigrams = [text[i:i+2] for i in range(len(text)-1)]
    bigram_counts = Counter(bigrams)
    top_20_bigrams = bigram_counts.most_common(20)
    return top_20_bigrams

In [116]:
# جانشین های احتمالی بعد از "GTG" را در متن پیدا کنید
def find_successors_GTG(text):
    bigrams = [text[i:i+2] for i in range(len(text)-1)]
    successors = [bigrams[i+1][1] for i in range(len(bigrams)-1) if bigrams[i] == 'GT']
    return successors

In [117]:
# احتمال تخمین حداکثر احتمال (MLE) را برای یک bigram معین محاسبه کنید
def calculate_MLE_probability(bigram, text):
    bigrams = [text[i:i+2] for i in range(len(text)-1)]
    bigram_counts = Counter(bigrams)
    total_count = len(bigrams)
    mle_probability = bigram_counts[bigram] / total_count
    return mle_probability

In [118]:
# احتمال وقوع دو bigrams داده شده را با هم محاسبه کنید
def calculate_joint_probability(bigram1, bigram2, text):
    bigrams = [text[i:i+2] for i in range(len(text)-1)]
    bigram_counts = Counter(bigrams)
    total_count = len(bigrams)
    probability_1 = bigram_counts[bigram1] / total_count
    probability_2 = bigram_counts[bigram2] / total_count
    joint_probability = probability_1 * probability_2
    return joint_probability


 

In [119]:
# با استفاده از مدل bigram دنباله ای از 20 نوکلئوتید تولید کنید
def generate_sequence(bigrams, length=20):
    sequence = []
    while len(sequence) < length:
        candidates = [bigrams[i+1][1] for i in range(len(bigrams)-1) if bigrams[i] == sequence[-1]]
        if candidates:
            next_nucleotide = max(set(candidates), key=candidates.count)
        else:
            next_nucleotide = max(set([bigram[1] for bigram in bigrams]), key=[bigram[1] for bigram in bigrams].count)
        sequence.append(next_nucleotide)
    return ''.join(sequence)

In [121]:
# تعداد bigrams متن را محاسبه کنید
num_bigrams = count_bigrams(text)
print("Number of bigrams in the text:", num_bigrams)

Number of bigrams in the text: 75577


In [122]:
# 20 bigrams برتر را در متن پیدا کنید
top_20_bigrams = find_top_20_bigrams(text)
print("Top 20 most frequent bigrams:")
for bigram, count in top_20_bigrams:
    print(bigram, "-", count)

Top 20 most frequent bigrams:
GG - 13048
TG - 7679
AG - 6943
GA - 6531
CC - 5877
GT - 5472
GC - 4717
CA - 4136
CT - 4015
AA - 3487
AC - 2857
TC - 2613
AT - 2044
TT - 1889
CG - 1801
TA - 1228
NG - 620
GN - 323
CN - 235
AN - 51


In [132]:
# جانشین های احتمالی بعد از "GTG" را در متن پیدا کنید
successors_GTG = find_successors_GTG(text)
print("Successors after 'GTG':", successors_GTG)

Successors after 'GTG': ['G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'A', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'A', 'G', 'G', 'G', 'C', 'G', 'T', 'G', 'T', 'G', 'C', 'G', 'C', 'C', 'A', 'C', 'C', 'T', 'C', 'C', 'G', 'C', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'C', 'G', 'G', 'T', 'G', 'T', 'G', 'G', 'C', 'C', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'C', 'G', 'G', 'G', 'T', 'G', 'T', 'G', 'A', 'G', 'G', 'G', 'T', 'A', 'G', 'A', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'C', 'C', 'A', 'G', 'G', 'A', 'G', 'G', 'T', 'G', 'T', 'G', 'C', 'T', 'C', 'G', 'A', 'G', 'T', 'T', 'G', 'A', 'A', 'G', 'G', 'T', 'A', 'A', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'C', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'G', 'C', 'G', 'C', 'T', 'G', 'G', 'G', 

In [126]:
# محاسبه احتمال MLE برای "GTG"
mle_probability_GTG = calculate_MLE_probability("GTG", text)
print("MLE probability for 'GTG':", mle_probability_GTG)

MLE probability for 'GTG': 0.0


In [127]:
# احتمال مشترک دوbigrams را محاسبه کنید
joint_probability = calculate_joint_probability("GT", "TG", text)
print("Joint probability of 'GT' and 'TG':", joint_probability)

Joint probability of 'GT' and 'TG': 0.0073565037173050915


In [131]:
# با استفاده از مدل bigram دنباله ای از 20 نوکلئوتید تولید کنید
def generate_sequence(bigrams, length=20):
    sequence = []
    while len(sequence) < length:
        if not sequence:
            candidates = [bigram[1] for bigram in bigrams if bigram[0] == bigrams[0][0]]
        else:
            candidates = [bigram[1] for bigram in bigrams if bigram[0] == sequence[-1]]
        if candidates:
            next_nucleotide = max(set(candidates), key=candidates.count)
        else:
            next_nucleotide = max(set([bigram[1] for bigram in bigrams]), key=[bigram[1] for bigram in bigrams].count)
        sequence.append(next_nucleotide)
    return ''.join(sequence)

# با استفاده از مدل bigram دنباله ای از 20 نوکلئوتید تولید کنید
generated_sequence = generate_sequence(bigrams, length=20)
print("دنباله تولید شده:", generated_sequence)

دنباله تولید شده: GGGGGGGGGGGGGGGGGGGG
