### Print the Markov transition matrix from a given DNA sequence.

Taking input and checking for validity.

In [3]:
s = input("Enter the DNA sequence: ")
print("You entered the sequence:", s)
for c in s:
    if c not in {'A','G','T','C'}:
        print("You entered an invalid DNA sequence.")
        break

Enter the DNA sequence:  AGTCAAGGTTCCGTCA


You entered the sequence: AGTCAAGGTTCCGTCA


Computing the observed dinucleotide probabilities and base frequencies.

In [11]:
base_map={0: 'A', 1: 'C', 2: 'G', 3: 'T'}
n = len(s)
trp={}
bp={}

for i in range(4):
    for j in range(4):
        cnt = 0
        for k in range(len(s)-1):
            if(s[k]==base_map[i] and s[k+1]==base_map[j]):
                cnt += 1
        t=base_map[i]+base_map[j]
        trp[t]=cnt/(n-1)

print("Observed dinucleotide frequencies:")
for k, val in trp.items():
        print(f"{k}: {val}")
print()

for i in range(4):
    bp[base_map[i]] = 0
    for j in range(4):
        bp[base_map[i]] += trp[base_map[i]+base_map[j]]

print("Observed base frequencies:")
for k, val in bp.items():
        print(f"{k}: {val}")

Observed dinucleotide frequencies:
AA: 0.06666666666666667
AC: 0.0
AG: 0.13333333333333333
AT: 0.0
CA: 0.13333333333333333
CC: 0.06666666666666667
CG: 0.06666666666666667
CT: 0.0
GA: 0.0
GC: 0.0
GG: 0.06666666666666667
GT: 0.2
TA: 0.0
TC: 0.2
TG: 0.0
TT: 0.06666666666666667

Observed base frequencies:
A: 0.2
C: 0.26666666666666666
G: 0.26666666666666666
T: 0.26666666666666666


Calculating the Markov transition matrix by the conditional probability formula.

In [15]:
trm=[[0,0,0,0],[0,0,0,0],[0,0,0,0],[0,0,0,0]]

for i in range(4):
    for j in range(4):
        dinuc=base_map[i]+base_map[j]
        if(bp[base_map[i]]):
            trm[i][j]=trp[dinuc]/bp[base_map[i]]
        
print("The transition matrix for the given sequence is:")
print("","A","C","G","T",sep="\t")
for i in range(4):
    print(base_map[i],end="\t")
    for j in range(4):
        print(f"{trm[i][j]:.4f}", end="\t")
    print()

The transition matrix for the given sequence is:
	A	C	G	T
A	0.3333	0.0000	0.6667	0.0000	
C	0.5000	0.2500	0.2500	0.0000	
G	0.0000	0.0000	0.2500	0.7500	
T	0.0000	0.7500	0.0000	0.2500	
