<a href="https://colab.research.google.com/github/ihsntgl/bioinformatic/blob/main/covid19.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Python ile Covid-19 Protein Analizi**

Kaynak:https://medium.com/analytics-vidhya/covid-19-protein-analysis-with-python-82bccb607b98

Covid-19 spike proteini ile protein analizinin temellerini öğrenin

Proteomik, biyolojik sistemlerdeki proteinlerin incelenmesidir. Tipik olarak bu alanda proteinlerin yapısı, işlevleri ve etkileşimleri incelenir. Ancak bu alanın en önemli hedeflerinden biri proteinin 3 boyutlu yapısını karakterize etmektir. Birlikte çalıştığımız DNA dizisini anlayarak başlayalım ve python kullanarak protein sentezi gerçekleştirelim.

Bunun için covid-19 genomu için FASTA dizisine ihtiyacımız olacak.

In [1]:
import urllib.request
url = 'https://raw.githubusercontent.com/VarunSendilraj/Bioinformatics/main/covid19_basic%20_protien_analysis/sequence.fasta'
filename = 'sequence.fasta'
urllib.request.urlretrieve(url, filename)

('sequence.fasta', <http.client.HTTPMessage at 0x7f4742057b90>)

In [5]:
pip install biopython

Collecting biopython
  Downloading biopython-1.79-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (2.3 MB)
[K     |████████████████████████████████| 2.3 MB 14.4 MB/s 
Installing collected packages: biopython
Successfully installed biopython-1.79


**FASTA Dosyasını Anlamak** 

Biopython kitaplığını içe aktararak ve genom dosyasını ayrıştırarak analizimize başlayalım:

In [6]:
import Bio
from Bio import SeqIO # library used to parse the file
from Bio import Seq
covid19 = SeqIO.parse('sequence.fasta', 'fasta')

Tipik bir FASTA dosyasında, ilgilenilen sıraya ek olarak orada saklanan birçok başka kayıt vardır. İlgilenilen bilgileri yalıtmak ve yazdırmak için FASTA dosyasını yineleyelim:

In [14]:
for rec in covid19:
    seq = rec.seq  #genome sequence
    print(rec.description)
    print(seq[:10])
    print(seq.alphabet)

Şimdi, dizinin çıktısını alsaydık, çok korkutucu ve kafa karıştırıcı görünürdü:

In [15]:
seq

Seq('ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGT...AAA')

In [22]:
from Bio import Seq

seq = Seq.Seq(str(seq))
print(seq)

ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTGTTGCAGCCGATCATCAGCACATCTAGGTTTCGTCCGGGTGTGACCGAAAGGTAAGATGGAGAGCCTTGTCCCTGGTTTCAACGAGAAAACACACGTCCAACTCAGTTTGCCTGTTTTACAGGTTCGCGACGTGCTCGTACGTGGCTTTGGAGACTCCGTGGAGGAGGTCTTATCAGAGGCACGTCAACATCTTAAAGATGGCACTTGTGGCTTAGTAGAAGTTGAAAAAGGCGTTTTGCCTCAACTTGAACAGCCCTATGTGTTCATCAAACGTTCGGATGCTCGAACTGCACCTCATGGTCATGTTATGGTTGAGCTGGTAGCAGAACTCGAAGGCATTCAGTACGGTCGTAGTGGTGAGACACTTGGTGTCCTTGTCCCTCATGTGGGCGAAATACCAGTGGCTTACCGCAAGGTTCTTCTTCGTAAGAACGGTAATAAAGGAGCTGGTGGCCATAGTTACGGCGCCGATCTAAAGTCATTTGACTTAGGCGACGAGCTTGGCACTGATCCTTATGAAGATTTTCAAGAAAACTGGAACACTAAACATAGCAGTGGTGTTACCCGTGAACTCATGCGTGAGCTTAACGGAGGGGCATACACTCGCTATGTCGATAACAACTTCTGTGGCCCTGATGGCTACCCTCTTGAGTGCATTAAAGACCTTCTAGCACGTGCTGGTAAAGCTTCATGCACTTTGTCCGAACAACTGGACTTTATTGACACTAAGAGGGGTGTATACTGCTGCCGTGAACATGAGCATGAAATTGCTTGGTACACGGAACGTTCT

Bunun yerine, bir defaultdict kullanarak genomdaki her azotlu bazın miktarını sayalım:

In [23]:
from collections import defaultdict
count = defaultdict(int)
for letter in seq:
    count[letter] += 1
    
total = sum(count.values())
count

defaultdict(int, {'A': 8954, 'C': 5492, 'G': 5863, 'T': 9594})

Ve her bazın yüzdesini analiz edelim:

In [24]:
for letter, count in count.items():
    print(f'{letter}: {100.*count / total} {count}')

A: 29.943483931378122 8954
T: 32.083737417650404 9594
G: 19.60672842189747 5863
C: 18.366050229074006 5492


**Covid-19 Protein Sentezi** 

Artık genomu anladığımıza göre, DNA'yı Proteinlere dönüştürelim. Bu sürecin ilk adımına transkripsiyon denir. Bu, bir DNA dizisinin, RNA polimeraz enzimi yardımıyla bir RNA molekülüne dönüştürülmesi işlemidir. Bunu aslında Biopython'un transcribe() işleviyle simüle edebiliriz:

In [43]:
seq.complement()
seq.reverse_complement()
rna=seq.transcribe()

In [44]:
rnaCount = defaultdict(int)
for letter in rna:
    rnaCount[letter] += 1
    
total = sum(rnaCount.values())
print(rnaCount)

defaultdict(<class 'int'>, {'A': 8954, 'U': 9594, 'G': 5863, 'C': 5492})


Yukarıdaki kod ile T (timin) yerine U (Urasil) geldiğini görebiliriz. Bu, transkripsiyonun başarılı olduğunu gösterir. Bir sonraki adım, bunu çeviri yoluyla bir proteine ​​​​dönüştürmektir. Translasyon, ribozomlar tarafından protein sentezi sürecini tanımlamak için kullanılan terimdir. Yukarıdaki örneğe benzer şekilde bu, bir translate() işleviyle yapılabilir:

In [45]:
protien = rna.translate(stop_symbol="*") #(*)represent stop codon
print(protien)

IKGLYLPR*QTNQLSISCRSVL*TNFKICVAVTRLHA*CTHAV*LITNYCR*QDTSNSSIFCRLLTVSSVLQPIISTSRFRPGVTER*DGEPCPWFQRENTRPTQFACFTGSRRARTWLWRLRGGGLIRGTSTS*RWHLWLSRS*KRRFAST*TALCVHQTFGCSNCTSWSCYG*AGSRTRRHSVRS*W*DTWCPCPSCGRNTSGLPQGSSS*ER**RSWWP*LRRRSKVI*LRRRAWH*SL*RFSRKLEH*T*QWCYP*THA*A*RRGIHSLCR*QLLWP*WLPS*VH*RPSSTCW*SFMHFVRTTGLY*H*EGCILLP*T*A*NCLVHGTF*KEL*IADTF*N*IGKEI*HLQWGMSKFCISLKFHNQDYSTKG*KEKA*WLYG*NSICLSSCVTK*MQPNVPFNSHEV*SLW*NFMADGRFC*SHLRILWH*EFD*RRCHYLWLLTPKCCC*NLLSSMSQFRSRT*A*SCRIP**IWLENHSS*GWSHYCLWRLCVLLCWLP*QVCLLGSTC*R*HRL*PYRCCWRRFRRS**QPS*NTPKRESQHQYCW*L*T**RDRHYFGIFFCFHKCFCGNCERFGL*SIQTNC*ILW*F*SYKRKS*KRCLEYW*TEINTESSLCICIRGCSCCTINFLPHS*NCSKFCACFTEGRYNNTRWNFTVFTETH*CYDVHI*FGY*QSSCNGLHYRWCCSVDFAVAN*HLWHCL*KTQTRP*LA*REV*GRCRVS*RRLGNC*IYLNLCL*NCRWTNCHLCKGN*GECSDIL*ACK*IFGFVC*LYHYWWS*T*SLEFR*NICHALKGIVQKVC*IQRRNWPTHASKSPKRNYLLRGRNTSHRSVNRGSCLENW*FTTIRTTY**SC*SSIGWYTSLY*RAYVARNQRHRKVLCPCT*YDGNKQYLHTQRRCTNKGYFW**HCDRSARLQECEYHF*T**KD**ST**EVLCLYS*TRYRSK*VRLCCGRCCHKNFATSI*ITYTTGH*FR*VEYGYILLI**VW



Durdurma kodonları, yıldız işareti (*) ile temsil edilir. Bu, ribozoma o bölgede o spesifik proteinin inşasını durdurmasını söyler. Bu bilgi ile diziyi ayrı proteinlerine ayırmaya ve onu bir veri çerçevesinde düzenlemeye izin verir:

In [46]:
aa = protien.split("*")
ncov = [str(i) for i in aa]
ncov_len = [len(str(i)) for i in aa]
#store the amino acid chains into a df
import pandas as pd
df = pd.DataFrame({'Amino Acids': ncov, 'Length': ncov_len })
df.head()

Unnamed: 0,Amino Acids,Length
0,IKGLYLPR,8
1,QTNQLSISCRSVL,13
2,TNFKICVAVTRLHA,14
3,CTHAV,5
4,LITNYCR,7


En uzun ve en kısa Amino Asit Dizilerine (proteinler) bakalım:

In [47]:
df.nlargest(5, "Length")


Unnamed: 0,Amino Acids,Length
548,CTIVFKRVCGVSAARLTPCGTGTSTDVVYRAFDIYNDKVAGFAKFL...,2701
694,ASAQRSQITLHINELMDLFMRIFTIGTVTLKQGEIKDATPSDFVRA...,290
719,TNMKIILFLALITLATCELYHYQECVRGTTVLLKEPCSSGTYEGNS...,123
695,AQADEYELMYSFVSEETGTLIVNSVLLFLAFVVFLLVTLAILTALR...,83
718,QQMFHLVDFQVTIAEILLIIMRTFKVSIWNLDYIINLIIKNLSKSL...,63


In [48]:
df.nsmallest(5, "Length")

Unnamed: 0,Amino Acids,Length
14,,0
52,,0
59,,0
64,,0
93,,0


Son olarak en yaygın amino asitlere bakalım:

In [49]:
from collections import Counter
Counter(protien).most_common(10)

[('L', 886),
 ('S', 810),
 ('*', 774),
 ('T', 679),
 ('C', 635),
 ('F', 593),
 ('R', 558),
 ('V', 548),
 ('Y', 505),
 ('N', 472)]