## A Simple Biopython Application

• Bir biyoinformatik dosyasını ayırmak ve içeriğini yazdırmak için basit bir Biopython uygulaması.

In [104]:
from Bio.SeqIO import parse 
from Bio.SeqRecord import SeqRecord 
from Bio.Seq import Seq

file = open("example.fasta") 

records = parse(file, "fasta") 

for record in records:    
   print("Id: %s" % record.id) 
   print("Name: %s" % record.name) 
   print("Description: %s" % record.description) 
   print("Annotations: %s" % record.annotations) 
   print("Sequence Data: %s" % record.seq) 
   print("Sequence Alphabet: %s" % record.seq.alphabet)
   print("\n")  

Id: sp|P25730|FMS1_ECOLI
Name: sp|P25730|FMS1_ECOLI
Description: sp|P25730|FMS1_ECOLI CS1 fimbrial subunit A precursor (CS1 pilin)
Annotations: {}
Sequence Data: MKLKKTIGAMALATLFATMGASAVEKTISVTASVDPTVDLLQSDGSALPNSVALTYSPAVNNFEAHTINTVVHTNDSDKGVVVKLSADPVLSNVLNPTLQIPVSVNFAGKPLSTTGITIDSNDLNFASSGVNKVSSTQKLSIHADATRVTGGALTAGQYQGLVSIILTKSTTTTTTTKGT
Sequence Alphabet: SingleLetterAlphabet()


Id: sp|P15488|FMS3_ECOLI
Name: sp|P15488|FMS3_ECOLI
Description: sp|P15488|FMS3_ECOLI CS3 fimbrial subunit A precursor (CS3 pilin)
Annotations: {}
Sequence Data: MLKIKYLLIGLSLSAMSSYSLAAAGPTLTKELALNVLSPAALDATWAPQDNLTLSNTGVSNTLVGVLTLSNTSIDTVSIASTNVSDTSKNGTVTFAHETNNSASFATTISTDNANITLDKNAGNTIVKTTNGSQLPTNLPLKFITTEGNEHLVSGNYRANITITSTIKGGGTKKGTTDKK
Sequence Alphabet: SingleLetterAlphabet()




## Sequence

• Bir sequence (sekans), bir organizmanın proteinini, DNA'sını veya RNA'sını temsil etmek için kullanılan harf dizisidir.  
Seq sınıfı ile temsil edilir. Seq sınıfı "Bio.Seq" modülünde tanımlanır.

In [105]:
from Bio.Seq import Seq
seq = Seq("AGCT")
print(seq)
seq

AGCT


Seq('AGCT')

## Alphabet Module

• Seq nesneleri, sıra tipini, harfleri ve olası işlemleri belirtmek için Alphabet özniteliği içerir.  
• "Bio.Alphabet" modülünde tanımlanır.

In [106]:
from Bio.Seq import Seq
myseq = Seq("AGCT")
myseq.alphabet

Alphabet()

---

• Alphabet modülü, farklı dizi türlerini temsil etmek için aşağıdaki sınıfları sağlar.

• Alphabet() -> Tüm alfabe türleri için temel sınıftır.  
• SingleLetterAlphabet() -> Bir boyuttaki harflerden oluşan genel alfabedir. Alphabet ten türemiştir ve diğer tüm alfabe türleri ondan türemiştir.

In [107]:
from Bio.Seq import Seq
from Bio.Alphabet import single_letter_alphabet

test_seq = Seq('AGTACACTGGT', single_letter_alphabet)
test_seq

Seq('AGTACACTGGT', SingleLetterAlphabet())

• ProteinAlphabet() -> Genel tek harfli protein alfabesidir.

In [108]:
from Bio.Seq import Seq
from Bio.Alphabet import generic_protein

test_seq = Seq('AGTACACTGGT', generic_protein)
test_seq

Seq('AGTACACTGGT', ProteinAlphabet())

• NucleotideAlphabet() -> Genel tek harfli nükleotit alfabesidir.

• Ayrıca Biopython, Bio.Data modülü aracılığıyla tüm biyoinformatik ile ilgili yapılandırma
verilerini ortaya çıkarır. Örneğin, IUPACData.protein_letters, IUPACProtein alfabesinin
olası harflerini içerir.

In [109]:
from Bio.Data import IUPACData
IUPACData.protein_letters

'ACDEFGHIKLMNPQRSTVWY'

## Basic Operations

In [110]:
seq_string = Seq('AGCTAGCT')
seq_string[0]

'A'

In [111]:
seq_string = Seq('AGCTAGCT')
seq_string[0:2]

Seq('AG')

In [112]:
seq_string = Seq('AGCTAGCT')
seq_string[ : ]

Seq('AGCTAGCT')

In [113]:
seq_string = Seq('AGCTAGCT')
len(seq_string)

8

In [114]:
seq_string = Seq('AGCTAGCT')
seq_string.count('A')

2

In [115]:
from Bio.Alphabet import generic_dna, generic_protein
seq1 = Seq('AGCT', generic_dna)
seq2 = Seq('TCGA', generic_dna)
seq1 + seq2

Seq('AGCTTCGA', DNAAlphabet())

• Yukarıdaki iki sekans nesnesi seq1 ve seq2 genel DNA dizileridir. Bunları birbirine ekleyebilir ve yeni dizi oluşturabilirsiniz.  

• Aşağıda belirtildiği gibi, protein dizisi ve DNA dizisi gibi uyumsuz alfabelere sahip diziler ekleyemezsiniz.

In [116]:
dna_seq = Seq('AGTACACTGGT', generic_dna)
protein_seq = Seq('AGUACACUGGU', generic_protein)
dna_seq + protein_seq

TypeError: Incompatible alphabets DNAAlphabet() and ProteinAlphabet()

---

• İki veya daha fazla sekans eklemek için önce bir python listesinde saklayıp, ardından 'for loop' kullanarak
alınıp daha sonra aşağıda gösterildiği gibi birlikte eklenir:

In [None]:
from Bio.Alphabet import generic_dna
list = [Seq('AGCT',generic_dna),Seq('TCGA',generic_dna),Seq('AAA',generic_dna)]

for s in list:
    print(s)
final_seq = Seq(' ', generic_dna)

for s in list:
    final_seq += s
final_seq

AGCT
TCGA
AAA


Seq(' AGCTTCGAAAA', DNAAlphabet())

---

• upper() - Küçük harfli sekansları, büyük harfe dönüştürmek için kullanılır.

In [None]:
from Bio.Alphabet import generic_rna
rna = Seq('agct', generic_rna)
rna.upper()

Seq('AGCT', RNAAlphabet())

---

• Sekanslar büyük küçük harf duyarlıdır.

In [None]:
rna = Seq('agct', generic_dna)
print("'a' in rna:",'a' in rna)
print("'A' in rna:",'A' in rna)
rna1 = Seq('AGCT',generic_dna)
print("rna is rna1:",rna is rna1)

'a' in rna: True
'A' in rna: False
rna is rna1: False


---

• find() - Verilen sekans içinde tek harf veya harf dizisininin ilk bulunduğu indisi gösterir.

In [None]:
protein_seq = Seq('AGUACACUGGU', generic_protein)
print(protein_seq.find('G'))
print(protein_seq.find('GG'))

1
8


---

• split() - Bölme işlemi için kullanılır.

In [None]:
protein_seq = Seq('AGUACACUGGU',generic_protein)
protein_seq.split('A')

[Seq('', ProteinAlphabet()),
 Seq('GU', ProteinAlphabet()),
 Seq('C', ProteinAlphabet()),
 Seq('CUGGU', ProteinAlphabet())]

---

• strip() - Sekans dizisinin baş ve sondaki boşluk karakterlerini silmek için kullanılır.

In [None]:
strip_seq = Seq("    AGCT    ")
strip_seq

Seq('    AGCT    ')

In [None]:
strip_seq = Seq("    AGCT    ")
strip_seq.strip()

Seq('AGCT')