# 💻 Б6: Пронаоѓање на сите CDS

```{admonition} Опис на барање
:class: tip
Со помош на **BioPython**, пронајдете ги секвенциите на
различните кодни региони означени како (CDS). **CDS** се
регионите добиени после процедурата на отсекување на
интроните.
```

In [1]:
from Bio import SeqIO
gene_record = SeqIO.read("yersinia-pestis-fasta/NC_005816.gb", "genbank")

Вкупната должина на ДНА секвенцата е: 

In [2]:
print(len(gene_record.seq))

9609


Додека нас не интересира елементот од <code>gene_record.features</code>, кој е листа од карактеристики од големо значење за описот на самата секвенца. Откако ќе се започне со користење на овие секвенци, ова е еден вид на организација што лесно ни озвозможува да добиеме "поапстрактна" информација што се знае за самата секвенца. 

Вкупниот број на овие features може да го добиеме со: 

In [3]:
print(len(gene_record.features))

41


Секој еден feature има неколку атрибути, како на пример првиот од листата гледаме дека има повеќе променливи кои го опишваат меѓу кои најбитни се: 

- <code>.type:</code> типот на карактеристика ("CDS", "gene", ..) 
- <code>.location:</code> локација на самата секвенца, како вид мапирање (почеток:крај)

In [4]:
dir(gene_record.features[0])

['__bool__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_flip',
 '_get_location_operator',
 '_get_ref',
 '_get_ref_db',
 '_get_strand',
 '_set_location_operator',
 '_set_ref',
 '_set_ref_db',
 '_set_strand',
 '_shift',
 'extract',
 'id',
 'location',
 'location_operator',
 'qualifiers',
 'ref',
 'ref_db',
 'strand',
 'translate',
 'type']

Пример од книгата, и интересен CDS е "<code>pim</code>" генот, YP_pPCP05 кој се наоѓа во секвенцата меѓу базните парови [4342:4780]: 

In [5]:
print(gene_record.features[21])

type: CDS
location: [4342:4780](+)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: db_xref, Value: ['GI:45478716', 'GeneID:2767712']
    Key: gene, Value: ['pim']
    Key: locus_tag, Value: ['YP_pPCP05']
    Key: note, Value: ['similar to many previously sequenced pesticin immunity protein entries of Yersinia pestis plasmid pPCP, e.g. gi| 16082683|,ref|NP_395230.1| (NC_003132) , gi|1200166|emb|CAA90861.1| (Z54145 ) , gi|1488655| emb|CAA63439.1| (X92856) , gi|2996219|gb|AAC62543.1| (AF053945) , and gi|5763814|emb|CAB531 67.1| (AL109969)']
    Key: product, Value: ['pesticin immunity protein']
    Key: protein_id, Value: ['NP_995571.1']
    Key: transl_table, Value: ['11']
    Key: translation, Value: ['MGGGMISKLFCLALIFLSSSGLAEKNTYTAKDILQNLELNTFGNSLSHGIYGKQTTFKQTEFTNIKSNTKKHIALINKDNSWMISLKILGIKRDEYTVCFEDFSLIRPPTYVAIHPLLIKKVKSGNFIVVKEIKKSIPGCTVYYH']



Но, ние треба да ги најдее сите вакви CDS кодони и ова може да го направиме со тоа што ќе бараме низ целата низа од 41 features каде се наоѓаат оние кои имаат тип "CDS":

In [8]:
CDS_list = []

for i in range(0, len(gene_record.features)):
    if gene_record.features[i].type == "CDS":
        CDS_list.append(i)

print(f"Број на пронајдени CDS: {len(CDS_list)}")

Број на пронајдени CDS: 10


Вакви гледаме дека се вкупно 10, и нив можеме да ги испринтаме:

In [9]:
for i in CDS_list:
    print(gene_record.features[i])

type: CDS
location: [86:1109](+)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: db_xref, Value: ['GI:45478712', 'GeneID:2767718']
    Key: locus_tag, Value: ['YP_pPCP01']
    Key: note, Value: ['similar to corresponding CDS from previously sequenced pPCP plasmid of Yersinia pestis KIM (AF053945) and CO92 (AL109969), also many transposase entries for insertion sequence IS100 of Yersinia pestis. Contains IS21-like element transposase, HTH domain (Interpro|IPR007101)']
    Key: product, Value: ['putative transposase']
    Key: protein_id, Value: ['NP_995567.1']
    Key: transl_table, Value: ['11']
    Key: translation, Value: ['MVTFETVMEIKILHKQGMSSRAIARELGISRNTVKRYLQAKSEPPKYTPRPAVASLLDEYRDYIRQRIADAHPYKIPATVIAREIRDQGYRGGMTILRAFIRSLSVPQEQEPAVRFETEPGRQMQVDWGTMRNGRSPLHVFVAVLGYSRMLYIEFTDNMRYDTLETCHRNAFRFFGGVPREVLYDNMKTVVLQRDAYQTGQHRFHPSLWQFGKEMGFSPRLCRPFRAQTKGKVERMVQYTRNSFYIPLMTRLRPMGITVDVETANRHGLRWLHDVANQRKHETIQARPCDRWLEEQQSMLALPPEKKEYDVHLDENLVNFDKHPLHHPLSIYDSFCRGVA']

type: CDS
loca