Análise da sequência e das features presentes no NCBI - Gene PDGFC

1. Carregamento do package e dos módulos necessários

In [5]:
from Bio import Seq
from Bio import SeqFeature
from Bio import SeqIO
from Bio import Entrez

2. O código abaixo implementado tem como principal objetivo a obtenção de um ficheiro em formato GenBank da sequência nucleótidica do gene LYPLAL1 no organismo Homo Sapiens, nomeadamente o ficheiro no formato GenBank da sequência de nucleótidos com registo NM_016205.3 no BLAST. Assim, primeiramente, o código implementado permite aceder a uma lista que contém todos os IDs dos registos das sequências nucleótidicas associadas ao gene em análise, nomeadamente a sequência nucleótica que pretendemos obter o seu formato GenBank. Para tal, recorreu-se a funções do módulo Bio.Entrez, como Entrez.esearch, com o intuito de procurar o gene PDGFC no organismo Homo Sapiens e Entrez.read para se obter os IDs das diferentes sequências nucleóticas, tendo-se obtido numa lista ,designada por IdList, 17 IDs diferentes. Como tal, constata-se que existem 17 sequências nucleóticas distintas relacionadas com o gene PDGFC.

In [6]:
Entrez.email="margaridaferreiraamgf@gmail.com"
Entrez.tool="Demoscript"
handle=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND PDGFC[Gene]",idtype="acc")
record=Entrez.read(handle)
record["Count"]
record["IdList"]

['NM_016205.3', 'NR_036641.2', 'NC_060928.1', 'NC_000004.12', 'XM_047415972.1', 'XM_047415971.1', 'XM_047415970.1', 'XM_017008455.2', 'XM_047415969.1', 'AC092608.2', 'CM000255.1', 'CH471056.2', 'BC136662.1', 'AY403293.1', 'AB590688.1', 'AF260738.1', 'AM922296.1']

3. De seguida, a partir da lista que contém todos os IDs das sequências nucleóticas, selecionou-se o ID da sequência que se pretende, neste caso NM_016205.3. Recorreu-se à função Entrez.efetch do módulo Bio.Entrez, para se obter o registo completo em formato GenBank da sequência. Posteriormente, imprimiu-se o ficheiro em formato GenBank correspondente à sequência nucleótidica do gene PDGFC no organismos Homo Sapiens.

In [7]:
Entrez.email="margaridaferreiraamgf@gmail.com"
handle=Entrez.efetch(db="nucleotide", id="NM_016205.3", rettype="gb", retmode="text")
text=handle.read()
print(text)

LOCUS       NM_016205               4570 bp    mRNA    linear   PRI 25-DEC-2022
DEFINITION  Homo sapiens platelet derived growth factor C (PDGFC), transcript
            variant 1, mRNA.
ACCESSION   NM_016205
VERSION     NM_016205.3
KEYWORDS    RefSeq; MANE Select.
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 4570)
  AUTHORS   Salokas K, Liu X, Ohman T, Chowdhury I, Gawriyski L, Keskitalo S
            and Varjosalo M.
  TITLE     Physical and functional interactome atlas of human receptor
            tyrosine kinases
  JOURNAL   EMBO Rep 23 (6), e54041 (2022)
   PUBMED   35384245
REFERENCE   2  (bases 1 to 4570)
  AUTHORS   Tan Z, Shi S, Xu J, Liu X, Lei Y, Zhang B, Hua J, Meng Q, Wang W,
            Yu X and Liang C.
  TITLE     RNA N6-methyladenosine deme

In [9]:
Entrez.email="margaridaferreiraamgf@gmail.com"
handle=Entrez.efetch(db="nucleotide", id="NM_016205.3", rettype="gb", retmode="text")
record=SeqIO.read(handle,"genbank")
handle.close

<function TextIOWrapper.close()>

4. De seguida, recorreu-se ao módulo Bio.Entrez e ao módulo Bio.SeqIO, para analisar os diversos dados e informações que compõem o ficheiro GenBank da sequência nucleótidica em estudo. O módulo Bio.SeqIO permite ler as sequências de um arquivo, bem como escrever sequências para um arquivo. Deste modo, este módulo foi utilizado para se obter as informações do ficheiro que permitem a identificação da sequência de nucleótidos utilizada, tais como o comprimento da sequência nucleótica, o ID do seu registo, o nome do registo da sequência na base de dados utilizada, bem como a sua descrição, ou seja, o nome da sequência.

In [10]:
#tamanho da sequência de DNA do gene PDGFC

print("Tamanho da sequência de DNA do gene:", len(record.seq))

#ID de registo do gene PDGFC

print("ID de registo:", record.id)

#descrição do registo do gene PDGFC

print("Descrição do registo:", record.description)

#nome do resgisto do gene PDGFC

print("Nome do registo:", record.name)

Tamanho da sequência de DNA do gene: 4570
ID de registo: NM_016205.3
Descrição do registo: Homo sapiens platelet derived growth factor C (PDGFC), transcript variant 1, mRNA
Nome do registo: NM_016205


5. As anotações relativas ao ficheiro GenBank de uma sequência nucleótica são um dicionário que contém informações adicionais sobre a sequência em análise. Primeiramente, obteve-se as anotações associadas ao ficheiro GenBank (record.annotations). Para visualizar mais facilmente as chaves do dicionário que forma as anotações implementou-se o comando record.annotations.keys(). É possivel então obter anotações relativas ao gene em estudo, como o organismo ao qual pertence, a taxonomia, o tipo de gene, entre outros.

In [11]:
#ANOTAÇÕES

#lista de anotações globais para o registo do gene PDGFC

record.annotations

{'molecule_type': 'mRNA',
 'topology': 'linear',
 'data_file_division': 'PRI',
 'date': '25-DEC-2022',
 'accessions': ['NM_016205'],
 'sequence_version': 3,
 'keywords': ['RefSeq', 'MANE Select'],
 'source': 'Homo sapiens (human)',
 'organism': 'Homo sapiens',
 'taxonomy': ['Eukaryota',
  'Metazoa',
  'Chordata',
  'Craniata',
  'Vertebrata',
  'Euteleostomi',
  'Mammalia',
  'Eutheria',
  'Euarchontoglires',
  'Primates',
  'Haplorrhini',
  'Catarrhini',
  'Hominidae',
  'Homo'],
 'references': [Reference(title='Physical and functional interactome atlas of human receptor tyrosine kinases', ...),
  Reference(title='RNA N6-methyladenosine demethylase FTO promotes pancreatic cancer progression by inducing the autocrine activity of PDGFC in an m6A-YTHDF2-dependent manner', ...),
  Reference(title='Expression and function of PDGF-C in development and stem cells', ...),
  Reference(title='Cancer-associated fibroblast secretion of PDGFC promotes gastrointestinal stromal tumor growth and meta

In [12]:
#anotações associadas ao registo do gene PDGFC
#chaves do dicionário que forma as anotações

list(record.annotations.keys())

['molecule_type',
 'topology',
 'data_file_division',
 'date',
 'accessions',
 'sequence_version',
 'keywords',
 'source',
 'organism',
 'taxonomy',
 'references',
 'comment',
 'structured_comment']

In [13]:
#tipo de molécula

record.annotations["molecule_type"]

'mRNA'

In [14]:
#topologia

record.annotations["topology"]

'linear'

In [15]:
#data_file_division

record.annotations["data_file_division"]

'PRI'

In [16]:
#accessions

record.annotations["accessions"]

['NM_016205']

In [17]:
#sequence_version

record.annotations["sequence_version"]

3

In [18]:
#Keywords

record.annotations["keywords"]

['RefSeq', 'MANE Select']

In [19]:
#source

record.annotations["source"]

'Homo sapiens (human)'

In [20]:
#organismo

record.annotations["organism"]

'Homo sapiens'

In [21]:
#taxonomia

record.annotations["taxonomy"]

['Eukaryota',
 'Metazoa',
 'Chordata',
 'Craniata',
 'Vertebrata',
 'Euteleostomi',
 'Mammalia',
 'Eutheria',
 'Euarchontoglires',
 'Primates',
 'Haplorrhini',
 'Catarrhini',
 'Hominidae',
 'Homo']

6. O ficheiro em formato GenBank fornece também as features de uma sequência nucleótidica. Assim, o código abaixo implementado permite obter a lista de features do ficheiro, a quantidade de features existentes, e ainda o seu tipo e a localização de cada uma delas. Para se conseguir obter estas informações foi necessário recorrer ao módulo Bio.SeqFeature, bem como aos módulos Bio.SeqIO e Bio.Entrez.

In [22]:
#FEATURES

#tipo de features do registo do gene PDGFC

type(record.features)

list

In [23]:
#quantidade de features no registo de PDGFC

print("Existem", len(record.features), "features no registo do gene PDGFC")

Existem 20 features no registo do gene PDGFC


In [24]:
#lista de features do registo de PDGFC

record.features

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(4570), strand=1), type='source'),
 SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(4570), strand=1), type='gene'),
 SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(1014), strand=1), type='exon'),
 SeqFeature(FeatureLocation(ExactPosition(872), ExactPosition(875), strand=1), type='misc_feature'),
 SeqFeature(FeatureLocation(ExactPosition(896), ExactPosition(1934), strand=1), type='CDS'),
 SeqFeature(FeatureLocation(ExactPosition(896), ExactPosition(962), strand=1), type='sig_peptide'),
 SeqFeature(FeatureLocation(ExactPosition(968), ExactPosition(971), strand=1), type='misc_feature'),
 SeqFeature(FeatureLocation(ExactPosition(1058), ExactPosition(1061), strand=1), type='misc_feature'),
 SeqFeature(FeatureLocation(ExactPosition(1568), ExactPosition(1574), strand=1), type='misc_feature'),
 SeqFeature(FeatureLocation(ExactPosition(1586), ExactPosition(1592), strand=1), type='misc_feature'),
 SeqFeature(Featur

In [25]:
#tipo e localização de cada feature do registo do gene PDGFC

for f in record.features:
    print(f.type)
    print(f.location)

source
[0:4570](+)
gene
[0:4570](+)
exon
[0:1014](+)
misc_feature
[872:875](+)
CDS
[896:1934](+)
sig_peptide
[896:962](+)
misc_feature
[968:971](+)
misc_feature
[1058:1061](+)
misc_feature
[1568:1574](+)
misc_feature
[1586:1592](+)
misc_feature
[1595:1601](+)
exon
[1014:1210](+)
exon
[1210:1391](+)
exon
[1391:1599](+)
exon
[1599:1817](+)
exon
[1817:4570](+)
regulatory
[3378:3384](+)
polyA_site
[3412:3413](+)
regulatory
[4546:4552](+)
polyA_site
[4569:4570](+)


7. Através da lista de features obtida, verfica-se que o ficheiro GenBank da sequência nuclotídica PDGFC apresenta diferentes tipos de features, como sequências codificantes (CDS), genes, exões entre outros. De modo, a identificar as sequências codifcantes associadas ao registo de PDGFC implementou-se o seguinte código, sendo possivel obter a quantidade de sequências codificantes que existem na sequência nucleotídica PDGFC, bem como a sua localização. Salienta-se que cada tipo de feature possui "qualifiers" associados. Como tal, através do seguinte código é também possível analisar esses "qualfiers", determinando-se qual o nome das proteínas codificadas pelas sequências codificantes encontradas, bem como as suas sequências de aminoácidos (tradução da sequência codificante).

In [27]:
#sequências codificantes do registo do gene PDGFC(csd)

features_cds=[]
numero_cds=0
for i in range(len(record.features)):
    if record.features[i].type=="CDS":
        features_cds.append(i)
        numero_cds+=1
    #qualifiers associados às sequências codificantes do registo de LYPLAL1
    for j in features_cds:
        id_proteina=record.features[j].qualifiers["protein_id"]
        product=record.features[j].qualifiers["product"]
        traducao=record.features[j].qualifiers["translation"]
        
print("nº de features sequências codificantes:", numero_cds)
print("indice das sequências codificantes:", features_cds)
print(" ")
print(id_proteina)
print(product)
print(traducao)

nº de features sequências codificantes: 1
indice das sequências codificantes: [4]
 
['NP_057289.1']
['platelet-derived growth factor C precursor']
['MSLFGLLLLTSALAGQRQGTQAESNLSSKFQFSSNKEQNGVQDPQHERIITVSTNGSIHSPRFPHTYPRNTVLVWRLVAVEENVWIQLTFDERFGLEDPEDDICKYDFVEVEEPSDGTILGRWCGSGTVPGKQISKGNQIRIRFVSDEYFPSEPGFCIHYNIVMPQFTEAVSPSVLPPSALPLDLLNNAITAFSTLEDLIRYLEPERWQLDLEDLYRPTWQLLGKAFVFGRKSRVVDLNLLTEEVRLYSCTPRNFSVSIREELKRTDTIFWPGCLLVKRCGGNCACCLHNCNECQCVPSKVTKKYHEVLQLRPKTGVRGLHKSLTDVALEHHEECDCVCRGSTGG']


In [28]:
#lista dos qualifiers associados às sequências codificantes

record.features[i].qualifiers

OrderedDict([('gene', ['PDGFC']), ('gene_synonym', ['FALLOTEIN; SCDGF'])])

8. Outro tipo de feature encontrada no registo de PDGFC é a feature do tipo gene. De seguida, implementou-se um código que permite obter o número de genes anotados no registo de PDGFC, bem como a sua localização e a sua designação.

In [29]:
#genes anotados no registo PDGFC

features_gene=[]
for g in range(len(record.features)):
    if record.features[g].type=="gene":
        features_gene.append(g)
    for q in features_gene:
        localizacao=record.features[q].location.strand
        gene=record.features[q].qualifiers["gene"]
        
print("número de features do tipo gene:", len(features_gene))
print(" ")
print(localizacao)
print(gene)

número de features do tipo gene: 1
 
1
['PDGFC']


In [30]:
#qualifiers associados ao feature do tipo gene

record.features[g].qualifiers

OrderedDict([('gene', ['PDGFC']), ('gene_synonym', ['FALLOTEIN; SCDGF'])])

9. Outro tipo de feature encontrada no registo de PDGFC é a feature do tipo exon. De seguida, implementou-se um código que permite obter o número de exões anotados no registo de PDGFC, bem como a sua localização na sequência nucleótidca. Realça-se que um exão corresponde a um segmento de uma sequência nucleótidos de um gene eucariótico cujo segmento transcrito sobrevive ao processo de excisão (ou splicing ou processamento).


(Não sei se isto é necessário) :)

In [31]:
#exões existentes no registo de LYPLAL1

features_exoes=[]
numero_exoes=0
for e in range(len(record.features)):
    if record.features[e].type=="exon":
        features_exoes.append(e)
        numero_exoes+=1
print("nº de features do tipo exoes:", numero_exoes)
print("indice dos exões:", features_exoes)

nº de features do tipo exoes: 6
indice dos exões: [2, 11, 12, 13, 14, 15]
