# Análise da sequência e das features presentes no NCBI - Gene LYPLAL1

1. Carregamento do package e dos módulos necessários

In [31]:
from Bio import Seq
from Bio import SeqFeature
from Bio import SeqIO
from Bio import Entrez

2. O código abaixo implementado tem como principal objetivo a obtenção de um ficheiro em formato GenBank da sequência nucleótidica  do gene LYPLAL1 no organismo Homo sapiens, nomeadamente o ficheiro no formato GenBank da sequência de nucleótidos com registo NM_001350628.2 no BLAST. Assim, primeiramente, o código implementado permite aceder a uma lista que contém todos os IDs dos registos das sequências nucleótidicas associadas ao gene em análise, nomeadamente a sequência nucleótica da qual pretendemos obter o seu formato GenBank. Para tal, recorreu-se a funções do módulo Bio.Entrez, como Entrez.esearch, com o intuito de procurar o gene LYPLAL1 no organismo Homo sapiens e Entrez.read para se obter os IDs das diferentes sequências nucleóticas, tendo-se obtido numa lista, designada por IdList, 20 IDs diferentes. Como tal, constata-se que existem 20 sequências nucleóticas distintas relacionadas com o gene LYPLAL1.

In [32]:
Entrez.email="pg50589@alunos.uminho.pt"
Entrez.tool="Demoscript"
handle=Entrez.esearch(db="nucleotide", term="Homo sapiens[Orgn] AND LYPLAL1[Gene]",idtype="acc")
record=Entrez.read(handle)
record["Count"]
record["IdList"]

['NM_001350628.2', 'NM_001300772.2', 'NM_001300770.2', 'NM_001300769.2', 'NM_001350629.2', 'NM_001300771.2', 'NM_138794.5', 'NC_060925.1', 'NC_000001.11', 'XR_007078569.1', 'XM_047445138.1', 'XR_007078568.1', 'XR_001736968.3', 'XR_007078567.1', 'XR_007078566.1', 'XR_007078565.1', 'XM_047445134.1', 'XR_007078564.1', 'XR_007078563.1', 'XR_007078562.1']

3. De seguida, a partir da lista que contém todos os IDs das sequências nucleóticas, selecionou-se o ID da sequência que se pretende, neste caso NM_001300770.2. Recorreu-se à função Entrez.efetch do módulo Bio.Entrez, para se obter o registo completo em formato GenBank da sequência. Posteriormente, imprimiu-se o ficheiro em formato GenBank correspondente à sequência nucleótidica do gene LYPLAL1 no organismos Homo sapiens.

In [33]:
Entrez.email="pg50589@alunos.uminho.pt"
handle=Entrez.efetch(db="nucleotide", id="NM_001350628.2", rettype="gb", retmode="text")
text=handle.read()
print(text)

LOCUS       NM_001350628            1884 bp    mRNA    linear   PRI 31-DEC-2022
DEFINITION  Homo sapiens lysophospholipase like 1 (LYPLAL1), transcript variant
            6, mRNA.
ACCESSION   NM_001350628 XM_011509182
VERSION     NM_001350628.2
KEYWORDS    RefSeq.
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 1884)
  AUTHORS   Luck K, Kim DK, Lambourne L, Spirohn K, Begg BE, Bian W, Brignall
            R, Cafarelli T, Campos-Laborie FJ, Charloteaux B, Choi D, Cote AG,
            Daley M, Deimling S, Desbuleux A, Dricot A, Gebbia M, Hardy MF,
            Kishore N, Knapp JJ, Kovacs IA, Lemmens I, Mee MW, Mellor JC,
            Pollis C, Pons C, Richardson AD, Schlabach S, Teeking B, Yadav A,
            Babor M, Balcha D, Basha O, Bowman-Colin C, Chin SF, C

4. De seguida, recorreu-se ao módulo Bio.Entrez e ao módulo Bio.SeqIO, para analisar os diversos dados e informações que compõem o ficheiro GenBank da sequência nucleótidica em estudo. O módulo Bio.SeqIO permite ler as sequências de um arquivo, bem como escrever sequências para um arquivo. Deste modo, este módulo foi utilizado para se obter as informações do ficheiro que permitem a identificação da sequência de nucleótidos utilizada, tais como o comprimento da sequência nucleótica, o ID do seu registo, o nome do registo da sequência na base de dados utilizada, bem como a sua descrição, ou seja, o nome da sequência.

In [34]:
Entrez.email="pg50589@alunos.uminho.pt"
handle=Entrez.efetch(db="nucleotide", id="NM_001350628.2", rettype="gb", retmode="text")
record=SeqIO.read(handle,"genbank")
handle.close

<function TextIOWrapper.close()>

In [35]:
#tamanho da sequência de DNA do gene LYPLAL1

print("Tamanho da sequência de DNA do gene:", len(record.seq))

#ID de registo do gene LYPLAL1

print("ID de registo:", record.id)

#descrição do registo do gene LYPLAL1

print("Descrição do registo:", record.description)

#nome do resgisto do gene LYPLAL1

print("Nome do registo:", record.name)

Tamanho da sequência de DNA do gene: 1884
ID de registo: NM_001350628.2
Descrição do registo: Homo sapiens lysophospholipase like 1 (LYPLAL1), transcript variant 6, mRNA
Nome do registo: NM_001350628


5. As anotações relativas ao ficheiro GenBank de uma sequência nucleótica são um dicionário que contém informações adicionais sobre a sequência em análise. Primeiramente, obteve-se as anotações associadas ao ficheiro GenBank (record.annotations). Para visualizar mais facilmente as chaves do dicionário que forma as anotações implementou-se o comando record.annotations.keys(). É possivel então obter anotações relativas ao gene em estudo, como o organismo ao qual pertence, a taxonomia, o tipo de gene, entre outros.

In [36]:
#ANOTAÇÕES

#lista de anotações globais para o registo do gene LYPLAL1

record.annotations

{'molecule_type': 'mRNA',
 'topology': 'linear',
 'data_file_division': 'PRI',
 'date': '31-DEC-2022',
 'accessions': ['NM_001350628', 'XM_011509182'],
 'sequence_version': 2,
 'keywords': ['RefSeq'],
 'source': 'Homo sapiens (human)',
 'organism': 'Homo sapiens',
 'taxonomy': ['Eukaryota',
  'Metazoa',
  'Chordata',
  'Craniata',
  'Vertebrata',
  'Euteleostomi',
  'Mammalia',
  'Eutheria',
  'Euarchontoglires',
  'Primates',
  'Haplorrhini',
  'Catarrhini',
  'Hominidae',
  'Homo'],
 'references': [Reference(title='A reference map of the human binary protein interactome', ...),
  Reference(title='NAFLD risk alleles in PNPLA3, TM6SF2, GCKR and LYPLAL1 show divergent metabolic effects', ...),
  Reference(title='Two obesity susceptibility loci in LYPLAL1 and ETV5 independently associated with childhood hypertension in Chinese population', ...),
  Reference(title='Association between PNPLA3 (rs738409), LYPLAL1 (rs12137855), PPP1R3B (rs4240624), GCKR (rs780094), and elevated transaminase 

In [37]:
#anotações associadas ao registo do gene LYPLAL1
#chaves do dicionário que forma as anotações

list(record.annotations.keys())

['molecule_type',
 'topology',
 'data_file_division',
 'date',
 'accessions',
 'sequence_version',
 'keywords',
 'source',
 'organism',
 'taxonomy',
 'references',
 'comment',
 'structured_comment']

In [38]:
#tipo de molécula

record.annotations["molecule_type"]

'mRNA'

In [39]:
#topologia

record.annotations["topology"]

'linear'

In [40]:
#data_file_division

record.annotations["data_file_division"]

'PRI'

In [41]:
#accessions

record.annotations["accessions"]

['NM_001350628', 'XM_011509182']

In [42]:
#sequence_version

record.annotations["sequence_version"]

2

In [43]:
#Keywords

record.annotations["keywords"]

['RefSeq']

In [44]:
#source

record.annotations["source"]

'Homo sapiens (human)'

In [45]:
#organismo

record.annotations["organism"]

'Homo sapiens'

In [46]:
#taxonomia

record.annotations["taxonomy"]

['Eukaryota',
 'Metazoa',
 'Chordata',
 'Craniata',
 'Vertebrata',
 'Euteleostomi',
 'Mammalia',
 'Eutheria',
 'Euarchontoglires',
 'Primates',
 'Haplorrhini',
 'Catarrhini',
 'Hominidae',
 'Homo']

6. O ficheiro em formato GenBank fornece também as features de uma sequência nucleótidica. Assim, o código abaixo implementado permite obter a lista de features do ficheiro, a quantidade de features existentes, e ainda o seu tipo e a localização de cada uma delas. Para se conseguir obter estas informações foi necessário recorrer ao módulo Bio.SeqFeature, bem como aos módulos Bio.SeqIO e Bio.Entrez.

In [47]:
#FEATURES

#tipo de features do registo do gene LYPLAL1

type(record.features)

list

In [48]:
#quantidade de features no registo de LYPLAL1

print("Existem", len(record.features), "features no registo do gene LYPLAL1")

Existem 13 features no registo do gene LYPLAL1


In [49]:
#lista de features do registo de LYPLAL1

record.features

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(1884), strand=1), type='source'),
 SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(1884), strand=1), type='gene'),
 SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(104), strand=1), type='exon'),
 SeqFeature(FeatureLocation(ExactPosition(13), ExactPosition(754), strand=1), type='CDS'),
 SeqFeature(FeatureLocation(ExactPosition(104), ExactPosition(204), strand=1), type='exon'),
 SeqFeature(FeatureLocation(ExactPosition(204), ExactPosition(231), strand=1), type='exon'),
 SeqFeature(FeatureLocation(ExactPosition(231), ExactPosition(401), strand=1), type='exon'),
 SeqFeature(FeatureLocation(ExactPosition(401), ExactPosition(517), strand=1), type='exon'),
 SeqFeature(FeatureLocation(ExactPosition(517), ExactPosition(1884), strand=1), type='exon'),
 SeqFeature(FeatureLocation(ExactPosition(831), ExactPosition(837), strand=1), type='regulatory'),
 SeqFeature(FeatureLocation(ExactPosition(852), ExactPosition(853),

In [50]:
#tipo e localização de cada feature do registo do gene LYPLAL1

for f in record.features:
    print(f.type)
    print(f.location)

source
[0:1884](+)
gene
[0:1884](+)
exon
[0:104](+)
CDS
[13:754](+)
exon
[104:204](+)
exon
[204:231](+)
exon
[231:401](+)
exon
[401:517](+)
exon
[517:1884](+)
regulatory
[831:837](+)
polyA_site
[852:853](+)
regulatory
[1861:1867](+)
polyA_site
[1883:1884](+)


7. Através da lista de features obtida, verfica-se que o ficheiro GenBank da sequência LYPLAL1 apresenta diferentes tipos de features, como sequências codificantes (CDS), genes, exões entre outros. De modo, a identificar as sequências codificantes associadas ao registo de LYPLAL1 implementou-se o seguinte código, sendo possivel obter a quantidade de sequências codificantes que existem na sequência nucleotídica LYPLAL1, bem como a sua localização. Salienta-se que cada tipo de feature possui "qualifiers" associados. Como tal, através do seguinte código é também possível analisar esses "qualfiers", determinando-se qual o nome das proteínas codificadas pelas sequências codificantes encontradas, bem como as suas sequências de aminoácidos (tradução da sequência codificante).

In [51]:
#sequências codificantes do registo do gene LYPLAL1(csd)

features_cds=[]
numero_cds=0
for i in range(len(record.features)):
    if record.features[i].type=="CDS":
        features_cds.append(i)
        numero_cds+=1
    #qualifiers associados às sequências codificantes do registo de LYPLAL1
    for j in features_cds:
        id_proteina=record.features[j].qualifiers["protein_id"]
        product=record.features[j].qualifiers["product"]
        traducao=record.features[j].qualifiers["translation"]
        
print("nº de features sequências codificantes:", numero_cds)
print("indice das sequências codificantes:", features_cds)
print(" ")
print(id_proteina)
print(product)
print(traducao)

nº de features sequências codificantes: 1
indice das sequências codificantes: [3]
 
['NP_001337557.1']
['lysophospholipase-like protein 1 isoform e']
['MAAASGSVLQRCIVSPAGRHSASLIFLHGSGDSGQGLRMWIKQVLNQDLTFQHIKIIYPTAPPSYTVGPSFARSYTPMKGGISNVWFDRFKITNDCPEHLESIDVMCQVLTDLIDEEVKSGIKKNRILIGGFSMGGCMAIHLAYRNHQDVAGVFALSSFLNKASAVYQALQKSNGVLPELFQCHGTADELVLHSWAEETNSMLKSLGVTTKFHSFPNVYHELSKTELDILKLWILTKLPGEMEKQK']


In [52]:
#lista dos qualifiers associados às sequências codificantes

record.features[i].qualifiers

OrderedDict([('gene', ['LYPLAL1']), ('gene_synonym', ['Q96AV0'])])

8. Outro tipo de feature encontrada no registo de LYPLAL1 é a feature do tipo gene. De seguida, implementou-se um código que permite obter o número de genes anotados no registo de LYPLAL1, bem como a sua localização e a sua designação.

In [53]:
#genes anotados no registo LYPLAL1

features_gene=[]
for g in range(len(record.features)):
    if record.features[g].type=="gene":
        features_gene.append(g)
    for q in features_gene:
        localizacao=record.features[q].location.strand
        gene=record.features[q].qualifiers["gene"]
        
print("número de features do tipo gene:", len(features_gene))
print(" ")
print(localizacao)
print(gene)

número de features do tipo gene: 1
 
1
['LYPLAL1']


In [54]:
#qualifiers associados ao feature do tipo gene

record.features[g].qualifiers

OrderedDict([('gene', ['LYPLAL1']), ('gene_synonym', ['Q96AV0'])])

9. Outro tipo de feature encontrada no registo de LYPLAL1 é a feature do tipo exon. De seguida, implementou-se um código que permite obter o número de exões anotados no registo de LYPLAL1, bem como a sua localização na sequência nucleótidca. Realça-se que um exão corresponde a um segmento de uma sequência nucleótidos de um gene eucariótico cujo segmento transcrito sobrevive ao processo de excisão (ou splicing ou processamento).

In [55]:
#exões existentes no registo de LYPLAL1

features_exoes=[]
numero_exoes=0
for e in range(len(record.features)):
    if record.features[e].type=="exon":
        features_exoes.append(e)
        numero_exoes+=1
print("nº de features do tipo exoes:", numero_exoes)
print("indice dos exões:", features_exoes)

nº de features do tipo exoes: 6
indice dos exões: [2, 4, 5, 6, 7, 8]
