# Análise da sequência e das features presentes no NCBI

* Aceder ao NCBI e guardar os ficheiros correspondentes aos genes escolhidos

In [1]:
def guardar_ficheiro(email, basedados, id_gene, nome_ficheiro):
    
    import os
    from Bio import SeqIO
    from Bio import Entrez

    Entrez.email = email
    
    filename = nome_ficheiro

    if not os.path.isfile(filename):
        net_handle = Entrez.efetch( db = basedados, id = id_gene, rettype="gb", retmode="text")
        out_handle = open(filename, "w")
        out_handle.write(net_handle.read())
        out_handle.close()
        net_handle.close()
        diretoria = os.getcwd()
        print("O ficheiro foi guardado com sucesso na seguinte diretoria:", diretoria)

    return 

In [5]:
guardar_ficheiro("oliveira1mariana@hotmail.com", "nucleotide","NG_032876", "NG_032876.gbk")

O ficheiro foi guardado com sucesso na seguinte diretoria: c:\Users\olive\Desktop\Bioinformática\1º Semestre\LB\Trabalho\Git\LB-G3-MBI2324-1\Genes\HLA-DQA1


* Análise do ficheiro

In [40]:
def parsing(nome_ficheiro):

    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")

    print("ID:", record.id)

    print("Nome:", record.name)

    print("Descrição", record.description)

    print("Comprimento da sequência:", len(record.seq), "bp")

    return

In [41]:
parsing("NG_032876.gbk")

ID: NG_032876.1
Nome: NG_032876
Descrição Homo sapiens major histocompatibility complex, class II, DQ alpha 1 (HLA-DQA1), RefSeqGene on chromosome 6
Comprimento da sequência: 13247 bp


* Verificar as anotações correspondentes aos genes de interesse

In [7]:
def anot(nome_ficheiro):
    
    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")

    print("Quantidade de anotações:", len(record.annotations))

    print()
    
    print("Lista de anotações:")
    
    for anotacao in record.annotations:
        print(anotacao, "->", record.annotations[anotacao])

    return   


In [8]:
anot("NG_032876.gbk")

Quantidade de anotações: 12

Lista de anotações:
molecule_type -> DNA
topology -> linear
data_file_division -> PRI
date -> 19-NOV-2023
accessions -> ['NG_032876']
sequence_version -> 1
keywords -> ['RefSeq', 'RefSeqGene']
source -> Homo sapiens (human)
organism -> Homo sapiens
taxonomy -> ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
references -> [Reference(title='Celiac Disease', ...)]
comment -> REVIEWED REFSEQ: This record has been curated by NCBI staff. The
reference sequence was derived from AL662789.11.
This sequence is a reference standard in the RefSeqGene project.
Summary: HLA-DQA1 belongs to the HLA class II alpha chain
paralogues. The class II molecule is a heterodimer consisting of an
alpha (DQA) and a beta chain (DQB), both anchored in the membrane.
It plays a central role in the immune system by presenting peptides
derived from extrac

* Verificar e analisar a informação complementar fornecida pela lista de *features* e seus *qualifiers*

In [11]:
def features_qualifiers(nome_ficheiro):
    
    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")
    
    print("Quantidade de features:", len(record.features))

    for feature in record.features:
        print(feature)
    
    for db in record.dbxrefs:
        print(db)

    return


In [12]:
features_qualifiers("NG_032876.gbk")

Quantidade de features: 10
type: source
location: [0:13247](+)
qualifiers:
    Key: chromosome, Value: ['6']
    Key: db_xref, Value: ['taxon:9606']
    Key: map, Value: ['6p21.32']
    Key: mol_type, Value: ['genomic DNA']
    Key: organism, Value: ['Homo sapiens']

type: gene
location: [5000:11279](+)
qualifiers:
    Key: db_xref, Value: ['GeneID:3117', 'HGNC:HGNC:4942', 'MIM:146880']
    Key: gene, Value: ['HLA-DQA1']
    Key: gene_synonym, Value: ['CELIAC1; DQ-A1; DQA1; HLA-DQA; HLA-DQA1*; HLA-DQB1']
    Key: note, Value: ['major histocompatibility complex, class II, DQ alpha 1']

type: mRNA
location: join{[5000:5135](+), [8904:9153](+), [9566:9848](+), [10204:10379](+), [10546:11279](+)}
qualifiers:
    Key: db_xref, Value: ['GeneID:3117', 'HGNC:HGNC:4942', 'MIM:146880']
    Key: gene, Value: ['HLA-DQA1']
    Key: gene_synonym, Value: ['CELIAC1; DQ-A1; DQA1; HLA-DQA; HLA-DQA1*; HLA-DQB1']
    Key: product, Value: ['major histocompatibility complex, class II, DQ alpha 1']
    Key: 

In [24]:
def  db(nome_ficheiro):

    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")
    
    for db in record.dbxrefs:
        print(db)
    
    for anot in record.letter_annotations:
        print(anot)
    
    return

In [25]:
db("NG_032876.gbk")

# Análise do ficheiro da sequência de mRNA

In [26]:
guardar_ficheiro("oliveira1mariana@hotmail.com", "nucleotide","NM_002122.5", "NM_002122.5.gbk")

In [42]:
parsing("NM_002122.5.gbk")

ID: NM_002122.5
Nome: NM_002122
Descrição Homo sapiens major histocompatibility complex, class II, DQ alpha 1 (HLA-DQA1), mRNA
Comprimento da sequência: 1574 bp


In [28]:
features_qualifiers("NM_002122.5.gbk")

Quantidade de features: 16
type: source
location: [0:1574](+)
qualifiers:
    Key: chromosome, Value: ['6']
    Key: db_xref, Value: ['taxon:9606']
    Key: map, Value: ['6p21.32']
    Key: mol_type, Value: ['mRNA']
    Key: organism, Value: ['Homo sapiens']

type: gene
location: [0:1574](+)
qualifiers:
    Key: db_xref, Value: ['GeneID:3117', 'HGNC:HGNC:4942', 'MIM:146880']
    Key: gene, Value: ['HLA-DQA1']
    Key: gene_synonym, Value: ['CELIAC1; DQ-A1; DQA1; HLA-DQA; HLA-DQA1*; HLA-DQB1']
    Key: note, Value: ['major histocompatibility complex, class II, DQ alpha 1']

type: exon
location: [0:135](+)
qualifiers:
    Key: gene, Value: ['HLA-DQA1']
    Key: gene_synonym, Value: ['CELIAC1; DQ-A1; DQA1; HLA-DQA; HLA-DQA1*; HLA-DQB1']
    Key: inference, Value: ['alignment:Splign:2.1.0']

type: misc_feature
location: [32:35](+)
qualifiers:
    Key: gene, Value: ['HLA-DQA1']
    Key: gene_synonym, Value: ['CELIAC1; DQ-A1; DQA1; HLA-DQA; HLA-DQA1*; HLA-DQB1']
    Key: note, Value: ['upstr

In [30]:
db("NM_002122.5.gbk")

# Análise da sequência da proteína

In [36]:
guardar_ficheiro("oliveira1mariana@hotmail.com", "protein","NP_002113.2", "NP_002113.2.gbk")

O ficheiro foi guardado com sucesso na seguinte diretoria: c:\Users\olive\Desktop\Bioinformática\1º Semestre\LB\Trabalho\Git\LB-G3-MBI2324-1\Genes\HLA-DQA1


In [43]:
parsing("NP_002113.2.gbk")

ID: NP_002113.2
Nome: NP_002113
Descrição HLA class II histocompatibility antigen, DQ alpha 1 chain precursor [Homo sapiens]
Comprimento da sequência: 255 bp


In [38]:
features_qualifiers("NP_002113.2.gbk")

Quantidade de features: 16
type: source
location: [0:255]
qualifiers:
    Key: chromosome, Value: ['6']
    Key: db_xref, Value: ['taxon:9606']
    Key: map, Value: ['6p21.32']
    Key: organism, Value: ['Homo sapiens']

type: Protein
location: [0:255]
qualifiers:
    Key: calculated_mol_wt, Value: ['25730']
    Key: note, Value: ['HLA class II histocompatibility antigen, DQ alpha 1 chain; MHC HLA-DQ alpha; MHC class II HLA-DQ-alpha-1; MHC class II DQ alpha chain; MHC class II DQA1; HLA-DCA; DC-alpha; DC-1 alpha chain; MHC class II antigen DQA1; MHC class II protein; HLA class II histocompatibility antigen DQ alpha chain']
    Key: product, Value: ['HLA class II histocompatibility antigen, DQ alpha 1 chain precursor']

type: sig_peptide
location: [0:23]
qualifiers:
    Key: calculated_mol_wt, Value: ['2288']
    Key: inference, Value: ['COORDINATES: ab initio prediction:SignalP:4.0']

type: Region
location: [28:109]
qualifiers:
    Key: db_xref, Value: ['CDD:425978']
    Key: note, Val

In [39]:
db("NP_002113.2.gbk")