# Análise da sequência e das features presentes no NCBI

* Aceder ao NCBI e guardar os ficheiros correspondentes aos genes escolhidos

In [1]:
def guardar_ficheiro(email, basedados, id_gene, nome_ficheiro):
    
    import os
    from Bio import SeqIO
    from Bio import Entrez

    Entrez.email = email
    
    filename = nome_ficheiro

    if not os.path.isfile(filename):
        net_handle = Entrez.efetch( db = basedados, id = id_gene, rettype="gb", retmode="text")
        out_handle = open(filename, "w")
        out_handle.write(net_handle.read())
        out_handle.close()
        net_handle.close()
        diretoria = os.getcwd()
        print("O ficheiro foi guardado com sucesso na seguinte diretoria:", diretoria)

    return 

In [4]:
guardar_ficheiro("oliveira1mariana@hotmail.com", "nucleotide","NC_000006", "NC_000006.gbk")

O ficheiro foi guardado com sucesso na seguinte diretoria: C:\Users\olive\AppData\Local\Programs\Microsoft VS Code


* Análise do ficheiro

In [2]:
def parsing(nome_ficheiro):

    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")

    print("ID do gene:", record.id)

    print("Nome do gene:", record.name)

    print("Descrição do gene", record.description)

    print("Comprimento da sequência:", len(record.seq), "bp")

    return

In [2]:
parsing("HLA-DQA1.gbk")

ID do gene: NC_000006.12
Nome do gene: NC_000006
Descrição do gene Homo sapiens chromosome 6, GRCh38.p14 Primary Assembly
Comprimento da sequência: 170805979 bp


* Verificar as anotações correspondentes aos genes de interesse

In [4]:
def anot(nome_ficheiro):
    
    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")

    print("Quantidade de anotações:", len(record.annotations))

    print()
    
    print("Lista de anotações:")
    
    for anotacao in record.annotations:
        print(anotacao, "->", record.annotations[anotacao])

    return   


In [21]:
anot("HLA-DQA1.gbk")

Quantidade de anotações: 14

Lista de anotações:
molecule_type -> DNA
topology -> linear
data_file_division -> CON
date -> 07-OCT-2023
accessions -> ['NC_000006']
sequence_version -> 12
keywords -> ['RefSeq']
source -> Homo sapiens (human)
organism -> Homo sapiens
taxonomy -> ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
references -> [Reference(title='Finishing the euchromatic sequence of the human genome', ...), Reference(title='The DNA sequence and analysis of human chromosome 6', ...), Reference(title='Initial sequencing and analysis of the human genome', ...)]
comment -> REFSEQ INFORMATION: The reference sequence is identical to
CM000668.2.
On Feb 3, 2014 this sequence version replaced NC_000006.11.
Assembly Name: GRCh38.p14 Primary Assembly
The DNA sequence is composed of genomic sequence, primarily
finished clones that were sequenced as part 

* Verificar e analisar a informação complementar fornecida pela lista de *features* e seus *qualifiers*

In [5]:
def features_qualifiers(nome_ficheiro):
    
    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")
    
    print("Quantidade de features:", len(record.features))

    for feature in record.features:
        print(feature)
    return


In [59]:
features_qualifiers("HLA-DQA1.gbk")

Quantidade de features: 1
type: source
location: [0:170805979](+)
qualifiers:
    Key: chromosome, Value: ['6']
    Key: db_xref, Value: ['taxon:9606']
    Key: mol_type, Value: ['genomic DNA']
    Key: organism, Value: ['Homo sapiens']



In [9]:
email = 'pg21019@alunos.uminho.pt'
db = 'nucleotide'
id_gene = 'OR557191'
ext = '.gbk'
filename = 'HLA-DQA2'+ext



In [10]:
guardar_ficheiro(email,db,id_gene,filename)

O ficheiro foi guardado com sucesso na seguinte diretoria: /Users/rsousa/Desktop/mbioinf-github/mbi2324-grupo-3-labs-bioinf/rsousa


In [11]:
parsing(filename)

ID do gene: OR557191.1
Nome do gene: OR557191
Descrição do gene Homo sapiens isolate PSCDA0402 MHC class II antigen (HLA-DQA2) gene, HLA-DQA2*01:05:01:01extended allele, complete cds
Comprimento da sequência: 5232 bp


In [12]:
anot(filename)

Quantidade de anotações: 12

Lista de anotações:
molecule_type -> DNA
topology -> linear
data_file_division -> PRI
date -> 25-OCT-2023
accessions -> ['OR557191']
sequence_version -> 1
keywords -> ['']
source -> Homo sapiens (human)
organism -> Homo sapiens
taxonomy -> ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
references -> [Reference(title='Direct Submission', ...)]
structured_comment -> defaultdict(<class 'dict'>, {'Assembly-Data': {'Assembly Method': 'NGSengine v. 2.30.1.29498', 'Sequencing Technology': 'PacBio'}})


In [14]:
features_qualifiers(filename)

Quantidade de features: 13
type: source
location: [0:5232](+)
qualifiers:
    Key: db_xref, Value: ['taxon:9606']
    Key: isolate, Value: ['PSCDA0402']
    Key: mol_type, Value: ['genomic DNA']
    Key: organism, Value: ['Homo sapiens']

type: gene
location: [0:5232](+)
qualifiers:
    Key: allele, Value: ['HLA-DQA2*01:05:01:01extended']
    Key: gene, Value: ['HLA-DQA2']

type: mRNA
location: join{[0:162](+), [3796:4045](+), [4428:4710](+), [4877:5232](+)}
qualifiers:
    Key: allele, Value: ['HLA-DQA2*01:05:01:01extended']
    Key: gene, Value: ['HLA-DQA2']
    Key: product, Value: ['MHC class II antigen']

type: exon
location: [0:162](+)
qualifiers:
    Key: allele, Value: ['HLA-DQA2*01:05:01:01extended']
    Key: gene, Value: ['HLA-DQA2']
    Key: number, Value: ['1']

type: 5'UTR
location: [0:80](+)
qualifiers:
    Key: allele, Value: ['HLA-DQA2*01:05:01:01extended']
    Key: gene, Value: ['HLA-DQA2']

type: CDS
location: join{[80:162](+), [3796:4045](+), [4428:4710](+), [4877:50

In [None]:
SeqIO