# Análise da sequência e das features presentes no NCBI

* Aceder ao NCBI e guardar os ficheiros correspondentes aos genes escolhidos

In [1]:
def guardar_ficheiro(email, basedados, id_gene, nome_ficheiro):
    
    import os
    from Bio import SeqIO
    from Bio import Entrez

    Entrez.email = email
    
    filename = nome_ficheiro

    if not os.path.isfile(filename):
        net_handle = Entrez.efetch( db = basedados, id = id_gene, rettype="gb", retmode="text")
        out_handle = open(filename, "w")
        out_handle.write(net_handle.read())
        out_handle.close()
        net_handle.close()
        diretoria = os.getcwd()
        print("O ficheiro foi guardado com sucesso na seguinte diretoria:", diretoria)

    return 

In [2]:
guardar_ficheiro("oliveira1mariana@hotmail.com", "nucleotide","NC_000006", "NC_000006.gbk")

O ficheiro foi guardado com sucesso na seguinte diretoria: c:\Users\olive\Desktop\Bioinformática\LB\Trabalho\Git\mbi2324-grupo-3-labs-bioinf\Genes\HLA-DQA1


* Análise do ficheiro

In [3]:
def parsing(nome_ficheiro):

    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")

    print("ID do gene:", record.id)

    print("Nome do gene:", record.name)

    print("Descrição do gene", record.description)

    print("Comprimento da sequência:", len(record.seq), "bp")

    return

In [5]:
parsing("NC_000006.gbk")

ID do gene: NC_000006.12
Nome do gene: NC_000006
Descrição do gene Homo sapiens chromosome 6, GRCh38.p14 Primary Assembly
Comprimento da sequência: 170805979 bp


* Verificar as anotações correspondentes aos genes de interesse

In [6]:
def anot(nome_ficheiro):
    
    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")

    print("Quantidade de anotações:", len(record.annotations))

    print()
    
    print("Lista de anotações:")
    
    for anotacao in record.annotations:
        print(anotacao, "->", record.annotations[anotacao])

    return   


In [7]:
anot("NC_000006.gbk")

Quantidade de anotações: 14

Lista de anotações:
molecule_type -> DNA
topology -> linear
data_file_division -> CON
date -> 07-OCT-2023
accessions -> ['NC_000006']
sequence_version -> 12
keywords -> ['RefSeq']
source -> Homo sapiens (human)
organism -> Homo sapiens
taxonomy -> ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
references -> [Reference(title='Finishing the euchromatic sequence of the human genome', ...), Reference(title='The DNA sequence and analysis of human chromosome 6', ...), Reference(title='Initial sequencing and analysis of the human genome', ...)]
comment -> REFSEQ INFORMATION: The reference sequence is identical to
CM000668.2.
On Feb 3, 2014 this sequence version replaced NC_000006.11.
Assembly Name: GRCh38.p14 Primary Assembly
The DNA sequence is composed of genomic sequence, primarily
finished clones that were sequenced as part 

* Verificar e analisar a informação complementar fornecida pela lista de *features* e seus *qualifiers*

In [8]:
def features_qualifiers(nome_ficheiro):
    
    from Bio import SeqIO
    
    record = SeqIO.read(nome_ficheiro, "genbank")
    
    print("Quantidade de features:", len(record.features))

    for feature in record.features:
        print(feature)
    return


In [9]:
features_qualifiers("NC_000006.gbk")

Quantidade de features: 1
type: source
location: [0:170805979](+)
qualifiers:
    Key: chromosome, Value: ['6']
    Key: db_xref, Value: ['taxon:9606']
    Key: mol_type, Value: ['genomic DNA']
    Key: organism, Value: ['Homo sapiens']

