# Entrez Package
## Análise genética da resistência a antibióticos em Legionella pneumophila
### Mestrado em Bioinformática, Laboratórios de Bioinformática, Grupo 10

In [None]:
from Bio import Entrez
from Bio import SeqIO

genes_int = ["lpeB","mip"]
local = {}
gene_seq = {}
prot_id = {}
prot = {}

Entrez.email = "pg45964@alunos.uminho.pt"
handle = Entrez.efetch(db="nucleotide", rettype="gbwithparts", retmode="text", id="NC_006368.1")
seq_record = SeqIO.read(handle, "genbank")

################################
print("Título:",seq_record.description)
print("ID GenBank (e outros IDs):",seq_record.annotations["accessions"])
print("Taxonomia:",seq_record.annotations["taxonomy"])
print("Tipo de molécula:",seq_record.annotations["molecule_type"])
print("Topologia:",seq_record.annotations["topology"])
print("Referências externas:",seq_record.dbxrefs)
print()
################################

for s in seq_record.features:
    if s.type == "CDS":
        qual = dict(s.qualifiers)
        
        if "gene" in qual:
            if qual["gene"][0] in genes_int:
                loc = s.location
                #########################
                print("Gene:",qual["gene"][0])
                print("Produto:", qual["product"])
                #print("Início:", int(loc.start))
                #print("Fim:", int(loc.end))
                #print("Cadeia:", int(loc.strand))
                #print("ID Proteína:", qual["protein_id"])
                print()
                #########################
                local[qual["gene"][0]] = (int(loc.start), int(loc.end), loc.strand)
                gene_seq[qual["gene"][0]] = s.extract(seq_record.seq)
                prot_id[qual["gene"][0]] = qual["protein_id"]
                prot[qual["gene"][0]] = qual["translation"]

handle.close()

Título: Legionella pneumophila str. Paris, complete sequence
ID GenBank (e outros IDs): ['NC_006368']
Taxonomia: ['Bacteria', 'Proteobacteria', 'Gammaproteobacteria', 'Legionellales', 'Legionellaceae', 'Legionella']
Tipo de molécula: DNA
Topologia: linear
Referências externas: ['BioProject:PRJNA224116', 'BioSample:SAMEA3138252', 'Assembly:GCF_000048645.1']

Gene: mip
Produto: ['macrophage infectivity potentiator Mip']

Gene: lpeB
Produto: ['multidrug efflux RND transporter permease subunit LpeB']



In [None]:
print(local)

{'mip': (959507, 960209, 1), 'lpeB': (3281865, 3284910, 1)}


In [None]:
from Bio import SeqIO

genes_int = ["lpeB","mip"]
#local
#gene_seq
#prot_id
#prot


for g in genes_int:
    ####################
    print("Gene:",g)
    print("Início:",local[g][0])
    print("Fim:",local[g][1])
    print("Cadeia:",local[g][2])
    print("Sequência DNA:",gene_seq[g][0:75]+"...")
    print("ID Proteína:",prot_id[g][0])
    print("Sequência Proteica:",prot[g][0][0:75]+"...")
    print("----------")
    ####################
    inicio, fim, strand = local[g]
    annot = ";".join([g,str(inicio),str(fim),str(strand),prot_id[g][0]])
    
    file = open(g+".fasta","w")
    file.write(">"+annot+"\n"+str(gene_seq[g]))
    file.close()
    
    file = open(g+"_"+prot_id[g][0]+".fasta","w")
    file.write(">"+annot+"\n"+prot[g][0])
    file.close()

Gene: lpeB
Início: 3281865
Fim: 3284910
Cadeia: 1
Sequência DNA: ATGAAACTCACCAGCTATTTCATCAAACATCCTGTAATCACCATCATCTTAAACGCCATGATTGTTGTTCTGGGG...
ID Proteína: WP_015961836.1
Sequência Proteica: MKLTSYFIKHPVITIILNAMIVVLGLLCLYNLSVREYPDINFPTITVSASYPNASPDLVETAITNVLEDRLAGIE...
----------
Gene: mip
Início: 959507
Fim: 960209
Cadeia: 1
Sequência DNA: ATGAAGATGAAATTGGTGACTGCAGCTGTTATGGGGCTTGCAATGTCAACAGCAATGGCTGCAACCGATGCCACA...
ID Proteína: WP_011213317.1
Sequência Proteica: MKMKLVTAAVMGLAMSTAMAATDATSLATDKDKLSYSIGADLGKNFKNQGIDVNPEAMAKGMQDAMSGAQLALTE...
----------
