**Desafio:** Partiendo de un transcripto de TP53 humano, generar un diccionario con las secuencias de cada exon.
Como podríamos obtener la secuencia de la proteína?

In [5]:
from Bio import SeqIO  # importamos el modulo necesario para leer el archivo.

with open('tp53.gb', 'r') as handle:
    secuencia = SeqIO.read(handle, 'gb')

#### Obtener las secuencias de los exones

In [51]:
# creamos una lista con todas las features asociadas a la secuencia que corresponden los exones
posiciones_exones = []
for feature in secuencia.features:
    if feature.type == 'exon':
        posiciones_exones.append(feature)

In [57]:
#vemos las posiciones para cada exon
n = 1
for pos in posiciones_exones:
    print(n, pos.location.start, pos.location.end, sep="\t")
    n = n + 1

1	0	174
2	174	276
3	276	298
4	298	577
5	577	761
6	761	874
7	874	984
8	984	1121
9	1121	1195
10	1195	1328
11	1328	1435
12	1435	2724


In [55]:
exones = {}
n = 1

for pos in posiciones_exones:
    start = pos.location.start  # posicion inicial del exon
    stop = pos.location.end     # posicion final del exon
    exones[n] = secuencia.seq[start:stop]
    n = n + 1

In [56]:
# imprimimos 
for i in range(1, len(exones) + 1): 
    print('Exon ' + str(i) + ":")
    print(exones[i])
    print() # wtf

Exon 1:
GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGG

Exon 2:
CAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACT

Exon 3:
ACTTCCTGAAAACAACGTTCTG

Exon 4:
TCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCCCTGTCATCTTCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGCTTCTTGCATTCTGGGACAGCCAAGTCTGTGACTTGCACG

Exon 5:
TACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATG

Exon 6:
GTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAG

Exon 7:
GTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGG

#### Obtener las secuencias de la proteina

In [30]:
for feature in secuencia.features:
    if feature.type == 'CDS':
        cds = feature
        print(feature)

type: CDS
location: [319:1228](+)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: db_xref, Value: ['CCDS:CCDS73971.1', 'GeneID:7157', 'HGNC:HGNC:11998', 'MIM:191170']
    Key: gene, Value: ['TP53']
    Key: gene_synonym, Value: ['BCC7; BMFS5; LFS1; P53; TRP53']
    Key: note, Value: ['isoform i is encoded by transcript variant 3; tumor protein 53; mutant tumor protein 53; cellular tumor antigen p53; phosphoprotein p53; transformation-related protein 53; p53 tumor suppressor; antigen NY-CO-13; tumor supressor p53']
    Key: product, Value: ['cellular tumor antigen p53 isoform i']
    Key: protein_id, Value: ['NP_001263625.1']
    Key: translation, Value: ['MDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQDQTSFQKENC']



In [33]:
cds_seq = secuencia.seq[cds.location.start:cds.location.end]  # cortamos la secuencia original quedandonos con el cds

In [36]:
cds_prot_seq = cds_seq.translate()  # traducimos

Además, las features cuentan con un diccionario llamado qualifiers que brinda informacion adicional. En este caso podemos ver la traduccion de la secuencia en aminoacidos.

In [62]:
seq_q = cds.qualifiers['translation']
seq_q

['MDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQDQTSFQKENC']

Por últimos vamos a comparar que las secuencias encontradas sean iguales

In [64]:
cds.qualifiers['translation'][0] == str(cds_prot_seq)[:-1]

True