# **Introducción a Biopython**

## **Simón Villanueva**

<img src="https://upload.wikimedia.org/wikipedia/commons/7/7d/Biopython_logo.svg" alt="Drawing" width="400px"/>

[Biopython](https://biopython.org/) es una serie de modulos de Python diseñados para facilitar la computación con datos biológicos. Cuenta con un [manual](http://biopython.org/DIST/docs/tutorial/Tutorial.pdf), en el que se encuentran los principales módulos y cómo utilizarlos y una [wiki](https://biopython.org/wiki/Category%3AWiki_Documentation) en la que hay suficiente información acerca de su uso.

Tal y como lo dice Biopython, es difícil concebir un objeto más importante para la bioinformática que las **secuencias** motivo por el cual el manejo de las mismas es lo primero que debemos abordar.

Biopython cuenta con 2 objetos muy importantes para el manejo de secuencias: El objeto **Seq** y el objeto **SeqRecord**

### **Objeto Seq (Capítulo 3 del [manual](http://biopython.org/DIST/docs/tutorial/Tutorial.pdf))**

El objeto **Seq** es esencialmente igual al objeto **String**, salvo por dos cosas: tienen métodos diferentes (veremos algunos más adelante); y tienen un atributo asociado, un alfabeto. La función del alfabeto es darle significado a la secuencia, y determina cómo esta debe ser interpretada:

Por ejemplo: ¿Es la secuencia "ATCTATGCTGAC" una secuencia de ADN o una secuencia proteica muy rica en alaninas, glicinas, cisteinas y treoninas?

In [16]:
from Bio.Seq import Seq #como llamar librerias
from Bio.Alphabet import IUPAC#IUPAC alfabeto de mis nuecleotidos(ambiguo,no ambiguo,generico,DNA,RNA, proteinas)

In [17]:
my_seq = Seq("AGTACACTGGT", IUPAC.unambiguous_dna)
my_seq

Seq('AGTACACTGGT', IUPACUnambiguousDNA())

In [18]:
my_seq.alphabet

IUPACUnambiguousDNA()

Como dijimos, las secuencias actuan tal y como los strings

Están divididos en índices y por tanto pueden ser recorridos

In [19]:
for index,letter in enumerate(my_seq):
    print("%i \t %s" % (index,letter))

0 	 A
1 	 G
2 	 T
3 	 A
4 	 C
5 	 A
6 	 C
7 	 T
8 	 G
9 	 G
10 	 T


In [20]:
len(my_seq)

11

#### **Conteo**

También podemos contar la cantidad de substrings que haya

In [21]:
my_seq.count("G")

3

In [22]:
my_seq.count("AC")

2

Aunque hay que tener en cuenta que el conteo es exclusivo:

In [23]:
"AAAA".count("AA")

2

#### **Slicing**

También podemos sacar porciones de las secuencias

In [24]:
my_seq[4:9]

Seq('CACTG', IUPACUnambiguousDNA())

Notese que además de sacar una subsecuencia, también se conserva el alfabeto de la secuencia original.

#### **Concatenando Secuencias**

También podemos concatenar secuencias

In [25]:
protein_seq = Seq("EVRNAK", IUPAC.protein)
dna_seq = Seq("ACGT", IUPAC.unambiguous_dna)

In [26]:
try:
    protein_seq + dna_seq
except TypeError as message:
    print("¡Oops! BioPython no puede hacer esto porque el siguiente error emerge:\n\n %s" % message)

¡Oops! BioPython no puede hacer esto porque el siguiente error emerge:

 Incompatible alphabets IUPACProtein() and IUPACUnambiguousDNA()


Los alfabetos evitan que hagamos locuras como concatenar una secuencia de nucleotidos con una secuencia proteica.

Pero si de verdad queremos hacer una locura de estas:

In [27]:
from Bio.Alphabet import generic_alphabet

In [28]:
protein_seq.alphabet = generic_alphabet
dna_seq.alphabet = generic_alphabet
protein_seq + dna_seq

Seq('EVRNAKACGT')

***

Veamos otro ejemplo:

In [29]:
from Bio.Alphabet import generic_nucleotide

In [30]:
nuc_seq = Seq("GATCGATGC", generic_nucleotide)
dna_seq = Seq("ACGT", IUPAC.unambiguous_dna)

In [31]:
nuc_seq

Seq('GATCGATGC', NucleotideAlphabet())

In [32]:
dna_seq

Seq('ACGT', IUPACUnambiguousDNA())

In [33]:
nuc_seq + dna_seq

Seq('GATCGATGCACGT', NucleotideAlphabet())

Al concatenar secuencias, el alfabeto que se hereda será el que mayor **precedencia** tenga (más genérico, más precedencia)

#### **Cambiar Mayúsculas y minúsculas**

Supongamos que tenemos la siguiente secuencia

In [34]:
from Bio.Alphabet import generic_dna

In [35]:
dna_seq = Seq("acgtACGT", generic_dna)

Si queremos comprobar la secuencia

In [36]:
"ACGTACGT" in dna_seq

False

Como Python diferencia entre mayúsculas y minúsculas, usualmente tener una secuencia con ambas es un problema. Afotunadamente para estos casos tenemos los métodos `.lower()` y `.upper()`

In [37]:
dna_seq.lower()

Seq('acgtacgt', DNAAlphabet())

In [38]:
dna_seq.upper()

Seq('ACGTACGT', DNAAlphabet())

In [39]:
"ACGTACGT" in dna_seq.upper()

True

Otra nota: los alfabetos IUPAC son sólo compatibles con secuencias en **mayúsculas**

In [40]:
dna_seq = Seq("ACGT", alphabet=IUPAC.unambiguous_dna)
dna_seq

Seq('ACGT', IUPACUnambiguousDNA())

In [41]:
dna_seq.lower()

Seq('acgt', DNAAlphabet())

### **Métodos más biológicos**

#### **Replicación**

Algunos de las funciones biológicas que más utilizamos

In [42]:
my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC", IUPAC.unambiguous_dna)
my_seq

Seq('GATCGATGGGCCTATATAGGATCGAAAATCGC', IUPACUnambiguousDNA())

Obtenemos la secuencia complementaria con el método `.complement()`

In [43]:
my_seq.complement()

Seq('CTAGCTACCCGGATATATCCTAGCTTTTAGCG', IUPACUnambiguousDNA())

Obtenemos la secuencia reversa utilizando el slicing de strings

In [44]:
my_seq[::-1]

Seq('CGCTAAAAGCTAGGATATATCCGGGTAGCTAG', IUPACUnambiguousDNA())

Obtenemos la secuencia reversa complementaria con el método `.reverse_complement()`

In [45]:
my_seq.reverse_complement()

Seq('GCGATTTTCGATCCTATATAGGCCCATCGATC', IUPACUnambiguousDNA())

Todos estos métodos conservan el alfabeto que tenian y, de nuevo, evitan que hagamos locuras

In [46]:
protein_seq = Seq("EVRNAK", alphabet=IUPAC.protein)

In [47]:
try:
    protein_seq.complement()
except ValueError as message:
    print("¡Oops! BioPython no puede hacer esto porque el siguiente error emerge:\n\n %s" % message)

¡Oops! BioPython no puede hacer esto porque el siguiente error emerge:

 Proteins do not have complements!


#### **Transcripción**

Para tener en cuenta

<img src="https://sciprolab1.readthedocs.io/en/latest/_images/trans_transl.png" width="500px" />

Biopython (y en general los programas bioinformáticos), a diferencia de la naturaleza, toma la cadena codificante para hacer la transcripción. ¿Por qué será?

In [48]:
coding_dna = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG", IUPAC.unambiguous_dna)
coding_dna

Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG', IUPACUnambiguousDNA())

In [49]:
template_dna = coding_dna.reverse_complement()
template_dna

Seq('CTATCGGGCACCCTTTCAGCGGCCCATTACAATGGCCAT', IUPACUnambiguousDNA())

In [50]:
messenger_rna = coding_dna.transcribe()
messenger_rna

Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())

Ahora, si queremos emular la transcripción biológica sería algo así

In [51]:
template_dna.reverse_complement().transcribe()

Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())

Finalmente, también podemos hacer una transcripción reversa con el método `.back_transcribe()`

In [52]:
messenger_rna.back_transcribe()

Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG', IUPACUnambiguousDNA())

#### **Traducción**

Sigamos con nuestra secuencia y hagamos una traducción con el método `.translate()`

In [53]:
messenger_rna.translate()

Seq('MAIVMGR*KGAR*', HasStopCodon(IUPACProtein(), '*'))

Como podemos recordar, un ORF siempre tiene un codón de inicio (que traduce a Metionina usualmente) y un codón de parada. Sin embargo, ¡esta secuencia tiene un codón de parada interno (señalado con * )!

¿Y si lo leemos con otro código genético?

In [54]:
messenger_rna.translate(table="Vertebrate Mitochondrial")

Seq('MAIVMGRWKGAR*', HasStopCodon(IUPACProtein(), '*'))

Parece que ahora si es una ORF válido.

La traducción puede hacerse con distintos códigos genéticos. Biopython utiliza las mismas tablas que maneja el [NCBI](https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi). Por defecto, Biopython utiliza el *standard genetic code* (tabla 1 del NCBI). 

También podemos pasar el número de la tabla del NCBI, en lugar del nombre completo

In [55]:
messenger_rna.translate(table="2")

Seq('MAIVMGRWKGAR*', HasStopCodon(IUPACProtein(), '*'))

Otra opción que podemos añadir en la traducción, es hacerla como pasa en la naturaleza, es decir, que termine cuando encuentre el primer codón de parada.

In [56]:
coding_dna.translate()

Seq('MAIVMGR*KGAR*', HasStopCodon(IUPACProtein(), '*'))

In [57]:
coding_dna.translate(to_stop=True)

Seq('MAIVMGR', IUPACProtein())

In [58]:
coding_dna.translate(table="2")

Seq('MAIVMGRWKGAR*', HasStopCodon(IUPACProtein(), '*'))

In [59]:
coding_dna.translate(table="2",to_stop=True)

Seq('MAIVMGRWKGAR', IUPACProtein())

### **El objeto SeqRecord (Capítulo 4 del [manual](http://biopython.org/DIST/docs/tutorial/Tutorial.pdf))**

Como ya hemos dicho, la secuencia es uno de los objetos centrales de la bioinformática. Sin embargo, las secuencias rara vez se encuentran solas. Usualmente cuentan con mucha información asociada, como el tipo de secuencia que es, el organismo del que proviene, en que parte del genoma se encuentra asociado, etc.

La estructura **[SeqRecord](http://biopython.org/DIST/docs/api/Bio.SeqRecord.SeqRecord-class.html)** es un objeto diseñado para ligar la secuencia y la información asociada a ella.
Es un "contenedor" que contiene los siguientes atributos:


- `.id` : Identificador (_e.g._ un locus) (string)
- `.seq` : La secuencia misma (Seq object o similar)
- `.name` : Nombre de la secuencia (_e.g._ gene name (string))
- `.description` : Texto adicional (string)
- `.dbxrefs` : Lista de bases de datos asociadas (lista de strings)
- `.features` : Cualquier (sub)característica definida (lista de SeqFeature objects)
- `.annotations` : Información adicional relacionada a toda la secuencia (dictionary). La mayoria de items son strings o listas de strings. 
- `.letter_annotations` : Anotaciones por letra/simbolo (restricted dictionary). Este atributo guarda estructurasde Python (lists, strings or tuples) cuya longitud coincide con la de la secuencia. Un uso típico es una lista de enteros que representa la calidad de la secuenciación de cada letra, O un string representando la estructura secundaría.

Si bien podemos crear un **SeqRecord** de 0 (así como las secuencias), para hacer las cosas más entendibles y sencillas, leeremos archivos para crear los SeqRecords. Pero, para hacer esto, primero debemos ver el manejo de archivos de Biopython.

### **El modulo SeqIO (Capítulo 5 del [manual](http://biopython.org/DIST/docs/tutorial/Tutorial.pdf))**

El modulo **SeqIO** nos permite facilmente leer y escribir archivos de formatos comunes en bioinformática. En la [Wiki](https://biopython.org/wiki/SeqIO) de Biopython se encuentra una breve introducción y los formatos soportados por este modulo. 

#### **Leyendo una sola entrada**

la función `read()` recibe dos parámetros:

- El path del archivo que se va a leer [String], (_e.g._ "/home/usuario/Downloads/foo.fasta")
- El tipo de archivo que es [String]. Biopython no trata de adivinar el tipo de archivo, hay que decirselo (_e.g._ "fasta")

También se le puede pasar un parámetro opcional: `alphabet` especifíca el alfabeto que se le va  asignar a la secuencia. Esto es útil con formatos de los cuales no se puede deducir el alfabeto que se debe utilizar (_e.g._ Fasta)

Como queremos ver la complejidad que es capaz de abarcar los **SeqRecord**, veremos un archivo de formato genbank, que es un formato que está cargado de muchos metadatos adicionales a la secuencia en sí.  

In [60]:
from Bio import SeqIO

In [61]:
record = SeqIO.read("SI_marker.gb", "genbank")

Veamos qué cargamos:

In [62]:
record

SeqRecord(seq=Seq('TACACACCGCCCGTCGCTCCTACCGATTGAATGGTCCGGTGAAGTGTTCGGATC...GAG', IUPACAmbiguousDNA()), id='KP794444.1', name='KP794444', description='Plukenetia volubilis isolate WCM_10 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 26S ribosomal RNA gene, partial sequence', dbxrefs=[])

Cuanta maraña...

Veamos los atributos que dijimos tenian los **SeqRecords**

El id (`.id`)

In [63]:
record.id

'KP794444.1'

La secuencia (`.seq`)

In [64]:
record.seq

Seq('TACACACCGCCCGTCGCTCCTACCGATTGAATGGTCCGGTGAAGTGTTCGGATC...GAG', IUPACAmbiguousDNA())

El nombre (`.name`)

In [65]:
record.name

'KP794444'

La descripcion (`.description`)

In [66]:
record.description

'Plukenetia volubilis isolate WCM_10 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 26S ribosomal RNA gene, partial sequence'

Las bases de datos asociadas (`.dbxrefs`)

In [67]:
record.dbxrefs

[]

Las características (`.features`)

In [68]:
record.features

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(864), strand=1), type='source'),
 SeqFeature(FeatureLocation(BeforePosition(0), ExactPosition(173), strand=1), type='rRNA'),
 SeqFeature(FeatureLocation(ExactPosition(173), ExactPosition(419), strand=1), type='misc_RNA'),
 SeqFeature(FeatureLocation(ExactPosition(419), ExactPosition(581), strand=1), type='rRNA'),
 SeqFeature(FeatureLocation(ExactPosition(581), ExactPosition(810), strand=1), type='misc_RNA'),
 SeqFeature(FeatureLocation(ExactPosition(810), AfterPosition(864), strand=1), type='rRNA')]

Las anotaciones (`.annotations`)

In [69]:
record.annotations

{'molecule_type': 'DNA',
 'topology': 'linear',
 'data_file_division': 'PLN',
 'date': '03-AUG-2016',
 'accessions': ['KP794444'],
 'sequence_version': 1,
 'keywords': [''],
 'source': 'Plukenetia volubilis',
 'organism': 'Plukenetia volubilis',
 'taxonomy': ['Eukaryota',
  'Viridiplantae',
  'Streptophyta',
  'Embryophyta',
  'Tracheophyta',
  'Spermatophyta',
  'Magnoliophyta',
  'eudicotyledons',
  'Gunneridae',
  'Pentapetalae',
  'rosids',
  'fabids',
  'Malpighiales',
  'Euphorbiaceae',
  'Acalyphoideae',
  'Plukenetieae',
  'Plukenetia'],
 'references': [Reference(title='Molecular phylogeny and pollen evolution of Euphorbiaceae tribe Plukenetieae', ...),
  Reference(title='Direct Submission', ...)],
 'structured_comment': OrderedDict([('Assembly-Data',
               OrderedDict([('Assembly Method', 'Geneious v. 8.0.2'),
                            ('Sequencing Technology',
                             'Sanger dideoxy sequencing')]))])}

Y las anotaciones por letra (`.letter_annotations`)

In [70]:
record.letter_annotations

{}

Claramente podemos ver que hay campos con más información que otros, e incluso hay unos vacios. Según el tipo de formato que carguemos, Biopython cargará la información del archivo en los diferentes atributos.

También podemos visulizar de una manera mucho más sencilla el genbank file con `print()`

In [71]:
print(record)

ID: KP794444.1
Name: KP794444
Description: Plukenetia volubilis isolate WCM_10 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 26S ribosomal RNA gene, partial sequence
Number of features: 6
/molecule_type=DNA
/topology=linear
/data_file_division=PLN
/date=03-AUG-2016
/accessions=['KP794444']
/sequence_version=1
/keywords=['']
/source=Plukenetia volubilis
/organism=Plukenetia volubilis
/taxonomy=['Eukaryota', 'Viridiplantae', 'Streptophyta', 'Embryophyta', 'Tracheophyta', 'Spermatophyta', 'Magnoliophyta', 'eudicotyledons', 'Gunneridae', 'Pentapetalae', 'rosids', 'fabids', 'Malpighiales', 'Euphorbiaceae', 'Acalyphoideae', 'Plukenetieae', 'Plukenetia']
/references=[Reference(title='Molecular phylogeny and pollen evolution of Euphorbiaceae tribe Plukenetieae', ...), Reference(title='Direct Submission', ...)]
/structured_comment=OrderedDict([('Assembly-Data', OrderedDict([('Assembly M

#### **Extrayendo marcadores (_Features_)**

Volviendo a la descripción del Genbank anterior: 

In [72]:
record.description

'Plukenetia volubilis isolate WCM_10 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 26S ribosomal RNA gene, partial sequence'

Podemos ver que la secuencia está compuesta por múltiples *loci*, algunos parciales (típico de una PCR). La localización de cada uno de estos *loci* se encuentra dentro de las `.features` del **SeqRecord**:

In [73]:
record.features

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(864), strand=1), type='source'),
 SeqFeature(FeatureLocation(BeforePosition(0), ExactPosition(173), strand=1), type='rRNA'),
 SeqFeature(FeatureLocation(ExactPosition(173), ExactPosition(419), strand=1), type='misc_RNA'),
 SeqFeature(FeatureLocation(ExactPosition(419), ExactPosition(581), strand=1), type='rRNA'),
 SeqFeature(FeatureLocation(ExactPosition(581), ExactPosition(810), strand=1), type='misc_RNA'),
 SeqFeature(FeatureLocation(ExactPosition(810), AfterPosition(864), strand=1), type='rRNA')]

¿Y qué son esos? Veamos:

In [74]:
for ft in record.features[1:]:
    print(ft.qualifiers["product"][0])

18S ribosomal RNA
internal transcribed spacer 1
5.8S ribosomal RNA
internal transcribed spacer 2
26S ribosomal RNA


Podemos extraer cualquiera de estos *loci* con el método `.extract()` y pasandole el **SeqRecord** padre. Supongamos que queremos el 5.8s: 

In [75]:
rna_58s = record.features[3].extract(record)
print(rna_58s)
print("\n")
print("El 5.8S mide %i bp" % len(rna_58s))
print("La secuencia completa mide %i bp" % len(record))

ID: KP794444.1
Name: KP794444
Description: Plukenetia volubilis isolate WCM_10 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 26S ribosomal RNA gene, partial sequence
Number of features: 1
Seq('AACGACTCTCGGCAACGGATATCTTGGCTCTCGCATCGATGAAGAACGCAGCAA...CGC', IUPACAmbiguousDNA())


El 5.8S mide 162 bp
La secuencia completa mide 864 bp


La función devuelve un **SeqRecord** como el padre pero con la secuencia solamente del *locus* que le pedimos

***

#### **Leyendo varias entradas**

Ya vimos como leer un sólo archivo y como acceder a la información que contiene. Sin embargo, pocas veces tendremos un sólo archivo que analizar para nuestros proyectos. En la mayoría de ocasiones tendremos muchos archivos o incluso unos cuantos con varias entradas de información.

En el ejemplo anterior, el archivo fue cargado en memoria directamente, lo cual no fue un problema ya que sólo pesa unos cuantos kbytes. ¿Pero qué pasaría si en un proyecto más grande, de genómica por ejemplo, donde un archivo no tenga una sino millones de entradas (algo bastante común) se hiciera lo mismo?

**Alerta de Spoiler:** Vaya comprando otro computador...

Para evitar estas situaciones, Biopython utiliza un *parser* (no existe una buena traducción para el término, sorry!), que lee los archivos con múltiples entradas una por una, en lugar de cargar todo al mismo tiempo.

La función `parse()` funciona de una manera muy similar a la función `read()`, la diferencia es que `parse()` retorna un _iterable_ . Un iterable es un objeto que se usa en los ciclos (_e.g_ for, while, etc.) para ser recorridos. En este caso, en cada ciclo este iterable va a retornar un **SeqRecord** por cada entrada que tenga el archivo que estamos leyendo.

Un ejemplo lo hará todo más claro: 

In [76]:
handle = SeqIO.parse("reads.fastq", "fastq")

¿Qué tipo de variable es 'handle'?

In [77]:
type(handle)

generator

Creemos una lista para guardar cada entrada y leer el archivo

In [78]:
reads = []
for read in handle:
    reads.append(read)

¿Qué tan grande es nuestro archivo?

In [79]:
len(reads)

1000

¿Y qué tenemos?

In [80]:
type(reads[0])

Bio.SeqRecord.SeqRecord

In [81]:
reads[0]

SeqRecord(seq=Seq('CTGGTTTGCACTCGGGACAATTAGCGCCTCTTTCCTGTGGTTCTTTGGTCTGGC...CAC', SingleLetterAlphabet()), id='SN7001201:1895:HGY57BCX2:1:1116:11049:67781', name='SN7001201:1895:HGY57BCX2:1:1116:11049:67781', description='SN7001201:1895:HGY57BCX2:1:1116:11049:67781', dbxrefs=[])

In [82]:
len(reads[0].letter_annotations["phred_quality"])

101

Básicamente, tenemos una lista de 1000 elementos, donde cada uno es un **SeqRecord**, es decir una secuencia con su información asociada (en este caso calidad)

**Nota:** Vease que el alfabeto de las secuencias que acabamos de cargar es 'SingleLetterAlphabet' lo cual no es lo más apropiado siendo estas secuencias de ADN. Para cambiar esto, como ya lo mencionamos, podriamos pasar un alfabeto a `parse()`.

In [83]:
handle = SeqIO.parse("reads.fastq", "fastq", alphabet=IUPAC.unambiguous_dna)

In [84]:
reads2 = []
for read in handle:
    reads2.append(read)

In [85]:
reads2[0].seq

Seq('CTGGTTTGCACTCGGGACAATTAGCGCCTCTTTCCTGTGGTTCTTTGGTCTGGC...CAC', IUPACUnambiguousDNA())

#### **Escritura de archivos**

Para escribir archivos, el modulo **SeqIO** cuenta con la función `write()`. Ésta recibe tres argumentos:

- Uno (o varios **SeqRecord**), _i.e_ puede ser una lista, diccionario, set etc. de **SeqRecord's** 
- El path (o nombre) donde se va a guardar el archivo [string] (_e.g._ "/home/usuario/documentos/foo.fasta")
- El tipo de archivo que se va a escribir [string] (_e.g._ "fasta")

**Nota:** Si se le dice a `write()` que escriba un archivo que ya existe, ésta sobreecribirá el archivo antiguo sin ninguna clase de advertencia. 

Escribamos en un archivo fasta la secuencia complementaría del archivo genbank que tenemos

In [86]:
record_rna = record
record_rna.seq = record.seq.transcribe()
SeqIO.write(record_rna, "rna.fasta", "fasta")

1

#### **Conversión de formatos**

Sí nos ponemos a pensarlo, la flexibilidad de las funciones `read()` y `write()` nos permite usando ambas, leer un archivo de un formato y escribirlo en otro. Es decir convertir el formato.

Como esta tarea es muy común, y para ahorrar codigo y tiempo, Biopython ya cuenta con una función que acopla ambas funciones. `convert()` recibe 4 argumentos:

- El path (o nombre) donde se va a leer el archivo [string] (_e.g._ "/home/usuario/documentos/foo.fastq")
- El tipo de archivo que se va a leer [string] (_e.g._ "fastq")
- El path (o nombre) donde se va a guardar el archivo [string] (_e.g._ "/home/usuario/documentos/foo.fasta")
- El tipo de archivo que se va a escribir [string] (_e.g._ "fasta")

**Nota:** Ya que la conversión de archivos pasa a través de la estructura **SeqRecord** y cada tipo de archivo llena campos diferentes, hay una lógica detrás de las conversiones que se pueden hacer. Por ejemplo, un archivo fastQ puede convertirse a un archivo fasta, pero lo opuesto no es posible, ya que faltaría información (la calidad asociada a la secuencia).

In [87]:
SeqIO.convert("reads.fastq", "fastq", "reads.fasta", "fasta")

1000

## **Ejercicios**

Con el archivo 'SI_marker.gb', obtener un archivo de formato fasta con la misma secuencia.

In [89]:
from Bio import SeqIO
aux = SeqIO.read("SI_marker.gb","gb")
SeqIO.write(aux, "SI_marker.fasta", "fasta")
 #otra forma de hacerlo es 
#f = open("SI_marker.gb","w")
#f.write(aux.format("fasta"))
#f.close()

#otra forma de correrlo es 
#SeqIO.convert("SI_marker.gb","gb","SI_marker.fasta","fasta")

1

Escribir un archivo fasta que contenga los mRNA's asociados a las secuencias del archivo 'reads.fastq'

In [91]:
type(aux)

generator

In [107]:
from Bio import SeqIO
lista=[]
for i in SeqIO.parse("reads.fastq","fastq"):
    a= i.seq
    mrna=a.transcribe()
    lista.append(mrna)
SeqIO.write(lista.Record.Seq, "reads.fasta","fasta")

AttributeError: 'list' object has no attribute 'Record'

Con el archivo 'SI_marker.gb', traducir la secuencia con el código genético correspondiente y escribirla en un archivo fasta.