<font color="#002856"><h1 align="left">Programación con Python y R</h1></font>
<font color="#002856"><h2 align="left"> Biopython</h2></font> 

#### Profesor: Juan Francisco Vallalta Rueda
---

# Biopython

[Biopython](https://biopython.org/) es una colección de módulos para bioinformática. Consultarlo para revisar si existe un módulo que pueda resolver nuestro problema. Algunas de sus utilidades incluyen funciones y clases para trabajar con secuencias, resultados Blast, estructuras de proteínas y árboles filogenéticos.

Para mayor familiarización con Biopython, estudiar su tutorial http://biopython.org/DIST/docs/tutorial/Tutorial.html

Revisar los capítulos:

- Sequence objects
- Sequence Record objects
- Reading and writing sequence files
- Running and parsing BLAST
- Mailing lists


### Ejercicios
- Crea un objeto Seq con la secuencia 'ATCG'. ¿Cuántos residuos tiene? ¿Cuáles son las tres primeras letras? ¿Y la última? ¿Cuántas adeninas tiene? Convierte la secuencia en una cadena de texto normal sin alfabeto.
- Crea la secuencia reversa y complementaria de 'ATCG'.
- Traduce la secuencia 'ATGGCCATTGT' a proteína.
- Crea dos secuencias 'ATGGCCATTGT' y comprueba si son iguales.
- Crea un SeqRecord con la secuencia 'ATCG', la id 'secuencia' y la descripción 'prueba'.
- Leer un fichero de secuencias seqs_2.fasta y hacerlas todas minúsculas.
- Pasar un fichero de sequence.gb a fasta.
- Filtrar las secuencias de un fichero seqs_illumina.fastq por calidad media.

In [41]:
# Instalar biopython
!pip install biopython



#### 1. Crea un objeto Seq con la secuencia 'ATCG'. ¿Cuántos residuos tiene? ¿Cuáles son las tres primeras letras? ¿Y la última? ¿Cuántas adeninas tiene? Convierte la secuencia en una cadena de texto normal sin alfabeto.

In [42]:
from Bio.Seq import Seq
secuencia = Seq('ATCG')
print(secuencia)

ATCG


In [43]:
len(secuencia)

4

In [44]:
secuencia[:3]

Bio.Seq.Seq

In [45]:
secuencia[0]

'A'

In [48]:
list(secuencia)

['A', 'T', 'C', 'G']

In [14]:
secuencia[-2]

'C'

In [51]:
secuencia.count('A')

1

In [16]:
str(secuencia)

'ATCG'

#### 2. Crea la secuencia reversa y complementaria de 'ATCG'.

In [52]:
# Secuencia complewmentaria antes de revertirla
secuencia = Seq('ATCG')
secuencia.complement()

Seq('TAGC')

In [53]:
secuencia = Seq('ATCG')
secuencia.reverse_complement()

Seq('CGAT')

#### 2.Traduce la secuencia 'ATGGCCATTGT' a proteína.

In [54]:
secuencia = Seq('ATGGCCATTGTA')
secuencia.translate()

Seq('MAIV')

#### 3. Crea dos secuencias 'ATGGCCATTGT' y comprueba si son iguales.

In [58]:
secuencia = Seq('ATGGCCATTGT')
secuencia2 = Seq('ATGGCCATTGT')
secuencia == secuencia2

True

In [59]:
str(secuencia) == str(secuencia2)

True

In [60]:
id(secuencia) == id(secuencia2)

False

In [62]:
id(secuencia)

1694206294592

In [63]:
id(secuencia2)

1694206293760

#### 4. Crea un SeqRecord con la secuencia 'ATCG', la id 'secuencia' y la descripción 'prueba'.

In [64]:
from Bio.SeqRecord import SeqRecord
record = SeqRecord(Seq('ATCG'), name='secuencia', id='12345', description='prueba')
record

SeqRecord(seq=Seq('ATCG'), id='12345', name='secuencia', description='prueba', dbxrefs=[])

#### 5. Leer un fichero de secuencias ls_orchid.fasta y hacerlas todas minúsculas.

In [65]:
from Bio import SeqIO

def hacer_fasta_minusculas(fichero):
    # Lee las secuencias de un fichero y las hace minusculas'

    for seq_record in SeqIO.parse(fichero, 'fasta'):
        print('>' + seq_record.id)
        print(str(seq_record.seq).lower())


In [66]:
hacer_fasta_minusculas('ls_orchid.fasta')

>gi|2765658|emb|Z78533.1|CIZ78533
cgtaacaaggtttccgtaggtgaacctgcggaaggatcattgatgagaccgtggaataaacgatcgagtgaatccggaggaccggtgtactcagctcaccgggggcattgctcccgtggtgaccctgatttgttgttgggccgcctcgggagcgtccatggcgggtttgaacctctagcccggcgcagtttgggcgccaagccatatgaaagcatcaccggcgaatggcattgtcttccccaaaacccggagcggcggcgtgctgtcgcgtgcccaatgaattttgatgactctcgcaaacgggaatcttggctctttgcatcggatggaaggacgcagcgaaatgcgataagtggtgtgaattgcaagatcccgtgaaccatcgagtcttttgaacgcaagttgcgcccgaggccatcaggctaagggcacgcctgcttgggcgtcgcgcttcgtctctctcctgccaatgcttgcccggcatacagccaggccggcgtggtgcggatgtgaaagattggccccttgtgcctaggtgcggcgggtccaagagctggtgttttgatggcccggaacccggcaagaggtggacggatgctggcagcagctgccgtgcgaatcccccatgttgtcgtgcttgtcggacaggcaggagaacccttccgaaccccaatggagggcggttgaccgccattcggatgtgaccccaggtcaggcgggggcacccgctgagtttacgc
>gi|2765657|emb|Z78532.1|CCZ78532
cgtaacaaggtttccgtaggtgaacctgcggaaggatcattgttgagacaacagaatatatgatcgagtgaatctggaggacctgtggtaactcagctcgtcgtggcactgcttttgtcgtgaccctgctttgttgttgggcctcctcaagagctttcatggcaggtttgaactttagtacggtgcagttt

In [86]:
from Bio import SeqIO
for seq_record in list(SeqIO.parse("sequence.fasta", "fasta"))[:1]:
    print(seq_record.id)
    print(str(seq_record.seq))
    print(len(seq_record))
    print(seq_record.description)

NM_007294.3
GTACCTTGATTTCGTATTCTGAGAGGCTGCTGCTTAGCGGTAGCCCCTTGGTTTCCGTGGCAACGGAAAAGCGCGGGAATTACAGATAAATTAAAACTGCGACTGCGCGGCGTGAGCTCGCTGAGACTTCCTGGACGGGGGACAGGCTGTGGGGTTTCTCAGATAACTGGGCCCCTGCGCTCAGGAGGCCTTCACCCTCTGCTCTGGGTAAAGTTCATTGGAACAGAAAGAAATGGATTTATCTGCTCTTCGCGTTGAAGAAGTACAAAATGTCATTAATGCTATGCAGAAAATCTTAGAGTGTCCCATCTGTCTGGAGTTGATCAAGGAACCTGTCTCCACAAAGTGTGACCACATATTTTGCAAATTTTGCATGCTGAAACTTCTCAACCAGAAGAAAGGGCCTTCACAGTGTCCTTTATGTAAGAATGATATAACCAAAAGGAGCCTACAAGAAAGTACGAGATTTAGTCAACTTGTTGAAGAGCTATTGAAAATCATTTGTGCTTTTCAGCTTGACACAGGTTTGGAGTATGCAAACAGCTATAATTTTGCAAAAAAGGAAAATAACTCTCCTGAACATCTAAAAGATGAAGTTTCTATCATCCAAAGTATGGGCTACAGAAACCGTGCCAAAAGACTTCTACAGAGTGAACCCGAAAATCCTTCCTTGCAGGAAACCAGTCTCAGTGTCCAACTCTCTAACCTTGGAACTGTGAGAACTCTGAGGACAAAGCAGCGGATACAACCTCAAAAGACGTCTGTCTACATTGAATTGGGATCTGATTCTTCTGAAGATACCGTTAATAAGGCAACTTATTGCAGTGTGGGAGATCAAGAATTGTTACAAATCACCCCTCAAGGAACCAGGGATGAAATCAGTTTGGATTCTGCAAAAAAGGCTGCTTGTGAATTTTCTGAGACGGATGTAACAAATACTGAACATCATCAACCCAGTAATAATGATTTGAACACCACTGAGAAGCGT

In [85]:
seq_record

SeqRecord(seq=Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC'), id='gi|2765658|emb|Z78533.1|CIZ78533', name='gi|2765658|emb|Z78533.1|CIZ78533', description='gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA', dbxrefs=[])

#### 5. Convertir formatos

In [68]:
# Genbank a Fasta
from Bio import SeqIO

def convertir_secuencia(fichero_entrada, formato_entrada,
                      fichero_salida,  formato_salida):
    #Convierte un fichero de secuencia de un formato a otro

    secuencias = SeqIO.parse(fichero_entrada, formato_entrada)
    SeqIO.write(secuencias, fichero_salida, formato_salida)

In [69]:
formato_entrada = 'genbank'
fichero_entrada = 'sequence.gb'
formato_salida  = 'fasta'
fichero_salida  = 'sequence.fasta'
convertir_secuencia(fichero_entrada, formato_entrada, fichero_salida,  formato_salida)

In [82]:
for seq_record in SeqIO.parse('sequence.gb', 'genbank'):
        print(seq_record)
        print('>' + seq_record.id)
        print(seq_record.name)
        print(sec_record.description)
        #print(seq_record.seq)

ID: NM_007294.3
Name: NM_007294
Description: Homo sapiens breast cancer 1, early onset (BRCA1), transcript variant 1, mRNA
Number of features: 56
/molecule_type=mRNA
/topology=linear
/data_file_division=PRI
/date=04-NOV-2010
/accessions=['NM_007294']
/sequence_version=3
/gi=237757283
/keywords=['']
/source=Homo sapiens (human)
/organism=Homo sapiens
/taxonomy=['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
/references=[Reference(title='Emerging roles of BRCA1 alternative splicing', ...), Reference(title='Expression profiles of BRCA1 splice variants in asynchronous and in G1/S synchronized tumor cell lines', ...), Reference(title='BRCA1: a review of structure and putative functions', ...), Reference(title='Mutations and alternative splicing of the BRCA1 gene in UK breast/ovarian cancer families', ...), Reference(title='Differential subcellular localiza

NameError: name 'sec_record' is not defined

In [79]:
seq_record

SeqRecord(seq=Seq('GTACCTTGATTTCGTATTCTGAGAGGCTGCTGCTTAGCGGTAGCCCCTTGGTTT...AAA'), id='NM_007294.3', name='NM_007294', description='Homo sapiens breast cancer 1, early onset (BRCA1), transcript variant 1, mRNA', dbxrefs=[])

In [71]:
hacer_fasta_minusculas('sequence.fasta')

>NM_007294.3
gtaccttgatttcgtattctgagaggctgctgcttagcggtagccccttggtttccgtggcaacggaaaagcgcgggaattacagataaattaaaactgcgactgcgcggcgtgagctcgctgagacttcctggacgggggacaggctgtggggtttctcagataactgggcccctgcgctcaggaggccttcaccctctgctctgggtaaagttcattggaacagaaagaaatggatttatctgctcttcgcgttgaagaagtacaaaatgtcattaatgctatgcagaaaatcttagagtgtcccatctgtctggagttgatcaaggaacctgtctccacaaagtgtgaccacatattttgcaaattttgcatgctgaaacttctcaaccagaagaaagggccttcacagtgtcctttatgtaagaatgatataaccaaaaggagcctacaagaaagtacgagatttagtcaacttgttgaagagctattgaaaatcatttgtgcttttcagcttgacacaggtttggagtatgcaaacagctataattttgcaaaaaaggaaaataactctcctgaacatctaaaagatgaagtttctatcatccaaagtatgggctacagaaaccgtgccaaaagacttctacagagtgaacccgaaaatccttccttgcaggaaaccagtctcagtgtccaactctctaaccttggaactgtgagaactctgaggacaaagcagcggatacaacctcaaaagacgtctgtctacattgaattgggatctgattcttctgaagataccgttaataaggcaacttattgcagtgtgggagatcaagaattgttacaaatcacccctcaaggaaccagggatgaaatcagtttggattctgcaaaaaaggctgcttgtgaattttctgagacggatgtaacaaatactgaacatcatcaacccagtaataatgatttgaacaccactgagaagcg

#### 6 Filtrar las secuencias de un fichero sanger fastq por calidad media.

In [93]:
from Bio import SeqIO

def filtrar_secuencias(fichero_entrada, fichero_salida,
                       umbral_calidad):
    'Dado un fichero fastq filtra las secuencias por calidad'

    formato = 'fastq'

   
    secuencias_filtradas = []
    for seq_record in SeqIO.parse(fichero_entrada, formato):
        # print(seq_record)
        calidades = seq_record.letter_annotations['phred_quality']

        calidad_media = float(sum(calidades)) / len(calidades)

        print(calidad_media)

        if calidad_media < umbral_calidad:
            continue

        secuencias_filtradas.append(seq_record)

    SeqIO.write(secuencias_filtradas, fichero_salida, formato)

In [95]:
filtrar_secuencias('seqs_illumina.fastq', 'seqs_filtradas.fastq', 36)

34.71052631578947
35.0
37.68421052631579
34.13157894736842
36.26315789473684
35.28947368421053
38.81578947368421
37.05263157894737
38.8421052631579


In [98]:
for seq_record in SeqIO.parse('seqs_illumina.fastq', 'fastq'):
    print(seq_record.id)
    print(seq_record.description)
    print(seq_record.seq)

CUESXEL822
CUESXEL822
TAATACACCCAGTCTCAATTCCATCCTGGGAACTAAGT
CUESXEL823
CUESXEL823
TCATTACGTAGCTCCGGCTCCGCCATGTCTGTTCCTTC
CUESXEL824
CUESXEL824
GATTGAAGCTCCAAACCGCCATGTTCACCACCGCAAGC
CUESXEL825
CUESXEL825
TGCTTGCTGCACTTTGATGTTATTATCTGTGTTGTGTT
CUESXEL826
CUESXEL826
CTACGATTCTAAACACTATATGTTACTCTAAATAAAGA
CUESXEL827
CUESXEL827
TACTACTTTCTAAATGAGTATGATACAGAAGATATAAT
CUESXEL828
CUESXEL828
AGCTATATTTCATGTTGGATTGAGCATTGGTCTGGATG
CUESXEL829
CUESXEL829
GTTTGTTTGGTCATGCGGCTGTTTCTGAACCATTAACG
CUESXEL830
CUESXEL830
CGCTCTTCTTCGCCACCGTGTTCTTGATATCGGCCTTC


## Tutorial

### Inicio rápido: instalando biopython

In [2]:
# Instalar biopython
!pip install biopython

Collecting biopython
  Obtaining dependency information for biopython from https://files.pythonhosted.org/packages/b8/c8/18570a63e8b6fe99a856698d500fb326f0ce247d2b70d8d631d4abcb5c9c/biopython-1.83-cp311-cp311-win_amd64.whl.metadata
  Downloading biopython-1.83-cp311-cp311-win_amd64.whl.metadata (13 kB)
Downloading biopython-1.83-cp311-cp311-win_amd64.whl (2.7 MB)
   ---------------------------------------- 0.0/2.7 MB ? eta -:--:--
   ---------------------------------------- 0.0/2.7 MB ? eta -:--:--
    --------------------------------------- 0.0/2.7 MB 653.6 kB/s eta 0:00:05
   --- ------------------------------------ 0.3/2.7 MB 2.6 MB/s eta 0:00:01
   ---------- ----------------------------- 0.7/2.7 MB 4.9 MB/s eta 0:00:01
   --------------------------- ------------ 1.9/2.7 MB 10.8 MB/s eta 0:00:01
   ---------------------------------------  2.7/2.7 MB 12.3 MB/s eta 0:00:01
   ---------------------------------------- 2.7/2.7 MB 10.9 MB/s eta 0:00:00
Installing collected packages: biop

Esta sección está diseñada para ayudarlo a comenzar rápidamente con Biopython y brindarle una descripción general de lo que está disponible y cómo usarlo. Todos los ejemplos de esta sección asumen que tiene algunos conocimientos prácticos generales de Python y que ha instalado Biopython con éxito en su sistema. Si cree que necesita repasar Python, el sitio web principal de Python proporciona bastante documentación gratuita para comenzar (https://docs.python.org/3/).

Dado que gran parte del trabajo biológico en la computadora implica conectarse a bases de datos en Internet, algunos de los ejemplos también requerirán una conexión a Internet que funcione para poder ejecutarse.

Ahora que todo eso está aclarado, veamos lo que podemos hacer con Biopython.

### 2.1 Descripción general de lo que ofrece Biopython

Como se mencionó en la introducción, Biopython es un conjunto de bibliotecas que brindan la capacidad de manejar "cosas" de interés para los biólogos que trabajan en la computadora. En general, esto significa que necesitarás tener al menos algo de experiencia en programación (¡en Python, por supuesto!) o al menos interés en aprender a programar. El trabajo de Biopython es facilitar su trabajo como programador proporcionándole bibliotecas reutilizables para que pueda concentrarse en responder su pregunta de interés específica, en lugar de centrarse en los aspectos internos del análisis de un formato de archivo en particular (por supuesto, si desea ayudar escribiendo un analizador que no existe y contribuyéndolo a Biopython, ¡adelante!). ¡Entonces el trabajo de Biopython es hacerte feliz!

Una cosa a tener en cuenta sobre Biopython es que a menudo proporciona múltiples formas de "hacer lo mismo". Las cosas han mejorado en versiones recientes, pero esto aún puede resultar frustrante, ya que lo ideal es que en Python haya una forma correcta de hacer algo. Sin embargo, esto también puede ser un beneficio real porque le brinda mucha flexibilidad y control sobre las bibliotecas. El tutorial le ayuda a mostrarle las formas más comunes o sencillas de hacer las cosas para que pueda hacer que funcionen. Para obtener más información sobre las posibilidades alternativas, consulte el Libro de recetas (Capítulo 22, que tiene algunos trucos y consejos interesantes) y las “cadenas de documentos” integradas (a través del comando de ayuda de Python o la documentación de la API) o, en última instancia, el código mismo.

### 2.2 Trabajar con secuencias

Es discutible (¡por supuesto!) que el objeto central de la bioinformática sea la secuencia. Por lo tanto, comenzaremos con una rápida introducción a los mecanismos de Biopython para manejar secuencias, el objeto Seq, que discutiremos con más detalle en el Capítulo 3.

La mayoría de las veces, cuando pensamos en secuencias, tenemos en mente una cadena de letras como 'AGTACACTGGT'. Puede crear dicho objeto Seq con esta secuencia de la siguiente manera:

In [3]:
from Bio.Seq import Seq
my_seq = Seq("AGTACACTGGT")
my_seq

Seq('AGTACACTGGT')

In [5]:
print(my_seq)

AGTACACTGGT


El objeto Seq se diferencia de la cadena de Python en los métodos que admite. No puedes hacer esto con una cadena simple:

In [6]:
my_seq

Seq('AGTACACTGGT')

In [7]:
my_seq.complement()

Seq('TCATGTGACCA')

In [8]:
my_seq.reverse_complement()

Seq('ACCAGTGTACT')

La siguiente clase más importante es SeqRecord o Sequence Record. Contiene una secuencia (como un objeto Seq) con anotaciones adicionales que incluyen un identificador, nombre y descripción. El módulo Bio.SeqIO para leer y escribir formatos de archivos de secuencia funciona con objetos SeqRecord, que se presentarán a continuación y se tratarán con más detalle en el Capítulo 5.

Esto cubre las características y usos básicos de la clase de secuencia Biopython. Ahora que tiene una idea de cómo es interactuar con las bibliotecas de Biopython, ¡es hora de profundizar en el divertido mundo de lidiar con formatos de archivos biológicos!

### 2.3 Un ejemplo de uso

Antes de pasar directamente a los analizadores y todo lo demás que tiene que ver con Biopython, establezcamos un ejemplo para motivar todo lo que hacemos y hacer la vida más interesante. Después de todo, si no hubiera nada de biología en este tutorial, ¿por qué querrías leerlo?

Como amo las plantas, creo que vamos a tener que tener un ejemplo basado en plantas (¡lo siento por todos los fanáticos de otros organismos!). Después de haber completado un viaje reciente a nuestro invernadero local, de repente hemos desarrollado una increíble obsesión con las orquídeas Lady Slipper (si se pregunta por qué, eche un vistazo a algunas fotos de Lady Slipper Orchids en Flickr o pruebe una búsqueda de imágenes en Google).

Por supuesto, las orquídeas no sólo son hermosas a la vista, sino que también son extremadamente interesantes para las personas que estudian la evolución y la sistemática. Entonces, supongamos que estamos pensando en escribir una propuesta de financiación para realizar un estudio molecular de la evolución de Lady Slipper y nos gustaría ver qué tipo de investigación ya se ha realizado y cómo podemos agregar algo a eso.

Después de leer un poco, descubrimos que las orquídeas mariquita pertenecen a la familia Orchidaceae y a la subfamilia Cypripedioideae y están compuestas por 5 géneros: Cypripedium, Paphiopedilum, Phragmipedium, Selenipedium y Mexipedium.

Eso nos da suficiente para comenzar a buscar más información. Entonces, veamos cómo las herramientas de Biopython pueden ayudarnos. Comenzaremos con el análisis de secuencias en la Sección 2.4, pero las orquídeas también regresaremos más adelante; por ejemplo, buscaremos en PubMed artículos sobre orquídeas y extraeremos datos de secuencias de GenBank en el Capítulo 12, extraeremos datos de Swiss-Prot de ciertas proteínas de orquídeas en el Capítulo 13, y trabajar con alineamientos de secuencias múltiples de proteínas de orquídeas de ClustalW en la Sección 6.7.2.

### 2.4 Analizar formatos de archivos de secuencia

Una gran parte del trabajo bioinformático implica lidiar con muchos tipos de formatos de archivos diseñados para contener datos biológicos. Estos archivos están cargados con datos biológicos interesantes y un desafío especial es analizarlos en un formato que permita manipularlos con algún tipo de lenguaje de programación. Sin embargo, la tarea de analizar estos archivos puede verse frustrada por el hecho de que los formatos pueden cambiar con bastante regularidad y que los formatos pueden contener pequeñas sutilezas que pueden romper incluso los analizadores mejor diseñados.

Ahora vamos a presentar brevemente el módulo Bio.SeqIO; puede encontrar más información en el Capítulo 5. Comenzaremos con una búsqueda en línea de nuestras amigas, las orquídeas zapatilla. Para simplificar esta introducción, simplemente utilizamos el sitio web del NCBI manualmente. Echemos un vistazo a las bases de datos de nucleótidos del NCBI, utilizando una búsqueda en línea de Entrez (https://www.ncbi.nlm.nih.gov/nuccore/?term=Cypripedioideae) para todo lo que mencione el texto Cypripedioideae (esta es la subfamilia de orquídeas zapatilla de dama).

Cuando se escribió originalmente este tutorial, esta búsqueda nos dio solo 94 resultados, que guardamos como un archivo de texto con formato FASTA y como un archivo de texto con formato GenBank (archivos ls_orchid.fasta y ls_orchid.gbk, también incluidos con el código fuente de Biopython en Doc /ejemplos/).

Si realiza la búsqueda hoy, ¡obtendrá cientos de resultados! Al seguir el tutorial, si desea ver la misma lista de genes, simplemente descargue los dos archivos anteriores o cópielos de docs/examples/ en el código fuente de Biopython. En la Sección 2.5 veremos cómo realizar una búsqueda como esta desde Python.

#### 2.4.1 Ejemplo de análisis FASTA simple

Si abre el archivo FASTA de orquídeas zapatilla de dama ls_orchid.fasta en su editor de texto favorito, verá que el archivo comienza así:

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG
...

Contiene 94 registros, cada uno tiene una línea que comienza con “>” (símbolo mayor que) seguida de la secuencia en una o más líneas. Ahora prueba esto en Python:

In [12]:
from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

gi|2765658|emb|Z78533.1|CIZ78533
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
740
gi|2765657|emb|Z78532.1|CCZ78532
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC')
753
gi|2765656|emb|Z78531.1|CFZ78531
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA')
748
gi|2765655|emb|Z78530.1|CMZ78530
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAAACAACAT...CAT')
744
gi|2765654|emb|Z78529.1|CLZ78529
Seq('ACGGCGAGCTGCCGAAGGACATTGTTGAGACAGCAGAATATACGATTGAGTGAA...AAA')
733
gi|2765652|emb|Z78527.1|CYZ78527
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...CCC')
718
gi|2765651|emb|Z78526.1|CGZ78526
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...TGT')
730
gi|2765650|emb|Z78525.1|CAZ78525
Seq('TGTTGAGATAGCAGAATATACATCGAGTGAATCCGGAGGACCTGTGGTTATTCG...GCA')
704
gi|2765649|emb|Z78524.1|CFZ78524
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGATAGTAG...AGC')
740
gi|2765648|emb|Z78523.1|CHZ78523
Seq('CGTAACCAGGTTTCCGT

#### 2.4.2 Ejemplo de análisis simple de GenBank
Ahora carguemos el archivo GenBank ls_orchid.gbk; observe que el código para hacer esto es casi idéntico al fragmento usado anteriormente para el archivo FASTA; la única diferencia es que cambiamos el nombre del archivo y la cadena de formato:

In [13]:
from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.gbk", "genbank"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

Z78533.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
740
Z78532.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC')
753
Z78531.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA')
748
Z78530.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAAACAACAT...CAT')
744
Z78529.1
Seq('ACGGCGAGCTGCCGAAGGACATTGTTGAGACAGCAGAATATACGATTGAGTGAA...AAA')
733
Z78527.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...CCC')
718
Z78526.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...TGT')
730
Z78525.1
Seq('TGTTGAGATAGCAGAATATACATCGAGTGAATCCGGAGGACCTGTGGTTATTCG...GCA')
704
Z78524.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGATAGTAG...AGC')
740
Z78523.1
Seq('CGTAACCAGGTTTCCGTAGGTGAACCTGCGGCAGGATCATTGTTGAGACAGCAG...AAG')
709
Z78522.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...GAG')
700
Z78521.1
Seq('GTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAGAATATATGATCGAGT...ACC')
726
Z78520.1
Seq('CGTAACAAGGTTTC

#### 2.4.3 Me encanta analizar. ¡No dejes de hablar de ello!
Biopython tiene muchos analizadores, y cada uno tiene sus propios nichos especiales basados ​​en el formato de secuencia que está analizando y todo eso. El Capítulo 5 cubre Bio.SeqIO con más detalle, mientras que el Capítulo 6 presenta Bio.Align para alineamientos de secuencias.

Si bien los formatos de archivos más populares tienen analizadores integrados en Bio.SeqIO y/o Bio.AlignIO, para algunos de los formatos de archivos más raros y no apreciados no hay ningún analizador o hay un analizador antiguo que aún no se ha vinculado. Consulte también las páginas wiki http://biopython.org/wiki/SeqIO y http://biopython.org/wiki/AlignIO para obtener la información más reciente o pregunte en la lista de correo. Las páginas wiki deben incluir una lista actualizada de los tipos de archivos admitidos y algunos ejemplos adicionales.

El siguiente lugar para buscar información sobre analizadores específicos y cómo hacer cosas interesantes con ellos es el Libro de recetas (Capítulo 22 de este Tutorial). Si no encuentra la información que busca, considere ayudar a sus pobres documentalistas con exceso de trabajo y enviar una entrada de libro de cocina al respecto. (¡una vez que descubras cómo hacerlo, claro está!)

### 2.5 Conectando con bases de datos biológicas

Una de las cosas más comunes que hay que hacer en bioinformática es extraer información de bases de datos biológicas. Puede resultar bastante tedioso acceder a estas bases de datos manualmente, especialmente si tiene mucho trabajo repetitivo que hacer. Biopython intenta ahorrarle tiempo y energía poniendo a su disposición algunas bases de datos en línea a partir de scripts de Python. Actualmente, Biopython cuenta con código para extraer información de las siguientes bases de datos:

- Entrez (y PubMed) del NCBI – Consulte el Capítulo 12.
- ExPASy – Consulte el Capítulo 13.
- SCOP: consulte la función Bio.SCOP.search().

Básicamente, el código de estos módulos facilita la escritura de código Python que interactúa con los scripts CGI de estas páginas, de modo que pueda obtener resultados en un formato fácil de manejar. En algunos casos, los resultados se pueden integrar estrechamente con los analizadores Biopython para facilitar aún más la extracción de información.

### 2.6 Qué hacer a continuación
Ahora que ha llegado hasta aquí, es de esperar que comprenda bien los conceptos básicos de Biopython y esté listo para comenzar a usarlo para realizar un trabajo útil. Lo mejor que puedes hacer ahora es terminar de leer este tutorial y luego, si quieres, empezar a husmear en el código fuente y mirar la documentación generada automáticamente.

Una vez que tenga una idea de lo que quiere hacer y qué bibliotecas en Biopython lo harán, debería echar un vistazo al Libro de recetas (Capítulo 22), que puede tener un código de ejemplo para hacer algo similar a lo que quiere hacer.

Si sabe lo que quiere hacer, pero no sabe cómo hacerlo, no dude en publicar preguntas en la lista principal de Biopython (consulte http://biopython.org/wiki/Mailing_lists). Esto no sólo nos ayudará a responder su pregunta, sino que también nos permitirá mejorar la documentación para que pueda ayudar a la siguiente persona a hacer lo que usted quiere hacer.

¡Disfruta el código!

## Capítulo 3 Objetos de secuencia

Podría decirse que las secuencias biológicas son el objeto central de la bioinformática, y en este capítulo presentaremos el mecanismo de Biopython para tratar con secuencias, el objeto Seq. El Capítulo 4 presentará el objeto SeqRecord relacionado, que combina la información de la secuencia con cualquier anotación, usado nuevamente en el Capítulo 5 para Entrada/Salida de Secuencia.

Las secuencias son esencialmente cadenas de letras como AGTACACTGGT, lo que parece muy natural ya que esta es la forma más común en que se ven las secuencias en formatos de archivos biológicos.

La diferencia más importante entre los objetos Seq y las cadenas estándar de Python es que tienen métodos diferentes. Aunque el objeto Seq admite muchos de los mismos métodos que una cadena simple, su método Translate() difiere al realizar una traducción biológica, y también existen métodos adicionales biológicamente relevantes como Reverse_complement().

### 3.1 Las secuencias actúan como cadenas
En la mayoría de los casos, podemos tratar con objetos Seq como si fueran cadenas normales de Python, por ejemplo obteniendo la longitud o iterando sobre los elementos:

In [14]:
from Bio.Seq import Seq

my_seq = Seq("GATCG")
for index, letter in enumerate(my_seq):
    print("%i %s" % (index, letter))

0 G
1 A
2 T
3 C
4 G


In [15]:
print(len(my_seq))

5


Puedes acceder a los elementos de la secuencia de la misma manera que para las cadenas (pero recuerda, ¡Python cuenta desde cero!):

In [16]:
print(my_seq[0])  # primera letra
print(my_seq[2])  # tercera letra
print(my_seq[-1])  # última letra

G
T
G


El objeto Seq tiene un método .count(), como una cadena. Tenga en cuenta que esto significa que, al igual que una cadena de Python, esto proporciona un recuento que no se superpone:

In [17]:
'AAAA'.count('AA')

2

In [18]:
Seq("AAAA").count("AA")

2

Para algunos usos biológicos, es posible que desee un recuento superpuesto (es decir, 3 en este ejemplo trivial). Al buscar letras individuales, esto no supone ninguna diferencia:

In [19]:
from Bio.Seq import Seq
my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC")
len(my_seq)

32

In [20]:
my_seq.count("G")

9

In [21]:
100 * (my_seq.count("G") + my_seq.count("C")) / len(my_seq)

46.875

Si bien puede usar el fragmento de código anterior para calcular un % de GC, tenga en cuenta que el módulo Bio.SeqUtils ya tiene varias funciones de GC integradas. Por ejemplo:

In [22]:
from Bio.Seq import Seq
from Bio.SeqUtils import gc_fraction
my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC")
gc_fraction(my_seq)

0.46875

Tenga en cuenta que el uso de la función Bio.SeqUtils.gc_fraction() debería hacer frente automáticamente a secuencias de casos mixtos y al nucleótido ambiguo S, que significa G o C.

También tenga en cuenta que, al igual que una cadena normal de Python, el objeto Seq es, en cierto modo, de "solo lectura". Si necesita editar su secuencia, por ejemplo simulando una mutación puntual, consulte la Sección 3.13 a continuación, que habla sobre el objeto MutableSeq.

### 3.2 Cortar una secuencia
Un ejemplo más complicado, veamos una porción de la secuencia:

In [23]:
from Bio.Seq import Seq
my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC")
my_seq[4:12]

Seq('GATGGGCC')

Tenga en cuenta que los objetos 'Seq' siguen las convenciones de indexación habituales para las cadenas de Python, con el primer elemento de la secuencia numerado 0. Cuando realiza un corte, se incluye el primer elemento (es decir, 4 en este caso) y el último se excluye (12 en este caso).

También como una cadena de Python, puedes hacer cortes con un inicio, una parada y una zancada (el tamaño del paso, que por defecto es uno). Por ejemplo, podemos obtener la primera, segunda y tercera posición de los codones de esta secuencia de ADN:

In [24]:
my_seq[0::3]

Seq('GCTGTAGTAAG')

In [25]:
my_seq[1::3]

Seq('AGGCATGCATC')

In [26]:
my_seq[2::3]

Seq('TAGCTAAGAC')

Otro truco de zancada que quizás hayas visto con una cadena de Python es el uso de una zancada -1 para invertir la cadena. También puedes hacer esto con un objeto Seq:

In [27]:
my_seq[::-1]

Seq('CGCTAAAAGCTAGGATATATCCGGGTAGCTAG')