# Un ejemplo más complejo

Ya conocemos bastante de los conceptos de Python básico. Faltan otros, y además, siempre se puede seguir aprendiendo. En realidad, es muy difícil aprender un lenguaje completo. En algún momento hay que empezar a programar algo real y buscar la información que haga falta. En nuestro caso, además queremos llegar pronto al momento en que podamos hacer cosas interesantes con Biopython.

Por todo esto, vamos a cerrar esta sección con un ejemplo más completo donde vamos a aplicar lo aprendido y aprender algunas cosas más.

La cepa S288C es la cepa de referencia de *Saccharomyces cerevisiae* y este es el sitio en el NCBI que corresponde a su genoma:
https://www.ncbi.nlm.nih.gov/genome/15?genome_assembly_id=22535

Allí pueden encontrar una tabla con información del genoma. Esta tabla tiene una fila por cada cromosoma más la mitocondría y columnas indicando nombres alternativos, genes por cromosoma, etc. Esta es la información que está presente en el archivo genoma_levadura_S288C.csv, del que necesitan una copia en la carpeta local de trabajo. Es un archivo de texto, los pueden mirar  con un editor de texto o una planilla de cálculo, sin modificarlos. Es recomendable darle una mirada a este archivo para entender mejor lo que vamos a hacer.

Nuestra tarea es leer este archivo y generar uno nuevo con las direcciones web que corresponden al registro de cada cromosoma en el NCBI. Para esto necesitamos extraer la información que está en la columna **RefSeq**.

Para poder trabajar con archivos de texto Python tiene un comando básico, *open()*. Con este comando indicamos si el archivo lo queremos leer, escribir o ambas cosas. El resultado de la función es un gestor de archivo que se asigna a una variable. Luego, la clase gestor de archivos cuenta con diferentes métodos, entre ellos algunos para leer el contenido de un archivo. 

Empecemos con algo muy sencillo: abrimos el archivo, leemos el contenido dle archivo en una variable, mostramos el contenido por pantalla y cerramos el archivo.


In [1]:
file_handle = open("genoma_levadura_S288C.csv", "r")
content = file_handle.read()
print(content)
file_handle.close()

Type	Name	RefSeq	INSDC	Size (Mb)	GC%	Protein	rRNA	tRNA	Other RNA	Gene	Pseudogene
Chr	I	NC_001133.9	BK006935.2	0.23	39.3	94	-	4	2	101	1
Chr	II	NC_001134.8	BK006936.2	0.81	38.3	415	-	13	4	432	-
Chr	III	NC_001135.5	BK006937.2	0.32	38.5	168	-	10	4	184	2
Chr	IV	NC_001136.10	BK006938.2	1.53	37.9	766	-	28	4	799	1
Chr	V	NC_001137.3	BK006939.2	0.58	38.5	287	-	20	9	317	1
Chr	VI	NC_001138.5	BK006940.2	0.27	38.7	128	-	10	4	143	1
Chr	VII	NC_001139.9	BK006941.2	1.09	38.1	539	-	36	10	585	-
Chr	VIII	NC_001140.6	BK006934.2	0.56	38.5	290	-	11	4	305	-
Chr	IX	NC_001141.2	BK006942.2	0.44	38.9	213	-	10	3	232	6
Chr	X	NC_001142.9	BK006943.2	0.75	38.4	362	-	24	6	392	-
Chr	XI	NC_001143.9	BK006944.2	0.67	38.1	317	-	16	5	338	-
Chr	XII	NC_001144.5	BK006945.2	1.08	38.5	519	12	21	18	572	2
Chr	XIII	NC_001145.3	BK006946.2	0.92	38.2	469	-	21	15	505	-
Chr	XIV	NC_001146.8	BK006947.3	0.78	38.6	398	-	14	6	418	-
Chr	XV	NC_001147.6	BK006948.2	1.09	38.2	546	-	20	11	579	2
Chr	XVI	NC_001148.4	BK006949.2	0.95	38.1	473	-	17	6	498

Para lograr nuestro objetivo necesitamos leer las líneas una por vez y extraer de cada una de ellas la información que precisamos. En el siguiente paso vamos a leer línea por línea, y mostrar el contenido:

In [2]:
file_handle = open("genoma_levadura_S288C.csv", "r")
content = file_handle.read().splitlines()
for linea in content:
    print(linea)
file_handle.close()

Type	Name	RefSeq	INSDC	Size (Mb)	GC%	Protein	rRNA	tRNA	Other RNA	Gene	Pseudogene
Chr	I	NC_001133.9	BK006935.2	0.23	39.3	94	-	4	2	101	1
Chr	II	NC_001134.8	BK006936.2	0.81	38.3	415	-	13	4	432	-
Chr	III	NC_001135.5	BK006937.2	0.32	38.5	168	-	10	4	184	2
Chr	IV	NC_001136.10	BK006938.2	1.53	37.9	766	-	28	4	799	1
Chr	V	NC_001137.3	BK006939.2	0.58	38.5	287	-	20	9	317	1
Chr	VI	NC_001138.5	BK006940.2	0.27	38.7	128	-	10	4	143	1
Chr	VII	NC_001139.9	BK006941.2	1.09	38.1	539	-	36	10	585	-
Chr	VIII	NC_001140.6	BK006934.2	0.56	38.5	290	-	11	4	305	-
Chr	IX	NC_001141.2	BK006942.2	0.44	38.9	213	-	10	3	232	6
Chr	X	NC_001142.9	BK006943.2	0.75	38.4	362	-	24	6	392	-
Chr	XI	NC_001143.9	BK006944.2	0.67	38.1	317	-	16	5	338	-
Chr	XII	NC_001144.5	BK006945.2	1.08	38.5	519	12	21	18	572	2
Chr	XIII	NC_001145.3	BK006946.2	0.92	38.2	469	-	21	15	505	-
Chr	XIV	NC_001146.8	BK006947.3	0.78	38.6	398	-	14	6	418	-
Chr	XV	NC_001147.6	BK006948.2	1.09	38.2	546	-	20	11	579	2
Chr	XVI	NC_001148.4	BK006949.2	0.95	38.1	473	-	17	6	498

¿Qué hicimos diferente? El método *read()* devuelve una única cadena de caracteres. Esto es todo el archivo de texto es un único string con marcas para indicar dónde está el final de cada línea. El método *splitlines()* toma ese string y usando la marca de final de línea como delimitador, lo fragmenta creando una lista de cadena de caracteres.

Observen esto:

In [3]:
content[0]

'Type\tName\tRefSeq\tINSDC\tSize (Mb)\tGC%\tProtein\trRNA\ttRNA\tOther RNA\tGene\tPseudogene'

In [4]:
content[1]

'Chr\tI\tNC_001133.9\tBK006935.2\t0.23\t39.3\t94\t-\t4\t2\t101\t1'

Cada elemento de la lista *content* es una línea del archivo original. Las marcas "\t" es una indicación de que dentro de cada linea hay un tabulador separando campos. Vamos a precisar esta información dentro de poco.

En total, nuestro archivo, y la tabla original, tiene 18 líneas:

In [5]:
len(content)

18

La primera línea del archivo tiene los nombres de los campos, esto equivale a cada una de las columnas de la tabla original. Así como usamos *splitlines()* para fragmentar un archivo de texto con varias líneas, podemos hacer lo mismo dentro de una línea con *split()*:

In [6]:
content[0].split("\t")


['Type',
 'Name',
 'RefSeq',
 'INSDC',
 'Size (Mb)',
 'GC%',
 'Protein',
 'rRNA',
 'tRNA',
 'Other RNA',
 'Gene',
 'Pseudogene']

Vamos a hacer una modificación a nuestro programa:

In [7]:
file_handle = open("genoma_levadura_S288C.csv", "r")
encabezado = file_handle.readline()
content = file_handle.read().splitlines()
for linea in content:
    print(linea)
file_handle.close()

Chr	I	NC_001133.9	BK006935.2	0.23	39.3	94	-	4	2	101	1
Chr	II	NC_001134.8	BK006936.2	0.81	38.3	415	-	13	4	432	-
Chr	III	NC_001135.5	BK006937.2	0.32	38.5	168	-	10	4	184	2
Chr	IV	NC_001136.10	BK006938.2	1.53	37.9	766	-	28	4	799	1
Chr	V	NC_001137.3	BK006939.2	0.58	38.5	287	-	20	9	317	1
Chr	VI	NC_001138.5	BK006940.2	0.27	38.7	128	-	10	4	143	1
Chr	VII	NC_001139.9	BK006941.2	1.09	38.1	539	-	36	10	585	-
Chr	VIII	NC_001140.6	BK006934.2	0.56	38.5	290	-	11	4	305	-
Chr	IX	NC_001141.2	BK006942.2	0.44	38.9	213	-	10	3	232	6
Chr	X	NC_001142.9	BK006943.2	0.75	38.4	362	-	24	6	392	-
Chr	XI	NC_001143.9	BK006944.2	0.67	38.1	317	-	16	5	338	-
Chr	XII	NC_001144.5	BK006945.2	1.08	38.5	519	12	21	18	572	2
Chr	XIII	NC_001145.3	BK006946.2	0.92	38.2	469	-	21	15	505	-
Chr	XIV	NC_001146.8	BK006947.3	0.78	38.6	398	-	14	6	418	-
Chr	XV	NC_001147.6	BK006948.2	1.09	38.2	546	-	20	11	579	2
Chr	XVI	NC_001148.4	BK006949.2	0.95	38.1	473	-	17	6	498	2
nonChr	MT	NC_001224.1	-	0.09	17.1	19	2	24	1	46	-


Presten atención al uso de *readline()* y *readlines()*. El primer método lee una sola línea, y además avanza un puntero una posición, de manera que cuando ejecutamos *readlines()* comienza en la segunda línea.

Por otra parte, recordemos lo que habíamos hecho con *split()*: dividimos una linea de acuerdo a alguna marca, en nuestro caso, una tabulación. esta operación nos devolvía una lista, que se pueda indexar como cualquier lista:

In [8]:
encabezado.split("\t")[2]

'RefSeq'

Esto nos da una pista de cómo avanzar con nuestro programa: tenemos que crear una lista nueva donde almacenamos cada una de las cadenas de caracteres que resulta de extraer el elemento en la posición 2 de cada línea (recuerden, Python cuenta desde cero).

In [9]:
file_handle = open("genoma_levadura_S288C.csv", "r")

encabezado = file_handle.readline()
refseq = list()

content = file_handle.read().splitlines()
for linea in content:
    refseq.append( linea.split("\t")[2] )
file_handle.close()
print(refseq)

['NC_001133.9', 'NC_001134.8', 'NC_001135.5', 'NC_001136.10', 'NC_001137.3', 'NC_001138.5', 'NC_001139.9', 'NC_001140.6', 'NC_001141.2', 'NC_001142.9', 'NC_001143.9', 'NC_001144.5', 'NC_001145.3', 'NC_001146.8', 'NC_001147.6', 'NC_001148.4', 'NC_001224.1']


Aquí usamos un método nuevo para las listas, *append()*. Lo que hace es agregar un elemento nuevo a una línea.

Ya casi estamos. Los URL para referenciar cada uno de los cromosomas son así:
https://www.ncbi.nlm.nih.gov/nuccore/NC_001139.9

Esto es, tenemos un string fijo al que le agregamos el identificador de secuencia. Sólo falta crear estos strings y guardarlos en un archivo de texto.

In [10]:
file_handle = open("genoma_levadura_S288C.csv", "r")

encabezado = file_handle.readline()
refseq = list()

content = file_handle.read().splitlines()
for linea in content:
    refseq.append( linea.split("\t")[2] )
file_handle.close()

file_output = open("URLs_cromosomas_ S288C.csv", "w")
for acceso in refseq:
    url = "https://www.ncbi.nlm.nih.gov/nuccore/" + acceso + "\n"
    file_output.write(url)
file_output.close()

¿Se creó el archivo? 
¿Probaron algún URL? ¿Levanta la página buscada en el NCBI?
¡Excelente!

Una aclaración, al preparar la cadena *url* agregamos al final "\n", esto es la indicación de un salto de línea. Si no, se escribe un archivo con cada url a continuación del otro.
