### <center><h2> INGENIERÍA EN BIOTECNOLOGÍA</h2></center>
# <center><h1 style="color:red">GBI6 - BIOINFORMÁTICA</h1></center>

<img src="https://www.ikiam.edu.ec/img/logo-ikiam-grey.png" width=400 height=300 />

# MANIPULACIÓN DE ARCHIVOS

Los datos con los que trabajamos en ciencias de la vida se almacenan en archivos, por lo que si vamos a escribir programas útiles, necesitamos una forma de extraer los datos de los archivos y llevarlos a nuestros programas (y viceversa). Por ejemplo si empezamos a manipular secuencias de ADN (extensas), no es es posible copiar y pegar en el script la secuencia cada vez que deseamos manipular. En su lugar podemos abrir los archivos de la secuencia o secuencias completas con facilidad. 

Los datos biológicos en sus diferentes formatos son en general guardados como `archivos de texto`, que son relativamente simples de procesar con Python. Entre los principales tendremos secuencias de `ADN` y `proteínas`, que se pueden almacenar en una variedad de formatos. Pero además, en Python se puede leer otros datos como : lecturas de secuenciación, puntuaciones de calidad, SNP, árboles filogenéticos, mapas de lectura, datos de muestras geográficas, matrices de distancia genética, imágenes de microscopía, videos o audios. 

| Formato archivo | Extensión | Secuencias|
| --- | ---|--- | 
| FASTA | .fa, .fasta .fsa| DNA y proteína, dos líneas: |
| FASTAQ | .fastq, .sanfastq, .fq| Lectura de secuencias de DNA Sanger format, cuatro líneas|
| SAM | .sam| Mapa de alineamiento de secuencias|
| BAM | .sam| Mapa de alineamiento de secuencias binario|
| VCF | .vcf| Variant Calling Format|
| GFF | .gff2, .gff3, .gff| Gene Finding Format|
| GTF | .gtf| Gene Transfer Format|
| MOV | .mov| Live cell video|

[File Formats Tutorial](https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/file-formats-tutorial/#)


Otra razón importante de utilizar `archivos como entrada y salida` de los procesos en Bioinformática es la necesidad de que los programas a escribir en Python funcionen como un flujo de trabajo `PIPELINE`. 

<img src="https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/gigascience/6/8/10.1093_gigascience_gix057/3/m_gix057fig1.jpeg?Expires=1629611735&Signature=YmlzI53p1tK0hfXMOPaFcHGtFcgo8MIHSOVpiV0GxXvFJ42EWFdGnfrMth1IGGabcI99mFcCRTftI0SxxFqBMosKzOo8pS~zzeOUD3IKDU~PLyU9w5Abz8GYRFJwUKqMbK3cqNGy2EtOilDqCASiv8UWn19QZglTsCfGqA5rWawM54mQ3vIkcnhTlZ~E~ectz4rjcTRZWAZs2uSLe7SXcvmh7SkcVjLPs-rsM027Q30rpTPX8eKFLzlmX24q3UF-NIbrOe1KGHQWCpCeq3vOUamjygJDcPRf190ug7qtoTPGk6RVp5xUkTHGcgYxTulVfPBmfPUr33kr1A66kBkVqg__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA" width=600 height=800 />

[Transcriptome analysis of the response of Burmese python to digestion (USING PYTHON)](https://doi.org/10.1093/gigascience/gix057)

<img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2F1471-2105-14-201/MediaObjects/12859_2013_Article_5962_Fig2_HTML.jpg?as=webp" width=600 height=300 />

[Bioinformatic pipelines in Python with Leaf](https://doi.org/10.1186/1471-2105-14-201)


Usualmente lo que se busca es que Python acepte o proporcione datos de otro programa. Usualmente, la forma más fácil es hacer que Python lea o escriba archivos en un formato que el otro programa ya comprenda. En programación, cuando se habla de archivos de texto, no necesariamente es legible por humanos. Más bien, estamos hablando de un archivo que contiene caracteres y líneas, algo que puede abrir y ver en un editor de texto, independientemente de si realmente el usuario puede darle sentido al archivo (FASTA, FASTQ, HTML, XML, JSON, WORD, TXT, CSV). Tambien se tiene otros formatos de tipo binario (JPG, TIFF, PNG, MOV, HDF5, AUDIO). 


In [3]:
3 + 4

7

In [5]:
a = 3 + 4
a

7

In [7]:
lista = [1, 2, 3, 4, 5]
seq = "ATCTGCGTCGA"


## Lectura de archivos

En Python, como en cualquier otro programa (inclusive en el mundo físico), tenemos que abrir un archivo antes de poder leer su contenido. La función de Python que realiza el trabajo de abrir un archivo se llama `open()`. Esta función toma dos argumento que toma dos argumentos: 

1. Texto que indica el nombre del archivo, o ruta cualquiera. 
2. el tipo de apertura. Luego devuelve un objeto de archivo. Los tipos de apertura son:
    * `r` de **r**ead, si no se coloca este argumento, es el tipo por defecto
    * `w` de **w**rite 
    * `a` de **a**ppend 
    * `r+` para leer y escribir al mismo tiempo

Finalmente se devueleve el objeto del archivo. 

```python 
file = open("filename.ext", "r")
```

Se abre / crea el archivo `filename.txt` en modo de lectura y se guarda en la variable `file`.

In [10]:
f1 = open("dnafile.txt", "w")
print(f1)
print(f1.name) #indica el archivo asignado a la variable
print(f1.mode) # indica el tipo de apertura
print(f1.encoding) # indica como es la interpretación que Python da a la información del archivo, por ejemplo UTF.8

<_io.TextIOWrapper name='dnafile.txt' mode='w' encoding='cp1252'>
dnafile.txt
w
cp1252


In [12]:
f2 = open("dnafile.csv", 'r') # para leer el archivo tiene que existir
print(f2)

FileNotFoundError: [Errno 2] No such file or directory: 'dnafile.csv'

In [13]:
f2 = open("dnafile.csv", 'w')
print(f2)

<_io.TextIOWrapper name='dnafile.csv' mode='w' encoding='cp1252'>


Un archivo tiene el ciclo de `abrir - leer - modificar - cerrar`, por ejemplo:

```python 
s1 = open("seqA.fas", "r+")
# modificaciones en s1 
s1.read()
s1.close()

```
La alternativa para asegurarse que se cierra el documento sin colocarlo explicitamente es utilizando `with`: 
```python 
with open("seqA.fas", "r+") as s1:
    # modificaciones
    s1.read()

# en esta línea empieza otra instrucción, se ha cerrado s1

```


En la apertura para leer, se tiene los siguientes métodos de lectura: 

* **read(n)**, lee la cantidad de bytes que contiene el archivo (tamaño del documento).
* **read()**, lee todo el documento, problema de memoria con archivos muy grandes.
* **readline()**, retorna una sola línea del documento y agrega la terminación de línea `\n`.
* **readlines()**, retorna cada una de las líneas del texto indicando el índice de línea. 


In [17]:
# Creamos un archivo vacío
#s1 = open("seqA.fas", "r")
#s1.close() # cerramos para editar
%pwd

'D:\\GDrive\\IKIAM\\CLASES\\2021II\\2021II_GBI6\\2021II_Clases\\2021II_Python'

In [1]:
s1 = open("2021I_2.5_ManipulacionArchivosPython/seqA.fas", "r")
print(s1.read())
s1.close()
3+2
%whos

>O00626|HUMAN Small inducible cytokine A22
MARLQTALLVVLVLLAVALQATEAGPYGANMEDSVCCRDYVRYRLPLRVVKHFYWTSDS<=
CPRPGVVLLTFRDKEICADPR
VPWVKMILNKLSQ
Variable   Type             Data/Info
-------------------------------------
s1         TextIOWrapper    <_io.TextIOWrapper name='<...>de='r' encoding='cp1252'>


In [2]:
with open("2021I_2.5_ManipulacionArchivosPython/seqA.fas", "r") as s1:
    print(s1.read())

#otra istrucción
2+3

>O00626|HUMAN Small inducible cytokine A22
MARLQTALLVVLVLLAVALQATEAGPYGANMEDSVCCRDYVRYRLPLRVVKHFYWTSDS<=
CPRPGVVLLTFRDKEICADPR
VPWVKMILNKLSQ


5

In [5]:
with open("2021I_2.5_ManipulacionArchivosPython/seqA.fas") as fh:
    s1 = fh.read()
name = s1.split("\n")[0][1:]
sequence = "".join(s1.split("\n")[1:])
print("El nombre de la secuencia es: {0}".format(name))
print("La secuencia es: {0}".format(sequence))

El nombre de la secuencia es: O00626|HUMAN Small inducible cytokine A22
La secuencia es: MARLQTALLVVLVLLAVALQATEAGPYGANMEDSVCCRDYVRYRLPLRVVKHFYWTSDS<=CPRPGVVLLTFRDKEICADPRVPWVKMILNKLSQ


In [31]:
# mejor alternativa para la memoria, utilizando readlines()

sequence = ""
with open("2021I_2.5_ManipulacionArchivosPython/seqA.fas") as s1:
    name = s1.readline()[1:-1]
    for line in s1:
        sequence += line.replace("\n","")
print("El nombre de la secuencia es: {0}".format(name))
print("La secuencia es: {0}".format(sequence))
    

El nombre de la secuencia es: O00626|HUMAN Small inducible cytokine A22
La secuencia es: MARLQTALLVVLVLLAVALQATEAGPYGANMEDSVCCRDYVRYRLPLRVVKHFYWTSDS<=CPRPGVVLLTFRDKEICADPRVPWVKMILNKLSQ


In [None]:
# Vamos a procesar la información de un archivo
# crear archivo
#open("prot.fas", 'w') # ejecutar una sola vez

In [6]:
sequence = ''
charge = 0
aa_charge = {'C':-.045, 'D':-.999, 'E':-.998, 'H':.091,
'K':1, 'R':1, 'Y':-.001}
with open('2021I_2.5_ManipulacionArchivosPython/prot.fas') as fh:
    name = fh.readline()
    for line in fh:
        sequence += line[:-1].upper()
for aa in sequence:
    charge += aa_charge.get(aa,0)
print(charge)

3.0489999999999977


In [39]:
f3 = open("2021I_2.5_ManipulacionArchivosPython/sequence.fasta", "r")

print(f3.readlines(1))

f3.close()

['>XP_021504584.1 cyclic AMP-responsive element-binding protein 3-like protein 3 isoform X3 [Meriones unguiculatus]\n']


## Escritura de archivos

Para escribir en un archivo se debe tener variables con informacion. Tenemos tres secuencias de ADN en total, por lo que necesitaremos tres variables para contener los encabezados de secuencia y tres más para contener las secuencias en sí mismas:

In [12]:
header_1 = "Joyce"
header_2 = "DEF456"
header_3 = "HIJ789"
seq_1 = "ATCGTACGATCGATCGATCGCTAGACGTATCG"
seq_2 = "actgatcgacgatcgatcgatcacgact"
seq_3 = "ACTGAC-ACTGT--ACTGTA----CATGTG"

In [15]:
# escribimos las instrucciones en un formato .fasta
print('>' + header_1 + '\n' + seq_1)
print('>' + header_2 + '\n' + seq_2)
print('>' + header_3 + '\n' + seq_3)

# corregimos los valores "_" de la secuencia 3
print('>' + header_3 + '\n' + seq_3.replace('-', ''))

>Joyce
ATCGTACGATCGATCGATCGCTAGACGTATCG
>DEF456
actgatcgacgatcgatcgatcacgact
>HIJ789
ACTGAC-ACTGT--ACTGTA----CATGTG
>HIJ789
ACTGAC-ACTGT--ACTGTA----CATGTG


In [14]:
# Guardamos en un archivo
output = open("2021I_2.5_ManipulacionArchivosPython/seqs_test.fasta", "r+")
output.write('>' + header_1 + '\n' + seq_1 + '\n')
output.write('>' + header_2 + '\n' + seq_2.upper()+ '\n')
output.write('>' + header_3 + '\n' + seq_3.replace('-', ''))
output.close()
# revisando el archivo "seqs_test.fasta, se observa que no hay saltos de líneas"

In [52]:
# encabezados de las secuencias
header_1 = "ABC123"
header_2 = "DEF456"
header_3 = "HIJ789"
# secuencias
seq_1 = "ATCGTACGATCGATCGATCGCTAGACGTATCG"
seq_2 = "actgatcgacgatcgatcgatcacgact"
seq_3 = "ACTGAC-ACTGT—ACTGTA----CATGTG"
# nuevo archivo
seqs = open("seqs_test.fasta", "w")
# write the header and sequence for seq1
seqs.write('>' + header_1 + '\n' + seq_1 + '\n') 
# write the header and uppercase sequences for seq2
seqs.write('>' + header_2 + '\n' + seq_2.upper() + '\n') 
# write the header and sequence for seq3 with hyphens removed
seqs.write('>' + header_3 + '\n' + seq_3.replace('-', '') + '\n')

seqs.close()

In [64]:
sequences = []
names = []
with open('2021I_2.5_ManipulacionArchivosPython/sequence.fasta', 'r+') as fh:
    fh = fh.read()
    line =  fh.split("\n")[0:]
    if line[0] == '>':
        names.append(line)
    else:
        sequences.append(line)

for i in range(len(sequences)):
    print(sequences[i], '\n')
f3.close()


['>XP_021504584.1 cyclic AMP-responsive element-binding protein 3-like protein 3 isoform X3 [Meriones unguiculatus]', 'MSSPACAMGPLDSVELLDLLFDQQDGILRNVELAEGWSLASEGQKVLPHSDSDDFLTSILGPGDSDPSSPLWSPADSDSG', 'ISEDLPSDPQDTPPRSGAGPADTAARGHPSQQGKGPCPSYLPRTPCPVPPRTQVLESSVAIDLDMWSTDTLYPEEQTGSP', 'SRFNLTVKELLLSGGGGDLQQHSLAASQLLGPGNGHCQELVLTEDEKKLLAKEGVTLPTQLPLTKYEERVLKKIRRKIRN', 'KQSAQESRKKKKEYIDGLESRMSACTAQNQELQRKVLHLEKQNLSLLEQLKHLQALVVQSTSKPAHAGTCIAVLLLSFVL', 'IILPSISPFTSNKADSPGDFAPVRVFSRTLHNHAAPRVAPDVTPGAEVPGPWPDAGTPHQGPPSGSLAADWGNFLEMPML', 'GGPTEELDNSTLLLVNSTEELGRAALLAWLQPLLGPGRVGLQMAEEQMWLSWIPTWLRVRLLQGALGEL', '>XP_021504582.1 cyclic AMP-responsive element-binding protein 3-like protein 3 isoform X1 [Meriones unguiculatus]', 'MDGDRATGKMSSPACAMGPLDSVELLDLLFDQQDGILRNVELAEGWSLASEGQKVLPHSDSDDFLTSILGPGDSDPSSPL', 'WSPADSDSGISEDLPSDPQDTPPRSGAGPADTAARGHPSQQGKGPCPSYLPRTPCPVPPRTQVLESSVAIDLDMWSTDTL', 'YPEEQTGSPSRFNLTVKELLLSGGGGDLQQHSLAASQLLGPGNGHCQELVLTEDEKKLLAKEGVTLPTQLPLTKYEERVL', 'KKIRRKIRNKQSAQESRKK

In [68]:
import pandas as pd
s1 = pd.DataFrame(sequences)
s1.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,63,64,65,66,67,68,69,70,71,72
0,>XP_021504584.1 cyclic AMP-responsive element-...,MSSPACAMGPLDSVELLDLLFDQQDGILRNVELAEGWSLASEGQKV...,ISEDLPSDPQDTPPRSGAGPADTAARGHPSQQGKGPCPSYLPRTPC...,SRFNLTVKELLLSGGGGDLQQHSLAASQLLGPGNGHCQELVLTEDE...,KQSAQESRKKKKEYIDGLESRMSACTAQNQELQRKVLHLEKQNLSL...,IILPSISPFTSNKADSPGDFAPVRVFSRTLHNHAAPRVAPDVTPGA...,GGPTEELDNSTLLLVNSTEELGRAALLAWLQPLLGPGRVGLQMAEE...,>XP_021504582.1 cyclic AMP-responsive element-...,MDGDRATGKMSSPACAMGPLDSVELLDLLFDQQDGILRNVELAEGW...,WSPADSDSGISEDLPSDPQDTPPRSGAGPADTAARGHPSQQGKGPC...,...,WGNFLEIPMLDNQTDELDNSTLVLANATEDLGRATLLDWVASEPLL...,L,>XP_035301183.1 cyclic AMP-responsive element-...,MASPACTMGPLNSLELLDLLFDRQDGILRNVELAEGWGHAGKEQVL...,SEDLPSDPQDTPPHSSPGAANTTARCHPSQQDKGPCPPYLSSAPCP...,RFNLTVKELLLSGSGGDLQQHSLASSQLLGPGSGHCQELVLTEDEK...,QSAQESRKKKKEYIDGLENRMSACTAQNQELQRKVLHLEKQNLSLL...,VLPSISPFDSNKVDSPGDFVPVRVFSRTLHNHAASRVAPDITPGSE...,DSTEELDNSTLVLVNTTEDLGRATLLDWVALESLLSPGRVGLEMPG...,
