<img src="https://www.ikiam.edu.ec/img/logo-ikiam-grey.png" width=400 height=300 />

# MANIPULACIÓN DE ARCHIVOS

Los datos con los que trabajamos en ciencias de la vida se almacenan en archivos, por lo que si vamos a escribir programas útiles, necesitamos una forma de extraer los datos de los archivos y llevarlos a nuestros programas (y viceversa). Por ejemplo si empezamos a manipular secuencias de ADN (extensas), no es es posible copiar y pegar en el script la secuencia cada vez que deseamos manipular. En su lugar podemos abrir los archivos de la secuencia o secuencias completas con facilidad. 

Los datos biológicos en sus diferentes formatos son en general guardados como `archivos de texto`, que son relativamente simples de procesar con Python. Entre los principales tendremos secuencias de `ADN` y `proteínas`, que se pueden almacenar en una variedad de formatos. Pero además, en Python se puede leer otros datos como : lecturas de secuenciación, puntuaciones de calidad, SNP, árboles filogenéticos, mapas de lectura, datos de muestras geográficas, matrices de distancia genética, imágenes de microscopía, videos o audios. 

| Formato archivo | Extensión | Secuencias|
| --- | ---|--- | 
| FASTA | .fa, .fasta .fsa| DNA y proteína, dos líneas: |
| FASTAQ | .fastq, .sanfastq, .fq| Lectura de secuencias de DNA Sanger format, cuatro líneas|
| SAM | .sam| Mapa de alineamiento de secuencias|
| BAM | .sam| Mapa de alineamiento de secuencias binario|
| VCF | .vcf| Variant Calling Format|
| GFF | .gff2, .gff3, .gff| Gene Finding Format|
| GTF | .gtf| Gene Transfer Format|
| MOV | .mov| Live cell video|

[File Formats Tutorial](https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/file-formats-tutorial/#)


Otra razón importante de utilizar `archivos como entrada y salida` de los procesos en Bioinformática es la necesidad de que los programas a escribir en Python funcionen como un flujo de trabajo `PIPELINE`. 

<img src="https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/gigascience/6/8/10.1093_gigascience_gix057/3/m_gix057fig1.jpeg?Expires=1629611735&Signature=YmlzI53p1tK0hfXMOPaFcHGtFcgo8MIHSOVpiV0GxXvFJ42EWFdGnfrMth1IGGabcI99mFcCRTftI0SxxFqBMosKzOo8pS~zzeOUD3IKDU~PLyU9w5Abz8GYRFJwUKqMbK3cqNGy2EtOilDqCASiv8UWn19QZglTsCfGqA5rWawM54mQ3vIkcnhTlZ~E~ectz4rjcTRZWAZs2uSLe7SXcvmh7SkcVjLPs-rsM027Q30rpTPX8eKFLzlmX24q3UF-NIbrOe1KGHQWCpCeq3vOUamjygJDcPRf190ug7qtoTPGk6RVp5xUkTHGcgYxTulVfPBmfPUr33kr1A66kBkVqg__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA" width=600 height=800 />

[Transcriptome analysis of the response of Burmese python to digestion (USING PYTHON)](https://doi.org/10.1093/gigascience/gix057)

<img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2F1471-2105-14-201/MediaObjects/12859_2013_Article_5962_Fig2_HTML.jpg?as=webp" width=600 height=300 />

[Bioinformatic pipelines in Python with Leaf](https://doi.org/10.1186/1471-2105-14-201)


Usualmente lo que se busca es que Python acepte o proporcione datos de otro programa. Usualmente, la forma más fácil es hacer que Python lea o escriba archivos en un formato que el otro programa ya comprenda. En programación, cuando se habla de archivos de texto, no necesariamente es legible por humanos. Más bien, estamos hablando de un archivo que contiene caracteres y líneas, algo que puede abrir y ver en un editor de texto, independientemente de si realmente el usuario puede darle sentido al archivo (FASTA, FASTQ, HTML, XML, JSON, WORD, TXT, CSV). Tambien se tiene otros formatos de tipo binario (JPG, TIFF, PNG, MOV, HDF5, AUDIO). 



## Lectura de archivos

En Python, como en cualquier otro programa (inclusive en el mundo físico), tenemos que abrir un archivo antes de poder leer su contenido. La función de Python que realiza el trabajo de abrir un archivo se llama `open()`. Esta función toma dos argumento que toma dos argumentos: 

1. Texto que indica el nombre del archivo, o ruta cualquiera. 
2. el tipo de apertura. Luego devuelve un objeto de archivo. Los tipos de apertura son:
    * `r` de **r**ead, si no se coloca este argumento, es el tipo por defecto
    * `w` de **w**rite 
    * `a` de **a**ppend 
    * `r+` para leer y escribir al mismo tiempo

Finalmente se devueleve el objeto del archivo. 

```python 
file = open("filename.ext", "r")
```

Se abre / crea el archivo `filename.txt` en modo de lectura y se guarda en la variable `file`.

In [None]:
f1 = open("dnafile.txt", "w")
f1
f1.name #indica el archivo asignado a la variable
f1.mode # indica el tipo de apertura
f.encoding # indica como es la interpretación que Python da a la información del archivo, por ejemplo UTF.8

In [None]:
f2 = open("dnafile.csv", 'r') # para leer el archivo tiene que existir

In [None]:
f2 = open("dnafile.csv", 'w')
f2

Un archivo tiene el ciclo de `abrir - leer - modificar - cerrar`, por ejemplo:

```python 
s1 = open("seqA.fas", "r+")
# modificaciones en s1 
s1.read()
s1.close()

```
La alternativa para asegurarse que se cierra el documento sin colocarlo explicitamente es utilizando `with`: 
```python 
with open("seqA.fas", "r+") as s1:
    # modificaciones
    s1.read()

# en esta línea empieza otra instrucción, se ha cerrado s1

```


En la apertura para leer, se tiene los siguientes métodos de lectura: 

* **read(n)**, lee la cantidad de bytes que contiene el archivo (tamaño del documento).
* **read()**, lee todo el documento, problema de memoria con archivos muy grandes.
* **readline()**, retorna una sola línea del documento y agrega la terminación de línea `\n`.
* **readlines()**, retorna cada una de las líneas del texto indicando el índice de línea. 


In [84]:
# Creamos un archivo vacío
#s1 = open("seqA.fas", "r")
#s1.close() # cerramos para editar


In [85]:
s1 = open("seqA.fas", "r")
print(s1.read())
s1.close()

>O00626|HUMAN Small inducible cytokine A22
MARLQTALLVVLVLLAVALQATEAGPYGANMEDSVCCRDYVRYRLPLRVVKHFYWTSDS<=
CPRPGVVLLTFRDKEICADPR
VPWVKMILNKLSQ


In [86]:
with open("seqA.fas", "r") as s1:
    print(s1.read())

#otra istrucción
2+3

>O00626|HUMAN Small inducible cytokine A22
MARLQTALLVVLVLLAVALQATEAGPYGANMEDSVCCRDYVRYRLPLRVVKHFYWTSDS<=
CPRPGVVLLTFRDKEICADPR
VPWVKMILNKLSQ


5

In [87]:
with open("seqA.fas") as fh:
    s1 = fh.read()
name = s1.split("\n")[0][1:]
sequence = "".join(s1.split("\n")[1:])
print("El nombre de la secuencia es: {0}".format(name))
print("La secuencia es: {0}".format(sequence))

El nombre de la secuencia es: O00626|HUMAN Small inducible cytokine A22
La secuencia es: MARLQTALLVVLVLLAVALQATEAGPYGANMEDSVCCRDYVRYRLPLRVVKHFYWTSDS<=CPRPGVVLLTFRDKEICADPRVPWVKMILNKLSQ


In [89]:
# mejor alternativa para la memoria, utilizando readlines()

sequence = ""
with open("seqA.fas") as s1:
    name = s1.readline()[1:-1]
    for line in s1:
        sequence += line.replace("\n","")
print("El nombre de la secuencia es: {0}".format(name))
print("La secuencia es: {0}".format(sequence))


El nombre de la secuencia es: O00626|HUMAN Small inducible cytokine A22
La secuencia es: MARLQTALLVVLVLLAVALQATEAGPYGANMEDSVCCRDYVRYRLPLRVVKHFYWTSDS<=CPRPGVVLLTFRDKEICADPRVPWVKMILNKLSQ


In [93]:
# Vamos a procesar la información de un archivo
# crear archivo
#open("prot.fas", 'w') # ejecutar una sola vez

<_io.TextIOWrapper name='prot.fas' mode='w' encoding='cp1252'>

In [94]:
sequence = ''
charge = -0.002
aa_charge = {'C':-.045, 'D':-.999, 'E':-.998, 'H':.091,
'K':1, 'R':1, 'Y':-.001}
with open('prot.fas') as fh:
    fh.readline()
    for line in fh:
        sequence += line[:-1].upper()
for aa in sequence:
    charge += aa_charge.get(aa,0)
print(charge)

3.046999999999999


In [6]:
f3 = open("sequence.fasta", "r")

print(f3.readlines(10))

f3.close()

['>XP_021504584.1 cyclic AMP-responsive element-binding protein 3-like protein 3 isoform X3 [Meriones unguiculatus]\n']


## Escritura de archivos

Para escribir en un archivo se debe tener variables con informacion. Tenemos tres secuencias de ADN en total, por lo que necesitaremos tres variables para contener los encabezados de secuencia y tres más para contener las secuencias en sí mismas:

In [11]:
header_1 = "ABC123"
header_2 = "DEF456"
header_3 = "HIJ789"
seq_1 = "ATCGTACGATCGATCGATCGCTAGACGTATCG"
seq_2 = "actgatcgacgatcgatcgatcacgact"
seq_3 = "ACTGAC-ACTGT--ACTGTA----CATGTG"
# escribimos las instrucciones en un formato .fasta
print('>{0} \n {1} \n'.format(header_1, seq_1))
print('>{0} \n {1} \n'.format(header_2, seq_2))
print('>{0} \n {1} \n'.format(header_3, seq_3.replace('-', '')))

>ABC123 
 ATCGTACGATCGATCGATCGCTAGACGTATCG 

>DEF456 
 actgatcgacgatcgatcgatcacgact 

>HIJ789 
 ACTGACACTGTACTGTACATGTG 



In [36]:
# encabezados de las secuencias
header_1 = "ABC123"
header_2 = "DEF456"
header_3 = "HIJ789"
# secuencias
seq_1 = "ATCGTACGATCGATCGATCGCTAGACGTATCG"
seq_2 = "actgatcgacgatcgatcgatcacgact"
seq_3 = "ACTGAC-ACTGT—ACTGTA----CATGTG"

# Elaborar mensajes de salida
out1 = ">" + header_1 + "\n" + seq_1
out2 = ">" + header_2 + "\n" + seq_2
out3 = ">" + header_3 + "\n" + seq_3.replace('-', '')

# Imprimir mensajes al archivo
output = open("seqs_test.fasta", "w")
output.write(out1) 
output.write(out2) 
output.write(out3) 


32

In [39]:
# Escribir archivos individuales

# encabezados de las secuencias
header_1 = "ABC123"
header_2 = "DEF456"
header_3 = "HIJ789"
# secuencias
seq_1 = "ATCGTACGATCGATCGATCGCTAGACGTATCG"
seq_2 = "actgatcgacgatcgatcgatcacgact"
seq_3 = "ACTGAC-ACTGT—ACTGTA----CATGTG"

# Elaborar mensajes de salida
out1 = ">" + header_1 + "\n" + seq_1
out2 = ">" + header_2 + "\n" + seq_2
out3 = ">" + header_3 + "\n" + seq_3.replace('-', '')

# Imprimir mensajes al archivo
file1 = open("seqs1.fasta", "w")
file2 = open("seqs2.fasta", "w")
file3 = open("seqs3.fasta", "w")
file1.write(out1) 
file2.write(out2) 
file3.write(out3) 

32

In [34]:
# Imprimir procesamiento más extenso
secuencia = ""
carga = -0.002
aa_carga = {"C":-.045, "D":-.999, "E":-.998, 
             "H":.091,"K":1, "R":1, "Y":-.001}
with open("prot.fas") as fh:
    next(fh)
    for line in fh:
        secuencia += line[:-1].upper()
    for aa in secuencia:
        carga += aa_carga.get(aa, 0)
with open("carga_prot.txt","w") as file_out:
    file_out.write("secuencia:\n" + secuencia + 
                   "\n\ncarga:"+str(carga))

## Archivos delimitados por caracteres

La instalación básica de Python incluye una serie de "módulos" que proporcionan funciones para contextos específicos. Uno de estos módulos es útil para manipular archivos de texto delimitados por caracteres que contienen valores organizados en filas y columnas, como en una **hoja de cálculo**. Estos archivos de texto `tabulares` tienen dos características especiales: 

1. cada línea es una fila de valores, separados por un delimitador; 

2. cada fila tiene un número de elementos llamados archivos de "valores separados por comas `(,)`" o .csv, aunque el separador puede ser diferente a la coma .

In [40]:
with open("Dalziel2016_data.csv") as f:
    # create iterator
    for i, line in enumerate(f):
        # print each line; delete leading/trailing spaces
        print(line.strip())
        if i > 2:
            break

biweek,year,loc,cases,pop
1,1906,BALTIMORE,NA,526822.1365
2,1906,BALTIMORE,NA,526995.246
3,1906,BALTIMORE,NA,527170.1981


Usando `csv.DictReader(f)` para leer el archivo, cada fila se convierte en un diccionario, con claves creadas automáticamente desde el encabezado.


In [41]:
import csv
with open("Dalziel2016_data.csv") as f:
    reader = csv.DictReader(f)
    for i, row in enumerate(reader):
        # print as dictionary
        print(dict(row))
        if i > 2:
            break

{'biweek': '1', 'year': '1906', 'loc': 'BALTIMORE', 'cases': 'NA', 'pop': '526822.1365'}
{'biweek': '2', 'year': '1906', 'loc': 'BALTIMORE', 'cases': 'NA', 'pop': '526995.246'}
{'biweek': '3', 'year': '1906', 'loc': 'BALTIMORE', 'cases': 'NA', 'pop': '527170.1981'}
{'biweek': '4', 'year': '1906', 'loc': 'BALTIMORE', 'cases': 'NA', 'pop': '527347.0136'}


Con este cambio se puede realizar operaciones usando el `archivo`, por ejemplo, seleccionando todas las entradas para la ubicación `Washington` y escribiéndolas en un nuevo archivo usando `csv.DictWriter`

In [44]:
with open("Dalziel2016_data.csv") as fr:
    reader = csv.DictReader(fr)
    header = reader.fieldnames # extract the header
    with open("Dalziel2016_Washington.csv", "w") as fw:
        writer = csv.DictWriter(fw, fieldnames = header,
                                delimiter = ",")
        for row in reader:
            if row["loc"] == "WASHINGTON":
                writer.writerow(row)

In [43]:
help(csv.DictWriter)

Help on class DictWriter in module csv:

class DictWriter(builtins.object)
 |  DictWriter(f, fieldnames, restval='', extrasaction='raise', dialect='excel', *args, **kwds)
 |  
 |  Methods defined here:
 |  
 |  __init__(self, f, fieldnames, restval='', extrasaction='raise', dialect='excel', *args, **kwds)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  writeheader(self)
 |  
 |  writerow(self, rowdict)
 |  
 |  writerows(self, rowdicts)
 |  
 |  ----------------------------------------------------------------------
 |  Data descriptors defined here:
 |  
 |  __dict__
 |      dictionary for instance variables (if defined)
 |  
 |  __weakref__
 |      list of weak references to the object (if defined)



In [46]:
# lectura de csv 
total_len = 0
with open("B1.csv") as fh:
    next(fh)
    for n, line in enumerate(fh):
        data = line.split(",") # separa los contenidos utilizando un delimitador
        total_len += int(data[1])
print(total_len/n)

238.25


In [47]:
# Lectura utilizando enumerate
import csv
total_len=0
lines = csv.reader(open("B1.csv"))
next(lines)
for n, line in enumerate(lines):
    total_len += int(line[1])

print(total_len / n)

238.25


## Leer archivos excel

El módulo csv le permite leer archivos de Excel, siempre que el archivo se convierta primero a csv. Este paso se puede evitar con un módulo de terceros llamado `xlrd`. Este módulo se puede instalar con `pip` o `conda`. 

```python
# instalando módulo con pip 
pip install xlrd

# instalando módulo con pip 
conda install xlrd
```

A continuación se lee archivo de Excel llamado `sampledata.xlsx`. Queremos hacer un diccionario (`iedb`) a partir de la columna A (claves) y la columna C (valores), por lo que este programa recorre ambas columnas y completa el diccionario:

In [48]:
import xlrd
iedb = {}
book = xlrd.open_workbook("sampledata.xlsx")
sh = book.sheet_by_index(0)
for row_index in range(1, sh.nrows): #salto de linea 1.
    iedb[int(sh.cell_value(rowx=row_index, colx=0))] = \ # selecciona key col A
    sh.cell_value(rowx=row_index, colx=2) # selecciona value col C
print(iedb)

{6273: 'CGAELNHFL', 14101: 'ERYLKDQQL', 22030: 'GRFKLIVLY', 25569: 'IDFPKTFGW', 26070: 'IFFPKTFGW', 26790: 'IKFPKTFGW', 27049: 'ILFPKTFGW', 27636: 'INFPKTFGW', 28419: 'IRYPKTFGW', 33140: 'KRGILTLKY', 33170: 'KRKKAYADF', 33260: 'KRYKSIVKY', 55565: 'RRFVNVVPTF', 55785: 'RRYQKSTEL', 58781: 'SKADVIAKY', 60636: 'SRDKTIIMW', 63789: 'TGASIQTTL', 144753: 'QRSPMFEGTL', 144784: 'SKFPKMRMG', 226822: 'AKFPGMKKSK', 504020: 'NQFNGGCLLV'}


### Escribir archivos excel

Para escribir archivos de Excel, puede usar `xlwt`, que funciona de manera similar a `xlrd`. A continuación se escribe una `lista1` y una `lista2` en las columnas A y B usando `xlwt`.

In [58]:
import xlwt
lista1 = [1,2,3,4,5]
lista2 = [234,267,281,301,331]
wb = xlwt.Workbook()
ws = wb.add_sheet("Notas") # nombre de libro
ws.write(0,0,"Gen")
ws.write(0,1,"Copias")
i = 1
for x,y in zip(lista1, lista2): # itera sobre las dos listas
    ws.write(i,0,x) # fila, columna, data.
    ws.write(i,1,y)
    i += 1
wb.save("gen_write.xls")

In [57]:
help(wb.save)

Help on method save in module xlwt.Workbook:

save(filename_or_stream) method of xlwt.Workbook.Workbook instance
    This method is used to save the Workbook to a file in native Excel
    format.
    
    :param filename_or_stream:
      This can be a string containing a filename of
      the file, in which case the excel file is saved to disk using the name
      provided. It can also be a stream object with a write method, such as
      a :class:`~io.StringIO`, in which case the data for the excel
      file is written to the stream.



## MANEJO DE ARCHIVOS: MÓDULO OS, OS.PATH, SHUTIL Y PATH.PY

Además de leer y escribir se puede realizar más manipulaciones a los archivos. Con los módulos `os`, `shutil` y `path.py` se pueden `copiar` ,`mover` , `eliminar`, `enumerar`, `cambiar de directorio` , establecer propiedades de archivo y otras cosas.

El módulo `os` maneja una interfaz con el sistema operativo. Por ejemplo `getcwd ()`: devuelve una cadena que representa el directorio de trabajo actual.

In [68]:
import os
# imprimir directorio
os.chdir("python")
print(os.getcwd())

# cambiar de directorio
os.chdir("seqs")
print(os.getcwd())

# retornar a un directorio superior
os.chdir("..")
print(os.getcwd())

C:\Users\FUNCIONARIO\Documents\2021I_Ikiam\2021-I\GBI6\python
C:\Users\FUNCIONARIO\Documents\2021I_Ikiam\2021-I\GBI6\python\seqs
C:\Users\FUNCIONARIO\Documents\2021I_Ikiam\2021-I\GBI6\python


In [69]:
# enlistar contenido de un directorio 
os.listdir("seqs")

['15721870.fasta',
 '218744616.fasta',
 '2623545.fasta',
 '4586830.fasta',
 '513419.fasta',
 '513710.fasta',
 '513717.fasta',
 '513718.fasta',
 '513719.fasta',
 '63108399.fasta',
 '6598312.fasta',
 '7415878.fasta',
 '7638455.fasta']

In [76]:
# identificar si es archivo
print(os.getcwd())
print(os.path.isfile("seq"))
print(os.path.isdir("seq"))
print(os.path.isfile("seq/218744616.fasta"))

C:\Users\FUNCIONARIO\Documents\2021I_Ikiam\2021-I\GBI6\python
False
False
False


In [81]:
list = [os.listdir("../python")]
print(list)

[['.gitignore', '.ipynb_checkpoints', '2.3_IntroduccionPython.ipynb', '2.4_EstructurasControl.ipynb', '3.1.ManipulaciónArchivos.ipynb', 'B1.csv', 'carga_prot.txt', 'Dalziel2016_about.txt', 'Dalziel2016_data.csv', 'Dalziel2016_Washington.csv', 'dir_rename', 'dnafile.csv', 'dnafile.txt', 'fibo.py', 'gen_write.xls', 'mytextfile.txt', 'nombre.py', 'out.txt', 'PPTS_bioinfo', 'prot.fas', 'Py4Bio-master', 'README.md', 'sampledata.xlsx', 'seqA.fas', 'seqs', 'seqs1.fasta', 'seqs2.fasta', 'seqs3.fasta', 'seqs_test.fasta', 'sequence.fasta', 'sequences.fasta', 'Singh2015_about.txt', 'Singh2015_data.csv', 'test.py', 'test2.csv', 'test2.py', 'testfile.txt', '__pycache__']]


In [83]:
# crear un directorio
os.mkdir("../python/test_dir")
list = [os.listdir("../python")]
print(list)

[['.gitignore', '.ipynb_checkpoints', '2.3_IntroduccionPython.ipynb', '2.4_EstructurasControl.ipynb', '3.1.ManipulaciónArchivos.ipynb', 'B1.csv', 'carga_prot.txt', 'Dalziel2016_about.txt', 'Dalziel2016_data.csv', 'Dalziel2016_Washington.csv', 'dir_rename', 'dnafile.csv', 'dnafile.txt', 'fibo.py', 'gen_write.xls', 'mytextfile.txt', 'nombre.py', 'out.txt', 'PPTS_bioinfo', 'prot.fas', 'Py4Bio-master', 'README.md', 'sampledata.xlsx', 'seqA.fas', 'seqs', 'seqs1.fasta', 'seqs2.fasta', 'seqs3.fasta', 'seqs_test.fasta', 'sequence.fasta', 'sequences.fasta', 'Singh2015_about.txt', 'Singh2015_data.csv', 'test.py', 'test2.csv', 'test2.py', 'testfile.txt', 'test_dir', '__pycache__']]


In [91]:
# renombrar 
os.rename("dnafile.txt", "temp_dna.txt")
list = [os.listdir("../python")]
print(list)

[['.gitignore', '.ipynb_checkpoints', '2.3_IntroduccionPython.ipynb', '2.4_EstructurasControl.ipynb', '3.1.ManipulaciónArchivos.ipynb', 'B1.csv', 'carga_prot.txt', 'Dalziel2016_about.txt', 'Dalziel2016_data.csv', 'Dalziel2016_Washington.csv', 'dir_rename', 'dnafile.csv', 'fibo.py', 'gen_write.xls', 'mytextfile.txt', 'nombre.py', 'PPTS_bioinfo', 'prot.fas', 'Py4Bio-master', 'README.md', 'sampledata.xlsx', 'seqA.fas', 'seqs', 'seqs1.fasta', 'seqs2.fasta', 'seqs3.fasta', 'seqs_test.fasta', 'sequence.fasta', 'sequences.fasta', 'Singh2015_about.txt', 'Singh2015_data.csv', 'temp_dna.txt', 'test.py', 'test2.csv', 'test2.py', 'testfile.txt', 'test_dir', '__pycache__']]


In [88]:
# remover 
os.remove("../python/out.txt")
list = [os.listdir("../python")]
print(list)

[['.gitignore', '.ipynb_checkpoints', '2.3_IntroduccionPython.ipynb', '2.4_EstructurasControl.ipynb', '3.1.ManipulaciónArchivos.ipynb', 'B1.csv', 'carga_prot.txt', 'Dalziel2016_about.txt', 'Dalziel2016_data.csv', 'Dalziel2016_Washington.csv', 'dir_rename', 'dnafile.csv', 'dnafile.txt', 'fibo.py', 'gen_write.xls', 'mytextfile.txt', 'nombre.py', 'PPTS_bioinfo', 'prot.fas', 'Py4Bio-master', 'README.md', 'sampledata.xlsx', 'seqA.fas', 'seqs', 'seqs1.fasta', 'seqs2.fasta', 'seqs3.fasta', 'seqs_test.fasta', 'sequence.fasta', 'sequences.fasta', 'Singh2015_about.txt', 'Singh2015_data.csv', 'test.py', 'test2.csv', 'test2.py', 'testfile.txt', 'test_dir', '__pycache__']]


In [82]:
#!pip install path.py
import path

In [92]:
# crear archivos

from path import Path
f = Path("path_newfile.text")
f.touch()
f.isfile()

True

In [101]:
# tipo de archivo
print(f.ext)

#nombre de archivo
print(f.name)

#directorio parental de archivo
print(f.parent)

# definir path y revisar contenido
d = Path("seqs")
print(d.files())

# filtrado de contenidos
d2 = Path("../python")
print(d2.files())
print(d2.files("*.txt"))


.text
path_newfile.text

[Path('seqs\\15721870.fasta'), Path('seqs\\218744616.fasta'), Path('seqs\\2623545.fasta'), Path('seqs\\4586830.fasta'), Path('seqs\\513419.fasta'), Path('seqs\\513710.fasta'), Path('seqs\\513717.fasta'), Path('seqs\\513718.fasta'), Path('seqs\\513719.fasta'), Path('seqs\\63108399.fasta'), Path('seqs\\6598312.fasta'), Path('seqs\\7415878.fasta'), Path('seqs\\7638455.fasta')]
[Path('../python\\.gitignore'), Path('../python\\2.3_IntroduccionPython.ipynb'), Path('../python\\2.4_EstructurasControl.ipynb'), Path('../python\\3.1.ManipulaciónArchivos.ipynb'), Path('../python\\B1.csv'), Path('../python\\carga_prot.txt'), Path('../python\\Dalziel2016_about.txt'), Path('../python\\Dalziel2016_data.csv'), Path('../python\\Dalziel2016_Washington.csv'), Path('../python\\dnafile.csv'), Path('../python\\fibo.py'), Path('../python\\gen_write.xls'), Path('../python\\mytextfile.txt'), Path('../python\\nombre.py'), Path('../python\\path_newfile.text'), Path('../python\\prot.fas'),

In [105]:
# imprimir rutas de contenidos
d3 = Path("../python/seqs")
for f in d3.walk():
    if f.isfile():
        print(f)

../python/seqs\15721870.fasta
../python/seqs\218744616.fasta
../python/seqs\2623545.fasta
../python/seqs\4586830.fasta
../python/seqs\513419.fasta
../python/seqs\513710.fasta
../python/seqs\513717.fasta
../python/seqs\513718.fasta
../python/seqs\513719.fasta
../python/seqs\63108399.fasta
../python/seqs\6598312.fasta
../python/seqs\7415878.fasta
../python/seqs\7638455.fasta


# Leer múltiples archivos y consolidar

En este ejemplo se consolidad secuencias de múltipes archivos .fasta en un solo archivo `.fasta`.

In [107]:
from path import Path
d = Path("seqs")
with open("consolidated.fasta", "w") as f_out:
    for file_name in d.walk("*.fasta"):
        with open(file_name) as f_in:
            data = f_in.read()
            f_out.write(data)

## Tarea
Realice los ejercicios 3.8 (áginas 117 y 118) del libro: `2019_Allesina&Wilmes_ComputingSkills4Biologists-Toolbox.pdf`
