# **PROCESAMIENTO DE FICHEROS DE TEXTO**

## *Objetivos:*
- Conocer los ficheros de texto
- Aprender el manejo de ficheros de texto en UNIX/LInux
- Emplear diferentes lineas de comando para modificar los ficheros de texto

## **¿Qué es un fichero de texto?**
Los ficheros de texto también conocidos como archivos de texto plano o de texto sin formato  ya que están conformados únicamente por caracteres de tipo alfanuméricos que carecen de un formato tipográfico.

Un archivo de texto contiene información que puede ser tan simple como letras, palabras y oraciones; o más complejo como un registro de coordenadas de una estructura proteica o los resultados de secuenciacion de varias muestras biologicas, la información estará en diferentes columnas divididas por caracteres de separación o delimitadores.

![Ejemplo de fichero de texto](imagenes/ejemplo.jpg)

Una característica importante de los sistemas basados en UNIX, es que priorizan el uso de los ficheros de texto que pueden ser visualizados sin utilizar un software especial, ya que en UNIX se encuentran instaladas varias herramientas que permiten la manipulación de este tipo de archivos desde la consola o terminal.

## **Tipos de Archivos de texto**
Existen varios tipos de archivos de texto que se utilizan dentro de la bioinformatica, en este caso vamos a ver de manera rápida 4 tipos diferentes.

### *FASTA*
- Es un archivo de texto plano
- Contiene secuencias de DNA, RNA o proteínas
- Puede contener más de una secuencia.
- Generalmente consiste en:

    - Una línea que empieza con el símbolo “>” y es seguido por un código de identificación de la secuencia.
    - Una o más líneas que contiene la secuencia: cada línea debe contener menos de 80 caracteres.

![](imagenes/fasta.jpg)

### *BED*
- Archivo de texto plano tabular
- Contiene información de contexto genómico: coordenadas y características asociadas al genoma.
- BED3, BED6, BED12.

![](imagenes/bed.jpg)

### *FASTQ*
- Archivo de texto plano
- Contiene información relacionada a la secuenciación con su correspondiente score de calidad.
- Este score corresponde a un carácter de ASCII e indica que tan confiable es que la base haya sido secuenciada e identificada correctamente (Phred score).
- El formato consiste en:
    - Línea 1 inicia con “@” seguido por la identificación de la secuencia
    - Línea 2 es la secuencia.
    - Línea 3 contiene el símbolo “+” que indica el término de la secuencia
    - Línea 4 la codificación para el score de calidad, debe contener el mismo número de símbolos que de letras en la secuencia. 

![](imagenes/fastq.jpg)

### *PDB*
- Es un archivo de texto plano
- Contiene coordenadas atómicas de residuos que componen una proteína específica.
- Estas coordenadas se obtienen a partir de un mapa de densidad electrónica. 

![](imagenes/pdb.jpg)

Ya que este tipo de archivo contiene coordenadas de la estructura de una proteína, se necesita de programas específicos para poder observar el polipéptido.

![](imagenes/pdb2.jpg)


## **Procesamiento de Ficheros de texto**
Antes de empezar con los comandos, hay que tener claro algunos conceptos básicos.

Para la ejecución de comandos, UNIX utiliza unos canales de comunicación entre el sistema operativo y su entorno de hardware/software a estos canales se les denomina streams, y hay tres que son importantes conocer:

- stdin: que se refiere al **input** desde un dispositivo de entrada como el teclado.
- stdout: corresponde al **output** que generalmente se observa en el monitor o consola.
- stderr: es el flujo por el cual se notifica sobre los **errores** al usuario y su salida por defecto es la pantalla o consola.

Así mismo hay que conocer los símbolos "<" y ">", que permiten redirigir el **input** y/o **output** de un proceso hacia un fichero.

“>”: nos permite redirigir el output de un comando hacia un archivo. Por ejemplo, utilizando el comando *ls* se puede enviar el stdout a un fichero.

`ls > listdirectorio` 

Con este comendo hemos creado un archivo que contiene una lista de los elementos de un directorio en específico.

![](imagenes/imagen1.jpg)


“<”: nos permite enviar el input de un archivo hacia un comando. Está función es de utilidad al probar scripts.

“>>” se utiliza si se quiere añadir el output de un comando al final de un fichero existente. 

`pwd >> listdirectorio`

Con este comando, se añade la ruta del directorio actual al final del fichero listdirectorio.

![](imagenes/imagen2.jpg)

“2>”: se utiliza cuando se quiere enviar el stderr de un comando hacia un fichero de texto. 

`cd bioinfo 2> error`

Debido a que no existe una carpeta con el nombre de bioinfo, el error “No such directory” va a escribirse en un fichero de texto llamado error.

### **Operaciones básicas con los ficheros de texto**
**1. Crear archivos**

La forma más fácil de crear un archivo de texto es utilizando el operador “>”

`> filetext`

Con este comando se crea un archivo de texo vació con el nombre “filetext".

También se puede utilizar el comando *touch* para crear un fichero de texto

`touch filetext`

![](imagenes/imagen3.jpg)

*touch* además sirve para actualizarla fecha de modificación de un archivo.

**2. Eliminar archivos de texto**

Para eliminar un archivo simplemente se utiliza el comando rm (remover).

`rm filetext`

De esta manera se estaría eliminando el fichero "filetext".

![](imagenes/imagen4jpg)

Los comandos que se utilizan en la terminal, tienen opciones que son de mucha utilidad. Por ejemplo *rm* tambien se usa para eliminar directorios utilizando la opción -r.

`rm -r Directorio`

De esta manera se eliminaría el drectorio con todos los archivos y subdirectorios que contenga.

Hay que tener cuidado al usar este comando debido a que una vez eliminada la información es muy dificil recuperarla.

**3. Copiar archivos de texto**

Un archivo o directorio puede ser copiado a un directorio en específico utilizando el comando *cp*

`cp filetext directorio`

Con este comando estamos copiando el archivo "filetext" en la carpeta home. 

Así mismo, se puede copiar el archivo en un directorio cambiandole el nombre 

`cp filetext directorio/file1`

Entonces en el directorio home se ha copiado el archivo "filetext" pero nombrado como "file1"

![](imagenes/imagen4.jpg)

**4. Mover archivos**

Es muy similar a copiar un archivo en otro directorio, lo que cambia es el comando *mv*

`mv filetext home/file`

El archivo "filetext" fue movido hacia el directorio home renombrandolo como file.

**5. Buscar archivos**

Se utiliza el comando *find* para encontrar archivos en un directorio.

`find –name file1`

Con este comando lograremos conocer el subdirectorio en el cual se encuentra el arcvhivo "file".

![](imagenes/imagen5.jpg)

### **Manejo de ficheros de texto**

Ahora vamos a ver comandos que nos permitan visualizar y "modificar" el contenido de un fichero de texto.

Para utilizar estos comandos necesitamos de los ficheros de texto que se encuentran en la carpeta archivos de texto.

**1. Imprimir ficheros**

Si queremos observar la información de un archivo de texto, se pueden utilizar comandos para visualizar el contenido en la consola.

`cat alumnos`

En la consola apareceré todos los nombres que se encuentran en el archivo "alumnos"
![](imagenes/imagen6.jpg)

`head alumnos`

Ahora si queremos ver las primeras 10 líneas del archivo, utilizamos el comando head.
![](imagenes/imagen7.jpg)

`tail alumnos`

En cambio para ver las últimas 10 líneas se utiliza el comando tail.
![](imagenes/imagen8.jpg)

Tanto para *head* como para *tail* se puede utilizar una opción para cambiar el número de filas que se quieren visualizar.

`head -n2 alumnos`

Así se observaran las dos primeras filas del archivo "alumnos". 
![](imagenes/imagen9.jpg)

`tail -n2 alumnos`

En la consola se observará las dos ultimas filas del archivo "alumnos"
![](imagenes/imagen10.jpg)

**2. Combinar archivos**

Ahora teniendo los archivos de texto "alumnos", "notas1" y "notas2".

Se puede utilizar el comando *cat* para unir los ficheros de texto en uno solo

`cat alumnos notas1 > total`

Con ese comando logramos concatenar los ficheros en un solo archivo de texto nombrado "total". Sin embargo, el contenido de un archivo se agrega al final del otro archivo.
![](imagenes/imagen11.jpg)

Entonces, si se quiere que las columnas de un archivo correspondan con las de otro archivo se utilizaría el comando *paste* 

`paste alumnos notas1 notas2 > notasfinal`

En este caso el fichero de texto está bien estructurado, ya que las notas corresponden a cada alumno.
![](imagenes/imagen12.jpg)

**3. Extraer información de un archivo**

Supongamos que ahora el fichero de texto que teniamos correspondía a "notas final", es decir que tenemos un archivo con tres columnas que corresponden al nombre del alumno y sus dos notas. Entonces ahora solo quiero tener la nota2 y el nombre del alumno, para eso utilizamos el comando *cut*

`cut -f 1,3 notasfinal > notas2`

Es así que logramos extraer solo la columna 1 y 3 del fichero de texto, ya que utilizamos la opción *-f* del comando *cut*.
![](imagenes/imagen13.jpg)

Si vemos el contenido del fichero alumnos2, se observa que en este caso estan nombres y apellidos de alumnos separados por un caracter especial (,) y queremos solo extraer los apellidos de los alumnos. 
![](imagenes/imagen17.jpg)

Para eso utilizamos la opcón *-d* del comando *cut*.

`cut -f 1 -d char "," alumnos2 > apellidos`
![](imagenes/imagen14.jpg)

La opción -d nos permite especificar que la "," es el delimitador del fichero de texto, logrando extraer solo los apellidos de los alumnos y crear un fichero de texto, nombrado "apellidos", que contenga esta información.


**4. Ordenar los archivos**

Sí queremos saber quien obtuvo la mayor nota se puede utilizar *sort* que es un comando que puede ordenar ya sea alfabética o numéricamente.

`sort -g -k3 notasfinal`

De esta manera podremos conocer quien obtuvo la mayor nota.
![](imagenes/imagen16.jpg)


**5. Modificar los archivos**

El comando *sed* nos permite eliminar lineas o tambien sustituir caracteres en el fichero de texto.

Este comando tiene el siguiente formato:

`sed 'operacion/patron_a_substituir/nuevo_patron/opciones' nombre_archivo`

***operacion:*** acción que se llevará a cabo, **s** sustituir, **y** transformar, **i** insertar, **d**eliminar.
***opciones:*** **g** reemplazar todos los casos, **N** reempĺazar N veces.

Entonces si utilizamos el comando 

`sed 's/,//g' alumnos2`

estamos sustituyendo la coma por un espacio en blanco, y la *g* al final es para que sustituya todos los caracteres que encuentre no solo el primero.
![](imagenes/imagen15.jpg)

Otra opción de sed es el poder eliminar líneas de un fichero de texto.

`sed -i '1d' alumnos2`

Con este comando se elimina la primera linea del fichero de texto "alumnos2".


Para que quede claro ahora utilizamos el archivo protein.fasta en el cual queremos eliminar la palabra "hypothetical".

Para lo cual usamos el siguiente comando:

`sed ‘s/hypothetical//g’ protein.fasta > newfile`
![](imagenes/imagen18.jpg)

Con este comando reemplazamos la palabra “hypothetical” por un espacio en blanco y se crea un nuevo archivo.

Ahora si queremos que se cambie la palabra “protein” por “polipeptido” pero solo de las secuencias que sean de una cepa ATCC. El comando a utilizar sería el siguiente:

`sed -i ‘/ATCC/s/protein/polipéptido/g’ protein.fasta`
![](imagenes/imagen19.jpg)

Entonces con esta línea de comando reemplazamos "protein" por polipeptido y además al utilizar la opcion ***-i*** se está sobreescribiendo en el mismo archivo.



Estos son algunos de los principales comandos que se utilizan para el procesamiento de ficheros y se debe recordar que cada uno de estos cuentan con muchas opciones que son de mucha utilidad, para conocer mejor los comandos se sugiere utilizar la opción *--help*, ahi esta una explicación breve de las opciones que contempla el comando.

## **Referencias**

- Dent, J., & Gaddis, T. (2007). Guide to Unix Using Linux (4th ed.). Course Technology Cengage Learning.
- Kross, S. (2010). The Unix Workbench. In Educational Change.


