***
# **Práctico 1**
***

<img src="../figures/bash.jpeg" width="500" height="500" />

Bash es un shell de Unix y un lenguaje de comandos escrito por Brian Fox para el Proyecto GNU como un reemplazo de software gratuito para el shell Bourne. Lanzado por primera vez en 1989, se ha utilizado como shell de inicio de sesión predeterminado para la mayoría de las distribuciones de Linux.

Este práctico pretende hacer una introducción al manejo de la línea de comando en BASH en Linux, particularmente, con la finalidad de trabajar con archivos de textos relacionados a datos de secuenciación.  

- **Aclaración:** el contenido de este práctico está muy muy lejos de cubrir comprehensivamente el manejo de la línea de comandos en BASH, es sólo una primera aproximación para que los estudiantes tengan una idea de qué es posible hacer con la línea de comando, y puedan empezar a trabajar y aprender más fácilmente de forma autodidacta.  
- **Aclaración2:** la terminología en inglés se vuelve muy práctica en esta temática y será usada en cuando sea pertinente (no debe tener ninguna connotación ideológica).
- **Aclaración3**: Las secciones algo más avanzadas aparecen marcadas con la imagen: <img src="../figures/uphill.png" width="50" height="50" />  Estas secciones pueden resultar algo compleja para quienes son nuevos en el área. No pretendemos que entiendan finamente cómo funcionan los comandos, la intención es que tengan una comprensión general y código disponible para tareas potencialmente útiles.

---
**Las secciones de este tutorial son las siguientes**:
1. Estructura de archivos  
2. Comandos y operadores esenciales  
3. sed y awk  
4. Variables y bucles  
5. Manejo de datos de secuencias  
5.1. Obtención de datos  
5.2. Exploración de datos  
5.3. Otras líneas de comandos interesantes  
---

---
#### **1. Estructura de archivos**
---

Linux tiene una estructura jerárquica de archivos. El directorio más basal en esta jerarquía es la raíz, representada como `/`.  
Nuestro directorio de trabajo lo vamos a encontrar en `/home/<nombre_de_usuario>`. Por ejemplo `/home/epereira`. 

Para saber dónde estamos actualmente "parados" en la línea de comando podemos ejecutar el comando: `pwd` (abreviación de _print working directory_).  
Esto nos va a devolver la ruta, partiendo desde la raíz, hasta hasta dónde estamos "parados".

**Nota**: con el comando `man` podemos ver el manual de cada función. Por ejemplo, `man pwd`.

Existen dos tipos de rutas: relativa y absoluta.  
Relativa, es en relación a dónde estamos parados en el sistema de archivos.  
Absoluta, es toda la ruta comenzando siempre desde la raíz.  
Al correr el comando `pwd`, lo que obtenemos es la ruta absoluta.

Para poder especificar una ruta relativa necesitamos utilizar el `.` y el `..`. El primero hace referencia a dónde estamos “parados” y el segundo al directorio superior.  
Por ejemplo, la ruta relativa desde nuestro directorio al directorio `home` es `ls ../../home`.

En este momento, es importante introducir dos comandos muy claves: `cd` (_change directory_) y `ls` (_list_).  
Al hacer:

In [8]:
ls ../../home

[0m[01;34macardoso[0m  [01;34mbgonzal[0m  [01;34mcalonso[0m    [01;34mepereira[0m  [01;34mjzanetti[0m  [01;34mlost+found[0m  [01;34mnfsuser[0m  [01;34msistemas[0m
[01;34macardozo[0m  [01;34mbioinf[0m   [01;34mdcalliari[0m  [01;34mimachado[0m  [01;34mlgriff[0m    [01;34mmillarze[0m    [01;34mpgarcia[0m  [01;34mvpinelli[0m


Con este comando estamos listando todo lo que hay en el directorio `/home/`. Como pueden ver, en esta computadora tenemos varios usuarios.

Con `cd` vamos movernos a un directorio dentro de nuestro home llamado `/home/epereira/metabarcoding_workspace/`, que es dónde estaremos realizando este práctico.

Pero antes, vamos a crear el directorio con el comando `mkdir`!

In [9]:
mkdir -p /home/epereira/metabarcoding_workspace/

In [12]:
cd /home/epereira/metabarcoding_workspace/

In [13]:
pwd

/home/epereira/metabarcoding_workspace


***
#### **2. Comandos y operadores esenciales**
***

Además de los comandos `pwd`, `cd`, `ls`, y `mkdir`, abajo aparecen algunos otros esenciales para hacer todas las tareas comúnmente realizadas en una computadora.

`cp` copiar un archivo o directorio.  
`mv` mover un archivo o directorio.  
`rm` remover un archivo o directorio.  
`cat` imprimir un archivo en la terminal (salida estándar sería el término adecuado).  
`less` ver el contenido de un archivo.  
`echo` imprime en la salida texto.   
`egrep` busca patrones en un texto.

[Acá puedes encontrar una lista más exhaustiva de comandos](https://www.digitalocean.com/community/tutorials/linux-commands).

Especialmente, hay dos operadores que es pertinente introducir:

`>` operador de redireccionamiento, permite guardar la salida de un comando en un archivo.  
`|` operador de tubería, permite crear un _pipeline_ entre comandos.

Veamos un ejemplo muy sencillo:

In [14]:
echo "Este texto es una prueba muy sencilla"

Este texto es una prueba muy sencilla


In [15]:
echo "Este texto es una prueba muy sencilla" > out.txt

In [16]:
cat out.txt

Este texto es una prueba muy sencilla


In [17]:
cat out.txt | egrep "sencilla"

Este texto es una prueba muy [01;31m[Ksencilla[m[K


***
#### **3. sed y awk**
***

Estos dos comandos son tan importantes que merecen al menos una sección aparte (en realidad merecerían un curso entero).  
`sed` viene de _stream editor_ y tiene la finalidad de realizar tareas de búsquedas de palabras o patrones, sustituciones, deleciones, inserciones en archivos de texto.  
`awk` es en realidad un lenguaje de programación, y su nombre viene de sus creadores – Aho, Weinberger, and Kernighan. Este lenguaje es especialmente conveniente para manipular y parsear archivos de textos.

* **Primeramente veamos cómo podemos utilizar `sed`**

El uso de este comando tiene la siguiente forma `sed [opciones] acciones [archivo a editar]`. 

`sed` es ampliamente utilizado para buscar y sustituir una palabra (o patrón) por otra en un archivo de texto (aunque también es muy útil para eliminar o insertar líneas).  
Como primer ejemplo, vamos a retomar el ejemplo muy sencillo de arriba y sustituir las palabras `muy sencilla` por `un poquito menos sencilla`.

In [18]:
sed "s/muy sencilla/un poquito menos sencilla/" out.txt

Este texto es una prueba un poquito menos sencilla


Es importante notar que la salida queda impresa en la pantalla y el archivo `out.txt` no fue modificado, como podemos ver con `cat`.

In [19]:
cat out.txt

Este texto es una prueba muy sencilla


Para modificarlo podemos correr `sed` con la opción `-i` (i.e., _edit files in place_).

In [20]:
sed -i "s/muy sencilla/un poquito menos sencilla/" out.txt

In [21]:
cat out.txt

Este texto es una prueba un poquito menos sencilla


Veamos un ejemplo más con `sed`, esta vez para eliminar líneas. Para esto vamos a crear una secuencia de números del 1 al 10 con el comando `seq`.

In [22]:
seq 1 10

1
2
3
4
5
6
7
8
9
10


Esta salida la pasamos por un _pipe_ `|` para dárselo como entrada a `sed`, que lo vamos a estar utilizando para eliminar todos las líneas (y números) impares.

In [23]:
seq 1 10 | sed -n 'p;n'

1
3
5
7
9


Existe mucha información sobre `sed` en internet para seguir aprendiendo, por ejemplo [acá](https://www.geeksforgeeks.org/sed-command-in-linux-unix-with-examples/).

¿Te das cuenta cómo podemos modificar este comando para imprimir los números pares?

* **En segundo lugar, pasamos a ver el uso básico de `awk`.**

El uso de este comando tiene la siguiente forma `awk opciones 'selección {acción}'[archivo de entrada]`.

Una de las principales aplicaciones de `awk` es para trabajar con tablas donde podemos seleccionar fácilmente columnas en base a un delimitador
(por defecto, `awk` utiliza secuencias de espacios en blanco para delimitar las columnas). Veamos esto con un ejemplo.

In [40]:
paste <(seq 1 26) <(printf '%s\n' {a..z}) > file.txt

Como verán, este comando ya es un poco más complejo. Intenta descifrar cómo funciona buscando en internet documentación sobre el operador (redireccionador) `>` y los comandos `seq`, `paste` y `printf`.

Con el comando `cat` podemos ver cómo es nuestro archivo.  
También puedes probar ver el archivo con el comando `head`.

In [25]:
cat  file.txt

1	a
2	b
3	c
4	d
5	e
6	f
7	g
8	h
9	i
10	j
11	k
12	l
13	m
14	n
15	o
16	p
17	q
18	r
19	s
20	t
21	u
22	v
23	w
24	x
25	y
26	z


En este archivo tenemos dos columnas, lo que hace que sea un buen caso para ejemplificar un comando con `awk`.

Por ejemplo, vamos a sumar todas los números de la columna 1.

In [26]:
awk '{total = $1 + total} END {print total}' file.txt

351


O seleccionar los números de las columna 1 para las cuales hay una vocal en la columna 2 (modificando la salida).

In [27]:
awk '$2 ~ /[aeiou]/ {print $1,"la vocal es",$2}' file.txt

1 la vocal es a
5 la vocal es e
9 la vocal es i
15 la vocal es o
21 la vocal es u


Estos ejercicios con `sed` y `awk` sólo pretenden mostrar su potencial y uso básico, podríamos estar todo este curso aprendiendo sobre estos comandos (incluidos los docentes).
De todas formas, si hemos logrado convencerte sobre el potencial de `sed` y `awk` acá puedes aprender más: [link de tutorial para awk](https://www.tutorialspoint.com/awk/) y [otro para sed](https://www.tutorialspoint.com/sed/).

Una de las fortalezs de `sed` y `awk` (también de `egrep` que es un comando muy útil que puedes ver [acá](https://www.tutorialspoint.com/unix_commands/egrep.htm), es que permiten trabajar con **expresiones regulares** (lo que he venido llamando patrones en la búsqueda de palabras). Las expresiones regulares son conjuntos de caracteres o metacaracteres que definen un patrón.  
Nota: los metacaracteres son caracteres que tienen una interpretación más allá de su significado literal.

Veamos esto con un ejemplo en `sed`. De nuestra lista `file.txt`, vamos a imprimir todos las líneas que comienzan con un 2 seguido de otro número (ósea, sin incluir el número 2 únicamente).

In [28]:
sed -n "/^2[0-9]/p" file.txt

20	t
21	u
22	v
23	w
24	x
25	y
26	z


Lo que estamos haciendo acá es utilizar el metacaracter `^` que significa al comienzo de la línea, seguido por el número 2 (este no es un metacaracter) y seguido de la expresión utilizando paréntesis rectos `[0-9]`, que significa cualquier número entre 0 y 9.
[Acá](https://tldp.org/LDP/Bash-Beginners-Guide/html/sect_04_01.html) puedes aprender más sobre expresiones regulares.

Antes de terminar esta introducción a la línea de comando vamos a eliminar los archivos que utilizamos para los ejemplos. 

Corremos `ls` para ver los archivos.

In [16]:
ls *.txt

file.txt


¿Sabes qué significa la expresión regular `*`?

***
#### **4. Variables y bucles**
***

Una variable es un lugar donde podemos guardar cualquier tipo de información, ya sean números, letras, palabras, o todo un archivo.
Esta información la podemos reescribir nuevamente o utilizar posteriormente.  
En BASH para definir una variable utilizamos la siguiente sintaxis.

In [33]:
var="123 y uno dos tres escrito"

Luego, podemos ver el valor de la variable con el comando `echo`, utilizando el signo de pesos `$`.

In [34]:
echo "$var"

123 y uno dos tres escrito


Es buena práctica utilizar comillas al trabajar con una variable, de esta forma estamos considerando todo el contenido como una sola unidad en el caso de que existan espacios en blanco.

Notar que `"$var"` no es lo mismo que `"$VAR"`.

Existe la convención de usar mayúsculas para las variables que definen nuestro ambiente de trabajo o serán exportadas a otros ambientes, y minúscula para las variables utilizadas en un único script o en alguna tarea concreta.   

En linux tenemos varias variables que nos dan información sobre nuestro ambiente de trabajo y el sistema. Estas variables y su valor las puedes ver con el siguiente comando: `printenv`

Algunos ejemplos relevantes son la variable `"$HOME"`, que nos dice cuál es y dónde está nuestro home.

In [41]:
echo "$HOME"

/home/epereira


La variable `"$PATH"` nos dice en qué directorios podemos encontrar los comandos que son reconocidos para su ejecución.

In [42]:
echo "$PATH"

/home/epereira/.local/bin:/home/epereira/bin:/home/epereira/anaconda3/bin:/home/epereira/anaconda3/condabin:/home/epereira/.cargo/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/snap/bin:/snap/bin:/snap/bin


O la variable `$USER` nos dice cuál es nuestro usuario.

In [37]:
echo "$USER"

epereira


Las variables son esenciales para poder trabajar con bucles, los que a su vez son esenciales para trabajar en cualquier tipo de tarea.

En BASH existen tres tipos bucles básicos, estos son `for`, `while`, y `until`. Veamos cada uno de estos con un poco de detalle.

**Bucles `while`**

Este bucle lo que hace es evaluar una expresión en cada iteración y mientras esta expresión sea verdadera, el bucle seguirá ejecutándose.  
Su formato en BASH es el siguiente:

```
while <expresion>; do
  <commands>;
done
```

El clásico ejemplo de un bucle `while` es:

In [43]:
i=1
while [ $i -le 10 ]; do
  echo $i
  i=$((i+1))
done

1
2
3
4
5
6
7
8
9
10


Lo que estamos haciendo acá es iniciar nuestra variable `i` con el valor de 1.  
Luego definimos nuestra expresión a evaluar, la cual lo que afirma es que la variable `$i` es menor o igual (i.e., `-le`) que 10.  
Los comandos dentro del bucle lo que hacen es imprimir el valor de la variable `$i` con el comando `echo` y luego incrementar en 1 esta variable.  
Como resultado, la variable se incrementa hasta que la expresión a evaluar deja de ser verdadera, momento en el que termina el bucle.

Una aplicación más real del bucle `while` es cuando recorremos un archivo o lista de algún tipo generada en por otro comando, línea a línea utilizando `while read`. Por ejemplo:

In [44]:
cat file.txt | \
while read line; do 
  echo "$line"
done

1	a
2	b
3	c
4	d
5	e
6	f
7	g
8	h
9	i
10	j
11	k
12	l
13	m
14	n
15	o
16	p
17	q
18	r
19	s
20	t
21	u
22	v
23	w
24	x
25	y
26	z


**Bucles `until`**

Este tipo de bucles es menos utilizado, es muy similar a `while` y tiene el mismo formato. Lo que hace es evaluar una expresión e iterar mientras que la expresión es verdadera (en lugar de falsa como sería el caso de `while`).    
¿Te das cuenta cómo podemos adaptar el código del bucle `while` que itera de 1 a 10 a un bucle `until`?  
Nota: para resolver esto, es importante tener claro cómo son los operadores para comparar números, lo que puedes encontrar [aca](https://www.tutorialspoint.com/unix/unix-basic-operators.htm).

**Bucles `for`**

Este bucle es algo distintos a los otros. Acá lo que hacemos es, dado una lista de elementos, iterar tomando cada valor de esta lista. 
El formato de los bucles `for` es el siguiente:

```
for i in <list>; do
  <commands>
done
```

La mejor forma de verlo es con un ejemplo.

Primero creamos una lista.

In [45]:
NUMBERS=$(seq 1 10)

In [46]:
for i in $NUMBERS; do
  echo "$i"
done  

1
2
3
4
5
6
7
8
9
10


Una vez que terminamos con estos ejercicios, vamos a eliminar los archivos generados para dejar nuestro directorio `metabarcoding_workspace` limpio.

In [None]:
rm file.txt out.txt

***
#### **5. Manejo de datos de secuencias**
***

#### **5.1. Obtención de datos**

Como primer paso antes de empezar a trabajar vamos a crear los directorios necesarios para tener nuestros datos, código y resultados organizados.

Por las dudas vamos a chequear que estamos en el directorio correcto.

In [48]:
pwd

/home/epereira/metabarcoding_workspace


y vamos a correr los siguiente comandos:

In [53]:
mkdir -p data
mkdir scripts
mkdir results
mkdir tables
mkdir plots

Corremos `ls` nuevamente para ver que esté todo bien.

In [61]:
ls 

[0m[01;34mdata[0m  [01;34mplots[0m  practico1.ipynb  [01;34mresults[0m  [01;34mscripts[0m


Corremos `ls` nuevamente para ver que esté todo bien.
La siguiente tarea es conseguir los datos. Para este curso estaremos analizando un set de datos de amplicones de genes 16S de ARNr generados por Griffero et al. (manuscrito en preparación).   
Estos datos fueron obtenidos de los arroyos afluentes de la Laguna de Rocha y la laguna de Rocha en Uruguay (https://maps.app.goo.gl/UE9kEwKJPfokc8N28), con la finalidad de estudiar la comunidad de procariotas y su respuesta a los contaminantes emergentes.
Los datos que estamos utilizando son datos crudos, separados por muestra (_demultiplexed_ ), los cuales fueron submuestras aleatoriamente para reducir su tamaño y hacerlos fácilmente manipulables.

Con el siguiente comando vamos a descargar los datos:

In [50]:
wget --directory-prefix ./data/ https://media.githubusercontent.com/media/pereiramemo/Curso-Metabarcoding-2023/main/data/raw.tar.cpt

--2023-12-04 14:12:59--  https://media.githubusercontent.com/media/pereiramemo/Curso-Metabarcoding-2023/main/data/raw.tar.cpt
Resolving media.githubusercontent.com (media.githubusercontent.com)... 2606:50c0:8000::154, 2606:50c0:8003::154, 2606:50c0:8002::154, ...
Connecting to media.githubusercontent.com (media.githubusercontent.com)|2606:50c0:8000::154|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19394592 (18M) [application/octet-stream]
Saving to: ‘./data/raw.tar.cpt’


2023-12-04 14:13:18 (1.02 MB/s) - ‘./data/raw.tar.cpt’ saved [19394592/19394592]



Como se puede observar, este archivo tiene varias terminaciones (i.e., `.tar.cpt`).  
`tar` es porque este es un archivo `tarball`, es decir, un archivo donde se pueden incluir varios otros archivos y directorios.  
`cpt` es porque este archivo ha sido encriptado con la herramienta `ccrypt`.

Como primera medida vamos a desencriptar el archivo con el siguiente comando. Para esto vamos a necesitar una palabra clave que les será entregada.

Si no tienes instalada la herramienta `ccrypt`, la puedes instalar con `sudo apt install ccrypt`.

In [None]:
ccrypt -d ./data/raw.tar.gz.cpt

Hacemos `ls` para ver cómo quedó el archivo. 

In [1]:
ls ./data

[0m[01;31mraw.tar[0m


In [None]:
Ahora podemos descomprimirlo. 

In [4]:
tar  xf ./data/raw.tar --directory ./data

Veamos qué tenemos en `./data/raw`.

In [None]:
ls ./data/raw

---
#### **5.2. Exploración de datos**
---

Como podemos observar, estos datos son en formato fastq. [Acá](https://en.wikipedia.org/wiki/FASTQ_format) puede leer sobre este formato.  
Esencialmente, este es un formato de datos de secuenciación, donde por cada secuencia tenemos **cuatro** líenas:
1) El identificador de la secuencia (comienza con @).  
2) La secuencia.   
3) Descripción opcional de la secuencia (comienza con +).  
4) Código representando la calidad de la secuencia.  

Pero primero, vamos a descomprimir todas las secuencias.

In [6]:
unpigz --processes 4 data/raw/*.gz 

Ahora que están descomprimidas, vemos un ejemplo:

In [23]:
head ./data/raw/13_S13_L001_R1_001.fastq 

@M04487:61:000000000-CWK5N:1:2106:13644:2052 1:N:0:TAAGGCGA+TATCCTCT
GTGCCAGCCGCCGCGGTAATACGAAGGGAGCTAGCGTTGTTCGGAATTACTGGGCTTAACGGGCGCGTAGGCGGTCTTTTAAGTTTTTTGTTAAATCCCTCGGCTTAACCTAGGAACTGCATTTAATCCTTTAAGACTTGAGACCTAGTGAGGGAAATGGAATTTCTAGTTTAGAGGTTACATTCGTAGATATTCGCAAGAACACCAGTTTCGAAGGCGATTTCCTGTCTCTTTACTTACGCTAATTCCCGCCCGCTTTGGTATCAACCAGTATTATCTCCCCTTTTATTCCCCGCTTTAT
+
8B<@B-CFFFFFBFC@@:;C6ED8<;+--6@F9<C@CC+BCF@@,,:C,9C66,9,C6,,6+,++76@++,,4+@+8?,<,,,C9?,+84B,,,,,<:5=,+3BBC,,:8B,5,,,8,,:,>@,,,<,C>,@,,,,:>@,,3,38,,,,<,,,**,,8,,,,8@,8,,8@,8,3,,,8,,,,7@<,?,**7,@C;,***4,,2,2=**7,,71*+**4**3<<2?C,,+03++3+3<+3<8A;;8A+++3/)**):*;*+,***2++*0*2+1.<)*)1+32;0*+2)02::+*0/**0**
@M04487:61:000000000-CWK5N:1:2106:20569:2132 1:N:0:TAAGGCGA+TATCCTCT
GTGCCAGCAGCCGCGGTAATACGAAGGTTGCAAGCGTTGTTCGGATTCACTGGGCTTACAGGGTGCGTAGGCGGTTTTTTAAGCCCTCCGTGAAATCTCCGGGCCTAACCCGGAAACTGCAGTTGGGACTGCTCGGCTAGAGGTTGGGAGAGGAGCGCGGAATTCCCGGTGTAGCGGTGAAATGCGTAGATATCGTGTGGAATGCCGGTGTCGAAGGCGGCTCTCTGCTTCTTTTCTGACGCTGATGCTCGCAAGC

En la [página de Illumina](https://knowledge.illumina.com/software/general/software-general-reference_material-list/000002211) podemos encontrar más información sobre el formato y el identificador de cada secuencia.

Una de las primeras preguntas que surgen al descargar un set datos es ¿cuántas muestras tenemos?
Con el siguiente comando vamos respondernos:

In [7]:
ls ./data/raw/*R1*.fastq | wc -l

30


Notar que por cada muestra tenemos 2 archivos, el R1 y el R2. Por este motivo, para contar el número de muestras debemos contar uno sólo de estos, en esta caso fue el R1.

Otra pregunta relevante que nos podemos hacer es ¿cuántas secuencias tenemos por muestra, en total y en promedio?.
Para respondernos esta otra pregunta, ese necesario correr un comando un poquito más sofisticado:

In [8]:
SAMPLES=$(ls ./data/raw/*R1*.fastq)
for i in $SAMPLES; do 
  NSEQ=$(echo $(cat "$i" | wc -l)/4 | bc -l)
  echo -e "$i\t$NSEQ"
done > ./tables/raw_seq_counts.tsv

Puedes descifrar qué estamos haciendo en esta línea `NSEQ=$(echo $(cat "$i" | wc -l)/4 | bc -l)`?

In [9]:
head ./tables/raw_seq_counts.tsv

./data/raw/13_S13_L001_R1_001_redu.fastq	2617.00000000000000000000
./data/raw/14_S14_L001_R1_001_redu.fastq	2547.00000000000000000000
./data/raw/15_S15_L001_R1_001_redu.fastq	2445.00000000000000000000
./data/raw/16_S16_L001_R1_001_redu.fastq	2309.00000000000000000000
./data/raw/17_S17_L001_R1_001_redu.fastq	2291.00000000000000000000
./data/raw/18_S18_L001_R1_001_redu.fastq	2907.00000000000000000000
./data/raw/1_S1_L001_R1_001_redu.fastq	2632.00000000000000000000
./data/raw/21_S21_L001_R1_001_redu.fastq	3737.00000000000000000000
./data/raw/2_S2_L001_R1_001_redu.fastq	3072.00000000000000000000
./data/raw/34_S33_L001_R1_001_redu.fastq	2800.00000000000000000000


In [None]:
Ahora con un simple comando de `awk` podemos saber cuántas secuencias tenemos en total y cuántas en promedio.

In [10]:
awk '{total = $2 + total} END {print "total = "total";", "mean = "total/NR}' ./tables/raw_seq_counts.tsv

total = 69966; mean = 2332.2


Veamos ahora qué largo tiene las secuencias. Dado que todas las secuencias tienen el mismo largo, vamos correr esto para unas pocas secuencias de un único archivo.

In [12]:
awk 'NR%4==2 {print length($0)}' <(head ./data/raw/13_S13_L001_R1_001_redu.fastq)

301
301
301


¿Por qué no es necesario incluir más secuencias para ver su largo?

---
#### **5.3. Otras líneas de comandos interesantes**
---

---
### Comienza sección <img src="../figures/uphill.png" width="50" height="50" />
---

Vamos convertir de formato fastq a fasta con `awk`.

In [32]:
SAMPLES_R1=$(ls ./data/raw/*R1*.fastq)
SAMPLES_R2=$(ls ./data/raw/*R2*.fastq)

In [33]:
for fastq in $SAMPLES_R1; do
 fasta=$(echo "$fastq" | sed "s/.fastq/.fasta/")
 awk 'NR%4==1 {sub("@",">",$0); print $0}; NR%4==2 {print $0}' "$fastq" > "$fasta"
done

In [34]:
for fastq in $SAMPLES_R2; do
 fasta=$(echo "$fastq" | sed "s/.fastq/.fasta/")
 awk 'NR%4==1 {sub("@",">",$0); print $0}; NR%4==2 {print $0}' "$fastq" > "$fasta"
done

¿Te das cuenta cómo funciona el comando de `awk`?   
¿Qué está haciendo la función `sub`?

Veamos los (primeros 10) archivos fasta creados:

In [35]:
ls ./data/raw/*.fasta | head 

./data/raw/13_S13_L001_R1_001_redu.fasta
./data/raw/13_S13_L001_R2_001_redu.fasta
./data/raw/14_S14_L001_R1_001_redu.fasta
./data/raw/14_S14_L001_R2_001_redu.fasta
./data/raw/15_S15_L001_R1_001_redu.fasta
./data/raw/15_S15_L001_R2_001_redu.fasta
./data/raw/16_S16_L001_R1_001_redu.fasta
./data/raw/16_S16_L001_R2_001_redu.fasta
./data/raw/17_S17_L001_R1_001_redu.fasta
./data/raw/17_S17_L001_R2_001_redu.fasta


Y el contenido (primeras 10 líneas) del uno de estos:

In [36]:
head ./data/raw/13_S13_L001_R1_001_redu.fasta

>M04487:61:000000000-CWK5N:1:2102:3572:19652 1:N:0:TAAGGCGA+TATCCTCT
GTGCCAGCCGCCGCGGTAAGACGAAGGGGGCAAGCGTTGTTCGGAATTACTGGGCGTAAAGCGCGTGTAGGTGGTTGTCATAGTCAGGCGTGAAAGCCTTGAGCTCAACTCAAGAAATGCGCTTGATACTGGGCAGCTAGAGGACCGGAGAGGATAGTGGAATTCCCAGTGTAGTGGTGAAATACGTAGAGATTGGGAAGAACACCAGTGGCGAAGGCGGCTATCTGGACGGTTTCTGACACTAAGAGGCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCGTAA
>M04487:61:000000000-CWK5N:1:1104:17669:17054 1:N:0:TAAGGCGA+TATCCTCT
GTGTCAGCAGCCGCGGTAATACGAAGGTGGCAAGCGTTGTTCGGATTCACTGGGCGTACAGGGAGCGTAGGCGGTTGGGTAAGCCCTCCGTGAAATCTCCGGGCCTAACCCGGAAAGTGCAGAGGGGACTGCTCGGCTAGAGGATGGGAGAGGAGCGCGGAATTCCCGGTGTAGCGGTGAAATGCGTAGAGATCGGGAGGAAGGCCGGTGGCGAAGGCGGCGCTCTGGAACATTTCTGACGCTGAGGCTCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCTTAA
>M04487:61:000000000-CWK5N:1:1110:24666:23391 1:N:0:TAAGGCGA+TATCCTCT
GTGCCAGCCGCCGCGGTAAGACGAAGGGGGCAAGCGTTGTTCGGAATTACTGGGCGTAAAGCGCGTGTAGGTGGTTGTCATAGTCAGGCGTGAAAGCCTTGAGCTCAACTCAAGAAATGCGCTTGATACTGGGCAGCTAGAGGACCGGAGAGGATAGTGGAATTCCCAGTGTAGTGGTGAAATACGT

Como siguiente ejercicio, vamos a crear unos encabezados que sean más útiles, donde vamos a incluir el nombre de la muestra y un número identificador de cada secuencia.

In [37]:
SAMPLES_FASTA=$(ls ./data/raw/*.fasta)

In [38]:
echo "$SAMPLES_FASTA"  | head 

./data/raw/13_S13_L001_R1_001_redu.fasta
./data/raw/13_S13_L001_R2_001_redu.fasta
./data/raw/14_S14_L001_R1_001_redu.fasta
./data/raw/14_S14_L001_R2_001_redu.fasta
./data/raw/15_S15_L001_R1_001_redu.fasta
./data/raw/15_S15_L001_R2_001_redu.fasta
./data/raw/16_S16_L001_R1_001_redu.fasta
./data/raw/16_S16_L001_R2_001_redu.fasta
./data/raw/17_S17_L001_R1_001_redu.fasta
./data/raw/17_S17_L001_R2_001_redu.fasta


In [39]:
for fasta in $SAMPLES_FASTA; do
 sample_name=$(echo "$fasta" | sed "s/.*\/\(.*\)_L001_R[1,2]_001_redu.fasta/\\1/")
 read=$(echo "$fasta" | sed "s/.*\_L001_\(R[1,2]\)_001_redu.fasta/\\1/")
 awk -v sample_name="$sample_name" '$0 ~ /^>/ {n++; print ">"sample_name"|"n}; 
                                    $0 !~ /^>/ {print $0}' "$fasta" > ./data/raw/"${sample_name}"_"${read}"_formatted.fasta
done

En este comando lo que estamos haciendo primeramente es crear la variable `sample_name`, donde utilizamos `sed`.  
La expresión regular que se lee de la siguiente manera: toda secuencia de caracteres hasta encontrar la barra oblicua `/` (osea, todo la ruta hasta el archivo fasta), y luego toda secuencia de caracteres hasta encontrar la cadena de caracteres `_L001_R`, luego con la expresión `[1,2]`, estamos especificando que luego de la cadena `_L001_R` puede estar tando el número 1 o el 2. Por último, simplemente especificamos cómo termina el nombre del archivo (i.e., `_001.fasta`).  
La sustitución que hacemos en este caso, es con el `\\1`, que lo que hace es devolvernos todo que lo queda entre paréntesis curvos en la expresión regular, osea en este caso, lo que realmente estamos buscando que es el nombre "limpio" de la muestra.

Seguidamente, definimos la variable `read`, que especifica si la muestra es R1 o R2. El comando de `sed` utilizado en este caso se lee de forma muy similar al anterior, la principal diferencia es que ahora en lugar del nombre "limpio" de la muestra, nos quedamos con la especificación diciendo si es R1 o R2.

Por último, corremos el comando `awk` para sustituir el encabezado de cada secuencia por el nombre de la muestra y un identificador numérico (i.e., contador de secuencias).  
Notar que al correr `awk` utilizamos el parámetro `-v` que nos permite pasarle la variable `sample_name` para ser utilizada dentro de `awk`. Luego de esto, el comando lo que hace es encontrar todas las líneas que comienzan con el carácter `>` (i.e., `$0 ~ /^>/`), osea, los encabezados de los fasta. Una vez encarnado una línea cumpliendo con este requisito, lo que sigue es incrementar la variable `n` en uno (i.e., `n++`), y luego imprimimos nuestro encabezado totalmente formateado a gusto, poniendo primero el carácter `>`, luego el nombre de la muestra, luego el separador `|` y por último el contador o identificador de secuencias que es la variable `n`.  
Una vez identificado y modificado el encabezado lo que hace el comando es imprimir todas las líneas en el archivo que no comienzan con el carácter `>` (i.e., `$0 !~ /^>/`).

Vamos a ver cómo quedaron nuestras secuencias formateadas:

In [40]:
ls ./data/raw/*formatted.fasta | head 

./data/raw/13_S13_R1_formatted.fasta
./data/raw/13_S13_R2_formatted.fasta
./data/raw/14_S14_R1_formatted.fasta
./data/raw/14_S14_R2_formatted.fasta
./data/raw/15_S15_R1_formatted.fasta
./data/raw/15_S15_R2_formatted.fasta
./data/raw/16_S16_R1_formatted.fasta
./data/raw/16_S16_R2_formatted.fasta
./data/raw/17_S17_R1_formatted.fasta
./data/raw/17_S17_R2_formatted.fasta


In [41]:
head ./data/raw/13_S13_R1_formatted.fasta

>13_S13|1
GTGCCAGCCGCCGCGGTAAGACGAAGGGGGCAAGCGTTGTTCGGAATTACTGGGCGTAAAGCGCGTGTAGGTGGTTGTCATAGTCAGGCGTGAAAGCCTTGAGCTCAACTCAAGAAATGCGCTTGATACTGGGCAGCTAGAGGACCGGAGAGGATAGTGGAATTCCCAGTGTAGTGGTGAAATACGTAGAGATTGGGAAGAACACCAGTGGCGAAGGCGGCTATCTGGACGGTTTCTGACACTAAGAGGCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCGTAA
>13_S13|2
GTGTCAGCAGCCGCGGTAATACGAAGGTGGCAAGCGTTGTTCGGATTCACTGGGCGTACAGGGAGCGTAGGCGGTTGGGTAAGCCCTCCGTGAAATCTCCGGGCCTAACCCGGAAAGTGCAGAGGGGACTGCTCGGCTAGAGGATGGGAGAGGAGCGCGGAATTCCCGGTGTAGCGGTGAAATGCGTAGAGATCGGGAGGAAGGCCGGTGGCGAAGGCGGCGCTCTGGAACATTTCTGACGCTGAGGCTCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCTTAA
>13_S13|3
GTGCCAGCCGCCGCGGTAAGACGAAGGGGGCAAGCGTTGTTCGGAATTACTGGGCGTAAAGCGCGTGTAGGTGGTTGTCATAGTCAGGCGTGAAAGCCTTGAGCTCAACTCAAGAAATGCGCTTGATACTGGGCAGCTAGAGGACCGGAGAGGATAGTGGAATTCCCAGTGTAGTGGTGAAATACGTAGAGATTGGGAAGAACACCAGTGGCGAAGGCGGCTATCTGGACGGTTTCTGACACTAAGACGCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCGTAA
>13_S13|4
GTGTCAGCAGCCGCGGTAATACGGAGGATCCAAGCGTTATCCGGAATCATTGGG

Notar que ahora que las secuencias están en formato fasta, es muy fácil contar el número de secuencias por muestras. ¿Te das cuenta cómo podemos hacer esto con el comando `egrep`?

Como último ejercicio, vamos a eliminar todas las secuencias que tengan más de tres Ns seguidas (i.e., nucleótidos que no han sido determinados en la secuenciación), para lo que vamos a utilizar el comando `awk`.

In [42]:
SAMPLES_FASTA=$(ls ./data/raw/*_formatted.fasta)

In [30]:
ls ./data/raw/*_formatted.fasta  | head 

./data/raw/13_S13_R1_formatted.fasta
./data/raw/13_S13_R2_formatted.fasta
./data/raw/14_S14_R1_formatted.fasta
./data/raw/14_S14_R2_formatted.fasta
./data/raw/15_S15_R1_formatted.fasta
./data/raw/15_S15_R2_formatted.fasta
./data/raw/16_S16_R1_formatted.fasta
./data/raw/16_S16_R2_formatted.fasta
./data/raw/17_S17_R1_formatted.fasta
./data/raw/17_S17_R2_formatted.fasta


In [43]:
for fasta in $SAMPLES_FASTA; do
  sample_name=$(echo "$fasta" | sed "s/.*\/\(.*\)_R[1,2]_formatted.fasta/\\1/")
  read=$(echo "$fasta" | sed "s/.*\(R[1,2]\)_formatted.fasta/\\1/")
  awk ' $0 ~ />/ {header=$0}; 
        $0 !~ />/ && $0 !~ /NNN/ {printf "%s\n%s\n", header, $0}' $fasta > ./data/raw/"${sample_name}"_"${read}"_formatted_filt.fasta
done  

---
### Fin de sección <img src="../figures/uphill.png" width="50" height="50" />
---