# 7. Programación en Bash: Introducción

<img src="./img/bash.png" class="center" width="300"/>

Hemos aprendido ya a usar la `shell de Bash`, al usar concomandos para procesamiento de ficheros, visualizar documentos y navegar entre carpetas. Ahora vamos a ver cómo Bash es un `lenguaje de programación`. Antes, algunas definiciones.

<dl>
  <dt><strong>Lenguaje de programación</strong></dt>
  <dd>Es un lenguaje formal compuesto de comandos, instrucciones y sintáxis para crear varios tipos de lógica a través de un computador. Se utilizan con frecuencia para implementar algoritmos. 
  </dd>
  <dt><strong>Algoritmo</strong></dt>
  <dd>Secuencia finita de instrucciones bien definidas, computables, diseñada para resolver problemas lógicos y hacer computación. Se estudian formalmente en matemáticas y en ciencias de la computación. Se usan frecuentemente para procesar datos, hacer cálculos o automatizar procesos.</dd>
  <dt><strong>Lenguajes de bajo nivel</strong></dt>
  <dd>Lenguajes de programación con sintáxis diseñada para la interpretación de la computadora. Son dependientes de la computadora y necesitan un ensamblador para traducir el código a lenguaje de máquina y así las computadoras entiendan qué deben hacer.</dd>
  <dt><strong>Lenguajes de alto nivel</strong></dt>
  <dd>Lenguajes de programación con sintáxis diseñada para la interpretación del programador. Se parece mucho al lenguaje utilizado por los humanos para comunicarnos. Es fácil de entender. Necesita de compiladores o intérpretes para traducirlo a lenguaje de máquina y así las computadoras entiendan qué deben hacer.</dd>
  <dt><strong>Shell</strong></dt>
  <dd>Programa que expone los servicios de un sistema operativo al usuario o a otro programa. Pueden usar una interfaz de usuario por línea de comandos o gráfica. Existen varias shell para los sistemas operativos UNIX, como Bash, Zsh, Ksh, Ash, entre otras. </dd>
  <dt><strong>Bash</strong></dt>
  <dd>Es una shell de UNIX y también un lenguaje de comandos, creada por Brian Fox para el Proyecto GNU. Así, cuando abrimos la terminal o consola, podemos interactuar con Bash por su propio lenguaje de programación de alto nivel. Es un lenguaje interpretado y se utiliza para el control de las tareas que lleva a cabo un sistema de computación. </dd>
</dl>


## Editores de texto

Nosotros podemos programar algoritmos en Bash y `correrlos desde la terminal`. Para escribirlos debemos usar algún editor de texto. Hay varias opciones. Un editor que ya tenemos en nuestro computador es GNU Nano (https://www.nano-editor.org).

<img src="./img/nano.png" class="center" width="500"/>

Podemos llamarlo desde la terminal con el comando `nano`. Hay otros editores independientes al Proyecto GNU que también pueden utilizarse, como Atom (https://atom.io) o Visual Studio Code (https://code.visualstudio.com). Atom tiene una muy bonita interfaz gráfica. VSCode es bastante rápido y muy popular. Sin embargo, les recomendamos usar `Jupyter Lab`, porque es un editor de texto y entorno de desarrollo completo, que posee acceso a la terminal y nos evita tener que cambiar de ventana cada vez que querramos correr un script. Además, Jupyter Lab permite documentar todo lo que ocurre en los programas mediante lenguaje `Markdown` (https://www.markdownguide.org/basic-syntax).

<img src="./img/jl.png" class="center" width="150"/>

## Shell script .sh

Los `scripts` son archivos de texto que contienen instrucciones que pueden ser ejecutadas por un intérprete de un lenguaje de programación para el control de tareas de un sistema. Hoy en día se utiliza el término script de manera intercambiable para referirse a archivos de texto de lenguajes de alto nivel interpretados, como Python, Perl y otros. El formato `.sh` se utiliza para escribir `scripts ejecutables` en una `UNIX Shell`, como Bash.

## Primer programa: álgebra

1. *expresión de Bash*: String de código en Bash que produce un resultado al correr.
2. **expr**: Comando para evaluar una expresión de Bash.
3. *operador*: Caracteres que realizan una operación con 1 o más variables. 
4. `+`: Operador de suma entre dos números. 
5. `/`: Operador de división entera entre dos números. Devuelve el entero más cercano al resutado real. 
6. `-`: Operador de resta entre dos números.
7. `\*`: Operador de producto entre dos números. Hay que escapar el caracter `*` *antes de usarlo en la shell* como operador de producto o Bash creerá que será usado como expresión regular. Si se usa en *bc* no hay problema.
8. `%`: Operador residuo entre dos números. Retorna el residuo de una división larga entre números.
9. **bc**: Pograma *bench calculator*. Toma strings de operaciones algebraicas y da el resultado.

Vamos a crear en nuestra carpeta de trabajo una subcarpeta que se llame **Code**. En esa carpeta, cremos un archivo de formato `.sh` llamado **math**, usando el comando `touch`. Podemos visualizar con **nano**, pero también con **Jupyter Lab**, **Atom** o **VSCode**. 

In [None]:
mkdir Code
touch ./Code/math.sh # luego colocamos el codigo en el file

En el archivo `math.sh` colocamos el contenido que se encuentra debajo. Lo guardamos y lo corremos desde la terminal. Lo que se encuentra en comentario, después del símbolo `#` indica donde se encuentra Bash en nuestro sistema y el nombre del archivo. Es bueno incluir comentarios para documentar el archivo.

```bash
#!/usr/bin/env bash
# File: math.sh

expr 4 + 3
expr 4 - 3
expr 4 \* 3
expr 4 / 3
```

Para hacer eso llamamos directamente al interprete de `bash`. Este comando se lo puede correr desde este mismo Jupyter Notebook, o abrimos una pestaña de Terminal en Jupyter Lab o con la Terminal propia de Linux. 

In [None]:
bash ./Code/math.sh

Vemos cómo claramente la expresión `4 / 3` devuelve el valor 1, cuando sabemos que equivale a un fraccionario irracional `1.333333 ...`. Esto ocurre porque la división entera aproxima tal que 
$$\frac{4}{3} \sim 1$$

A veces retornará resultados extraños, pero ahora ya sabemos que solo está aproximando. Solamente cuando la división es perfecta, retorna el número entero resultante:

In [None]:
expr 1 / 10
expr 10 / 4
expr 10 / 5

Si usamos el operador de residuo `%` vemos cuanto nos queda de remanente al dividir una fracción irracional:

<img src="./img/remainder.png" class="center" width="200"/>

In [None]:
expr 487 % 32
expr 1 % 10
expr 10 % 4
expr 10 % 5

Esto es un poco restrictivo ya que habrá ocasiones donde necesitemos utilizar todos los decimales posibles de una división. Para esto podemos exportar un string con una operación algebraica al programa bench calculator `bc` con un pipe. Creemos un archivo `.sh` con el siguiente contenido:

```bash
#!/usr/bin/env bash
# File: bigmath.sh

echo "487 % 32" | bc -l
# aproximación de pi
echo "scale=7; 355 / 113" | bc -l
echo "4 ^ 2" | bc -l
echo "scale=2; sqrt(4)" | bc -l
echo "scale=3; (1.23 / 0.32) + (5 * 2)" | bc -l
```

In [None]:
touch ./Code/bigmath.sh # luego colocamos el codigo en el file

In [None]:
bash ./Code/bigmath.sh

Es posible notar que hay como darle presición a los números de output después de usar `bc` con el comando `scale` en el string después de `echo`.

## Segundo programa: Variables

1. `=`: Operador de asignación
2. `$`: Caracter especial que revela contenido de una variable.
3. **let**: Comando que permite actualizar una variable con una operación algebraica.
4. `$()`: Operador para *sustitución de comando*. Corre un comando y guarda el resultado en una variable.
5. `$@`: Variable nativa que imprime el número de argumentos dados a un script.
6. `$1`: Variable nativa que guarda el primer argumento pasado al script.
7. `$2`: Variable nativa que guarda el segundo argumento pasado al script.
8. `$#`: Variable nativa que guarda el número de argumentos pasados al scritp.

Es importante lograr guardar datos en la memoria del computador. Para ello usamos `variables`. Hay cuatro reglas que seguir:
- El nombre de la variable debe estar en minúsculas
- La variable empieza con una letra, no un número
- Solo debe contener caracteres alfanuméricos y  `_` guiones bajos.
- Es útil separar las palabras por `_` guiones bajos.
- Los valores que se asignen a las variables y los nombres de las variables siempre deben estar pegados al operador `=` se asignación.

Creemos una variable para guardar el número de sesión del grupo de estudio del RSG Ecuador. 

In [1]:
# Así no: rsg_sesion = 7
rsg_sesion=7

Ahora imprimamos el contenido de la variable! Usamos el operador `$`

In [2]:
echo $rsg_sesion

7


Podemos modificar la variable utilizando el operador de asignación. ¡Hay que tener cuidado! Es posible que actualicemos el valor de la variable inicial y ya no tenga el mismo valor que antes. 

In [7]:
rsg_sesion="que esta pasando :O"
echo $rsg_sesion
rsg_sesion="mejor corregimos"
echo $rsg_sesion
rsg_sesion=7
echo $rsg_sesion
echo "mejor :)"

que esta pasando :O
mejor corregimos
7
mejor :)


Si usamos expresiones algebraicas al momento de actualizar una variable podemos usar el comando `let`.

In [11]:
a=1
b=41
c=0
let c=$a+$b
echo $c

42


Además podemos imprimir variables en un string si usamos el operador `$` antes de la variable que queremos imprimir.

In [12]:
echo "El misterioso número $c"

El misterioso número 42


Ahora podemos usar el comando `$()` y guardar el resultado en una variable. Por ejemplo, vamos a guardar el número de líneas con código en el archivo `math.sh`

In [10]:
math_lines=$(cat ./Code/math.sh | wc -l)
echo $math_lines

6


Hay variables especiales de Bash que podemos usar para **pasar argumentos al script cuando lo corremos**. Primero creemos un archivo `.sh` llamado `vars` con el siguiente contenido:

```bash
#!/usr/bin/env bash
# File: vars.sh

echo "Argumentos del script: $@"
echo "Primer argumento: $1. Segundo argumento: $2."
echo "Numero de argumentos: $#"
```

In [13]:
touch ./Code/vars.sh

Ahora corramos cada uno de estos comandos en la terminal y veamos su output.

In [15]:
bash ./Code/vars.sh

Argumentos del script: 
Primer argumento: . Segundo argumento: .
Numero de argumentos: 0


In [16]:
bash ./Code/vars.sh red

Argumentos del script: red
Primer argumento: red. Segundo argumento: .
Numero de argumentos: 1


In [17]:
bash ./Code/vars.sh red blue

Argumentos del script: red blue
Primer argumento: red. Segundo argumento: blue.
Numero de argumentos: 2


¿Y qué pasa si ingresamos más argumentos de los que teníamos planeados?

In [18]:
bash ./Code/vars.sh red blue green

Argumentos del script: red blue green
Primer argumento: red. Segundo argumento: blue.
Numero de argumentos: 3


## Tercer programa: Usuarios ingresan datos
1. **read**: Comando para guardar un input del usuario desde el teclado.

Es posible hacer un script de Bash que interactúe con un usuario y le permita ingresar un string desde el teclado. La meta es que el script haga algo con esa variable. Para ello usamos el comando `read` antes del nombre de una variable nueva que vamos a usar. Por ejemplo, creemos un archivo `.sh` llamado `input` y coloquemos el siguiente código:

```bash
#!/usr/bin/env bash
# File: input.sh

echo "Type in a string and then press Enter:"
read response
echo "You entered: $response"
```

In [19]:
touch ./Code/input.sh

Este tipo de interacción **necesariamente debe ocurrir desde la Terminal**, no desde un Jupyter Notebook. Jupyter lab tiene una pestaña para Terminal que podemos usar. También podemos usar la Terminal nativa de Linux. 

In [20]:
# Correr esto en la terminal
# bash ./Code/input.sh

Type in a string and then press Enter:



## ¿Qué tiene que ver todo esto con bioinformática?

Todo. ¡Podemos automatizar procesamiento de datos en bash utilizando todo lo que hemos aprendido antes! Veamos un ejemplo de cómo podemos colocar varios comandos de uno de los ejercicios del **deber de la semana 3**, todo en un archivo `.sh`. Luego lo correremos en la Terminal para ver cómo sería. Todo este procesamiento lo guardaremos en un script llamado `demo.sh`. Este script hará el siguiente procesamiento:
1. Tomará como input el nombre del archivo de secuencias fastq para analizar.
2. Buscará dentro del archivo provisto por el usuario las secuencias con el string @SRR098026 y las contará.
3. Exportará las malas secuencias a un archivo llamado `malas_lecturas.fastq`, usando el string "NNNNNNNNNN" como plantilla. 
4. Reportará el número de malas secuencias.
5. Luego buscaremos patrones en el archivo `buenas_lecturas.fastq`, si es que el usuario lo desea.

In [22]:
touch ./demo/demo.sh

El contenido de nuestro archivo es el siguiente:

```bash
# Input de archivo
echo "Archivo a procesar > $@"
echo "Numero de argumentos: $#"

# Conteo de secuencias, separación de malas secuencias
numero_secuencias=$(grep -c '^@SRR098026' $@)
grep -B1 -A2 NNNNNNNNNN $@ > malas_lecturas.fastq
malas=$(cat malas_lecturas.fastq | wc -l)
echo "Número de malas lecturas: $malas"

# Búsqueda de patrones
echo "Desea buscar patrones (y/n): "
read d

if [[ $d == "y" ]]; then
    echo "Los patrones se guardarán en: patrones.txt"
    echo -e 'ACTG\nCCCCC\nNNNCNNN\nNNNGNNN\nTTTT\nTATA\nAAA' > patrones.txt
    grep -f patrones.txt $@ > busqueda.txt
    echo "Búsqueda de patrones guardada en: busqueda.txt"
else
    echo "ok :P"
fi

# Mensaje final
echo "Fin :)"
```

## Ejercicio
Tomar un deber antiguo y hacer un script que corra varios pasos al mismo tiempo.

# Deber

Ya les subiremos hasta mañana en la tarde el deber. 