# **Tema: Wildcards, pipes (|), make**

## **1. Wildcards** 

Un "Wildcard" es un símbolo que se utiliza para reemplazar o representar uno o más caracteres. Se utilizan en programas informáticos, motores de búsqueda y sistemas operativos para simplificar los criterios de búsqueda. El wildcard que usaremos será **" * "**, que representa cero o más instancias de cualquier caracter. 

Primero, observemos qué archivos tenemos en nuestro ambiente de trabajo actual

In [None]:
ls

### **Ejemplo 1: Enlistar archivos que finalicen con "docx"**
En mi directorio actual hay varios archivos con extensión png, docx, jpeg y pdf

Ahora, se listarán aquellos archivos que tengan la extensión .docx y esto lo realizaremos con el wildcard *

In [None]:
ls *docx

### **Ejemplo 2: Enlistar archivos que inicien con "FO-GVI-04-V.2.0"**

A continuación, se listarán los archivos que inicien con "FO-GVI-04-V.2.0" y nuevamente lo realizaremos con el wildcard *

In [None]:
ls FO-GVI-04-V.2.0*

### **Ejemplo 3: Mover archivos .png**

A continuación crearemos una carpeta que solo contengan archivos png. Esto resultaría tedioso haciendolo uno por uno, sin embargo, lo realizaremos usando el wildcard *

In [None]:
mkdir imagenes_png_

In [None]:
mv *png imagenes_png_/

En nuestro ambiente de trabajo actual corroboraremos que esto fue así, por lo tanto, al enlistar no debemos observar nigún archivo con extensión "png"

O también podemos corroborar ingresando a la carpeta donde se movió las imagenes y de esa manera enlistar y observar que archivos contiene

In [None]:
ls

## **2. Pipes (|)**

Nos permite tomar la salida de un comando, que normalmente se imprimiría a la consola, y utilizarlo como entrada para otro comando. Esto se lo considera como una forma de redirección. 

Primero, realizaremos algunos ejemplos con archivos de los estados de USA y una lista de nombres de estudiantes.


### **Ejemplo 1: Contar el número de líneas que tiene la salida de un comando o un fichero.**
Por ejemplo, (1) ver las líneas que tiene el fichero usa_states.txt (recuerda restar 1, porque la primera línea es la cabecera) o (2) ver los archivos que tenemos en nuestro actual directorio de trabajo.

In [None]:
cat usa_states.txt | wc -l

In [None]:
ls | wc -l

### **Ejemplo 2 : Localizar una línea o palabra concreta**
(1) ¿Cuantos estados en el archivo usa_states.txt tienen New?
(2) Imprimir aquellos estados que empiezen con New en el archivo usa_states.txt

In [None]:
cat usa_states.txt | grep "New" | wc -l

In [None]:
cat usa_states.txt | grep "New"

In [None]:
cat usa_states.txt | grep "New" | wc

(3) Mediante expresiones regulares buscar los estados que finalizan en vocal

-E hace uso de expresiones regulares extendidas grep -E ‘^XXX|YYY|zzz$’ FILE; correr el siguiente comando en la terminal

grep -E "[aeiou]$" states.txt | wc -l

### **Ejemplo 3: Ordenar las líneas de un fichero por orden alfabético**

In [None]:
cat nombre_estudiantes.txt

In [None]:
cat nombre_estudiantes.txt | sort 

Ahora vamos a realizar algunos ejemplos de Bioinformática:

### **Ejemplo 4: El archivo `3c5x.pdb` de la carpeta `archivos` contiene la información estrucutal de la proteína prM del virus del Dengue (PDB ID: 3c5x). Se conoce que la final de cada línea de las coordenadas de estos archivos está la letra del átomo correspondiente. Usando los comandos aprendidos conectados por pipes queremos extraer la información de la cadena A (578-3627), buscar los átomos de N en la cadena A, y exportar esta ifnromación a un archivo llamado `3c5x_cadA_N.txt`.**

In [2]:
sed -n '578,3627p' archivos/3c5x.pdb | grep "N$" >  archivos/3c5x_cadA_N.txt

## **3. Make**

El comando `make` es un programa que crea relaciones entre archivos y programas de forma que los archivos que deende de otros se pueden reconstruir de forma automática. Esto se usa mucho en la instalación de programas. Para instalar un nuevo software usando make se deben seguir los siguientes pasos: 
1. Descargar todos los archivos que se requieren para la instalación
2. Ir al directorio de trabajo (cd)
3. Correr el comando make

Para correr el comand `make` se requiere un archivo llamado `makefile`, que describe las relaciones entre diferentes archivos y programas mediante un conjunto de reglas. 

Las reglas del archivo `makefile` se forman de:
1. Archivos objetivo 
2. Comandos de bash que se realizarán en los archivos objetivo
3. Dependencias: archivos de los que el objetivo depende para ser construido.

### **Ejemplo 1: Construir un `makefile` que crea un archivo readme.txt que se llena automáticamente con información de un archivo del directorio actual.**

Para esto, primero debemos movernos al directorio `archivos` con cd y crear un `makefile` usando `nano`

In [3]:
ls

[0m[01;34marchivos[0m  README.md                         Sesión4_Wildcard_pipes_make.ipynb
[01;34mimg[0m       Sesión4_Wildcard_pipes_make.html


In [4]:
cd archivos 

In [12]:
echo "This is the first line of toc.txt" > toc.txt

3c5x_cadA_N.txt  3c5x.pdb  draft_journal_entry.txt  makefile  toc.txt


In [4]:
nano makefile

Luego, se deben añadir las reglas que se desean realizar:

![makefile](img/makefile.png)

In [5]:
make

touch draft_journal_entry.txt
echo "This journal contains the following numberr of entries:" > readme.txt
wc -l toc.txt | egrep -o "[0-9]+" >> readme.txt


In [6]:
ls

3c5x_cadA_N.txt          makefile                toc.txt
3c5x.pdb                 nombre_estudiantes.txt  usa_states.txt
draft_journal_entry.txt  readme.txt


In [8]:
cat toc.txt

This is the first line of toc.txt


In [7]:
cat readme.txt

This journal contains the following numberr of entries:
1


In [9]:
make clean

rm draft_journal_entry.txt
rm readme.txt


In [10]:
ls

3c5x_cadA_N.txt  makefile                toc.txt
3c5x.pdb         nombre_estudiantes.txt  usa_states.txt


## **Deber** 

El deber de esta sesión consiste en usar los comandos estudiados en sesiones anteriores y la actual. 
(1) Crear un archivo (con extensión .tsv) que contenga la información que está en la celda a continuación, (2) del archivo creado, usted debe buscar e imprimir a la vez aquellos que sean enviados ("submitter") por la UNAM y la Universidad de Valencia y que la respuesta esté en orden alfabetico.

Ayuda: Para imprimir a la vez usted puede usar expresiones regulares. 

Respuesta: 

GCF_000284595.1  Stenotrophomonas maltophilia D457   2012/04/11  ASM28459v1  University of Valencia

GCF_003086675.1  Stenotrophomonas sp. ZAC14D2_NAIMI4_7   2018/05/03  ASM308667v1 CCG-UNAM

GCF_003086855.1  Stenotrophomonas sp. YAU14A_MKIMI4_1    2018/05/03  ASM308685v1 CCG-UNAM


In [None]:
cat mini_tabla.tsv

## Referencias 

Kross, S. (2017). The unix workbench. Leanpub. https://leanpub.com/unix