# Basic Local Alignment Search Tool (BLAST)

El NCBI pone a disposición pública los programas de la familia BLAST para uso local, desde la línea de comandos. El paquete se llama `blast+` y puede encontrarse en la página del [NCBI](https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download), junto con instrucciones.

Existen algunos paquetes en R que también implementan los programas BLAST, o más bien ofrecen interfaces para ejecutar `blast+` desde R.

Para poder buscar una o varias secuencias en una base de datos mediante BLAST, necesitamos acceso a la base de datos. Los ejecutables del paquete `blast+` ofrecen la posibilidad de conectarse a las bases de datos remotas. Sin embargo esta opción está limitada cuando la búsqueda es muy intensa y requiere una buena conexión a internet.

En esta práctica empezaremos por crear nuestra propia base de datos para ejecutar blast de manera local.

## Instalación de `blast+`

Para instalar `blast+` seguiremos el mismo método de la práctica 4, cuando tuvimos que instalar `hmmer3` desde la línea de comandos. El procedimiento es el siguiente:

1. Desde la interfaz de Jupyter Lab, abrimos una consola de terminal.
2. Tecleamos el comando siguiente y confirmamos la instalación cuando nos pregunte:

   `conda install -c bioconda blast`


## Construcción de una base de datos local

Todas las bases de datos de BLAST disponibles en NCBI pueden ser descargadas e instaladas localmente mediante el programa `update_blastdb.pl` de `blast+`. Sin embargo, la transferencia de ficheros grandes está limitada en el entorno de MyBinder.

Crearemos dos bases de datos relativamente pequeñas con los datos disponibles en la carpeta de trabajo. La base de datos de RNA ribosomal de 16S de bacterias ha sido descargada previamente del [repositorio oficial de bases de datos para BLAST del NCBI](https://ftp.ncbi.nlm.nih.gov/blast/db/). Esta base de datos ya está *construída*. Es decir, contiene los índices y archivos binarios para que las búsquedas sean eficientes. Sólo hace falta descomprimirla. Esto se hace desde la terminal, con el comando siguiente:

   `tar -xzvf 16S_ribosomal_RNA.tar.gz`
 
 Además, disponemos de un archivo fasta con todas las secuencias proteicas de aves presentes en la base de datos UniParc, de UniProt. Para poder ejectuar un BLAST contra esta base de datos es necesario indexarla. Para ello, usamos el comando `makeblastdb` de `blast+`, en la línea de comandos de la terminal:
 
```
makeblastdb -in birds.fas -title birds -out birds -dbtype prot
``` 

## BLAST en R

R cuenta con dos funciones que nos permiten ejecutar programas del sistema: `system()` y `system2()`. Las diferencias entre estas funciones son pocas, y para mayor comodidad usaremos `system2()`. En el ejemplo siguiente, buscaremos a qué especie pertenece la secuencia contenida en el archivo `16S_unknown.fasta` mediante un BLAST contra la base de datos de rRNA de 16S.



In [7]:
# Comprueba la localización del ejecutable blastn en tu ordenador
# mediante el comando "which blastn"

blastn   <- '/srv/conda/envs/notebook/bin/blastn'
database <- '16S_ribosomal_RNA'
input    <- '16S_unknown.fasta'
evalue   <- 1e-6
format   <- 6

system2(command = blastn, 
        args = c("-db", database, 
                 "-query", input, 
                 "-outfmt", format, 
                 "-evalue", evalue, 
                 "-ungapped"),
        wait = TRUE,
        stdout = TRUE)

### Ejercicio 1
¿Qué ha pasado con el comando anterior?

In [None]:
blast_out <- system2(command = blastn, 
                 args = c("-db", database, 
                          "-query", input, 
                          "-outfmt", format, 
                          "-evalue", evalue,
                          "-ungapped"),
                 wait = TRUE,
                 stdout = TRUE)
blast_out

In [None]:
blast_out_table <- read.table(textConnection(blast_out))
blast_out_table

### Ejercicio 2
Realiza tú la búsqueda de las secuencias desconocidas del archivo `protein_unknown.fasta` en la base de datos de proteínas de pájaros, `birds`.