# PSI-BLAST

En la práctica de hoy los objetivos son:

- Realizar una búsqueda con PSI-BLAST.
- Demostrar la utilidad de PSI-BLAST.
- Apreciar algunas ventajas de hacerlo desde R.

Como punto de partida vamos a usar la secuencia de protoclorofílida reductasa dependiente de luz de *Arabidopsis thaliana* (con número de identificador [AEE27591](https://www.ncbi.nlm.nih.gov/protein/AEE27591.1) en GenBank). La secuencia de esta proteína está ya descargada en el archivo `LPOR_Ath.fas`.

En el número de *Molecular Biology and Evolution* de este mes aparece un análisis sobre las protoclorofílida reductasas (Chernomor *et al.* 2020). Estos enzimas son necesarios para la síntesis de clorofila y existen dos tipos principales: los dependientes de luz (LPOR) y los operativos en oscuridad (DPOR).

Hasta hace unos años se pensaba que las bacterias fototróficas anoxigénicas (que realizan la fotosíntesis con un donador de electrones diferente al agua, y que por tanto no producen oxígeno) sólo tenían DPORs y no LPORs. Los DPORs son enzimas evolutivamente más antiguos y que no funcionan en presencia de oxígeno. Sin embargo existen bacterias fototróficas anoxigénicas que són *aerobias*: pueden crecer en presencia de oxígeno atmosférico. Y se descubrió que alguna de estas bacterias tenía un gen de una LPOR.

En el artículo de Chernomor *et al.* (2020) se demuestra que de hecho las LPOR son más frecuentes entre las bacterias aerobias fototróficas anoxigénicas de lo que se pensaba antes. Este descubrimiento tiene mucho sentido, puesto que sin LPORs estas bacterias difícilmente podrían sintetizar clorofila en presencia de oxígeno.

A continuación comprobaremos si somos capaces de detectar homología entre la LPOR de *A. thaliana* y alguna proteína de bacterias aerobias fototróficas anoxigénicas. En las búsquedas con `blastp` y `psiblast` vamos a usar la base de datos de proteinas swissprot, porque es más pequeña que la RefSeq, y he podido incluirla en esta instancia de MyBinder.

### Ejercicio 1
Utiliza el bloque de código siguiente, con las modificaciones que consideres necesarias, para comprobar mediante un `blastp` si podemos encontrar homología con la LPOR de *A. thaliana* en alguna de las proteínas de Swissprot pertenecientes a las especies seleccionadas.

In [None]:
blastp.out <- system2(command = 'blastp',
                      args = c('-db', 'swissprot',
                               '-query', 'LPOR/LPOR_Ath.fas',
                               '-evalue', '0.001',
                               '-html',
                               '-out', 'blast.out.html'),
                      wait = TRUE,
                      stdout = TRUE)

## Limitar la búsqueda por taxonomía
Los programas BLAST de NCBI ofrecen la posibilidad de limitar la búsqueda a los taxones de interés. En principio, la opción `-taxids` seguida de un identificador taxonómico de NCBI (e.g., 9606 para la especie humana), o bien la opción `-taxidlist` seguida del nombre del archivo con una lista de taxones limitaría los resultados del BLAST a las especies o grupos indicados. Desafortunadamente esta opción no está disponible en el entorno actual de MyBinder.

Podemos repetir la búsqueda manualmente en la página de [BLAST](https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome) del NCBI, limitándola esta vez a las especies de bacterias que Chernomor *et al.* (2020) identificaron como aeróbicas anoxigénicas y fototróficas. Encontrarás sus identificadores en el archivo `AAPB.txt`.


## PSI-BLAST en NCBI

### Ejercicio 2
Todavía en la página del NCBI, ejecuta una búsqueda de PSI-BLAST con la misma *query*, familiarízate con los parámetres y tipos de resultados y toma nota de los parámetros que han funcionado mejor.


## PSI-BLAST en R

Revisa las opciones de PSI-BLAST en la línea de comandos (`psiblast -help`).

### Ejercicio 3
A partir del ejemplo siguiente, ejecuta una búsqueda de PSI-BLAST en swissprot. Ajusta los parámetros para reproducir la búsqueda hecha anteriormente.

In [None]:
system2(command = 'psiblast',
        args = c('-db', 'swissprot',
                 '-query', 'LPOR_Ath.fas',
                 '-out', 'psi.html',
                 '-evalue', '0.001',
                 '-inclusion_ethresh', '0.001',
                 '-num_iterations', '0'))

## Extracción de secuencias completas
Para realizar un alineamiento con las secuencias encontradas en un BLAST, lo más cómodo es descargarlas de la base de datos utilizando sus identificadores. El comando para esta tarea es `blastdbcmd`. Explora sus opciones en la línea de comandos (`blastdbcmd -help`). Sin embargo, antes de usar esta herramienta, es necesario conocer los identificadores de las secuencias que quieres descargar.

### Ejercicio 4
¿Sabrías descargar una tabla en R con los identificadores de las secuencias encontradas? Recuerda que para este tipo de tareas es mejor dirigir la salida del BLAST a un formato de table (`outfmt 7`) y leerlo con `read.table(textConnection(blast_output))`.



In [None]:
psi_out <- system2(command = 'psiblast',
                   args = c('-db', 'swissprot',
                            '-query', 'LPOR_Ath.fas',
                            '-outfmt', '"7 '))

## Referencias

- Olga Chernomor, Lena Peters, Judith Schneidewind, Anita Loeschcke, Esther Knieps-Grünhagen, Fabian Schmitz, Eric von Lieres, Roger Jan Kutta, Vera Svensson, Karl-Erich Jaeger, Thomas Drepper, Arndt von Haeseler, Ulrich Krauss, Complex Evolution of Light-Dependent Protochlorophyllide Oxidoreductases in Aerobic Anoxygenic Phototrophs: Origin, Phylogeny, and Function, Molecular Biology and Evolution, Volume 38, Issue 3, March 2021, Pages 819–837, [https://doi.org/10.1093/molbev/msaa234](https://doi.org/10.1093/molbev/msaa234)

