## Instrucciones

Ejecuta los comandos y responde a las preguntas en este mismo documento. Pero **¡atención!** debes descargarlo (en formato `.ipynb`) para poder entregarlo a través del aula virtual. Es recomendable descargar de cuando en cuando versiones parciales, para evitar la pérdida eventual de todo el trabajo si la sesión se desconecta.

## Problema 1
A continuación hay cuatro bloques de código. Deberían funcionar sin necesidad de corregir nada. Cada uno realiza una búsqueda diferente en la [*European Nucleotide Archive* (ENA)](https://www.ebi.ac.uk/ena/browser/home). Pero todos envían el resultado al mismo archivo de salida. Usa el espacio reservado en cada bloque para explicar qué hace el código y cambia los nombres de los archivos que guardan los resultados para que sean específicos de cada búsqueda, descriptivos y simples.

In [None]:
# COMENTARIO:
#
#
#

library('curl')
portal   <- 'https://www.ebi.ac.uk/ena/portal/api/'
endpoint <- 'search?'
result   <- 'result=assembly'
query    <- paste0('&query=', URLencode('tax_tree(37945) AND genome_representation="full"', reserved = TRUE))
fields   <- '&fields=accession,tax_id,last_updated'
limit    <- '&limit=0'
URL <- paste0(portal, endpoint, result, query, fields, limit)
URL
curl_download(URL, destfile = 'resultado.txt')

In [None]:
# COMENTARIO:
#
#
#

library('curl')
URL <- 'https://www.ebi.ac.uk/ena/portal/api/returnFields?result=coding'
curl_download(URL, destfile = 'resultado.txt')

In [None]:
# COMENTARIO:
#
#
#

library('curl')
portal   <- 'https://www.ebi.ac.uk/ena/portal/api/'
endpoint <- 'search?'
result   <- 'result=coding'
query    <- paste0('&query=', URLencode('product="FOXP3"', reserved = TRUE))
fields   <- '&fields=accession,codon_start,tax_id,scientific_name,base_count,description'
limit    <- '&limit=0'
URL <- paste0(portal, endpoint, result, query, fields, limit)
URL
curl_download(URL, destfile = 'resultado.txt')
# Puede tardar un par de minutos...

In [None]:
# COMENTARIO:
#
#
#

library('curl')
portal   <- 'https://www.ebi.ac.uk/ena/browser/api/'
endpoint <- 'fasta/'
query    <- 'AAQ82647,ABN79272,ABQ15210,ACQ44666,ACT80310,ADL27444,AGT50479,AIC51352,AKI71963,AKI71964,AKI71965,AKI71966,AKI72596,AUR44914,OWJ99387,RLQ59976'
URL <- paste0(portal, endpoint, query)
curl_download(URL, destfile = 'resultado.txt')

## Problema 2

El objetivo del bloque siguiente es obtener un buen alineamiento de las secuencias codificantes y ortólogas presentes en el archivo `data/coding.fasta`. Para cada orden o comando tienes varias alternativas. En cada paso, escoge una de las opciones. Añade el símbolo "#" al principio de cada línea que según tu criterio no se debería ejecutar. Puedes añadir comentarios para explicar por qué eliges los comandos que eliges.

In [None]:
# Comando 1. Escoge una opción:
library('AssessORF')
library('DECIPHER')

# Comando 2. Esoge una opción:
Seqs <- readDNAStringSet('data/coding.fasta')
Seqs <- readAAStringSet('data/coding.fasta')

# Comando 3. Escoge una opción:
Seqs <- OrientNucleotides(Seqs)
Seqs <- reverseComplement(Seqs)

# Comando 4. Escoge una opción:
Alineamiento <- AlignSeqs(Seqs)
Alineamiento <- AlignTranslation(Seqs, type = 'AAStringSet')
Alineamiento <- AlignTranslation(Seqs, type = 'DNAStringSet')

# Comando 5. Escoge una opción:
writeXStringSet(Alineamiento, 'alineamiento.fasta', format = 'fasta')
writeXStringSet(Alineamiento, 'alineamiento.fastq', format = 'fastq')

## Problema 3

A partir de un alineamiento de ortólogos de la proteína FOXP3 humana (disponible en `data/prots.sto`) se generó un HMM. Este modelo se usó como query para buscar proteínas homólogas adicionales en el proteoma de la esponja *Amphimedon queenslandica*, usando el programa `hmmsearch`. El resultado de esta búsqueda está guardado en los archivos `Amphimedon_queenslandica.domtblout`, `Amphimedon_queenslandica.tblout` y `Amphimedon_queenslandica.out`.
Explora estos archivos y contesta las preguntas siguientes.

In [None]:
library('rhmmer')
domainHits <- read_domtblout('Amphimedon_queenslandica.domtblout')

# Elimino algunas columnas de la visualización, para simplificar:
domainHits[,-c(2,5,9,15,22,23)]

In [None]:
targetHits <- read_tblout('Amphimedon_queenslandica.tblout')
targetHits[, -c(2,4,7,10,19)]

### 3.1 ¿En cuántas proteínas del proteoma de la esponja se ha encontrado homología a las FOXP3 de vertebrados?

### 3.2 En la proteína con mayor similitud, hay dos regiones de homología a las FOXP3 de vertebrados. Identifica los resíduos de inicio y final de ambos fragmentos con homología a FOXP3. ¿Se solapan?

### 3.3 ¿Con qué región o regiones del HMM tienen homología esos dos fragmentos de la primera proteína de la tabla?

### 3.4 El alineamiento de las FOXP3 de vertebrados era de 405 posiciones de longitud. ¿Qué región o regiones de ese alineamiento no tienen homología con ninguna proteína de la esponja?

### 3.5 Al usar un HMM como query, la búsqueda de FOXP3 en el proteoma de la esponja es más sensible que si hubiéramos realizado un BLASTP. ¿Crees que podríamos haber obtenido un resultado parecido usando PSI-BLAST? Razona la respuesta.