## Instrucciones

Edita, elabora y ejecuta los comandos y responde a las preguntas en este mismo documento. Pero **¡atención!** debes descargarlo (en formato `.ipynb`) para poder entregarlo a través del aula virtual. Antes de empezar ejecuta el bloque siguiente, que descomprime algún archivo. 

In [None]:
system2(command = 'gunzip',
        args = 'data/cerber.fa.gz')

## Problema 1
En la carpeta `data` hay cuatro ficheros en formato FASTQ, con secuencias de cuatro muestras diferentes de cerbero común (*Canis cerberus*). El objetivo es: primero realizar un análisis de la calidad de las secuencias y después mapearlas sobre el genoma de referencia, `data/cerber.fa`. Pero los bloques de código siguientes están desordenados y contienen errores. Corrige los errores y ejecútalos en el orden correcto para poder responder las preguntas siguietes.

In [None]:
# BLOQUE METBREWER

library('MetBrewer')
system2(command = 'cut', args = c('-f', '4,5', 'BRZ026.sam'), stdout = 'MapQualBRZ026.txt')
system2(command = 'cut', args = c('-f', '4,5', 'BRZ031.sam'), stdout = 'MapQualBRZ031.txt')
system2(command = 'cut', args = c('-f', '4,5', 'LAN048.sam'), stdout = 'MapQualLAN048.txt')
system2(command = 'cut', args = c('-f', '4,5', 'LAN098.sam'), stdout = 'MapQualLAN098.txt')
mapq.BRZ026 <- read.table('MapQualBRZ026.txt', col.names = c('pos','mapq'))
mapq.BRZ031 <- read.table('MapQualBRZ031.txt', col.names = c('pos','mapq')
mapq.LAN048 <- read.table('MapQualLAN048.txt', col.names = c('pos','mapq'))
mapq.LAN098 <- read.table('MapQualLAN098.txt' col.names = c('pos','mapq'))
colors = met.brewer(name = 'Egypt', n = 4)
plot(density(mapq.BRZ031$mapq),  lwd = 2, col = colors[1], xlab = 'Calidad del mapeo', ylab = 'Densidad', main = '')
lines(density(mapq.BRZ026$mapq), lwd = 2, col = colors[2])
lines(density(mapq.LAN048$mapq), lwd = 2, col = colors[3])
lines(density(mapq.LAN098$mapq), lwd = 2, col = colors[4])
legend(10, y=0.08, legend = c('BRZ031','BRZ026','LAN048','LAN098'), col = colors, lwd = 2)

In [None]:
# BLOQUE BOWTIE
BRZ026.out <- bowtie2(bt2Index = 'index/cerber',
                     samOutput = 'BRZ026.sam',
                          seq1 = 'data/BRZ026.fq',
                     overwrite = TRUE,
                     '--no-unal', '--no-head')
BRZ026.out

BRZ031.out <- bowtie2(bt2Index = 'index/cerber',
                     samOutput = 'BRZ031.sam',
                          seq1 = 'data/BRZ031.fa',
                     overwrite = TRUE,
                     '--no-unal', '--no-head')
BRZ031.out

LAN048.out < bowtie2(bt2Index = 'index/cerber',
                     samOutput = 'LAN048.sam',
                          seq1 = 'data/LAN048.fq',
                     overwrite = TRUE,
                     '--no-unal', '--no-head')
LAN048.out

LAN098.out <- bowtie2(bt2Index = 'index/cerber',
                     samOutput = 'LAN098.sam',
                          seq1 = 'data/LAN098.fq',
                     overwrite = TRUE,
                     '--no-unal', '--no-head')
LAN098.out

In [None]:
# BLOQUE GGPLOT2

library(ggplot2)
suppressMessages(library('ShortRead'))
ResumenCalidad <- qa('data', type = 'fastq', pattern = '*.fasta')
ResumenCalidad
head(ResumenCalidad[['baseCalls']])
report(ResumenCalidad, dest = 'ResumenCalidad.html')
ggplot(data = ResumenCalidad[['readQualityScore']],
       mapping = aes(x = quality, y = density)) +
   geom_line() +
   facet_wrap(~lane)

In [None]:
# BLOQUE RBOWTIE2

library('Rbowtie2')
dir.create('index')
bowtie2_build(references = 'data/cerber.fq',
              bt2Index   = 'indice/cerbero',
              '--quiet', overwrite = TRUE)

Contesta las preguntas siguientes:

1. Indica en qué orden crees que deben ejecutarse los pasos (puedes ordenar los bloques moviéndolos arriba y abajo).
2. ¿Cuántas lecturas cortas hay en cada archivo?
3. ¿Crees que las lecturas cortas son emparejadas (*paired ends*) o no?
4. ¿Qué longitudes tienen las lecturas?
2. Se sospecha que una de las tres muestras no pertenece a la misma especie que las otras. ¿Cuál dirías que és y por qué?

## Problema 2




## Problema 3

El archivo `data/Kphage.fasta` contiene las 101 proteínas codificadas en el genoma del fago vB_KpnP_P184 de *Klebsiella*. El bloque de código siguiente debería crear una tabla con los resultados de buscar qué dominios proteicos de Pfam-A aparecen en esas 101 proteínas. Pero para que funcione hace falta un paso previo.

