En este ejercicio implementaremos algunos flujos de trabajo de la siguiente referencia:

[A Little Book of R for Bioinformatics](refs/a-little-book-of-r-for-bioinformatics.readthedocs.org/en/latest/index.html) ([web site](https://a-little-book-of-r-for-bioinformatics.readthedocs.org/en/latest/))

que es una introducción a la librería [Bioconductor](https://www.bioconductor.org/) de R.

Observa que **ESTE ES UN NOTEBOOK DE PYTHON** (no de R), ya que estaremos llamando a la línea de comando y los _magics_ necesarios no están todavía disponibles para los notebooks de R.

Por tanto, usaremos los magics **%R** y **%%R** para llamar a R.

Por ejemplo, la siguiente celda, carga una de las librerías de Bioconductor en R

In [1]:
%R library("seqinr")

array(['seqinr', 'tools', 'stats', 'graphics', 'grDevices', 'utils',
       'datasets', 'methods', 'base'], 
      dtype='|S9')

## Ejercicio 1

Implementa en este notebook el flujo de trabajo en la sección [**DNA Sequence Statistics (1)**](refs/a-little-book-of-r-for-bioinformatics.readthedocs.org/en/latest/src/chapter1.html) del _little book_, pero con las siguientes salvedades:

- **NO IMPLEMENTES** la función `getncbiseq`
- En su lugar, busca la secuencia con _accession number_ `NC_001477` en [www.ncbi.nlm.nih.gov](http://www.ncbi.nlm.nih.gov/) y obtén su representación en formato FASTA.
- Crea un fichero en `data/den1.fasta` con el contenido de la secuencia (usa `New`$\rightarrow$`Text file` y corta y pega la secuencia FASTA desde el navegador)
- Muestra (con `!head`) las primeras líneas del fichero creado
- sigue las instrucciones en la sección **Reading sequence data into R** para obtener la secuencia como una variable de R


In [None]:
!head data/den1.fasta

[1] 10735


## Ejercicio 2

Implementa en este notebook el flujo de trabajo en la sección [**DNA Sequence Statistics (2)**](refs/a-little-book-of-r-for-bioinformatics.readthedocs.org/en/latest/src/chapter2.html) del _little book_. Incluye la parte inicial de introducción a R.

#### A little more introduction to R


In [3]:
%%R
x <- 100
log10(x)

[1] 2


#### Reading sequence data with SeqinR¶


#### Local variation in GC content

[1] 0.4666977


#### A sliding window analysis of GC content

#### A sliding window plot of GC content

#### Over-represented and under-represented DNA words

## Ejercicio 3

Implementa en este notebook el flujo de trabajo en la sección [**Sequence Databases**](refs/a-little-book-of-r-for-bioinformatics.readthedocs.org/en/latest/src/chapter3.html) del _little book_. 

Lee atentamente y entiende las secciones anteriores a la que se titula **Querying the NCBI Database via R**.

Implementa el código R para seleccionar bancos de secuencias y obtener secuencias a partir de la sección **Querying the NCBI Database via R** incluida.

Observaciones:

- la función `query` devuelve directamente un objeto con la secuencia buscada. Es decir, se tiene que usar: 

      Dengue1 <- query("Dengue1", "AC=NC_001477")
      
- Implementa sólamente hasta la sección **Example: finding the sequences published in Nature 460:352-358** sin incluirla.

In [69]:
%%R
choosebank()

 [1] "genbank"         "embl"            "emblwgs"         "swissprot"      
 [5] "ensembl"         "hogenom"         "hogenomdna"      "hovergendna"    
 [9] "hovergen"        "hogenom5"        "hogenom5dna"     "hogenom4"       
[13] "hogenom4dna"     "homolens"        "homolensdna"     "hobacnucl"      
[17] "hobacprot"       "phever2"         "phever2dna"      "refseq"         
[21] "greviews"        "bacterial"       "archaeal"        "protozoan"      
[25] "ensprotists"     "ensfungi"        "ensmetazoa"      "ensplants"      
[29] "ensemblbacteria" "mito"            "polymorphix"     "emglib"         
[33] "refseqViruses"   "taxodb"         


## Ejercicio 4

Implementa en este notebook el flujo de trabajo en la sección [**Pairwise Sequence Alignment**](refs/a-little-book-of-r-for-bioinformatics.readthedocs.org/en/latest/src/chapter4.html) del _little book_. 

Observa que tendrás que acceder a [www.uniprot.org](http://www.uniprot.org) para recuperar las secuencias __leprae__ y __ulcerae__ en los formatos FASTA. Para ello tienes dos opciones:

** A) Accediendo manualmente al URL de cada secuencia**

1. Encuentra el URL para el formato FASTA de cada secuencia
2. usa el comando `wget` del shell para recuperar la secuencia
3. almacénala en el directorio `data`

** B) Usando el comando `query` sobre el banco `swissprot` según se explica en la referencia **

Usa el modo que te sea más cómodo

Implementa la sección hasta el capítulo **Pairwise global alignment of DNA sequences using the Needleman-Wunsch algorithm** sin incluirlo.


