# Ejercicios

In [None]:
if (!require("rentrez")) {
    install.packages("rentrez")
}

if (!require("ggplot2")) {
    install.packages("ggplot2")
}

library(rentrez)
library(httr)
library(ggplot2)
library(xml2)

## Ejercicio 1

Utilice el servicio EInfo de Entrez para construir una tabla que contenga el nombre de la base de datos,
la descripción, el número de registros, y la fecha de la última modificación para todas las bases de datos
disponibles.

In [None]:
dbs <- entrez_dbs()

In [None]:
db_data <- list()
for (db in dbs[1:3]) {
    data <- entrez_db_summary(db)
    elements <- c(
        data["DbName"],
        data["Description"],
        data["Count"],
        data["LastUpdate"]
    )
    db_data[[length(db_data) + 1]] <- elements
}

In [None]:
do.call(rbind, db_data)
#t(sapply(db_data, function(x) x))
# rbind(db_data[[1]], db_data[[2]], db_data[[3]])

rbind(db_data)

print(help("rbind", help_type = "html"))


## Ejercicio 2

Obtenga de la base de datos 'nuccore' de NCBI el número de registros que corresponden con secuencias
del virus HIV-1 que fueron publicadas en cada año desde 1980 hasta 2020. Haga un gráfico de barras para
mostrar estos resultados.

Ayuda: ?barplot

In [None]:
years <- 1980:2020
counter <- c()
for (year in years) {
    Sys.sleep(0.3)
    query <- paste("Human immunodeficiency virus 1[organism] AND", year)
    respuesta <- entrez_search(
        db = "nuccore",
        term = query
    )
    counter <- c(counter, respuesta$count)
}

In [None]:
ggplot(
    data = data.frame(counter),
    aes(x = years, y = counter)
) + geom_bar(stat = "identity")

## Ejercicio 3

Buscar información sobre la base de datos MESH (NCBI). ¿Qué información almacena?

- Buscar en esta base de datos el nombre del gen relacionado con la enfermedad Fibrosis Quística (Cystic fibrosis).
  - Ayuda: Buscar campo de búsqueda 'MeSH Terms'.
  - Ayuda: Usar rettype='txt'
  - Ayuda: El nombre del gen aparece en el texto de la descripción.
- Buscar en la base de datos 'gene' de NCBI, los registros de este gen en el ser humano (en formato XML).
- Recuperar la lista de exones. ¿En qué locus está ubicado el gen?.
  - Ayuda: Buscar rettype=gene_table
- Buscar en Swiss-Prot los registros que están asociados a esta proteína.
  - Ayuda: Mapear los ID de genes de NCBI/Entrez a Uniprot.
  - Ayuda: Buscar los tipos de Identificadores correspondientes de la web.
- Recuperar la secuencias de la proteína

In [None]:
query <- "Cystic fibrosis[MeSH Terms]"
respuesta <- entrez_search(
    db = "mesh",
    term = query
)

In [None]:
respuesta2 <- entrez_fetch(
    db = "mesh",
    id = respuesta$ids,
    rettype = "txt"
)

In [None]:
cat(respuesta2)

In [None]:
query <- "CYSTIC FIBROSIS TRANSMEMBRANE CONDUCTANCE REGULATOR[Title] AND human[orgn]"
respuesta <- entrez_search(
    db = "gene",
    term = query
)


In [None]:
respuesta2 <- entrez_fetch(
    db = "gene",
    id = respuesta$ids[1],
    rettype = "gene_table"
)

In [None]:
cat(respuesta2)

In [None]:
retrieve_url <- 'https://www.uniprot.org/uploadlists'
respuesta3 <- GET(
    url = retrieve_url,
    query = list(
        query = respuesta$ids[1],
        format = "tab",
        from = 'P_ENTREZGENEID',
        to = 'ID'
    )
)

In [None]:
respuesta3 <- read.table(
    text = content(respuesta3),
    header = TRUE
)

In [None]:
respuesta3

In [None]:
retrieve_url <- "https://www.uniprot.org/uploadlists"
respuesta4 <- GET(
    url = retrieve_url,
    query = list(
        query = paste(respuesta3$To, collapse = " "),
        format = "fasta",
        from = "ID",
        to = "ACC"
    )
)

In [None]:
cat(content(respuesta4))

## Ejercicio 4

- Recuperar los registros que corresponden a secuencias nucleotídicas de genomas completos de virus de la familia Flaviviridae. 
- Trabajar con 100.
- Generar un histograma de los tamaños de las secuencias.
- Obtener de cada registro el código del 'TaxID'. Buscar en la base de datos 'Taxonomy' el nombre científico, el rank y la division de cada uno.

- ¿Cuantos corresponde a aislamientos?


In [None]:
respuesta <- entrez_search(
    db='nuccore',
    term="flaviviridae[orgn] AND complete genome[Title]",
    retmax=10000
)

In [None]:
respuesta2 <- entrez_summary(
    db='nuccore',
    id=respuesta$ids[1:200],
    rettype='xmls'
)

In [None]:
flavi <- sapply(
    respuesta2,
    function(x) unlist(x[c('slen', 'taxid', 'organism')])
)
flavi <- as.data.frame(t(flavi))
head(flavi)

In [None]:
hist(as.numeric(flavi$slen), 20)

In [None]:
flavi_tax <- entrez_summary(
    db='taxonomy',
    id=flavi$taxid
)

In [None]:
flavi2 <- sapply(
    flavi_tax,
    function(x) unlist(x[c('rank', 'division', 'scientificname')])
)
flavi2 <- as.data.frame(t(flavi2))

In [None]:
head(flavi2)

## Ejercicio 5

Recuperar todos los registros que corresponden a secuencias de 'Amapari virus' en la base de datos
'nuc_core'. Recuperar de ellos los identificadores de las publicaciones relacionadas. Obtener de 'pubmed'
el título del artículo, los autores.


In [None]:
respuesta <- entrez_search(
    db='nuccore',
    term='Amapari virus[orgn]',
    retmax=30
)

In [None]:
respuesta$ids

In [None]:
resumenes <- entrez_fetch(
    db='nuccore',
    id=respuesta$ids,
    rettype="text",
    retmode="xml"
)

In [None]:
pubmed_links <- entrez_link(
    id=respuesta$ids,
    dbfrom='nuccore',
    db="pubmed"
)


In [None]:

pubmed_links$links$nuccore_pubmed

resumenes <- entrez_summary(
    db="pubmed",
    id=pubmed_links$links$nuccore_pubmed
)

In [None]:
pubmed_data <- sapply(
    resumenes,
    function(x) c(x[[c('title')]], paste(x[[c('authors')]]$name, collapse=", "))
)
pubmed_data <- t(pubmed_data)

In [None]:
pubmed_data

## Ejercicio 6

Buscar en base de datos 'SRA' (Sequence Read Archive) de NCBI los registros que corresponden a
los proyectos de secuenciación de virus de la familia Baculoviridae (Trabajar con un máximo de 30).
Recuperar de cada ellos el nómbre del organismo secuenciado y su 'TaxId' y el título del proyecto.

In [None]:
respuesta <- entrez_search(
    db = "sra",
    term = "baculoviridae[orgn]",
    retmax = 30
)

In [None]:
resumenes <- entrez_fetch(
    db = "sra",
    id = respuesta$ids,
    rettype = "xml"
)

In [None]:
sra_data <- as_list(read_xml(resumenes))

In [None]:
head(t(sapply(
    sra_data$EXPERIMENT_PACKAGE_SET,
    function(x) c(
        x$EXPERIMENT$"TITLE",
        x$SAMPLE$"SAMPLE_NAME"$"TAXON_ID",
        x$SAMPLE$"SAMPLE_NAME"$"SCIENTIFIC_NAME"
    )
)))

## Ejercicio 7

Recuperar todas las secuencias de RefSeq de los virus de la familia
"Coronaviridae". Puede buscar las secuencias RefSeq en el KeyWord.

1. Generar una tabla que tenga el nombre del virus, la cepa, el número de acceso
   y la versión, y el tamaño del genoma (usando ESummary)
2. Hacer un gráfico para mostrar las fechas originales de la secuencia.
3. Recuparar los nombres de los hospedadores de cada virus y agregalor a la
   tabla del punto 1 (Usando EFETCH). Exportar la tabla como un archivo de
   texto (p.e. CSV)

In [None]:
#  srcdb_refseq[PROP]
response <- entrez_search(
    db = "nuccore",
    term = paste(
        "coronaviridae[orgn] AND",
        "complete genome[Title] AND",
        "srcdb_refseq[PROP]"
    ),
    retmax = 10000
)


In [None]:
all_summaries <- entrez_summary(
    db = "nuccore",
    id = response$ids
)

In [None]:
corona_data <- t(sapply(
    all_summaries,
    function(x) unlist(x[c("organism", "strain", "accessionversion", "slen")])
))

In [None]:
head(corona_data)

In [None]:
x <- sapply(
    all_summaries,
    function(x) unlist(x[c("createdate")])
)
now <- as.numeric(
    as.POSIXct(
        x,
        format = "%Y/%m/%d"
    )
) / (365 * 24 * 60 * 60) + 1970

hist(now)

In [None]:
full_results <- entrez_fetch(
    db = "nuccore",
    id = response$ids,
    rettype = "native",
    retmode = "xml"
)

In [None]:
fr_doc <- xml2::read_xml(full_results)
fr <- as_list(fr_doc)

In [None]:
length(xml_find_all(fr_doc, "/Bioseq-set/Bioseq-set_seq-set/Seq-entry"))

In [None]:
hosts <- sapply(
    xml_find_all(fr_doc, "/Bioseq-set/Bioseq-set_seq-set/Seq-entry"),
    function(orgnamemod) {
        c_node <- xml_find_first(orgnamemod, ".//OrgName/OrgName_mod")
        if (length(c_node) == 0) {
            return("")
        }
        subname <- ""
        for (i in seq(xml_length(c_node))) {
            child <- xml_child(c_node, i)
            subtype <- xml_find_first(child, ".//OrgMod_subtype")
            if (xml_attr(subtype, "value") == "nat-host") {
                subname <- xml_find_first(child, ".//OrgMod_subname")
                subname <- xml_text(subname)
            }
        }
        return(subname)
    }
)


## Ejercicio 8

La familia Macin (PF14865) son proteínas antibacteriales. El primer miembro de
esta familia fue descripto en el organismo *Hirudo medicinalis* (La sanguijuela
que sea utilizaba en "medicina alternativa").

1. Recuperar de pfam el alineamiento completo para la familia Macin (PF14865).
2. Recuparar las secuencias completas de cada una de las proteinas de Uniprot.
3. Para cada una de las proteínas completas, buscar en pfam todos los dominios
   que contienen.
4. Hacer un gráfico de barras para mostrar la posición de los dominios por
   proteína.
5. Generalice el código para que haga los mismo con cualquier familia de
   Pfam.

Las funciones *str_split*, *barplot*, *rect*, y *seq_along* pueden ser de
utilidad.

In [None]:
url <- "http://pfam.xfam.org/family"

family_acc <- "PF14865"
respuesta <- GET(url, query=list(output="xml", acc=family_acc))
data <- as_list(content(respuesta))

In [None]:
url <- paste0("https://pfam.xfam.org/family/", family_acc, "/alignment/full")
seed_msa <- GET(url)

In [None]:
text_stockholm <- content(seed_msa, as = "text")

In [None]:
msa <- strsplit(content(seed_msa, as = "text"), "\n")[[1]]

msa <- msa[!startsWith(msa, "#")]
msa <- msa[!startsWith(msa, "//")]
msa <- sapply(
    strsplit(msa, " +"),
    function(x) x[1]
)
msa <- strsplit(msa, "[/-]")

msa <- do.call(rbind, msa)


In [None]:
url <- "http://pfam.xfam.org/protein"

uniprot <- msa[1,1]
respuesta <- GET(url, query=list(output="xml", entry=uniprot))
data <- content(respuesta)
data <- xml_ns_strip(data)


In [None]:
url <- "http://pfam.xfam.org/protein"

msa_matches <- lapply(
    msa[,1],
    function(uniprot) {
        respuesta <- GET(url, query=list(output="xml", entry=uniprot))
        data <- content(respuesta)
        data <- xml_ns_strip(data)
        matches <- xml_find_all(data, ".//match")
        seq_len <- as.numeric(
            xml_attr(
                xml_find_first(data, ".//sequence"),
                "length"
            )
        )
        matches <- lapply(
            matches,
            function(m) {
                pfamid <- xml_attr(m, "id")
                loc <- xml_find_first(m, ".//location")
                start <- as.numeric(xml_attr(loc, "start"))
                end <- as.numeric(xml_attr(loc, "end"))
                return(list(id=pfamid, start=start, end=end))
            }
        )
        return(list(seq_len, matches))
    }
)


In [None]:
barplot(
    sapply(msa_matches, function(x) x[[1]]),
    width=1,
    horiz = TRUE,
    space = 0
)
for (i in seq_along(msa_matches)) {
    c_match <- msa_matches[[i]]
    for (m in c_match[[2]]) {
        rect(
            m$start,
            i-1,
            m$end,
            i,
            col = "green"
        )
    }
}