#Curso de bioinformática para profesionales de la salud pública: Enfrentando patógenos respiratorios


# Módulo 3. Integración de metadata y datos genómicos - R


###R es un potente entorno de software para análisis de datos, gráficos y, especialmente, análisis estadístico. Está disponible de forma gratuita en www.r-project.org con binarios de fácil instalación para Linux, MacOS y Windows. Este cuaderno proporciona una introducción a R y a un proceso de integración de 'dataframes'.

##1. Abra el notebook desde su cuenta en colab

###Llame desde Google's Colaboratory (https://colab.research.google.com) el notebook R "directorio_notebooks/Modulo_3/R.ipynb" desde el repositorio del curso(https://github.com/diseasesdetectives/Curso_Bioinformatica_para_profesionales_de_la_salud_publica)


###Luego de abrirlo recuerde hacer una copia de


###Alguna información operativa básica:

###- R tiene >100.000 'funciones' que realizan diversas tareas. Cada función utiliza corchetes () para enumerar argumentos y parámetros.

###- Cada función tiene una página de 'ayuda(fn)' que indica cómo se usa, qué operación se ejecuta y qué resultado produce con referencias y ejemplos que se pueden cortar y pegar en una consola R. Es esencial que los programadores de R, tanto principiantes como experimentados, lean los archivos de ayuda.

###- Una almohadilla ( # ) indica comentarios dentro de un script R. Un punto y coma (;) tiene la misma acción que un 'return'.

##2. Entorno R en colab

###Examinaremos nuestro entorno de R. *sessionInfo()* indica el sistema operativo y los paquetes básicos pre-instalados.

###Pruebaremos los comandos *getwd()* y *setwd()* que son funciones comúnmente utilizadas al comienzo de una sesión.

###*wd* significa 'directorio de trabajo'; Colab no permite cambiar de directorio, pero querrás crear un directorio para nuestro trabajo en tu computadora local. *library()* muestra una nueva ventana que enumera los paquetes CRAN actualmente disponibles para usted.

###¡Recuerda que hay ~19000 más! Finalmente, ejecutamos *citation()* que le da la cita a R para las publicaciones. Cada paquete CRAN tiene una *citación(paquete)* correspondiente que debe usarse para las publicaciones.

In [None]:
# Revisa la información de su sessión actual

sessionInfo()

In [None]:
getwd()                     # Revise el directorio de trabajo.
#setwd('/Users/ericfeigelson/Desktop/Rdir')  # Este comando es para cambiar el directorio de trabajo
#getwd()                     # Confirmar el cambio de la dirección del directorio

In [None]:
library()                   # Despliega los programas actualemente instaldos
                            # ~30 programas están pre-instalados en R


In [None]:
citation()                  # Use esta citación cuando use R

##3. Crear objetos dentro de R y reconozca los index

###Cree un objeto simple en R (vector de cuatro números enteros) y funciones que indican sus características. *ls()* es útil para ver qué objetos hay en su sesión actual.

###La función *str* es muy útil para ver la estructura de objetos R complejos producidos por funciones estadísticas avanzadas.

###**Tenga en cuenta que el contenido de un objeto se muestra en la consola con solo indicar su nombre**

###La función *cat* ofrece una forma más elegante de mostrar en la consola.

###*escribir* y *guardar* los objetos R de su sesión en su disco en formatos ASCII y binario respectivamente.

###Los vectores y matrices de R comienzan en el índice 1, a diferencia de Python, donde el primer elemento tiene el índice 0.

###Esta incompatibilidad puede complicar los programas que entrelazan los dos lenguajes.


In [None]:
#Cree y caracterice un vector

a <- c(33, 44, 92, 58)      # combine los numeros dentro de un vector
length(a)
sum(a)
median(a)  ;  mad(a)
ls()                        # liste los nombres de los objetos en su ambiente
class(a)                    # Determine la clase de objeto R
str(a)                      # Determine la estructura del objeto R
summary(a)                  # Muchos objetos R tienen una función 'summary'

In [None]:
a                           # Mostrar el contenido de un objeto R
# Anote un mensaje en la consola  REl símbolo \n lleva acabo un 'return'.
cat('Sum of ', length(a), ' elements in the vector a = ', sum(a), '\n')

write(file='output', a)     # Guarde en formato ASCII un objeto R en el directorio de trabajo
save(file='output_bin', a)  # Guarde en formato binario
Save(file='output_bin', a)  # error porqure 'Save' no es una función conocida.
                            # Recuerde que R es sensible a las mayusculas. ***TO DO** Ajuste y vuelva a correr

In [None]:
# Manejo de índices en los vectores

a[1:4]          # Muestra todos los 4 elemntos del vector
a[3]            # Observe que los vectores inician con index 1 y no 0, como en Python
a > 40          # Una operación lógica
sum(a[a>40])    # Observe como se pueden usar referencia propias de un objeto R dentro de una ecuación
which.max(a)    # R tiene muchas funciones de construcción en los objetos
match(44, a)

##4. Reconozca las clases y paquetes en R

###Base-R coloca objetos en variasc clases: numérico,caracteres, lógico, vectorial, matrixal, factor, marco de datos, lista y otra docena de otros diseñados por funciones avanzadas de R y paquetes CRAN.

###Las funciones *trazar, imprimir, resumir* están adaptadas a objetos de clase; ver, por ejemplo, *methods(summary)*.

###Dos clases particularmente importantes son el 'data.frame' marco de lectura utilizado para datos tabulares y la 'list' utilizada como un depósito con contenido heterogéneo.

###El marco de datos es una matriz bidimensional con nombres de columnas asociados. La clase de lista permite una estructura jerárquica de objetos R como escalares, vectores, matrices y atributos.

###Aquí hacemos una lista jerárquica, usamos 'str' (structure) para mostrar su contenido y accedemos a un elemento de la lista usando el delimitador $.

In [None]:
# R clases y paquetes

# realice y cree un data.frame, en un arreglo 2D con nombre de columnas

d <- data.frame(cbind(seq(1:4), a, a^3))  # Conecte las columnas en el data.frame
class(d)
names(d) <- c('ID', 'a', 'a_cubed') # Nombre las columnas en el data.frame
d2 <- d[-4,-1]                            # Remueva la 4ta fila y la 1ra columna
d ; d2
write.table(d, file='d.txt', quote=FALSE, row.names=FALSE)

In [None]:
# Cree y muestre una lista

b_list <- list(star=c('SarsCov2', 'Influenza'), type=c('Linaje','H','N'), codigo=322)
str(b_list)
b_list[['type']] = list(subtype=seq(0.1:0.9, by=0.1))
str(b_list)
b_list$type$subtype[1:3]

###Recuerde cuenta con más de 19 000 paquetes CRAN disponibles.

###La función *install.packages()*, necesaria solo una vez, para descargar el paquete elegido desde *https://cloud.r-project.org* o un sitio espejo.

###Pero el comando *library()* es utilizado frecuentemente para llevar el paquete a la sesión R actual.

###Lamentablemente, Google Colaboratory no permite la instalación de nuevos paquetes por parte del usuario.

###Por lo tanto, es mejor ejecutar de rutina en una consola R en su computadora local.

##5. R muestra que sabe matemáticas básicas


In [None]:
# Aritmética, algebra, trigonometría, y formatos númericos

5 + 10003
5-3 ; 5*3 ; 5/3 ; 5^3
x <- 5 ; y <- 3
x+y

In [None]:
sin(0)  ; sin(pi/2)         # Observe que los ángulos están en radianes
ang <- seq(0, pi/2, length=30)
sin(ang)

In [None]:
trunc(12345.6789) ; round(12345.6789)
format(12345.6789, digits=2, scientific=TRUE)

log(20)  ;  log10(20)   # log() en R es base-e. Use log10() para logaritmos base-10.

##6. R puede usarse para ecuaciones matematicas más complejas

###R se puede utilizar para cálculos basados ​​en ecuaciones analíticas de matemáticas, física o astrofísica. Aquí calculamos las distancias de luminosidad de las galaxias. Este es nuestro primer ejercicio de la función *function()*, que permite al usuario crear un nuevo procedimiento para su uso posterior. El contenido de una nueva función se encuentra entre llaves, {}, y puede ser simple o complicado.

###También tenemos nuestra primera experiencia con la función de trazado bidimensional básica de R, *plot()*. Es maravillosamente útil y flexible y ofrece gráficos con calidad de publicación. Para conocer sus numerosas opciones, consulte help(par)..

###¡el archivo de ayuda más largo que conozco!

In [None]:
# Calculos de distancias entre galaxias

# La `function': Observe como una función usa otra

# Primero, cree un cálculo simple sin funciones

z <- seq(0.0, 0.5, 0.1)
z
H_0 <- 68  	 		               	# km/s/Mpc,  valores Planck
speed.light <- 3.0E5          	# km/s
dist <- speed.light*z / H_0     # in Mpc
dist
class(dist)

##7. Cree un grupo de datos bivariado artíficial

###En forma *(x,y)* y con 500 puntos donde hay una relación no lineal entre 'x' y 'y'.

###También los errores son heteroscedásticos; es decir, la dispersión en 'y' depende de la variable 'x'.

###Aquí mostramos varios gráficos comunes: diagrama de dispersión, diagrama de caja, histograma y función de distribución acumulativa. Los gráficos multipanel se diseñan utilizando el parámetro de trazado *par(mfrow)*; ver *ayuda(par)*.

###Los gráficos se pueden descargar al disco usando funciones como *pdf()*, *png()* y *jpeg()* donde el usuario preestablece la ventana de trazado. Pero una función conveniente es *dev.copy2pdf()* donde se descarga la ventana actual.

In [None]:
# Examine, resuma y gráfique

set.seed(1)
x <- sample(seq(0.01, 3, length.out=500))
y <- 0.5*x + 0.3^(x^2) + rnorm(500, mean=0, sd=(0.05*(1+x^2)))
xy <- cbind(x, y)

plot(xy, pch=20)
summary(x) ; summary(y)   	# Resume las propiedades del objeto R

In [None]:
par(mfrow=c(1,2))  		# Cree una fígura de dos paneles
boxplot(x,  notch=T, main='Boxplot for X')  # Revise el help(boxplot.stats) para mayor claridad
boxplot(y,  notch=T, pch=20, cex=0.5, main='Boxplot for Y')
dev.copy2pdf(file='box.pdf')

In [None]:
par(mfrow=c(1,1))
hist(x, breaks=30, main='', xlim=range(x), ylim=c(0,100),
     xlab='Yvar', col='royalblue4')
hist(y, breaks=30, main='', xlab='Yvar',
     col='#ee3b3b70', add=TRUE) # add=TRUE permite que se genere la adición del otro gráfico

In [None]:
plot(ecdf(x), pch=20, cex=0.0, verticals=TRUE, main='',ylab='EDF',xlab='')
plot(ecdf(y), pch=20, cex=0.0, verticals=TRUE, add=T)
text(2.0,0.5,"X") ; text(1.4,0.8,"Y")             # Adicionar texto dentro de un gráfico tipo plot
dev.copy2pdf(file='ecdf.pdf')

##8. Práctique más con vectores y arreglos

###Demuestre cómo se pueden extraer muestras aleatorias de un conjunto de datos.

###Potentes teoremas muestran que el *bootstrap resampling* aleatorio con reemplazo, a menudo puede proporcionar estimaciones confiables de intervalos de confianza para cantidades estadísticas derivadas del conjunto de datos.

In [None]:
# Arreglos, data.frame y filtrado

# xy es un `array' de números creados por `column bind'

xy <- cbind(x, y)  ;  str(xy)

# Un data.frame asociado a los nombres de las columnas

xy <- as.data.frame(xy)
names(xy) <- c('Xvar', 'Yvar')

# Integre las filas donde el primer valor excede el valor 2

high_x1 <- xy[xy[,1]>2,]
high_x2 <- subset(xy, xy[,1]>2)	# Otra manera para extraeer filas
setequal(high_x1, high_x2)      # Evalue la equivalencia de los dos vectores

In [None]:
# Muestreo y 'bootstrapping'

trials <- sample.int(length(xy[,1]),20) # 20 filas aleatorias
xy[trials,]

# 20 bootstrap para re-muestreo

trials <- sample.int(length(xy[,1]),20, replace=T)
xy[trials,]

# Estime el error estandar de la mediana de la variable 'Y'

median(xy[,2])

# Calcule la mediana absoluta de desviación de la DE de la mediana.

mad(xy[,2]) / sqrt(500)

In [None]:
library(boot)  			# Esya función esta en las librerias de base-R
med <- function(x,index){ median(x[index]) }

# Revise el 'help(boot)' para mayor comprensión de la estructura de la lista

boot(xy[,2], med, R=1000) # Bootstrap estima la mediana DE.
hist(boot(xy[,2], med, R=1000)$t, breaks=50, #Gráfique
     xlab='Bootstrap median of Yvar')

##9. Práctique los plots bivariados y muestre sus diferentes médidas de correlación.

###Debe generar la probabilidad de relación entre las variables *x* e *y*.

###El coeficiente de correlación de Pearson se utiliza habitualmente, pero es limitado: supone una relación lineal y requiere errores gaussianos homocedásticos.

###El coeficiente tau de Kendall no paramétrico no hace suposiciones y, por lo tanto, es más útil en general.

In [None]:
# plots bivariados y pruebas de correlación

# Scatterplot. Revise help(points) para las etiquetas de los símbolos definidos
par(mfrow=c(1,2))
plot(xy, pch=20, cex=0.5)
plot(log10(xy), pch=20, cex=0.5, xlab='log(Xvar)', ylab='log(Yvar)')

In [None]:
length(x[x>2])		# State length of a vector.  Use `dim' for an array or data.frame.
# Prueba de correlación con hipotésis paramétrica
cor.test(x[x>2],y[x>2], method='pearson')
# Prueba para correlación bivariada con hipotésis No-paramétrica
cor.test(x[x>2],y[x>2], method='kendall')

##10. Recursos importantes para sus estudios en R

###Aquí ofrecemos una colección variada de comandos y recursos útiles para aprender más sobre R como lenguaje de programación.

### * Hay >700 libros con 'R' en el título, la mayoría presenta tutoriales de metodología y código. Se publica un nuevo libro sobre R cada ~10 días.

###* Dos introducciones de alta calidad a R:
   * Del equipo central de R: https://cran.r-project.org/doc/manuals/R-intro.html
   * De la Universidad Carnegie-Mellon: http://www.stat.cmu.edu/~cshalizi/statcomp/14/

###* Existen numerosos recursos informales de aprendizaje en línea sobre programación en R:

   * [R-bloggers](https://www.r-bloggers.com) agrega entradas de ~1100 blogs.
   * [Stack Overflow](https://stackoverflow.com/) tiene ~400.000 preguntas y respuestas sobre la programación en R.
   * Los paquetes CRAN se describen a menudo en dos revistas de acceso abierto: [Journal of Statistical Software](https://www.jstatsoft.org/index) y [The R Journal](https://journal.r-project.org ). Estos artículos suelen aparecer como _viñetas_ dentro del entorno R.



In [None]:
# Liste los ~30 paquetes CRAN más importantes en el ámbiente base-R
library()

# Liste las funciones completas ~400 disponibles en n R's `base'
library(help = "base")

# Estadísticas en base R (~400 funciones, diez mil más en CRAN y otros repositorios de R)
library(help='stats')

# Liste los contenidos del directorio actual
ls()

# Programación de 'utilities' incluyen:
#    Use `source' para llamar script R externos
#    Use `edit' para editar un objerto en R
#    Use 'environment' para aislar una colección de objetos
#    Funciones como `debug', `trace' y `browser' asiste con la prueba del código
#    Función 'process.events' permite un bajo manejo de comandos R
library(help = 'utils')

# Loops:  for( i in 1:100) { ... }
# Programación de control de flujos:  if/else, ifelse, switch, while, repeat, next, break, stop
foo <- 2
if(foo == 1) cat('Hello world!') else cat('Do nothing')
for(i in 1:10) { cat(' Num = ', i, '\n') }

# Gráficas y disposítivos en base R
library(help='graphics')
library(help='grDevices')

# Paralelización del control computacional en base R
# CRAN tiene otra docenas de paquetes para el procesamiento de alto desempeño
library(help='parallel')

# Corra un script R que tiene en su disco local
help(source)

# Guarde objetos R (o todo su ambiente) en el disco local
help(save) ; help(load)

# Guarde o cargue la historia de comandos R usados
help(savehistory)  ;  help(loadhistory)

# Conecciones, pipes, sockets, URLs, clipboard, compresión, etc.
help(connections)

# Interactue con el computador anfitrión
Sys.info()
system('ls -l')
system.time(fft(seq(0,1,length.out=1000000)))

# Construct composite strings using 'paste'
# Extract postions of a string using `substring'
band_ir <- 'J'
paste('NGC1068',band_ir,'FITS', sep='.')

# La funciones R/CRAN son públicas y pueden ser adiconadas desde python
# programas usan paquetes rpy2.
#Por ejemplo:
### pip install rpy2
### import rpy2
### import rpy2.robjects as robjects
### R = robjects.r
### ranGauss = R.rnorm(100)
### print ranGauss

# PEl código python pueden ser adicionado en R usando el paquete CRAN 'reticulate' (entre otros)
# R tiene interfaces similares a otros muchos lenguajes.

##Basado y modificado del tutorial:

### Summer School in Statistics for Astronomers XVII, June 2022  
### Instructor: Eric Feigelson (Center for Astrostatistics, Penn State University)

#Ejercicio Módulo 3 Práctica R

##Descarge del repositorio de GitHub los archivos metadatosSARS.xlsx y nextclade_output.csv o suba los archivos al notebook

##Leer y cargar el archivo '.xlsx'

In [7]:
library("readxl")

metadatos <- read_excel('metadatosSARS.xlsx',  col_names = TRUE)

##Leer y cargar el archivo '.csv'

In [8]:
library("data.table")

nextclade<- fread("nextclade_output.csv", header=TRUE,
                select = c("seqName", "clade", "Nextclade_pango", "qc.overallScore", "coverage", "deletions", "insertions", "frameShifts", "aaSubstitutions", "privateNucMutations.unlabeledSubstitutions", "pcrPrimerChanges", "failedGenes"))


##Usando la opción 'select' fueron seleccionadas las columnas de interés:

clade

Nextclade_pango

qc.overallScore

coverage

deletions

insertions

frameShifts

aaSubstitutions

privateNucMutations.unlabeledSubstitutions

pcrPrimerChanges

failedGenes

##*NOTA: Recuerde siempre copiar los nombres directamente para evitar errores de escritura


##Una vez se han cargado y ajustado los datos, se realiza el merge de las dos tablas, donde todas las filas de la Metadata (X) son verdaderas (T)

In [9]:
merge_data<-merge(x=metadatos, y=nextclade,
by.x="fasta_encabezado", by.y="seqName", all.x=T)

##Guardar el archivo de salida a un .csv, para visualizar el archivo de salida. Descargelo a su disco local y subalo a la plataforma LMS Prueba-Modulo3_R (https://lms.wellcomeconnectingscience.org)

In [10]:
write.csv(merge_data, file='merge_meta_nextclade.csv')

##Recuerde que puede realizar la unión de múltiples archivos de diferentes formatos

ej. Si tiene un archivo '.tsv'

***archivo_tsv <- read.table("data.tsv", header = TRUE)***


Cargar R con rpy2.ipython

'%reload_ext rpy2.ipython'

'%config IPCompleter.greedy=True'

'%config InlineBackend.figure_format = 'retina''

'%%R'