# Elementos básicos de R

En el día de hoy vamos a comenzar viendo los elementos básicos de la sintaxis de R.

Entre las muchas cosas que podemos hacer con R, lo podemos usar como si fuera una calculadora.

Con ctrl+enter ejecutamos en la consola de R la linea sobra la que estamos parados.

In [None]:
2+10

In [None]:
315/7

In [None]:
89*3

In [None]:
sqrt(99225)

In [None]:
21^pi

# Tipos de Datos

En R todo el tiempo vamos a estar trabajando con datos, por lo cual una de las primeras cosas que debemos hacer es crear los distintos objetos, llamados "variables" que van a contener nuestros datos.

Por ejemplo podemos crear un objeto que se llame cantidad_de_alumnos y asignarle un valor.

In [None]:
cantidad_de_alumnos <- 16
#¿Qué tipo de objeto es?
cantidad_de_profesores <- 2

En R hay varios tipos de objetos que representan algún dato que queramos manejar: numeric, integer, character, logical. Para saber de qué clase es un objetos podemos usar la función class. El ? nos da una ayuda sobre qué hace una determinada función

In [None]:
nombre_de_profesora    <- "Cristina"
hace_frio              <- TRUE
precio_del_dolar       <- 37.5

In [None]:
?class

In [None]:
class(cantidad_de_alumnos)
class(nombre_de_profesora)
class(hace_frio)
class(precio_del_dolar)

Con los objetos en R se pueden realizar una gran cantidad de operaciones. Por ejemplo, a un número le podemos sumar otro numero.

In [None]:
cantidad_de_alumnos + cantidad_de_profesores

La suma la podemos guardar en un nuevo objeto

In [None]:
cantidad_de_personas <- ¿? + ¿?

Por otro lado, podemos convertir los objetos en R de una clase a otra, aunque con algunas excepciones....

In [None]:
as.character(hace_frio)

In [None]:
as.integer(precio_del_dolar)

In [None]:
as.character(cantidad_de_personas)

In [None]:
as.logical(cantidad_de_personas)

In [None]:
as.integer(nombre_de_profesora)

# Estructuras de Datos

Uno de los puntos fuertes de R es que podemos definir un objeto que contenga muchos otros objetos, para luego aplicar la 
misma operación en todos. Con la función c construimos un vector.


In [None]:
cursos <- c("Bases de datos web", "Teoría de bases de datos", "R")
horas  <- c(8, 12, 20)

De la misma manera que podemos realizar cálculos con números también lo podemos hacer con vectores

In [None]:
horas + 2

In [None]:
2*horas

In [None]:
horas + c(1, 2, 3)

Los vectores sólo aceptan que todos los elementos que sean guardados en los mismos sean de la misma clase.

In [None]:
cs <- c("Bases de datos", "R", 2)
#¿Qué ocurrió con el 2?

En cambio, existe un objeto llamado lista que nos permite contener elementos de diferentes clases en el mismo objeto.

In [None]:
cs <- list("Bases de datos", "R", 2)
class(cs[[1]])
#¿De que clase es el primer elemento de la lista?

In [None]:
class(cs[[3]])
#¿De que clase es el cuarto elemento de la lista?

En R también encontramos estructuras de datos que son de dos dimensionen que nos van a permitir trabajar con
tablas (a las que vamos a llamar data.frames) y matrices.

A partir de los dos vectores que creamos anteriormente vamos a generar un data.frame

In [None]:
carga_horaria <- data.frame(cursos, horas)

In [None]:
class(carga_horaria)

In [None]:
str(carga_horaria)
#la función str nos permite analizar la estructura de los datos

In [None]:
dim(carga_horaria)
#dim devuelve las dimensiones del data.frame

In [None]:
colnames(carga_horaria)
#colnames nos devuelve los nombres de las columnas, de forma similar existe rownames

También podemos agregar más columnas o filas a un dataframe

In [None]:
?cbind

In [None]:
?rbind

In [None]:
profesores <- c("Cristina", "Cristina", "Andrés")

In [None]:
carga_horaria <- cbind(carga_horaria, profesores)
#fijense que estoy pisando la variable vieja
# agregando una nueva columna
#de forma similar puedo agregar filas con rbind 

Las matrices de forma similar a los vectores, sólo van a permitir contener un único tipo de dato

In [None]:
?matrix

In [None]:
?seq

In [None]:
v      <- seq(1, 9)

In [None]:
m1     <- matrix(data = v, nrow = 3, ncol = 3, byrow = TRUE)
m2     <- matrix(data = v, nrow = 3, ncol = 3, byrow = FALSE)

In [None]:
m1
m2

# Subsetting

Vamos a trabajar con un dataset que se encuentra dentro del paquete 'datasets' que se llama PlantGrowth, que 
contiene los datos de peso seco de plantas crecidas bajo distintas condiciones. R es un lenguaje que permite extender su
funcionalidad básica a partir de paquetes instalables y cargables a gusto del consumidor. 

In [None]:
plantas <- datasets::PlantGrowth
# Al dataset lo nombro como "plantas"
head(plantas)
# Nos muestra las primeras filas del dataset

In [None]:
colnames(plantas)

In [None]:
dim(plantas)

In [None]:
str(plantas)          

In [None]:
class(plantas$group)
# factor es una clase de escructura de datos
# similar a un vector que se reserva para asignar 
# variables cualitativas

In [None]:
levels(plantas$group)
# levels son los distintos valores que pueden 
# tomar los elementos dentro del objeto factor, en 
# este caso serían los distintos tratamiento a 
# los que se sometieron las plantas.

In [None]:
plantas$weight
# imprimir en pantalla la primera columna del dataset

In [None]:
plantas[, 1] 
# otra forma de hacer lo mismo

In [None]:
plantas[, "weight"]
# y otra más...

In [None]:
plantas[15, 1]
# imprimo en pantalla el valor que toma el peso
# (primera columna) en la planta número 15
# el primer valor entre corchetes indica a
# qué fila quiero acceder, y el segundo
# valor a qué columna

#¿cómo haría si quiero que me muestre en pantalla solamente las filas que corresponden al tratamiento 2?

In [None]:
?which

In [None]:
plantas[which(plantas$group == "trt2"), ]
# con which le estoy preguntando cuáles son
# las filas en las que en la columna
# "group" el valor sea igual a "trt2"

¿Y si quiero que me muestre las plantas que pesan más que 5.5?

In [None]:
plantas[which(plantas$weight > 5.5), ]

In [None]:
mayor5.5 <- plantas$weight > 5.5
# otra manera de hacer lo mismo, pero antes
# genero un vector logico que va a evaluar en
# cada fila si el valor de peso es mayor a 5.5 o no
mayor5.5

In [None]:
plantas[mayor5.5, ]
# uso ese vector para subsettear el data.frame

Ahora vamos a hacer lo mismo pero con dos condiciones: 
  * voy a querer imprimir en pantalla las plantas que pertenecen
  * al tratamiento 2 y que pesan más de 5.5

In [None]:
plantas[which(plantas$weight > 5.5 & plantas$group == "trt2"), ]

También puedo guardar la tabla subseteada como un nuevo objeto

In [None]:
plantas2 <- plantas[which(plantas$weight > 5.5 & plantas$group == "trt2"), ]

Ahora vamos a ver cómo se subsetea una lista.
En las listas, al poder contener objetos muy variados, hay que tener 
ciertas consideraciones a la hora de subsetear.

In [None]:
tecnicas_BioMol <- list("Southern", "Western" , c("Northern", "RNASeq", "RTPCR"))

In [None]:
length(tecnicas_BioMol)
# ¿cuántos elementos tiene la lista? ¿por qué?

In [None]:
tecnicas_BioMol[1]
# quiero imprimir el primer elemento de la lista...

In [None]:
class(tecnicas_BioMol[1])
# pero...

In [None]:
tecnicas_BioMol[[1]]
# ¿cuál es la diferencias con el paso anterior?

In [None]:
class(tecnicas_BioMol[[1]])

In [None]:
tecnicas_BioMol[[3]]
# ¿qué ocurre cuando tengo un vector dentro de una lista?

In [None]:
tecnicas_BioMol[[3]][2]
# para llegar al elemento que se encuentra en la 2da posición en la lista

También puedo nombrar a cada elemento de la lista y usarlos para subsetear

In [None]:
tecnicas_BioMol <- list(DNA = "Southern", Proteinas = "Western" , RNA = c("Northern", "RNASeq", "RTPCR"))
tecnicas_BioMol$RNA

# Estructuras de Control

Bamos a usar un ejemplo: queremos saber cuanto vale la suma de los primeros 100 números naturales.
Para eso tenemos que tener una variable que vaya acumulando el resultado de la suma en cada iteración (n), y otra 
variable que vaya recorriendo los números desde 1 hasta 100 (i)

In [None]:
n=0
for (i in 1:100) {
  n <- n+i
}
print(n)

¿Hay alguna forma de hacer lo mismo pero sin utilizar un for?

In [None]:
sum(1:100)

Queremos saber si un número es par o impar, entonces debemos usar la estructura if - else

In [None]:
numero = 10
if (numero%%2 == 0){
  print("El número es par")
} else {
  print("El número es impar")
}

Esta es otra forma pero imprimiendo de otra manera los resultados (más fachero)

In [None]:
numero = 10
if (numero%%2 == 0){
  print(paste("El número", numero, "es par"))
} else {
  print(paste("El número", numero, "es impar"))
}

In [None]:
?paste

Ahora queremos guardar en una variable la suma de los números pares desde 1 a 100 y en otra variable la suma de 
los números impares. En este caso vamos a necesitar un "if" que me permita saber si un número es par o impar. 

El operador %% me permite saber el resto de la división, por ej. 48%%2 va a devolver 0, que 48 es divisible 
por 2

In [None]:
pares   = 0
impares = 0

for (i in 1:100){
  if (i%%2 == 0)
    pares = pares + i
  else{
    impares = impares +i
  }
}

print(pares)
print(impares)

¿Hay alguna forma de hacer lo mismo pero sin utilizar un for ni un if?

In [None]:
pares = sum(seq(2, 100, by = 2))
impares = sum(seq(1, 100, by = 2))

In [None]:
?seq

# Crear Funciones

Primer ejemplo sencillo para definir una función en R

In [None]:
sumar <- function(x, y) {
  print(x+y)
}

In [None]:
sumar(2, 3)

In [None]:
sumar <- function(x, y) {
  suma <- x+y
  return(suma)
}

In [None]:
total <- sumar(2, 3)
print(total)

In [None]:
total <- sumar(total, 10)

Otro ejemplo pero usando un for dentro de la función...

In [None]:
sumar_hasta <- function(n){
  suma_i <- 0
  for(i in 1:n){
    suma_i = suma_i + i
  }
  return(suma_i)
}

In [None]:
sumar_hasta(100)

In [None]:
sumar_hasta(1010)

# Importación de Paquetes

In [None]:
install.packages("ggplot2")

In [None]:
library(ggplot2)

# Exportación e Importación

Vamos a exportar la tabla del experimento de crecimiento de plantas filtrada por tipo de tratamiento (trt2) y por 
peso (plantas con peso mayor a 5.5)

In [None]:
getwd()
# Para saber donde estamos parados

In [None]:
setwd()
# Para elegir donde estamos parados

In [None]:
?write.csv

In [None]:
write.table(plantas2, file = "plantas_filtradas.csv", sep=",", quote = F, row.names = F) #Probar otros sep " ", "\t"

También se puede exportar en un tipo de archivo especial que permite guardar en un solo archivo uno o más objetos de R. Vamos a exportar tanto la tabla original como la tabla filtrada en el archivo "plantas_filtradas.RData"

In [None]:
?save

In [None]:
save(plantas, plantas2, file = "plantas_filtradas.RData")

Vamos a borrar los objetos que acabamos de guardar para ver cómo los importamos de nuevo a nuestra sesión

In [None]:
rm(plantas, plantas2)
# este comando eliminará de nuestra sesión estos dos objetos

In [None]:
load("plantas_filtradas.RData")
# ahora los volvemos a importar desde el archivo plantas_filtradas.RData

También podemos levantar un archivo de tabla tipo csv o separado por tabs u espacios

In [None]:
plantas_leidas <- read.table(file = "plantas_filtradas.csv", header = T, sep=",")
# Probar otros sep " ", "\t"

# Algunos gráficos

Generamos algunos datos para graficar

In [None]:
x <- seq(from=-2*pi, to=2*pi, by=0.1)
y <- sin(x)
w <- cos(x)
z <- tan(x)

Los graficamos con la libreria gráfica de r

In [None]:
plot(x, y)
points(x, w, col="red")
lines(x, z, col="blue")
abline(h=0, col="green")
abline(v=1, col="green")
abline(a=0, b=0.5, col="cyan")

Generamos datos de distribuciones uniforme y normal

In [None]:
uniformes <- runif(100000)
normales  <- rnorm(100000)

Graficamos los histogramas

In [None]:
hist(uniformes)
hist(normales, breaks=30)