# Introducción a R
Bioinformática para Antropología

Vamos a aprender a utilizar el lenguaje de programación para computación estadística R. Su primera versión fue publicada en 1995 y su primera versión estable apareció en febrero del año 2000. Es un lenguaje interpretado o sea que no requiere de compilador y está orientado a objetos por lo que las variables tienen diferentes tipos y cada tipo de variable tiene características y funciones inherentes. 

Este lenguaje tiene implementadas operaciones aritméticas de matrices, pruebas estadísticas clásicas, librerías de aleatorización, modelación (lineal y no lineal) y tiene un gran poder de generación de gráficos directamente publicables. Aunque muchos investigadores de diversas areas aprenden R simplemente para generar gráficos, recientemente se han liberado librerías de R relacionadas con campos de estudio particulares, incluyendo la bioinformática. Ejemplos de estas librerías son *ape* para la construcción de filogenias, *DESeq* para el análisis de transcriptomas y *vegan* que contiene análisis estadísticos usados en ecología.

En la actualidad, es conveniente usar este tipo de programas para llevar a cabo investigación científica ya que podemos guardar y publicar la serie de comados utilizados para analizar los datos y generar las gráficas presentadas como resultados.

La forma por defecto para trabajar con R es la línea de comandos, aunque hoy en día es muy común utilizar un ambiente integrado de desarrollo (IDE, por sus siglas en ingés) que es una aplicación de software que le facilita la gestión del código al usuario. Un ejemplo de IDE es RStudio que les recomiendo que instalen (https://rstudio.com/).

Abran R ya sea desde la línea de comandos o desde RStudio y lleven a cabo estos pasos. Si R les dice que existe un error, no se asusten y lean lo que dice el error. Trabajar con lenguajes de programación implica tener paciencia y poner atención todo el tiempo pero una vez que se acostumbran van a ganar mucho.

Si trabajan desde la línea de comando van a ver un símbolo '>' que significa que R está esperando una entrada. Es aquí en donde se ingresa el código y para que corra se presiona ENTER.

En esta bitácora se muestran celdas de código numeradas y a continuación la respuesta que da la línea de comandos de R. Algunos de los resultados mostrados no corresponden. Fíjense cuales son.

Las operaciones númericas son bastante intuitivas:

In [1]:
1+1

In [2]:
2*2

Recuerden el orden de las operaciones aritméticas:

In [3]:
2+2*3

Si tienen dudas con el orden, siempre pueden usar paréntesis:

In [4]:
(2+2)*3

In [5]:
2/5

Es posible obtener el residuo de una división de enteros:

In [6]:
5%%3

También podemos calcular potencias:

In [7]:
2^4

Hasta ahora hemos estado trabajando con un solo tipo de variable. Vamos a ver su nombre en R con la función **class**:

In [8]:
class(1)

El número 1 es un objeto, cuyo tipo es 'numeric' y los objetos de tipo numeric tienen implementadas las operaciones aritméticas, entre otras.

Ahora vamos a crear una variable y le vamos a asignr el valor del número 5. Noten como el operador para asignar **<-** es literalmente una flecha que apunta a la izquierda:

In [9]:
x <- 5

Esta expresión se lee "x tráelo de 5."

Noten que al presionar ENTER, R no respondió nada, simplemente porque no le preguntamos nada, al contrario de los comandos anteriores. Ssolo se limitóa guardar el valor de la variable.

También se puede usar una flecha apuntando al otro lado que se lee como "llévalo a:"

In [10]:
5 -> x

Esta expresión se lee "5 llévalo a x." Yo recomiendo usar "<-" simplemente porque es más fácil de escribir en la mayoría de los teclados de computadora.

Podemos pedirle a R que nos enseñe el valor de nuestra variable.

In [11]:
x

El tipo de la variable depende de lo que se le haya asignado:

In [12]:
class(x)

Por esa razón, es posible llevar a cabo operaciones ariméticas:

In [13]:
x+2

In [14]:
x*3

In [15]:
x*x

In [16]:
x^x

También se pueden asignar variables a partir de operaciones:

In [17]:
y <- x*3

In [18]:
y

In [19]:
z <- x/y

In [20]:
z

## Vectores

Ahora vamos a escalar las operaciones trabajando con vectores, que son arreglos unidimiensionales de objetos. Para esto, vamos a sobreescribir el valor de x y vamos a juntar una seríe de números con la función **c** que significa: concatenar.

In [21]:
x <- c(1,2,2,4,5)

In [22]:
x

Veamos qué clase tiene nuestro objeto:

In [23]:
class(x)

La clase del vector corresponde a la clase de sus elementos.

El número de elementos que tiene un vector define su tamaño, que se puede verificar con la función **length**.

In [24]:
length(x)

Es posible hacer operaciones aritméticas con vectores.

In [25]:
x+1

In [26]:
x*2

In [27]:
x^4

In [28]:
x*x

Es posible usar el operador ':' para generar vectores de números enteros consecutivos:

In [29]:
x <- 1:5

In [30]:
x

## Matrices

Crear matrices es un poco más complicado. Con tal fin, vamos a usar la función **matrix** que tiene tres argumentos básicos:

data: son los valores que va a contener la matriz.

nrow: número de filas.

ncol: número de columnas.

In [31]:
y <- matrix(data=0, nrow=2, ncol=2)

In [32]:
y

0,1
0,0
0,0


Veamos el tipo de variable de y.

In [33]:
class(y)

Los objetos de tipo 'matrix' también tienen tamaño:

In [34]:
length(y)

Además, las matrices tienen dimensiones que se pueden ver con la función **dim**.

In [35]:
dim(y)

Dos filas y dos columnas.

Miren como se puede simplificar la declaración de los argumentos en la función matrix, aquí el orden de los argumentos define su significado. También fíjense en el orden en el cual se están asignando los datos en la matriz.

In [36]:
y <- matrix(1:9,3,3)

In [37]:
y

0,1,2
1,4,7
2,5,8
3,6,9


In [38]:
y <- matrix(1:12,3,4)

In [39]:
y

0,1,2,3
1,4,7,10
2,5,8,11
3,6,9,12


In [40]:
dim(y)

In [41]:
y <- matrix(1:12,4,3)

In [42]:
y

0,1,2
1,5,9
2,6,10
3,7,11
4,8,12


In [43]:
dim(y)

Las matrices también tienen implementadas las operaciones aritméticas.

In [44]:
y+1

0,1,2
2,6,10
3,7,11
4,8,12
5,9,13


In [45]:
y*2

0,1,2
2,10,18
4,12,20
6,14,22
8,16,24


In [46]:
y^3

0,1,2
1,125,729
8,216,1000
27,343,1331
64,512,1728


In [47]:
y/4

0,1,2
0.2,1.0,1.8
0.4,1.2,2.0
0.6,1.4,2.2
0.8,1.6,2.4


Regularmente necesitamos transponer una matriz, es decir, cambiar sus filas por sus columnas y se hace con la función **t**:

In [48]:
t(y)

0,1,2,3
1,2,3,4
5,6,7,8
9,10,11,12


Siguiendo las reglas del álgebra lineal, podemos hacer operaciones de matrices con vectores y matrices con matrices:

In [49]:
x <- (1,2,3,4)

In [50]:
y + x

0,1,2
2,6,10
4,8,12
6,10,14
8,12,16


In [51]:
y * x

0,1,2
1,5,9
4,12,20
9,21,33
16,32,48


In [52]:
z <- matrix(2:13,4,3)

In [53]:
z

0,1,2
2,6,10
3,7,11
4,8,12
5,9,13


In [54]:
y+z

0,1,2
3,11,19
5,13,21
7,15,23
9,17,25


In [55]:
y*z+1

0,1,2
2,30,90
6,42,110
12,56,132
20,72,156


Hasta aquí vamos a llegar por hoy. Les recomiendo que experimenten poniendo valores distintos a los que están en esta guía para que se acostumbren a la sintaxis de R. Les voy a dejar un par de tareas:

## Tarea 1
De las 55 céldas de código en esta bitácora, 10 tienen resultados que no corresponden. ¿Qué celdas son? ¿Qué valores deberían tener para obtener el resultado que aparece en esta bitácora?

## Tarea 2
No se entrega pero consiste en peguntarle por lo menos a 20 personas su estatura en cm, su edad, talla de zapatos en cm y si les gusta o no la pizza con piña. Con esta iformación llenen una tabla en excel en donde las columnas sean estas 4 variables y las filas correspondan a cada individuo entrevistado. Las dimensiones de la tabla deben ser de 4 columnas y por lo menos 20 filas. Cuando tengan la tabla, guárdenla como csv (texto separado por comas).