# Apuntes sobre R

## Introducción a R

El lenguaje y entorno de progrmación **R** está especialmente orientado al
análisis estadístico, representación gráfica y generación de informes. R fue
creado por Ross Ihaka y Robert Gentleman de la Universidad de Auckland, Nueva
Zelanda, y está desarrollado y mantenido por el grupo _R Development Core
Team_. Es un lenguaje interpretado, modular, completo y permite integración con
librerías escritas en C, C++, .Net, Python o Fortran.


### Hola, Mundo

In [1]:
# Print Hello World.
print("Hello World")

# Add two numbers.
print(23.9 + 11.6)

[1] "Hello World"
[1] 35.5


### Asignación

In [3]:
s <- "Hola, mundo"
print(s)

# Pero también se puede asignar de izquierda a derecha, esto mola

"Mery has a little lamb" -> song
print(song)

# Y también podemos usar el signo igual
s = 'simple and easy'
print(s)

# Por cierto, los comentarios empiezan por #, como en Python

[1] "Hola, mundo"
[1] "Mery has a little lamb"
[1] "simple and easy"


### Variables

La declaración del tipo de las variables no es obligatoria, se deduce
del contenido asignado a la variable, igual que en Python. Los tipos
de datos básicos de R son:

| Tipo      | Ejemplos     |
|-----------|--------------|
| Boolean   | TRUE / FALSE |
| Numeric   | 12.3, 5, 999 |
| Integer   | 2L, 23L      |
| Complex   | 3x2i         |
| Character | 'a', "bcD"   |
| Raw       | Binario      |

Los tipos compuestos son:

- Vectores
- Lists
- Matrices
- Arrays
- Factors
- Data Frames


### Vectores

Para crear un vector se usa la función `c()` que combina todos los elementos
que le pasemos en un vector.


In [4]:
v <- c(23, 45, 34, "Hola")
print(v)

[1] "23"   "45"   "34"   "Hola"


Los vectores permiten operar con ellos con expresiones matemáticas, que operan sobre cada elemento del vector:

In [8]:
c(1,2,3,4) + c(5,6,7,8)

Pero las operaciones darán arror si alguno de los datos en el vector no soportan la operación:

In [10]:
c(23, 45, 34, "Hola") + c(1, 2, 3, 4)

ERROR: Error in c(23, 45, 34, "Hola") + c(1, 2, 3, 4): argumento no-numérico para operador binario


 Una forma muy rápida y cómoda de generar una secuencia de números es la expresión:
 
     <límite inferior>:<límite superior>
     
por ejemplo:

In [6]:
1:12

-5:5 -> l
print(l)

 [1] -5 -4 -3 -2 -1  0  1  2  3  4  5


A diferencia de la función `range` de Python, se incluyen también el límite superior en el resultado. Se puede usar una sintaxis parecida a la de los _slices_ de Python, con la diferencia de que aquí se usan posiciones (empezando por el uno), no índices, y que el elemento final también está incuido. es decir:

In [25]:
l = c(1,2,3,4,5,6,7,8,9)
l[1] == 1  # En python usariamos l[0]
l[2:5]  # En python usariamos 1:4

Igual que con numpy, podemos usar _vectores índice_ y _vectores booleanos_ para filtrar un vector

In [35]:
l <- 0:9
print(l)
print( l[c(1,3,5,7, 9)] )
print( l[c(FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE)] )

 [1] 0 1 2 3 4 5 6 7 8 9
[1] 0 2 4 6 8
[1] 1 3 5 7 9


### Matrices

Una matríz (_Matrix_) es una estructura de datos bidimensional, rectangular. Se puede crear usando un vector de entrada con la función `matrix()`.

In [5]:
# Create a matrix.
M <- matrix( c('a','b','c','d','e','f'), nrow = 2, ncol = 3, byrow = TRUE)
print(M)

     [,1] [,2] [,3]
[1,] "a"  "b"  "c" 
[2,] "d"  "e"  "f" 


### Arrays

Las matrices estan restringidas a dos dimensiones, mientras que las arrays no tienen esa limitación. La función `array()` acepta un parámetro `dim` para especificar el número de dimensiones. En el siguiente ejemplo lo usamos para crear una metríz cúbica de 3 por 3 por 2:

In [13]:
# Create an array.
a <- array(c('rojo', 'verde', 'amarillo'),dim = c(3,3,2))
print(a)

, , 1

     [,1]       [,2]       [,3]      
[1,] "rojo"     "rojo"     "rojo"    
[2,] "verde"    "verde"    "verde"   
[3,] "amarillo" "amarillo" "amarillo"

, , 2

     [,1]       [,2]       [,3]      
[1,] "rojo"     "rojo"     "rojo"    
[2,] "verde"    "verde"    "verde"   
[3,] "amarillo" "amarillo" "amarillo"



### Data Frames

Los DataFrames son tablas que contienen objetos. A diferencia de la matrices, cada columna puede contener diferentes tipos de datos, es decir, que la primera collumna pueden ser numérica mientras que la segunda puede ser un caracter y la tercera un booleano. Es básicamente una lista de vectores de igual longitud.

Se pueden crear con la función `data.frame()`.

In [2]:
# Crear un data frame.

BMI <- 	data.frame(
   sexo = c("Masculino", "Masculino","Femenino"), 
   altura = c(152, 171.5, 165), 
   anchura = c(81,93, 78),
   peso = c(42,38,26)
)
print(BMI)

       sexo altura anchura peso
1 Masculino  152.0      81   42
2 Masculino  171.5      93   38
3  Femenino  165.0      78   26


Podemos listar las variables que están ahora mismo en memoria con la función  `ls()`.

In [7]:
print(ls())

[1] "BMI"  "M"    "s"    "song" "v"   


## Estructuras de Control

### El condicional IF

In [21]:
# condicional con una sola rama

30 -> x
if (x %% 2 == 0) {
   print("X es par")
}

# condicional con rama alternativa

31 -> x
if (x %% 2 == 0) {
   print("X es par")
} else {
   print("X es impar")
}


[1] "X es par"
[1] "X es impar"


### Funciones

Las funciones son muy similares a las de  Python. Pueden tener un número variable de parámetros y tambien aceptan valores por defecto y paso de parámetros por nombre. Muchas funciones matemáticas ya están incluidas en R, como `log`, `sin`, `exp`, sin necesidad de incluir ningún paquete (En Python teniamos que importar el módulo `math`).

Podemos definir nuestras porpias funciones asignando a una variable el resultado de evaluar `function`, por ejemplo:

In [38]:
distancia <- function(x, y) {
    sqrt(x^2 + y^2)
}

distancia(3,4)

Un truco interesante es que podemos simplemente escribir el nombre de una función para ver su definicón:

In [39]:
distancia