# **Elementos de R**

# Operadores aritméticos

R utiliza los símbolos habituales para operaciones aritméticas como:
- la suma $+$, 
- la resta $-$, 
- la multiplicación $*$, 
- la división $/$, y 
- la exponenciación ^. 

Para especificar el orden de las operaciones pueden usarse los paréntesis ( ) . Para tomar el módulo *%%*  y *%/%* para la
división de enteros.

## Ejemplos:

In [6]:
# Operador potencia
30^2

In [1]:
(1 + 1/100)^100

In [4]:
# operador de módulo (devuelve el residuo)
17%%5 

In [5]:
# Operador división de enteros
17%/%5

Podemos modificar el número de fígitos impresos **options(digits = x)**

In [9]:
options(digits = 3)

In [10]:
(1 + 1/100)^100

R tiene un número de funciones incorporadas, por ejemplo:
- $sin(x)$, 
- $cos(x)$, 
- $tan(x)$, (todas la funciones trogonométricas en radianes), 
- $exp(x)$, 
- $log(x)$ y 
- $sqrt(x)$. 

Algunas constantes especiales, como como $pi$ también están predefinidas.

In [11]:
exp(1)

In [12]:
pi

In [13]:
sin(pi/6)

Las funciones 

- $floor(x)$ y 
- $ceiling(x)$

redondean hacia abajo y hacia arriba, respectivamente, al al número entero más cercano.

In [1]:
floor(0.55)

In [2]:
ceiling(0.55)

# Variables

Una variable es como una carpeta con un nombre en el frente. Puedes colocar algo dentro de la carpeta, mirarlo, reemplazarlo por otra cosa, pero el nombre en el frente de la carpeta sigue siendo el mismo. Para asignar un valor a una variable utilizamos el comando de asignación **<-**. Las variables se crean la primera vez que se les asigna un valor. Se puede dar a una variable cualquier nombre compuesto por letras, números y **.** o **_**, siempre que empiece por una letra, o **.** y luego una letra. Tenga en cuenta que los nombres distinguen entre mayúsculas y minúsculas.


In [18]:
x <- 100

In [15]:
print(x)

[1] 100


In [19]:
(1 + 1/x)^x

In [20]:
n <- 1
n <- n + 1

In [21]:
print(n)

[1] 2


# Funciones

En matemáticas, una función toma uno o más argumentos (o entradas) y produce una o más salidas (o valores de retorno). Las funciones en R funcionan de forma manera análoga.

Para llamar o invocar una función definida en R se escribe el nombre de la función seguido de los valores de sus argumentos encerrados entre paréntesis y separados por comas. Lo ilustramos con la función seq, que produce secuencias aritméticas:




In [3]:
seq(from = 1, to = 9, by = 2)

Algunos argumentos son opcionales y tienen valores predefinidos por defecto, por ejemplo si omitimos by entonces R utiliza by = 1:

In [4]:
seq(from = 1, to = 9)

Cada valor del argumento viene dado por una expresión, que puede ser una constante una variable, otra llamada a una función o una combinación algebraica de éstas.

In [5]:
x <- 9
seq(1, x, x/3)

# Vectores

Un vector es una lista indexada de variables. Puedes pensar en un vector como en un cajón de un archivador: el cajón tiene un nombre en el exterior y dentro de él hay archivos etiquetados secuencialmente 1, 2, 3, . . . desde el frente. Cada fichero es una simple variable cuyo nombre está formado por el nombre del vector y el número de la etiqueta/índice: el nombre del elemento i-ésimo del vector x es x[i].

In [11]:
x <- seq(1, 10, by = 1)
y <- seq(11, 20, by = 1)
print(x)
print(y)

 [1]  1  2  3  4  5  6  7  8  9 10
 [1] 11 12 13 14 15 16 17 18 19 20


La función length(x) da el número de elemntos de $x$.

In [12]:
length(x)
length(y)

Podemos concatenar vectores

In [13]:
z <- c(x, y)
print(z)

 [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20


## Extracción de elementos de un vector 

Para referirse al elemento $i$ del vector $x$, utilizamos $x[i]$. Si $i$ es un vector de enteros positivos enteros, entonces $x[i]$ es el correspondiente subvector de $x$. Si los elementos de $i$ son negativos, se omiten los valores correspondientes.

In [14]:
x <- 100:110
print(x)

 [1] 100 101 102 103 104 105 106 107 108 109 110


Supongamos que deseamos extraer el elemento número 5.

In [15]:
x[5]

Si queremos eliminar el elemento 5 procedemos de la siguiente forma

In [16]:
x[-5]

Si queremos extraer un grupo de elementos del vector

In [17]:
i <- c(2, 3, 4, 5) # posición de elementos a extraer
x[i]

Si lo que deseamos es eliminarlos

In [18]:
i <- c(-2, -3, -4, -5) # posición de elementos a eliminar
x[i]

## Operaciones con vectores

Con  los vectores podemos realizar operaciones como:
- $u$ $\cdot$ $v$ 
- $u$ / $v$
- $u$ + $v$
- $u$ - $v$

donde $u$ y $v$ son vectores.  

Las operaciones algebraicas sobre vectores actúan sobre cada elemento por separado, es decir, por elementos.

In [39]:
x <- c(1, 2, 3)
y <- c(4, 5, 6)

Multiplicación

In [20]:
# la operación la realiza elemento a elemento
x * y

División


In [21]:
# la operación la realiza elemento a elemento
x / y

Suma

In [40]:
# la operación la realiza elemento a elemento
x + y

> Cuando se aplica una expresión algebraica a dos vectores de longitud desigual, R repite automáticamente el vector más corto hasta que tenga la misma longitud que el vector más largo.

In [27]:
c(1, 2, 3, 4) + c(1, 2)

R seguirá duplicando el vector más corto aunque no pueda igualar el vector más largo con un número entero de múltiplos, pero en este caso producirá un warning.

In [28]:
c(1,2,3) + c(1,2)

"longitud de objeto mayor no es múltiplo de la longitud de uno menor"


## Funciones con vectores

Si consideramos $x$ un vector númerico, entonces, podemos emplear las siguientes funciones
- $sum(x)$ : suma los elementos del vector $x$.
- $prod(x)$ : realiza el producto de los elementos del vector.
- $max(x)$ : regresa el máximo del vector.
- $min(x)$ : regresa el mínimo del vector.
- $sqrt(x)$ : calcula la raíz cuadrada de los elementos del vector.
- $sort(x)$ : ordena los elementos del vector.
- $mean(x)$ : calcula la media de los elementos del vector.
- $var(x)$ : calcula la varianza.

In [33]:
# definimos un vector
x <- c(6, 5, 4, 3, 2, 1) 

In [34]:
# calculamos la media
mean(x)

In [35]:
sort(x)

## Datos faltantes

En los experimentos reales es frecuente que, por una u otra razón, falten ciertas observaciones. Dependiendo del análisis que se realice los datos que faltan pueden ser ignorados o imputados. R representa las observaciones que faltan mediante el valor de datos **NA**. Pueden ser mezclados con todos los demás tipos de datos. Lo más fácil es pensar en los valores **NA** como el lugar de los datos que deberían estar ahí, pero que, por alguna razón, no lo están. Podemos detectar los valores que faltan utilizando **is.na**.



In [1]:
a <- NA
is.na(a)

In [2]:
a <- c(11,NA,13)
is.na(a)

In [3]:
mean(a)

In [4]:
mean(a, na.rm = TRUE)

También mencionamos el objeto nulo, llamado **NULL**, que es devuelto por algunas funciones y expresiones. Tenga en cuenta que **NA** y **NULL** no son equivalentes. **NA** es un marcador de posición para algo que existe pero que falta. **NULL** representa algo que nunca ha existido.

# Expresiones lógicas

Una expresión lógica se forma utilizando los operadores de comparación:
- $<$, 
- $>$, 
- $<=$, 
- $>=$, 
- $==$ (igual a) y 
- $!=$ (no igual a)

los operadores lógicos son :

| Símbolo  | Uso        |    Significado        | Ejemplo           |  Resultado |
| --- | --- | --- | --- | --- |
|  \& (y)  |  x \& y    |  x Y y son verdadero  |  TRUE \& FALSE    |  FALSE   |
| \| (o)    |  x \| y  |  x Ó y es verdadero   |  TRUE \| FALSE     |  TRUE    |
|  \! (no)  |  \!x       |  x no es verdadero    | \!TRUE               |  FALSE   |


Los operadores | y $\&$ siguen estas reglas:

- | devuelve TRUE si alguno de los datos es TRUE
- $\&$ solo devuelve TRUE si ambos datos es TRUE

El orden de las operaciones puede controlarse mediante paréntesis ().

El valor de una expresión lógica es TRUE o FALSE. Los enteros $1$ y $0$ también pueden utilizarse para representar TRUE y FALSE, respectivamente.

In [5]:
x <- c(0, 0, 1, 1) 
y <- c(0, 1, 0, 1)

In [7]:
x | y

> Tenga en cuenta que A|B es TRUE si A o B o ambos son TRUE

## Subconjuntos de un vector

Una forma de extraer un subvector es proporcionar un subconjunto como un vector de valores TRUE/FALSE, de la misma longitud que x.

In [8]:
x <- 1:20
x%%4 == 0

In [9]:
x[x%%4 == 0]

In [1]:
# con valores faltantes
x <- c(1, NA, 3, 4)
x > 2

In [7]:
x[x > 2]

Si desea conocer las posiciones de índice de los elementos TRUE de un vector lógico x, utilice which(x).

In [12]:
x <- c(1, 1, 2, 3, 5, 8, 13)

In [13]:
which(x%%2 == 0)

## Error de redondeo

Sólo los números enteros y las fracciones cuyo denominador es una potencia de 2 pueden representarse exactamente con la representación en coma flotante que se utiliza para almacenar números en los ordenadores digitales. Todos los demás números están sujetos a un error de redondeo. Esta necesaria limitación ha causado muchos disgustos.

In [14]:
2 * 2 == 4

In [15]:
sqrt(2) * sqrt(2) == 2

El problema aquí es que sqrt(2) tiene error de redondeo, que se magnifica cuando lo elevamos al cuadrado. La solución es utilizar la función $all.equal(x, y)$ que devuelve TRUE si la diferencia entre $x$ e $y$ es menor que alguna tolerancia establecida tolerancia, basada en el nivel de precisión operacional de R.

In [17]:
all.equal(sqrt(2) * sqrt(2), 2)

## Operadores lógicos secuenciales && y ||

Los operadores lógicos && y || son versiones de & y | evaluadas secuencialmente, respectivamente.

Supongamos que $x$ e $y$ son expresiones lógicas. Para evaluar $x$ & $y$, R evalúa primero $x$ e $y$, luego devuelve TRUE si $x$ e $y$ son ambos TRUE, FALSE en caso contrario. Para evaluar $x$ && $y$, R evalúa primero $x$. Si $x$ es FALSO, R devuelve FALSE sin evaluar $y$. Si $x$ es TRUE, R evalúa $y$ y devuelve TRUE si $y$ es TRUE, FALSE en caso contrario.

Del mismo modo, para evaluar $x$ || $y$, R sólo evalúa $y$ si tiene que hacerlo, es decir, si $x$ es FALSO.

In [37]:
v <- 0
sin(1/v) == 0

"Se han producido NaNs"


In [33]:
# Operación | evalua ambas operaciones
(v == 0)  | (sin(1/v) == 0)

"Se han producido NaNs"


In [35]:
# Operación || evalua primero v. Si v es FALSE evalua y
(v == 0)  || (sin(1/v) == 0)

**Nota**
Tenga en cuenta que && y || sólo funcionan con escalares, mientras que & y | funcionan con vectores sobre una base de elemento por elemento.

# Matrices

Una matriz se crea a partir de un vector utilizando la función matriz, que tiene la forma 

> $matrix(datos, nrow = 1, ncol = 1, byrow = FALSE)$ 

Aquí los datos son un vector de longitud máxima $nrow*ncol$, nrow y ncol son el número de filas y columnas respectivamente, y byrow puede ser TRUE o FALSE (por defecto FALSE) e indica si se desea desea rellenar la matriz fila por fila o columna por columna, utilizando los elementos de data. Si length(data) es menor que $nrow*ncol$, los datos se reutilizan tantas veces como sea necesario. Esto proporciona una forma compacta de hacer una matriz de ceros o unos.

In [41]:
# definimos un vector
x <- c(1, 2, 3, 4, 5, 6, 7, 8, 9)

In [43]:
# byrow = FALSE rellena la matriz por columnas
A <- matrix(x, nrow=3, byrow=FALSE)
print(A)

     [,1] [,2] [,3]
[1,]    1    4    7
[2,]    2    5    8
[3,]    3    6    9


In [44]:
# byrow = TRUE rellena la matriz por filas
A <- matrix(x, nrow=3, byrow=TRUE)
print(A)

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9


## Operaciones con matrices:
- A%*%B : Multiplicación matricial.
- A*B : Multiplicación de elemento a elemento.
- A + B : Suma de matrices.
- A - B : Diferencia de matrices.

In [48]:
# definimos la matriz A
A <- matrix(c(3, 5, 2, 3), nrow = 2, ncol = 2)
print(A)

     [,1] [,2]
[1,]    3    2
[2,]    5    3


In [49]:
# Definimos la matriz B
B <- matrix(c(1, 1, 0, 1), nrow = 2, ncol = 2)
print(B)

     [,1] [,2]
[1,]    1    0
[2,]    1    1


In [51]:
# Multiplicación matricial
C <- A %*% B
print(C)

     [,1] [,2]
[1,]    5    2
[2,]    8    3


In [52]:
# Multiplicación de elemento a elemento
C <- A * B
print(C)

     [,1] [,2]
[1,]    3    0
[2,]    5    3


In [53]:
# suma de matrices
C <- A + B
print(C)

     [,1] [,2]
[1,]    4    2
[2,]    6    4


In [54]:
# Diferencia de matrices
C <- A - B
print(C)

     [,1] [,2]
[1,]    2    2
[2,]    4    2


## Funciones con matrices
- $diag()$ : dado un vector genera una diagonal de una matriz.
- $solve()$ : Inversa de una matriz.
- $t()$ : Transpuesta de una matriz.
- $eigen()$ : dada una matriz devuelve una lista con los valores propios y vectores propios.


In [57]:
# definimos la matriz A
x <- 1:9
print(x)

[1] 1 2 3 4 5 6 7 8 9


In [58]:
# generamos una matriz diagonal
A <- diag(x)
print(A)

      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
 [1,]    1    0    0    0    0    0    0    0    0
 [2,]    0    2    0    0    0    0    0    0    0
 [3,]    0    0    3    0    0    0    0    0    0
 [4,]    0    0    0    4    0    0    0    0    0
 [5,]    0    0    0    0    5    0    0    0    0
 [6,]    0    0    0    0    0    6    0    0    0
 [7,]    0    0    0    0    0    0    7    0    0
 [8,]    0    0    0    0    0    0    0    8    0
 [9,]    0    0    0    0    0    0    0    0    9


In [63]:
# Generamos la matriz A
A <- matrix(c(2,4,5,7,8,9,10,3,7), nrow = 3, byrow=TRUE)
print(A)

     [,1] [,2] [,3]
[1,]    2    4    5
[2,]    7    8    9
[3,]   10    3    7


In [64]:
# Obtenemos su inversa
B <- solve(A)
print(B)

           [,1]       [,2]        [,3]
[1,] -0.3972603  0.1780822  0.05479452
[2,] -0.5616438  0.4931507 -0.23287671
[3,]  0.8082192 -0.4657534  0.16438356


In [65]:
# Obtenemos su transpuesta
B <- t(A)
print(B)

     [,1] [,2] [,3]
[1,]    2    7   10
[2,]    4    8    3
[3,]    5    9    7


In [66]:
# Obtenemos los valores y vectores propios
B <- eigen(A)
print(B)

eigen() decomposition
$values
[1] 17.835797 -2.483699  1.647902

$vectors
           [,1]       [,2]       [,3]
[1,] -0.3629023 -0.6393588 -0.1029763
[2,] -0.7563275 -0.2084645 -0.7731676
[3,] -0.5443075  0.7401101  0.6257857



## Extracción de elementos de una matriz

In [67]:
# Extracción de elementos de una matriz
A <- matrix(1:9, nrow = 3, byrow=TRUE)
print(A)

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9


In [69]:
# extraer el elemento del primer renglón y primera columna.
a11 <- A[1,1]
print(a11)

[1] 1


In [71]:
# extraer el elemento del segundo renglón y primera columna.
a21 <- A[2,1]
print(a21)

[1] 4


In [73]:
# extraer toda la primera fila
a1k <- A[1,]
print(a1k)

[1] 1 2 3


In [75]:
# extraer toda la primera columna
ak1 <- A[,1]
print(ak1)

[1] 1 4 7


In [76]:
# extraer toda la primera y segunda fila
a12k <- A[1:2,]
print(a12k)

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6


# Listas

Las listas son como vectores porque agrupan los datos en un conjunto unidimensional. Sin embargo, las listas no agrupan valores individuales; las listas agrupan objetos R, como vectores atómicos y otras listas. Por ejemplo, hacer una lista que contenga un vector numérico de longitud $31$ en su primer elemento, un vector de caracteres de longitud $1$ en su segundo elemento, y una nueva lista de longitud $2$ en su tercer elemento. Para ello, utilice la función de lista.


In [77]:
# definimos un vector
x<- c(1:9)
print(x)


[1] 1 2 3 4 5 6 7 8 9


In [78]:
# definimos una matriz
A <- matrix(1:9, nrow = 3, byrow=TRUE)
print(A)

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9


In [79]:
# cadena de caracteres
y <- "name"

In [80]:
# creamos una lista con los objetos x, A, y
list1 <- list(x, A, y)
print(list1)

[[1]]
[1] 1 2 3 4 5 6 7 8 9

[[2]]
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9

[[3]]
[1] "name"



In [84]:
# accedemos al primer elemento de la lista
l1 <- list1[[1]]
print(l1)

[1] 1 2 3 4 5 6 7 8 9


In [85]:
# accedemos al segundo elemento de la lista
l2 <- list1[[2]]
print(l2)

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9


In [86]:
# accedemos al tercer elemento de la lista
l3 <- list1[[3]]
print(l3)

[1] "name"


Podemos darle nombre a los elementos de la lista.

In [90]:
# creamos una lista con los objetos x, A, y
list1 <- list('elemento1' = x, 
               'elemento2' = A, 
               'elemento3' = y)
print(list1)

$elemento1
[1] 1 2 3 4 5 6 7 8 9

$elemento2
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9

$elemento3
[1] "name"



In [92]:
# segunda forma de acceder a cada elemento
print(list1$elemento1)

[1] 1 2 3 4 5 6 7 8 9


# Data frame

Los data frames son la versión bidimensional de una lista. Son, de lejos, la estructura de almacenamiento más útil para el análisis de datos. Puede pensar en un data frame como el equivalente de R a la hoja de cálculo de Excel porque almacena los datos en un formato similar.

<img src="./images/data_frame.png">

In [95]:
# definimos vectores 
name <- c("jorge", "pedro", "paco")
club <- c("club1", "club2", "club2")
edad <- c(16, 15, 17)

In [100]:
# formamos el data.frame
df1 <- data.frame(Name = name,
                 Club = club, 
                 Edad = edad)
print(df1)

   Name  Club Edad
1 jorge club1   16
2 pedro club2   15
3  paco club2   17


In [101]:
# supongamos que tenemos otro data frame
df2 <- data.frame(Name = c("hugo", "arturo", "javier"),
                 Club = c("club2", "club1", "club3"), 
                 Edad = c(16, 16, 17))
print(df2)

    Name  Club Edad
1   hugo club2   16
2 arturo club1   16
3 javier club3   17


In [102]:
# para unir dos data frames por columnas
df1y2  <- cbind(df1, df2)
print(df1y2)

   Name  Club Edad   Name  Club Edad
1 jorge club1   16   hugo club2   16
2 pedro club2   15 arturo club1   16
3  paco club2   17 javier club3   17


In [103]:
# para unir dos data frames por filas (deben tener los mismos nombres de columnas)
df1y2  <- rbind(df1, df2)
print(df1y2)

    Name  Club Edad
1  jorge club1   16
2  pedro club2   15
3   paco club2   17
4   hugo club2   16
5 arturo club1   16
6 javier club3   17
