Estructuras de Datos
===

* *30 min* | Última modificación: Junio 22, 2019

**Bibliografía**.

> [An introduction to R](https://cran.r-project.org/doc/manuals/R-intro.pdf) by W. N. Venables, D. M. Smith and the R Core Team


## Vectores

In [1]:
a = c(1, 2, 3, 4, 5) # creación de la lista
a

In [2]:
a <- c(a, 6) # agrega el elemento al final
a

In [3]:
b <- c(7, 8, 9)  # crea un nuevo vector
a <- c(a, b)    # pega el nuevo vector al final del anterior
a

In [4]:
append(a, 0, 2)  # agrega el elemento 0 al vector despues de la posición 2

In [5]:
x = c('a', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd', 'd') # cuenta la cantidad de veces que aparece cada elemento
table(x)

x
a b c d 
1 2 3 4 

In [6]:
x <- 1:10
x[-2]  # remueve el elemento en la posición 2

In [7]:
x <- c(1:4, 1:4, 1:4)
x[x != 1] # remueve los elementos iguales a 1

In [8]:
rev(1:10)  # invierte el vector

In [9]:
sort(c(2, 4, 1, 5, 3))  # ordena el vector

In [10]:
x <- 1:10
x[-length(x)] # elimina el último elemento del vector.

In [11]:
x = seq(10) # devuelve una lista
x

## Matrices

R permite la operación directa sobre matrices.

In [12]:
x <- matrix(1:12, nrow = 4, ncol = 3)
print(x)

     [,1] [,2] [,3]
[1,]    1    5    9
[2,]    2    6   10
[3,]    3    7   11
[4,]    4    8   12


In [13]:
c(x)

In [14]:
print(t(x))

     [,1] [,2] [,3] [,4]
[1,]    1    2    3    4
[2,]    5    6    7    8
[3,]    9   10   11   12


In [15]:
print(cbind(c(1,2,3),c(4,5,6)))  # pega por columnas

     [,1] [,2]
[1,]    1    4
[2,]    2    5
[3,]    3    6


In [16]:
print(rbind(c(1,2,3),c(4,5,6))) # pega por filas

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6


In [17]:
x[1,]

In [18]:
x[,1]

In [19]:
x[c(2,3), 2]

In [20]:
x[x>5]  # selección lógica

In [21]:
x[x<4] <- 0
print(x)

     [,1] [,2] [,3]
[1,]    0    5    9
[2,]    0    6   10
[3,]    0    7   11
[4,]    4    8   12


In [22]:
x <- matrix(0, 4, 4)
x[seq(1,16, by = 5)] <- 1
print(x)

     [,1] [,2] [,3] [,4]
[1,]    1    0    0    0
[2,]    0    1    0    0
[3,]    0    0    1    0
[4,]    0    0    0    1


In [23]:
y <- matrix(1:16, 4, 4)
print(x + y)

     [,1] [,2] [,3] [,4]
[1,]    2    5    9   13
[2,]    2    7   10   14
[3,]    3    7   12   15
[4,]    4    8   12   17


In [24]:
print(x * y)

     [,1] [,2] [,3] [,4]
[1,]    1    0    0    0
[2,]    0    6    0    0
[3,]    0    0   11    0
[4,]    0    0    0   16


In [25]:
print(x %*% y)

     [,1] [,2] [,3] [,4]
[1,]    1    5    9   13
[2,]    2    6   10   14
[3,]    3    7   11   15
[4,]    4    8   12   16


In [26]:
print(solve(x))  # inversa

     [,1] [,2] [,3] [,4]
[1,]    1    0    0    0
[2,]    0    1    0    0
[3,]    0    0    1    0
[4,]    0    0    0    1


In [27]:
print(x + 1)

     [,1] [,2] [,3] [,4]
[1,]    2    1    1    1
[2,]    1    2    1    1
[3,]    1    1    2    1
[4,]    1    1    1    2


## Funciones `lapply` ,  `apply` 

In [28]:
x <- 1:6
sqrd <- function(x) x ** 2
lapply(x, sqrd)  # aplica la función a cada elemento y devuelve una lista

In [29]:
x <- matrix(1:16, 4, 4)
print(x)

     [,1] [,2] [,3] [,4]
[1,]    1    5    9   13
[2,]    2    6   10   14
[3,]    3    7   11   15
[4,]    4    8   12   16


In [30]:
print(apply(x, 1, sum))  # aplica la función a cada fila

[1] 28 32 36 40


In [31]:
print(apply(x, 2, sum))  # aplica la función a cada columna

[1] 10 26 42 58


## Data frames

Los dataframes son la estructura base para almacenar tablas en R. Son ampliamente usados en diferentes funciones para realizar cálculos y estimar modelos. 

In [32]:
x <- 1:5
y <- x ** 2
d <- data.frame(x, y)
print(d)

  x  y
1 1  1
2 2  4
3 3  9
4 4 16
5 5 25


In [33]:
print(d['x']) # acceso a los elementos usando el nombre de las columnas

  x
1 1
2 2
3 3
4 4
5 5


In [34]:
print(d['y'])

   y
1  1
2  4
3  9
4 16
5 25


In [35]:
print(d[2:4,])  # acceso como una matriz

  x  y
2 2  4
3 3  9
4 4 16


In [36]:
print(d[2:4,2])

[1]  4  9 16


In [37]:
d$x  # acceso como una lista

In [38]:
d$y # acceso como una lista

In [39]:
print(head(d, n = 3)) # imprime los primeros tres registros

  x y
1 1 1
2 2 4
3 3 9


In [40]:
print(tail(d, n = 3))  # imprime los ultimos tres registros

  x  y
3 3  9
4 4 16
5 5 25


In [41]:
d$nuevo = c('a', 'a', 'b', 'c', 'd')  # agrega una nueva columna

In [42]:
print(d)

  x  y nuevo
1 1  1     a
2 2  4     a
3 3  9     b
4 4 16     c
5 5 25     d


In [43]:
str(d)

'data.frame':	5 obs. of  3 variables:
 $ x    : int  1 2 3 4 5
 $ y    : num  1 4 9 16 25
 $ nuevo: chr  "a" "a" "b" "c" ...


In [44]:
print(d[-2,])  # elimina la segunda fila

  x  y nuevo
1 1  1     a
3 3  9     b
4 4 16     c
5 5 25     d


In [45]:
print(d[,-2]) # elimina la segunda columna

  x nuevo
1 1     a
2 2     a
3 3     b
4 4     c
5 5     d


In [46]:
print(rbind(d, c(6, 36, 'f')))

  x  y nuevo
1 1  1     a
2 2  4     a
3 3  9     b
4 4 16     c
5 5 25     d
6 6 36     f


In [47]:
print(cbind(d, m = seq(from=10, to=50, by=10)))

  x  y nuevo  m
1 1  1     a 10
2 2  4     a 20
3 3  9     b 30
4 4 16     c 40
5 5 25     d 50


## Conjuntos

R no posee conjuntos propiamente dichos, pero es posible aplicar las funciones de conjuntos a vectores.

In [48]:
x = c(1:5, 1:5, 1:5)
print(x) 

 [1] 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5


In [49]:
print(unique(x))  # extrae los elementos únicos

[1] 1 2 3 4 5


In [50]:
duplicated(x) # indica los elementos duplicados

In [51]:
x <- 1:7
y <- 5:10
print(union(x, y))

 [1]  1  2  3  4  5  6  7  8  9 10


In [52]:
print(intersect(x, y))

[1] 5 6 7


In [53]:
print(setdiff(x, y))

[1] 1 2 3 4


In [54]:
print(setequal(x, y))

[1] FALSE


In [55]:
print(1 %in% x)

[1] TRUE


## Uso de listas como dicionarios

A diferencia de Python, R no posee diccionarios, pero pueden simularse usando listas o vectores.

In [56]:
tel = c(jack=4098, sape=4139) # 'jack'  y 'sape'actuan como claves y 4098 y 4139 son los valores
tel['guido'] = 4127  # se agrega un neuvo elemento al dicicionario.
tel

In [57]:
tel['jack']  # se obtiene el valor asociado a la clave 'jack'

In [58]:
names(tel)    # la función `names` imprime los nombres de los elementos.

In [59]:
sort(names(tel))  # nombres ordenados.

In [60]:
'irv' %in% names(tel)  

## Factores

Los factores son variables categóricas, usualmente ordenadas, que representan clases.  

In [61]:
x <- factor(c("A","B","B","A"))
print(x)

[1] A B B A
Levels: A B


In [62]:
str(x)

 Factor w/ 2 levels "A","B": 1 2 2 1


In [63]:
x <- factor(c("A","B","B","A"), levels = c('A', 'B', 'C'))
print(x)

[1] A B B A
Levels: A B C


In [64]:
str(x)

 Factor w/ 3 levels "A","B","C": 1 2 2 1


In [65]:
x[2]

In [66]:
x[2] <- 'C'  # se cambia el nivel 

In [67]:
print(x)

[1] A C B A
Levels: A B C


In [68]:
levels(x) <- c(levels(x), 'E') # se agrega un nuevo nivel
str(x)

 Factor w/ 4 levels "A","B","C","E": 1 3 2 1


## Strings

In [69]:
toupper('hola mundo')

In [70]:
tolower('HOLA MUNDO')

---

**Ejercicio.--** Escriba una función equivalente a la función `swapcase` para los strings en Python.

**Ejercicio.--** Escriba una función equivalente a la función `title` para los strings en Python.

**Ejercicio.--** Escriba una función equivalente a la función `center` para los strings en Python.

**Ejercicio.--** Escriba una función equivalente a la función `ljust` para los strings en Python.

**Ejercicio.--** Escriba una función equivalente a la función `rjust` para los strings en Python.

**Ejercicio.--** Escriba una función equivalente a la función `count` para los strings en Python.

**Ejercicio.--** Escriba una función equivalente a la función `isalnum` para los strings en Python.

**Ejercicio.--** Escriba una función equivalente a la función `isalpha` para los strings en Python.

**Ejercicio.--** Escriba una función equivalente a la función `isdigit` para los strings en Python.

**Ejercicio.--** Escriba una función equivalente a la función `splitlines` para los strings en Python.

---

In [71]:
strsplit('1,2,3,4,5', ',')

`grep` retorna un vector de enteros que indican la posición de los strings que cumplen con un patrón.

In [72]:
sprintf('%g', 1:20)

In [73]:
x <- sprintf('%g', 1:20)
x[grep('1', x)]
grep('1', x)

In [74]:
x <- sprintf('%g', 1:100)
x[grep('1$', x)]  # **Imprima los números del 1 al 100 que finalicen con un '1'.**

In [75]:
x <- sprintf('%g', 1:100)
x[grep('^1', x)] # **Imprima los números del 1 al 100 que empiecen con un '1'.**

In [76]:
x <- sprintf('%g', 1:20)
length(x[grep('1', x)])

In [77]:
x <- c("123456790",
       "abcdefghi",
      "jklmnopqr" )
substring(x, first=3, last=5)

## Representación de datos como cadenas de texto

In [78]:
s <- 'Hello, world.'
print(s) # note que aca lo imprime con las comillas

[1] "Hello, world."


In [79]:
str(s) # imprime el tipo

 chr "Hello, world."


In [80]:
cat(s) # imprime sin las comillas

Hello, world.

In [81]:
a = 12  
as.character(a)  # convierte al 1 de número a string.

In [82]:
as.character(1/7)

La función `cat()` es usualmente usada para la concatenación de strings, tal como se ilustra en el siguiente ejemplo.

In [83]:
x = 10 * 3.25
y = 200 * 200
s = paste('The value of x is ', x, ', and y is ', y, '...')
cat(s)

The value of x is  32.5 , and y is  40000 ...

In [84]:
cat("linea 1", "linea 2", "linea 3")

linea 1 linea 2 linea 3

In [85]:
cat("linea 1", "linea 2", "linea 3", sep='-', end='***')

linea 1-linea 2-linea 3-***

In [86]:
cat("linea 1", "linea 2", "linea 3", sep='\n', end='***')

linea 1
linea 2
linea 3
***


In [87]:
cat(x, y, c('spam', 'eggs'))

32.5 40000 spam eggs

In [88]:
for (x in seq(10)) {
    cat(sprintf('%2d  %3d %4d\n', x, x^2, x^3))
}

 1    1    1
 2    4    8
 3    9   27
 4   16   64
 5   25  125
 6   36  216
 7   49  343
 8   64  512
 9   81  729
10  100 1000


In [89]:
print(sprintf('%5d', 5))

[1] "    5"


In [90]:
print(sprintf('%-5d', 5))

[1] "5    "


In [91]:
print(sprintf('%05d', 5))

[1] "00005"


In [92]:
print(sprintf('%05d', -3))

[1] "-0003"


In [93]:
print(sprintf('%5.2f', 3.14159265359))

[1] " 3.14"


In [94]:
cat(sprintf('Este es el argumento %s y este el "%s"', '-1-', '-2-'))

Este es el argumento -1- y este el "-2-"

In [95]:
print(sprintf('%s ---- %f', 'hola mundo', 1.23456789))

[1] "hola mundo ---- 1.234568"


In [96]:
print(sprintf('%15s ---- %8.2f', 'hola mundo', 1.23456789))

[1] "     hola mundo ----     1.23"


In [97]:
print(sprintf('%-15s ---- %8.2f', 'hola mundo', 1.23456789))

[1] "hola mundo      ----     1.23"


In [98]:
sprintf('linea %d', 1:5)

In [99]:
sprintf('%d,', seq(5))

In [100]:
cat(sprintf('%d', seq(5)), sep=',')

1,2,3,4,5

In [101]:
cat(sprintf('%d,', seq(5)), sep='')

1,2,3,4,5,

In [102]:
x <- list(Sjoerd=4127, Jack=4098, Dcab=7678)
for (z in names(x)) {
    print(sprintf('%-10s   ==> %10d', z, x[[z]]))
} 

[1] "Sjoerd       ==>       4127"
[1] "Jack         ==>       4098"
[1] "Dcab         ==>       7678"
