# Estructuras de datos

Las estructuras de datos son objetos que contienen datos. Cuando trabajamos con R, lo que estamos haciendo es manipular estas estructuras. Las estructuras tienen diferentes caracteristicas, como su número de dimensiones y si son homogeneas o heterogeneas.

La siguiente tabla muestra las principales estructuras.

Dimensiones|Homogeneas|Heterogeneas
---------|----------|------------
1| Vector |Lista
2| Matriz| Data frame
n|Array |

A continuación veremos cada una de estas estructuras.

## Vectores
Es la estructura más sencilla en R. Un vector es una colección de uno o más datos del mismo tipo.

Todos los vectores tienes tre propiedades:

* ***Tipo.*** Un vector tiene el mismo tipo que los datos que contiene. Por ejemplo si tenemos datos de tipo character entonces el tipo del vector es character.

* ***Largo.*** Es el número de elementos que contiene el vector.

* ***Atributos.*** Describen caracteristicas de los datos que contienen.

Para crear vectores usamos la función ``c()`` (combinar) en la cual ponemos como argumento los elementos que deseamos combinar en un vector, separados por comas.

A continuación algunos ejemplos:

In [1]:
# Vector numérico
c(2,4,5,10,100)

In [2]:
#Vector de cadena de texto
c("perro","gato","cuyo")

In [3]:
#Vector lógico
c(TRUE,F,FALSE,T)

Para agregar un elemento a un vector ya existente, podemos hacerlo combinando el vector original con los elementos nuevos y asignando el resultado a nuestro vector original.

In [4]:
PrimerVector <- c(1,2,3)

In [5]:
PrimerVector

In [6]:
PrimerVector <-c(1,2,PrimerVector,5,20,4)

In [7]:
PrimerVector

También se pueden combinar vectores para crear un nuevo vector.

In [8]:
SegundoVector <- c(10, 8, 6, 7)

In [9]:
VectorCombinado <- c(PrimerVector, SegundoVector)

VectorCombinado

Cuando intentamos combinar datos de diferentes tipos en un mismo vector, R realiza una coerción automática. El vector resultante será del tipo más flexible entre los datos que contenga. A continuación algunos ejemplos:

In [10]:
VecNum <- c(11,7,9)
class(VecNum)

In [11]:
#Agregamos un dato de texto

VecNuevo <- c(VecNum, "hola")
class(VecNuevo)

In [12]:
VecNuevo

In [13]:
VecNuevo

Como las cadenas de texto son el tipo más flexible en este vector entonces el vector será tipo character (siempre que creamos un vector que incluye texto el resultado sera un vector con este tipo).

In [14]:
VecMezclado <- c(1,2, TRUE, "Sahira", 0.5)

In [15]:
class(VecMezclado)
VecMezclado

Se pueden crear vectores de secuencias numéricas usando ``:``. De un lado escribimos el número de inicio de la secuencia y del otro el final.

In [16]:
1:10

In [17]:
10:1

También se pueden hacer con numeros negativos y decimales. Si el número inicial tiene cifras decimales, estas serán respetadas al hacer los incrementos o decrementos de uno en uno. Pero, si el número final es un decimal, este será redondeado.

In [18]:
VecDecimal <- c(-0.5:5)
VecDecimal

In [19]:
VecDecimalFinal <- c(1: 5.2)
VecDecimalFinal

Se pueden usar las funciones ``seq()`` y ``rep()``. Y con estas funciones si podemos decidir si avanzaran de 1 en 1 u otro número.

In [20]:
#Si ponemos solo un numero entendera que empieza en el 1 e ira avanzando de 1 en 1
seq(5)

In [21]:
#En este caso empezará en 2 avanzando de 1 en 1 hasta llegar al 10
seq(2,10)

In [22]:
#Para indicar como avanzara se pone by=número
seq(2,10,by=2)

En la función ``rep()`` primero ponemos la serie y luego el numero de veces que se repetira

In [23]:
rep(1:3,3)

In [24]:
#Esta instrucción hace que cada número se repita 3 veces 
rep(1:3,each=3)

### Vectorización de operaciones.

Existen operaciones que al aplicarlas a un vector, se aplican a cada uno de sus elementos. A este proceso se le llama vectorización.

Las operaciones aritméticas y relacionales pueden vectorizarse.



In [25]:
Vector1 <- c(1,2,3,4,5)
Vector1

In [26]:
Vector1+1

In [27]:
Vector1 *2

In [28]:
Vector1 /2

Al aplicar operaciones relacionales, obtenemos un vector de ``TRUE`` y/o ``FALSE``, uno para cada elemento.

In [29]:
Vector1 > 0

In [30]:
Vector1<0

In [31]:
Vector1 < 3

## Matrices y arrays
Las matrices y arrays pueden ser descritas como vectores multidimensionales. Solo pueden contener datos de un sólo tipo y tienen más de 1 dimensión.

Las matrices son un caso especial de un array, que se distingue por tener especificamente dos dimensiones, un "largo" y un "alto". Las matrices son una estructura con forma rectangular con filas y columnas.

El uso de arrays no es muy común en R, pueden ser cubos, hipercubos y otras formas. Como los arrays tienen la restricción de que todos su datos sean del mismo tipo, sin importar en cuántas dimensiones se encuentren, esto limita sus usos prácticos.

### Creación de matrices.

Se usa la función ``matrix()`` para crear matrices, con los argumentos ``nrow`` y ``ncol`` especificamos el número de filas y columnas que tendrá nuestra matriz.


In [32]:
#Cuando no especificamos nrow y ncol, solo se crea una columna 
matrix(1:10)

0
1
2
3
4
5
6
7
8
9
10


In [33]:
matrix(1:10, nrow=2, ncol= 5)

0,1,2,3,4
1,3,5,7,9
2,4,6,8,10


Los datos serán acomodados en orden, de arriba a abajo y de izquierda a derecha, hasta formar un rectangulo.
Cuando intentamos acomodar un número diferente de elementos y celdas, ocurren dos cosas diferentes. Si el número de elementos es mayor al número de celdas, se acomodan todos los datos que sean posibles y los demás se omiten. 


In [34]:
matrix(1:10, nrow=2, ncol=3)

"la longitud de los datos [10] no es un submúltiplo o múltiplo del número de columnas [3] en la matriz"

0,1,2
1,3,5
2,4,6


Por el contrario si el número de celdas es mayor que el número de elentos estos se reciclaran y aparecera un advertencia.

In [35]:
matrix(1:10, nrow=5, ncol=3)

"la longitud de los datos [10] no es un submúltiplo o múltiplo del número de columnas [3] en la matriz"

0,1,2
1,6,1
2,7,2
3,8,3
4,9,4
5,10,5


Otra forma de crear matrices es a través de las funciones:
* ``cbind()`` para unir vectores, usando cada uno como columna.
* ``rbind()`` para unir vectores, usando cada uno como renglón.

A continuación algunos ejemplos:

In [36]:
VecMat1 <- c(1,2,3,4)
VecMat2 <- c(5,6,7,8)
VecMat3 <- c(9,10,11,12)

In [37]:
Mat1 <-cbind(VecMat1, VecMat2, VecMat3)
Mat1
class(Mat1)

VecMat1,VecMat2,VecMat3
1,5,9
2,6,10
3,7,11
4,8,12


In [38]:
Mat2 <- rbind(VecMat1, VecMat2, VecMat3)
Mat2

0,1,2,3,4
VecMat1,1,2,3,4
VecMat2,5,6,7,8
VecMat3,9,10,11,12


Estas funciones también nos sirven para agregar una fila o columna a una matriz que ya tenemos creada.

In [39]:
#Para agregar una fila
Fila5<-c(2,4,6)
Mat1<-rbind(Mat1, Fila5)
Mat1

Unnamed: 0,VecMat1,VecMat2,VecMat3
,1,5,9
,2,6,10
,3,7,11
,4,8,12
Fila5,2,4,6


In [40]:
#Para agregar una columna
VectMat4 <- c(4,5,6,9,1)
Mat1<-cbind(Mat1,VectMat4)
Mat1

Unnamed: 0,VecMat1,VecMat2,VecMat3,VectMat4
,1,5,9,4
,2,6,10,5
,3,7,11,6
,4,8,12,9
Fila5,2,4,6,1


### Nombres de las filas y columnas

Podemos hacer uso de ``rownames`` y ``colnames`` para nombrar las filas y columnas de nuestras matrices.


In [41]:
#Para cambiar el nombre de las filas
rownames(Mat1)<-c("Paciente1", "Paciente2", "Paciente3", "Paciente4","Paciente5")
Mat1

Unnamed: 0,VecMat1,VecMat2,VecMat3,VectMat4
Paciente1,1,5,9,4
Paciente2,2,6,10,5
Paciente3,3,7,11,6
Paciente4,4,8,12,9
Paciente5,2,4,6,1


In [42]:
#Para cambiar el nombre de las columnas
colnames(Mat1)<-c("NHijos","NHermanos","NSobrinos","NTios")
Mat1

Unnamed: 0,NHijos,NHermanos,NSobrinos,NTios
Paciente1,1,5,9,4
Paciente2,2,6,10,5
Paciente3,3,7,11,6
Paciente4,4,8,12,9
Paciente5,2,4,6,1


### Seleccion de Elementos

Podemos seleccionar datos especificos de una matriz de la siguiente manera 

In [43]:
Mat1[1,]

In [44]:
Mat1[,1]

In [45]:
Mat1[1,2]

También podemos utilizar el nombre de la fila y/o columna para seleccionar un dato especifico de la matriz

In [46]:
Mat1["Paciente2",]

In [47]:
Mat1[,"NSobrinos"]

In [48]:
Mat1["Paciente3","NHermanos"]

### Eliminar Filas y Columnas
Para eliminar filas usamos la notación ``[-i,]`` y para las columas ``[,-j]``.

In [49]:
Mat1[-5,]

Unnamed: 0,NHijos,NHermanos,NSobrinos,NTios
Paciente1,1,5,9,4
Paciente2,2,6,10,5
Paciente3,3,7,11,6
Paciente4,4,8,12,9


In [50]:
Mat1[,-3]

Unnamed: 0,NHijos,NHermanos,NTios
Paciente1,1,5,4
Paciente2,2,6,5
Paciente3,3,7,6
Paciente4,4,8,9
Paciente5,2,4,1


Se pueden aplicar operaciones a las matrices y estas se aplicarán a cada uno de sus elementos.

In [51]:
MatrizOpe <- matrix(1:9, nrow=3, ncol=3)
MatrizOpe

0,1,2
1,4,7
2,5,8
3,6,9


In [53]:
MatrizOpe <- MatrizOpe + 1

In [52]:
MatrizOpe*3

0,1,2
3,12,21
6,15,24
9,18,27


In [54]:
MatrizOpe ^2

0,1,2
4,25,64
9,36,81
16,49,100


Se puede utilizar la función ``t()`` para transponer una matriz, es decir, rotarla 90°.

In [55]:
MatrizTrans <- t(MatrizOpe)
MatrizTrans

0,1,2
2,3,4
5,6,7
8,9,10


## Listas

Las listas, al igual que los vectores son unidimensionales, pero a diferencia de los vectores cada uno de sus elementos puede ser de diferente tipo o clase.

* Una lista puede contener a otra lista

Para crear una lista se usa la funcion ``list()`` y podemos poner nombre a cada elemento.

No se pueden realizar operaciones con listas.


In [56]:
list(1, "pedro", T)

In [57]:
Lista1 <-list("Numero" = 1, "Nombre" = "Pedro", "Valor" = T)
Lista1

In [58]:
Lista2 <- list("casa", 120, Lista1)
Lista2

El largo de una lista es igual al número de elementos que contiene, sin importar de que clase sean. Y siempre tienen clase list, sin importar los elementos que contengan.

In [59]:
length(Lista1)

In [60]:
length(Lista2)

## Data frames

Esta estructura es la más usada para realizar análisis de datos. 

Los date frames se utilizan en R para almacenar datos. En términos generales, los renglones en un data frame representan casos, individuos u observaciones, mientras que las columnas representan atributos, rasgos o variables.

A continuación un ejemplo (objeto iris, del conjunto de datos *Iris de Ronald Fisher*,que esta incluido en todas las instalaciones de R) 

In [61]:
head(iris)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


***Importante:*** Los Data Frames se crean con vectores.

## Creación de Data Frames

Usamos la función ``data.frame()`` para crear un data frame, en donde pondremos vectores, cada vector será una columna. Todos los vectores que proporcionemos deben tener el mismo largo. Podemos poner nombre a cada vector, debemos procurar que este nombre sea descriptivo.



In [62]:
Pacientes1 <- data.frame( "Id" = c("P1","P2","P3","P4"),
                         "fecha" = c("11/12/2020","11/11/2020","01/12/2020","01/11/2020"),
                "edad"= c(30, 43, 49, 53),
                "peso" = c(80,69.6,137,96.5),
                "altura" = c(1.48,1.56,1.77,1.52))
Pacientes1

Id,fecha,edad,peso,altura
P1,11/12/2020,30,80.0,1.48
P2,11/11/2020,43,69.6,1.56
P3,01/12/2020,49,137.0,1.77
P4,01/11/2020,53,96.5,1.52


Existen algunas funciones que podemos usar para conocer datos sobre el data.frame.

In [63]:
#Para saber la dimensión, el primer numero representa las filas y el segundo las columnas
dim(Pacientes1)

In [64]:
#Para saber el numero de registros (filas)
dim(Pacientes1)[1]
nrow(Pacientes1)

In [65]:
#Para saber el largo (es decir el número de columnas)
dim(Pacientes1)[2]
ncol(Pacientes1)

In [66]:
# names() para ver los nombres de las columnas
names(Pacientes1)

In [67]:
#Para conocer la estructura str()
str(Pacientes1)

'data.frame':	4 obs. of  5 variables:
 $ Id    : Factor w/ 4 levels "P1","P2","P3",..: 1 2 3 4
 $ fecha : Factor w/ 4 levels "01/11/2020","01/12/2020",..: 4 3 2 1
 $ edad  : num  30 43 49 53
 $ peso  : num  80 69.6 137 96.5
 $ altura: num  1.48 1.56 1.77 1.52


Podemos observar que las variables ``ID`` y ``Fecha`` son tratadas como "Factor". Los factores son una clase de vector que contiene los datos de una variable categorica. Cuando R crea un factor, unicamente permite los valores que originalmente estaban ahí cuando cargamos los datos.

Para evitar esto podemos definir el tipo de variable que serán:

In [68]:
Pacientes1 <- data.frame( "Id" = c("P1","P2","P3","P4"),
                         "fecha" = as.Date(c("11/12/2020","11/11/2020","01/12/2020","01/11/2020")),
                "edad"= as.numeric(c(30, 43, 49, 53)),
                "peso" = c(80,69.6,137,96.5),
                "altura" = c(1.48,1.56,1.77,1.52))
Pacientes1

Id,fecha,edad,peso,altura
P1,0011-12-20,30,80.0,1.48
P2,0011-11-20,43,69.6,1.56
P3,0001-12-20,49,137.0,1.77
P4,0001-11-20,53,96.5,1.52


In [69]:
str(Pacientes1)

'data.frame':	4 obs. of  5 variables:
 $ Id    : Factor w/ 4 levels "P1","P2","P3",..: 1 2 3 4
 $ fecha : Date, format: "0011-12-20" "0011-11-20" ...
 $ edad  : num  30 43 49 53
 $ peso  : num  80 69.6 137 96.5
 $ altura: num  1.48 1.56 1.77 1.52


R lee este tipo de dato de la forma "aaaa/mm/dd". Por lo que si metemos datos de otra forma hay que indicarle el formato, para que pueda leerlos.

In [70]:
Pacientes1 <- data.frame( "Id" = c("P1","P2","P3","P4"),
                         "fecha" = as.Date(c("11/12/2020","11/11/2020","01/12/2020","01/11/2020"), format = "%d/%m/%Y"),
                "edad"= as.numeric(c(30, 43, 49, 53)),
                "peso" = c(80,69.6,137,96.5),
                "altura" = c(1.48,1.56,1.77,1.52))
Pacientes1

Id,fecha,edad,peso,altura
P1,2020-12-11,30,80.0,1.48
P2,2020-11-11,43,69.6,1.56
P3,2020-12-01,49,137.0,1.77
P4,2020-11-01,53,96.5,1.52


Podemos cambiar los nombres de nuestras columnas con la función ``names()``.

In [71]:
names(Pacientes1) <-c("ID","Fecha","Edad", "Peso", "Altura")
Pacientes1

ID,Fecha,Edad,Peso,Altura
P1,2020-12-11,30,80.0,1.48
P2,2020-11-11,43,69.6,1.56
P3,2020-12-01,49,137.0,1.77
P4,2020-11-01,53,96.5,1.52


In [72]:
rownames(Pacientes1) <-c("R1","R2","R3","R4")
Pacientes1

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R1,P1,2020-12-11,30,80.0,1.48
R2,P2,2020-11-11,43,69.6,1.56
R3,P3,2020-12-01,49,137.0,1.77
R4,P4,2020-11-01,53,96.5,1.52


### Selección de elementos


Podemos seleccionar datos dentro de nuestro data.frame con las siguientes instrucciones:

In [73]:
#Si queremos ver la información de una fila en especifico
Pacientes1[2,]

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R2,P2,2020-11-11,43,69.6,1.56


In [74]:
#Para ver un conjunto de filas
Pacientes1[2:3,]

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R2,P2,2020-11-11,43,69.6,1.56
R3,P3,2020-12-01,49,137.0,1.77


In [75]:
#Podemos ver una fila y columna en especifico
Pacientes1[2:3,4:5]

Unnamed: 0,Peso,Altura
R2,69.6,1.56
R3,137.0,1.77


In [76]:
#Para ver una columa podemos usar 
Pacientes1[,3]

In [77]:
#También podemos llamarlas por su nombre de la siguiente forma
Pacientes1$Altura

In [78]:
mean(Pacientes1$Altura)

In [79]:
#O poner el nombre dentro del corchete
Pacientes1[,"Altura"]

### Eliminar Columnas y Filas.

Para eliminar valores o columnas enteras debemos asignar el valor ``NULL`` a lo que deseamos eliminar.


Primero creemos una copia de nuestro DataFrame.

In [80]:
CopiaPacientes1<-Pacientes1
CopiaPacientes1

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R1,P1,2020-12-11,30,80.0,1.48
R2,P2,2020-11-11,43,69.6,1.56
R3,P3,2020-12-01,49,137.0,1.77
R4,P4,2020-11-01,53,96.5,1.52


Para el caso de columnas hacemos lo siguiente:

In [81]:
CopiaPacientes1$Fecha<-NULL
names(CopiaPacientes1)

In [82]:
CopiaPacientes1

Unnamed: 0,ID,Edad,Peso,Altura
R1,P1,30,80.0,1.48
R2,P2,43,69.6,1.56
R3,P3,49,137.0,1.77
R4,P4,53,96.5,1.52


Para quitar varias columas podemos usar las siguientes instrucciones:

In [83]:
CopiaPacientes1[ ,-c(2:3)]

Unnamed: 0,ID,Altura
R1,P1,1.48
R2,P2,1.56
R3,P3,1.77
R4,P4,1.52


In [84]:
CopiaPacientes2<- Pacientes1
CopiaPacientes2

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R1,P1,2020-12-11,30,80.0,1.48
R2,P2,2020-11-11,43,69.6,1.56
R3,P3,2020-12-01,49,137.0,1.77
R4,P4,2020-11-01,53,96.5,1.52


In [85]:
CopiaPacientes2[,-c(2,5)]

Unnamed: 0,ID,Edad,Peso
R1,P1,30,80.0
R2,P2,43,69.6
R3,P3,49,137.0
R4,P4,53,96.5


Para eliminar filas se pueden usar las siguientes instrucciones.

In [86]:
#Primero creamos un vector donde indicaremos que filas queremos conservar. (TRUE conservar, FALSE eliminar)
ConservarFilas<-c(T,T,F,T)

In [87]:
ElimFilasPacientes1 <- Pacientes1[ConservarFilas,]
ElimFilasPacientes1

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R1,P1,2020-12-11,30,80.0,1.48
R2,P2,2020-11-11,43,69.6,1.56
R4,P4,2020-11-01,53,96.5,1.52


In [88]:
#Otra forma es
ElimFilasPacientes2 <- Pacientes1[-c(1,4),]
ElimFilasPacientes2

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R2,P2,2020-11-11,43,69.6,1.56
R3,P3,2020-12-01,49,137.0,1.77


Tambien podemos eliminar filas que no cumplan alguna condición.

In [89]:
#Por ejemplo queremos a las personas que tienen más de 30 años
PacientesMas30 <- Pacientes1[Pacientes1$Edad > 30,]
PacientesMas30

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R2,P2,2020-11-11,43,69.6,1.56
R3,P3,2020-12-01,49,137.0,1.77
R4,P4,2020-11-01,53,96.5,1.52


Por ultimo para "eliminar" un valor especifico le asignamos el valor ``NA``.

In [90]:
Pacientes1[2,4]<- NA
Pacientes1

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R1,P1,2020-12-11,30,80.0,1.48
R2,P2,2020-11-11,43,,1.56
R3,P3,2020-12-01,49,137.0,1.77
R4,P4,2020-11-01,53,96.5,1.52


Esta función igual nos sirve para modificar un dato del dataframe

In [91]:
Pacientes1[2,4] <- 69.8
Pacientes1

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R1,P1,2020-12-11,30,80.0,1.48
R2,P2,2020-11-11,43,69.8,1.56
R3,P3,2020-12-01,49,137.0,1.77
R4,P4,2020-11-01,53,96.5,1.52


In [92]:
Pacientes1[order(Pacientes1$Peso), ]

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R2,P2,2020-11-11,43,69.8,1.56
R1,P1,2020-12-11,30,80.0,1.48
R4,P4,2020-11-01,53,96.5,1.52
R3,P3,2020-12-01,49,137.0,1.77


In [93]:
#También podemos indicar si se quiere ordenar de forma descendente o ascendete 
Pacientes1 <- Pacientes1[order(Pacientes1$Edad, decreasing = TRUE),]

Este orden no queda guardado en ell data frame a menos que se lo asignemos.

In [94]:
Pacientes1

Unnamed: 0,ID,Fecha,Edad,Peso,Altura
R4,P4,2020-11-01,53,96.5,1.52
R3,P3,2020-12-01,49,137.0,1.77
R2,P2,2020-11-11,43,69.8,1.56
R1,P1,2020-12-11,30,80.0,1.48
