# Laboratorio 6

## 1. Factores

Son vectores con valores **categóricos**. Los elementos de un factor deben considerarse **categorías o clases**. 

Por lo general, un factor se construye dando una **lista de cadenas**. La cual **se traduce en diferentes categorías**. Así, el factor se convierte en un vector de estas categorías.

In [1]:
#Creando el factor f

# cada valor en el vector esta restringida a ser "chico", "grande" o "medio"
lisCad <- c("chico","chico","medio","grande","chico","grande")
f <- factor (lisCad)
f

Las categorías son llamadas niveles (**levels**, en inglés).

In [2]:
levels(f) #por defecto, en orden alfabetico

Podemos establecer **nuestro propio orden para los levels**.

In [3]:
# a partir del mismo vector lisCad
ff <- factor(lisCad, levels = c("chico","medio","grande"))
ff

# o a partir del factor f
ff2 <- factor(f,levels = c("chico","medio","grande"))
ff2

In [4]:
# Los levels se muestran segun el orden que establecimos

levels(ff) 
levels(ff2)

El orden de los niveles de los factores afecta principalmente **cómo se imprime la información resumida y cómo se muestran los factores**.

In [5]:
summary(f)
summary(ff)

**Por defecto, los factores no tratan a los niveles como ordenados**. Si se desea especificar que los niveles están ordenados, deberemos hacer **ordered = TRUE** o **pasar los datos del factor a ordenar junto a sus levels ya ordenados a la función ordered()**.

In [6]:
of <- factor(lisCad, 
             levels = c("chico","medio","grande"),
             ordered = TRUE)
of # Levels: chico < medio < grande

In [7]:
of2 <- ordered(lisCad, levels = c("chico","medio","grande"))
of2

is.factor(of2)
is.ordered(of2)

Un **factor se almacena como un vector de enteros, donde los enteros son índices en los niveles**.

Para ver **cuántos levels tiene nuestro factor** usamos **nlevels()**.

In [8]:
nlevels(of2)

### 1.1. Ejemplo 1

In [9]:
mi_f <- as.factor(c(1,2,3,1,2,1,1,3,2)) #Factor con 3 categorias
mi_f

In [10]:
levels(mi_f) <- c("Bajo","Medio","Alto")
mi_f

In [11]:
mi_f_ord <- as.ordered(mi_f) #factor ordenado
mi_f_ord

### 1.2. Ejemplo 2

In [12]:
message("Vector:")
grp1 <- c("azul","rojo","azul","rojo")
grp1

message("Factor:")
grp2 <-factor(grp1)
grp2
levels(grp2)

Vector:


Factor:


**Los levels de un factor son internamente codificado como enteros**.

In [13]:
as.integer(grp2)

In [14]:
levels(grp2)

In [15]:
levels(grp2)[as.integer(grp2)]

### 1.3. Extraer elementos de un factor

In [16]:
grp2[3]

In [17]:
grp2[c(1,3)]

## 2. Arrays

Para crear un array deberemos llamar a la **función array y pasarle un vector de valores y un vector de dimensiones**. Si se desea, se puede dar nombre a cada dimensión.

In [18]:
mi_arr <- array(1:24,c(3,4,2))
mi_arr

In [19]:
tres_d_array <- array(1:24,
                      dim = c(4,3,2), 
                      dimnames = list(c("uno","dos","tres","cuatro"),
                                      c("one","two","three"),
                                      c("um","dois")))
tres_d_array

### 2.1. Más sobre Arrays

In [20]:
dim(tres_d_array)
length(tres_d_array)

In [21]:
rownames(tres_d_array)
colnames(tres_d_array)

dimnames(tres_d_array)

## 3. Listas

Los elementos de las listas **pueden ser de disitintos tipos y de distinta longitud**. En una lista podemos almacenar **constantes únicas, vectores de valores numpericos, factores, data frames, matrices** e incluso **funciones**.

### 3.1. Ejemplo 1

In [22]:
var1 <- c(101,102,103,104,105)
var2 <- c(25,22,29,34,33)
var3 <- c("No-diabetico","Diabetico","No-diabetico","No-diabetico","Diabetico")
var4 <- factor(c("masculino","masculino","femenino","femenino","masculino"))
diab.dat <- data.frame(var1,var2,var3,var4)
mat.array <- array(dim = c(2,2,3))

set.seed(12345)
mat.array[,,1]<-rnorm(4)
mat.array[,,2]<-rnorm(4)
mat.array[,,3]<-rnorm(4)

#creando una lista
obj.lista <- list(elem1=var1,elem2=var2,elem3=var3,elem4=var4,elem5=diab.dat,elem6=mat.array)
obj.lista

var1,var2,var3,var4
101,25,No-diabetico,masculino
102,22,Diabetico,masculino
103,29,No-diabetico,femenino
104,34,No-diabetico,femenino
105,33,Diabetico,masculino


### 3.2. Acceder a elementos de una Lista

Podemos acceder a los elementos de una lista usando:

- Operador se signo de dólar con un nombre.
- Dobles corchetes con un entero positivo.
- Dobles corchetes con el nombre.

In [23]:
# Accediendo al primer elemento de la lista obj.lista

# operador $ con el nombre
obj.lista$elem1

# dobles corchetes con un número entero positivo
obj.lista[[1]]

# dobles corchetes con el nombre
obj.lista[["elem1"]]

### 3.3. Obtener sublistas

Podemos obtener sublistas utilizando corchetes junto vectores:

#### 3.3.1. Vectores numéricos

In [24]:
#sublista que contiene el segundo elemento de la lista
obj.lista[2]

In [25]:
#sublista que contiene el primer y tercer elemento de la lista
obj.lista[c(1,3)]

In [26]:
#sublista que no contiene el primer, tercer y sexto elemento de la lista
obj.lista[c(-1,-3,-6)]

var1,var2,var3,var4
101,25,No-diabetico,masculino
102,22,Diabetico,masculino
103,29,No-diabetico,femenino
104,34,No-diabetico,femenino
105,33,Diabetico,masculino


#### 3.3.2. Vectores con los nombres de los elementos

In [27]:
#sublista que contiene el segundo y tercer elemento de la lista
obj.lista[c("elem2","elem3")]

#### 3.3.3. Vector de valores lógicos

In [28]:
#Sublista que contiene el segundo, cuarto y quinto elemento de la lista
obj.lista[c(TRUE,FALSE,FALSE,TRUE,TRUE,FALSE)]

var1,var2,var3,var4
101,25,No-diabetico,masculino
102,22,Diabetico,masculino
103,29,No-diabetico,femenino
104,34,No-diabetico,femenino
105,33,Diabetico,masculino


### 3.4. Ejemplo 2

In [29]:
a_list <- list(c(1,1,2,5,14,42),
               month.abb,
               matrix(c(3,-8,1,-3), 
                      nrow = 2), 
               asin)
a_list

0,1
3,1
-8,-3


Como los vectores, podemos nombrar a los elementos durante la contrución, o hacerlo después usando la **función names**.

In [30]:
names(a_list) <- c("catalan","months","involutary","arcsin")
a_list

0,1
3,1
-8,-3


### 3.5. Más sobre Listas

In [31]:
length(a_list)

In [32]:
NROW(a_list)

In [33]:
NCOL(a_list)

### 3.6. Ejemplo 4

Es posible que los **elementos de las listas sean otras listas**.

In [34]:
main_list <- list(middle_list = list(element_in_middle_list = diag(3), 
                                     inner_list = list(element_in_inner_list = pi**1:4,
                                                       another_element_in_inner_list = "a")),
                
                  element_in_main_list = log10(1:10))
main_list         

0,1,2
1,0,0
0,1,0
0,0,1


In [35]:
length(main_list)

## 4. Data frames

Los data frames son un **caso particular de listas**, se usan para almacenar datos similares a hojas de cálculo.

Es una colección de vectores, donde **todos deben ser de la misma longitud**. Normalmente, pensamos en los data frames como si **cada fila correspondiera a alguna observación** y **cada columna a alguna propiedad de las observaciones**, donde las propiedades pueden ser **numéricas** o **categóricas**.

Los data frames son como matrices pero con las columnas que tienen sus propios nombres. Además, las columnas pueden **tener diferentes tipos de datos de cada uno**.

Tenga en cuenta que **cada columna puede tener un tipo diferente a las otras columnas, pero que todos los elementos dentro de una columna son del mismo tipo.**

### 4.1. Ejemplo 1

In [36]:
df <- data.frame(a = 1:4, 
                 b = letters[1:4], 
                 c = 5:8)
df

a,b,c
1,a,5
2,b,6
3,c,7
4,d,8


### 4.2. Indexando un Data Frame

#### 4.2.1. Seleccionando más de una columna

El subconjunto resultante también **será un data frame**. 

In [37]:
# filas: primera y tercera
# columnas: primera y segunda
df[c(1,3),1:2]
is.data.frame(df[c(1,3),1:2])

Unnamed: 0,a,b
1,1,a
3,3,c


In [38]:
# filas: primera y segunda
# columnas: todas excepto la tercera
df[1:2,-3]
is.data.frame(df[1:2,-3])

a,b
1,a
2,b


In [39]:
# filas: primera
# columnas: todas 
df[1,]
is.data.frame(df[1,])

a,b,c
1,a,5


#### 4.2.2. Seleccionando solo una columna

El subconjunto resultante **será un factor (si la columna era un vector de caracteres) o un vector (si la colummna era un vector de otro tipo)**.

In [40]:
# filas: primera
# columnas: primera
df[1,1] 
is.vector(df[1,1])

In [41]:
# filas: todas
# columnas: primera
df[,1] #vector
is.vector(df[,1])

In [42]:
# filas: primera
# columnas: segunda
df[1,2]
is.factor(df[1,2])

In [43]:
# filas: todas
# columnas: segunda
df[,2]
is.factor(df[,2])

Si solo queremos seleccionar una columna, también **se puede usar la indexación de estilo de lista**:

- Operador se signo de dólar con un nombre.
- Dobles corchetes con un entero positivo.
- Dobles corchetes con el nombre.

In [44]:
# seleccionando segunda columna

# operador $ con el nombre
df$b
is.factor(df$b)

# dobles corchetes con un entero positivo
df[[2]]
is.factor(df[[2]])

# dobles corchetes con el nombre
df[["b"]]
is.factor(df[["b"]])

Si se quiere que **obtener el vector de caracteres como tal, en vez de un factor**, deberemos hacer lo siguiente:

In [45]:
df2 <- data.frame(a = 1:4,
                  b = letters[1:4],
                  c = 5:8, 
                  stringsAsFactors = FALSE)
df2

a,b,c
1,a,5
2,b,6
3,c,7
4,d,8


In [46]:
df2$b
message("El resultado es factor: ",is.factor(df2$b))
message("El resultado es vector: ",is.vector(df2$b))

El resultado es factor: FALSE
El resultado es vector: TRUE


### 4.3 Ejemplo 2

In [47]:
datosperson <- data.frame(tipo = c(2,3,3,1,3,1), 
                          edad = c(22,21,34,42,17,43), 
                          sexo = c("H","M","H","H","M","H"))
datosperson

tipo,edad,sexo
2,22,H
3,21,M
3,34,H
1,42,H
3,17,M
1,43,H


### 4.4. Ejemplo 3

In [48]:
colors <- c("red","yellow","blue")
numbers <- c(1,2,3)
colors.and.numbers <- data.frame(colors, 
                                 numbers, 
                                 more.numbers = c(4,5,6))

colors.and.numbers

colors,numbers,more.numbers
red,1,4
yellow,2,5
blue,3,6


### 4.5. Combinando dos Data Frames

In [49]:
#Combinando por filas
message("df:")
df

message("df3:")
df3 <- data.frame(a = 5:7, 
                  b = letters[5:7], 
                  c = 9:11)
df3

message("Combinando por filas:")
rbind(df,df3)

df:


a,b,c
1,a,5
2,b,6
3,c,7
4,d,8


df3:


a,b,c
5,e,9
6,f,10
7,g,11


Combinando por filas:


a,b,c
1,a,5
2,b,6
3,c,7
4,d,8
5,e,9
6,f,10
7,g,11


In [50]:
#Combinando por columnas
message("df:")
df

message("df4:")
df4 <- data.frame(d = 1:4, 
                  e = letters[5:8], 
                  f = 9:12)
df4

message("Combinando por columnas:")
cbind(df,df4)

df:


a,b,c
1,a,5
2,b,6
3,c,7
4,d,8


df4:


d,e,f
1,e,9
2,f,10
3,g,11
4,h,12


Combinando por columnas:


a,b,c,d,e,f
1,a,5,1,e,9
2,b,6,2,f,10
3,c,7,3,g,11
4,d,8,4,h,12


### 4.6. Nombrando las filas de un Data Frame

En los ejemplos vistos hasta ahora, las filas se enumeraron automáticamente  (1,2,3,...). Pero **si alguno de los vectores de entrada tuviese nombres, entonces el data frame los tomarían dichos nombres para sus filas**.

In [51]:
y <- rnorm(5)
names(y) <- month.name[1:5]

data.frame(x = letters[1:5],
           y = y,
           z = runif(5) > 0.5)

Unnamed: 0,x,y,z
January,a,0.3706279,False
February,b,0.5202165,False
March,c,-0.750532,True
April,d,0.8168998,True
May,e,-0.8863575,True


Si queremos evitar que esto ocurra, debemos pasar el argumento **row.names = NULL** a la función `data.frame`:

In [52]:
data.frame(x = letters[1:5],
           y = y,
           z = runif(5) > 0.5, 
           row.names = NULL)

x,y,z
a,0.3706279,False
b,0.5202165,True
c,-0.750532,False
d,0.8168998,True
e,-0.8863575,True


Para proporcionar al data frame sus propios nombres de fila debermos **pasar un vector a row.names**. Este vector se convertirá en carácter, si aún no es ese tipo:

In [53]:
data.frame(x = letters[1:5],
           y = y,
           z = runif(5) > 0.5, 
           row.names = c("Alejandro","Leonardo","Sofia","Lucia","Eva"))

Unnamed: 0,x,y,z
Alejandro,a,0.3706279,False
Leonardo,b,0.5202165,False
Sofia,c,-0.750532,False
Lucia,d,0.8168998,False
Eva,e,-0.8863575,False


### 4.7. Recycling 

También podemos crear un data frama pasando **vectores de diferentes longitudes** a la función `data.frame`, siempre y cuando el **mcm de todas las longitudes resulte igual a la mayor longitud**, de no ser así se produciría un error.

In [54]:
data.frame(x = 1,   # longitud: 1
           y = 2:3, # longitud: 2 
           z = 4:7) # longitud: 4 (mayor longitud)
                    # mcm(1,2,4) = 4 = mayor longitud

x,y,z
1,2,4
1,3,5
1,2,6
1,3,7


### 4.8. Más sobre Data frames

In [55]:
rownames(colors.and.numbers)

colnames(colors.and.numbers)

dimnames(colors.and.numbers)

In [56]:
nrow(colors.and.numbers)

ncol(colors.and.numbers)

dim(colors.and.numbers)

In [57]:
#Como las matrices, se puede hallar la transpuesta de un data frame
t(colors.and.numbers)

0,1,2,3
colors,red,yellow,blue
numbers,1,2,3
more.numbers,4,5,6


### 4.9. Subset

Si estamos tratando **subconjuntos de data frames** podemos utilizar la función **subset**. 

Esta función toma hasta tres argumentos: 

- El objeto original.
- Un vector lógico para saber qué filas incluir.
- Y un vector de nombres de columna para mostrar (si se omite este último argumento, entonces se guardan todas las columnas). 

In [58]:
datosperson

subset(datosperson, #objeto original
       edad >40, # expersion logica
       select = c(edad,sexo)) # columnas

tipo,edad,sexo
2,22,H
3,21,M
3,34,H
1,42,H
3,17,M
1,43,H


Unnamed: 0,edad,sexo
4,42,H
6,43,H


### 4.10. Merge

Cuando 2 data frames **comparten columnas, se pueden fusionar utilizando la función merge**. Esta función proporciona una variedad de opciones para realizar combinaciones de estilo de base de datos. 

**Para unir 2 data frames se debe especificar qué columnas contienen los valores clave para que coincidan**. De forma predeterminada, la función `merge` **utiliza todas las columnas comunes**.

In [59]:
message("Data frame datos1:")
datos1 <- data.frame(
                nombre = c("Alberto", "Ivonne","Yeny","Alejandro","Sofia") ,
                edad = c(61,27,56,35,43),
                casado = c(TRUE,FALSE,T,F,F)
)
datos1

message("Data frame datos2:")
datos2 <- data.frame(
  nombre = c("Alejandro","Leonardo","Sofia","Lucia","Felix"),
  sexo = c('M','M','F','F','M'),
  talla = c(1.60,1.50,1.53,1.63,1.55)
)
datos2

message("Merge de datos1 y datos2:")
merge(datos1,datos2,by="nombre")

message("Merge de datos1 y datos2 con todos los elementos:")
merge(datos1,datos2,by="nombre",all = TRUE)

Data frame datos1:


nombre,edad,casado
Alberto,61,True
Ivonne,27,False
Yeny,56,True
Alejandro,35,False
Sofia,43,False


Data frame datos2:


nombre,sexo,talla
Alejandro,M,1.6
Leonardo,M,1.5
Sofia,F,1.53
Lucia,F,1.63
Felix,M,1.55


Merge de datos1 y datos2:


nombre,edad,casado,sexo,talla
Alejandro,35,False,M,1.6
Sofia,43,False,F,1.53


Merge de datos1 y datos2 con todos los elementos:


nombre,edad,casado,sexo,talla
Alberto,61.0,True,,
Alejandro,35.0,False,M,1.6
Ivonne,27.0,False,,
Sofia,43.0,False,F,1.53
Yeny,56.0,True,,
Felix,,,M,1.55
Leonardo,,,M,1.5
Lucia,,,F,1.63


### 4.11. Data frame con todos sus valores numéricos

Cuando una data frame tiene **todos sus valores numéricos**, las funciones **colSums** y **colMeans** se pueden usar para calcular la suma y el promedio de cada columna, respectivamente. Del mismo modo, **rowSums** y **rowMeans** calculan la suma y el promedio de cada fila.

In [60]:
colSums(datos1[,2:3])

In [61]:
colMeans(datos1[,2:3])

## 5. Trabajando con Valores Faltantes

Los datos faltantes se representan en R por el valor especial *not available* NA. 

En general, **una operación con elementos NA resulta NA**, a no ser que mediate una opción de la función, podamos omitir o tratar los datos faltantes de forma especial. Esta opción, por defecto, es **na.rm = FALSE** (que indica que **NO elimina los NA**). Con la opción **na.rm = TRUE** la operación se efectúa con los datos válidos.

In [62]:
NA + 5
NA == NA
NA != NA

[1] NA

[1] NA

[1] NA

Para verificar si un valor es faltante, usamos la función **is.na**:

In [63]:
is.na(NA)
is.na(4)

In [64]:
y <- c(NA,3,5,NA)
mean(y) #calcula teniendo en cuenta los valores NA

[1] NA

In [65]:
mean(y, na.rm = TRUE) #calcula sin tener en cuenta los valores NA