## Cadenas

Los datos de texto se almacenan en vectores de caracteres (o, menos comúnmente, en matrices de caracteres). Cada elemento de un vector de caracteres es una cadena completa, en lugar de un solo carácter. El hecho de que la unidad básica de texto sea un vector de caracteres significa que la mayoría de las funciones de manipulación de cadenas operan sobre vectores de cadenas, de la misma manera que las operaciones matemáticas son vectorizadas.

Los vectores de caracteres se pueden crear con la función `c` y podemos usar  comillas simples o dobles alrededor de nuestras cadenas, siempre y cuando coincidan.


In [68]:
c(
  "Habia una vez un lenguaje de programacion que quiso ser amigo de todos",
  'Pasado el tiempo el lenguaje conocio a muchos amigos y fue feliz'
)

La función `paste` combina  cadenas juntas, cada vector que se pasa a él tiene sus elementos reciclado para alcanzar la longitud de la entrada más larga y luego las cadenas se concatenan, con un espacio que las separa. Podemos cambiar el separador pasando un argumento llamado `sep`  o usar la función relacionada `paste0` para no tener ningún separador. Después de combinar todas las cadenas, el resultado puede ser plegado  en una cadena contiene todo los objetos usando el argumento `collapse`:

In [69]:
paste(c("red", "yellow"), "lorry")
paste(c("red", "yellow"), "lorry", sep = "-")

In [70]:
paste(c("red", "yellow"), "lorry", collapse = ", ")
paste0(c("red", "yellow"), "lorry")

La función `toString` es una variación de  `paste` que es útil para imprimir vectores. Esta función  separa cada elemento con una coma y un espacio, y podemos limitar cuánto imprimimos. En el ejemplo siguiente, por ejemplo `width = 40` limita la salida a 40 caracteres:

In [71]:
x <- (1:15) ^ 3

In [72]:
toString(x, width = 40)

`cat` es una función de bajo nivel que funciona de manera similar a `paste`, pero con menos formato. Rara vez necesitaras  llamar directamente a esta función, pero vale la pena ser consciente, ya que es la base de la mayoría de las funciones de impresión. `cat` también puede aceptar un argumento para escribir su salida en un archivo:


In [73]:
cat(c("C++", "Python"), "Java")

C++ Python Java

Por lo general, cuando las cadenas se imprimen en la consola se muestran entre comillas dobles. Envolviendo una variable en una llamada a la función `noquote`, podemos suprimir esas comillas. Esto puede hacer que el texto sea más legible en algunos casos:

In [74]:
x<- c(
   "Python", "R", "a", "R", "bash", "Javascript", "git",
   "R", "Java", "C", "R", "I", "c++", "R"
)
y <- noquote(x)
x

In [75]:
y

 [1] Python     R          a          R          bash       Javascript
 [7] git        R          Java       C          R          I         
[13] c++        R         

#### Formateo de números

Existen varias funciones para dar formato a los números. `formatC `utiliza especificaciones de formato de estilo C que permiten especificar el formato del número de lugares decimales y el ancho de la salida. Cualquiera que sea la opción, la entrada debe ser uno de los tipos numéricos (incluidos los arrays) y la salida es un vectorde caracteres o una matriz:

In [76]:
pot <- 1:3
(pot_de_e <- exp(pot))
formatC(pot_de_e)

In [77]:
formatC(pot_de_e, digits = 3)

In [78]:
formatC(pot_de_e, digits = 3, width = 10)

In [79]:
formatC(pot_de_e, digits = 3, format = "e") # formato cientifico

In [80]:
formatC(pot_de_e, digits = 3, flag= "+")

R también proporciona un formato de estilo C  más general con la función `sprintf`que funciona  de la misma manera que `sprintf` en cualquier otro lenguaje de programación: el primer argumento contiene marcadores de posición para las variables de cadena o número y los argumentos se sustituyen en esos marcadores de posición. Sólo recuerde que la mayoría de los números en R son valores de punto flotante en lugar de enteros.

El primer argumento de `sprintf` especifica una cadena de formato, con marcadores de posición para otros valores. Por ejemplo, `% s` indica otra cadena, `% f` y `% e` indican un número de coma flotante en formato fijo o científico, respectivamente  y `%d` representa un número entero. 

Los argumentos adicionales especifican los valores para reemplazar los marcadores de posición. Al igual que con la función `paste`, las entradas más cortas se reciclan para que coincidan con la entrada más larga:

In [81]:
sprintf("%s %d = %f", "constante de Euler a la potencia", pot, pot_de_e)

In [82]:
sprintf("Tres lugares decimales, e ^ %d = %.3f", pot, pot_de_e)

In [83]:
sprintf("En notacion cientifica, e ^ %d = %e", pot, pot_de_e)

Sintaxis alternativas para el formato de números se proporcionan con `format` y `prettyNum`.

`format`  proporciona una sintaxis ligeramente diferente para el formato de cadenas y tiene un uso similar a `formatC`. `prettyNum`, por otro lado, es adecuado para  números muy grandes o muy pequeños:

In [84]:
format(pot_de_e)

format(pot_de_e, digits = 3) 
format(pot_de_e, digits = 3, scientific  = TRUE)

In [85]:
prettyNum(
  c(1e10, 1e-20),
  big.mark = ",",
  small.mark = " ",
  preserve.width = "individual",
  scientific = FALSE
)

#### Carácteres especiales

Hay algunos caracteres especiales que se pueden incluir en cadenas. Por ejemplo, podemos insertar un carácter de tabulación usando `\t`. Para ellos usamos `cat` en lugar de `print`, ya que `print` realiza una conversión extra para convertir `\t` desde un tab  en una barra invertida y una `t`. El argumento `fill = TRUE` hace que `cat` mueva el cursor a una nueva linea después de que haya terminado:

In [86]:
cat("foo\tbar", fill = TRUE)

foo	bar


Moviendo el cursor a una nueva linea se hace con el caracter de nueva linea `\n`:

In [87]:
cat("foo\nbar", fill = TRUE)

foo
bar


Los caracteres nulos, `\0`, se utilizan para terminar cadenas en el código interno de R. Es un error intentar explícitamente incluirlos en una cadena:


In [88]:
cat("foo\0bar", fill = TRUE) # lanza un error

ERROR: Error in parse(text = x, srcfile = src): nul character not allowed (line 1)


Los caracteres de barra invertida deben duplicarse para que no se confundan con un carácter especial. En este ejemplo siguiente, las dos barras invertidas hacen sólo una barra invertida en la cadena resultante:

In [89]:
cat("foo\\bar", fill = TRUE)

foo\bar


Si utilizamos comillas dobles alrededor de una cadena, los caracteres de comillas dobles deben estar precedidos por una barra invertida para que se puedan mostrar en la salida. Del mismo modo, si usamos comillas simples alrededor de una  cadenas, entonces los caracteres de comillas sueltas deben ser mostrados colocando una barra invertida:


In [90]:
cat("foo\"bar", fill = TRUE)
cat('foo\'bar', fill = TRUE)

foo"bar
foo'bar



Para el caso inverso, se tiene lo siguiente:

In [91]:
cat("foo'bar", fill = TRUE)
cat('foo"bar', fill = TRUE)

foo'bar
foo"bar


Podemos hacer que nuestro ordenador emita un pitido al imprimir un carácter de alarma `\a` aunque la  función  `alarm` puede hacer esto de una manera más legible. Esto puede ser útil para que al final de un largo análisis  notificarnos que se ha terminado:

In [92]:
#cat("\a")
#alarm()

Las cadenas  pueden convertir  todos sus valores en mayúsculas o minúsculas utilizando las funciones `toupper` y `tolower`:


In [93]:
toupper("Bienvenidos al Curso de R")
tolower("PYTHON y R son Lenguajes Amigos")

#### Extrayendo cadenas 

Hay dos funciones para extraer subcadenas: `substring` y `substr` que se comportan de maneras ligeramente diferentes cuando pasas vectores de diferentes longitudes como argumentos. Para `substring`  la salida es de longitud igual que la mayor longitud de la entradas.  Para `substr` la longitud de la salida  es como la longitud de la primera entrada:

In [94]:
svm <- c(
  " Una SVM construye un hiperplano o conjunto de hiperplanos en un espacio de dimensionalidad
    muy alta (o incluso infinita) que puede ser utilizado en problemas de clasificación y regresion",
  " Los árboles de decisión son muy utilizados a la hora de analizar la toma de decisiones de individuos",
  " Una red bayesiana, es un modelo probabilístico que representa una serie de variables deazar y sus independencias condicionales a través de un gráfo acíclico dirigido",
  " Clustering, es un procedimiento de agrupación de una serie de vectores de acuerdo con un criterio"
)
substring(svm, 1:6, 10)

In [95]:
substr(svm, 1:6, 10)

#### División de cadenas

La función `paste` y funciones similares combinan cadenas. La función `strsplit` hace lo contrario, divide en puntos especificados las cadenas . En el siguiente ejemplo `fixed = TRUE` significa que el argumento `split` es una cadena fija en lugar de una expresión regular:

In [96]:
strsplit(svm, " ", fixed = TRUE)

`strsplit` devuelve una lista, esto se debe a que su resultado consiste en vectores de caracteres de longitudes posiblemente diferentes. Cuando sólo pasa una sola cadena como entrada, este hecho es fácil pasar por alto. *Ten cuidado!*.

En nuestro ejemplo, las comillas en algunas palabras son algo molestas, sería mejor dividir en una coma opcional seguido por un espacio. Esto se especifica fácilmente usando una expresión regular. `? ` significa *hacer que el carácter anterior sea opcional*:

In [97]:
strsplit(svm, ",? ")

### Rutas de archivo


R tiene un directorio de trabajo, que es el lugar predeterminado en el que se leerán o escribirán los archivos. Se puede  ver esa ubicación con `getwd`  y cambiar esa ubicación con `setwd`:

In [98]:
getwd()

De lo anterior da cuenta que los componentes de directorio de cada ruta están separados por barras diagonales, aunque sean rutas de acceso de Windows. Para la portabilidad  en R siempre puede especificar rutas con barras diagonales, y las funciones de manejo de archivos reemplazarán mágicamente con barras diagonales inversas si el sistema operativo las necesita.

La función `basename` devuelve el nombre de un archivo sin la ubicación del directorio anterior. Por el contrario, `dirname` devuelve el nombre del directorio en el que se encuentra un archivo.

In [99]:
basename(getwd())
dirname(getwd())

## Factores

Los factores son un tipo de variable para almacenar variables categóricas. A veces se comportan como cadenas  y a veces como números enteros.

#### Creación de factores

Siempre que se crea un data frame con una columna de datos de texto, R asumirá por defecto que el texto es de  datos categóricos y realiza alguna conversión. El siguiente ejemplo de conjunto de datos contiene las alturas de 10 adultos al azar:

In [100]:
(alturas <- data.frame(
    altura_cm = c(153, 181, 150, 172, 165, 149, 174, 169, 198, 163),
    genero = c(
        "femenino", "masculino", "femenino", "masculino", "masculino",
        "femenino", "femenino", "masculino", "masculino", "femenino"
    )
))

altura_cm,genero
153,femenino
181,masculino
150,femenino
172,masculino
165,masculino
149,femenino
174,femenino
169,masculino
198,masculino
163,femenino


Al inspeccionar la clase de la columna de `genero` podemos ver que no es, como es de esperarse, un vector de caracteres, pero es de hecho un factor:

In [101]:
class(alturas$genero)

Imprimiendo las columnas  revelan un poco más de información acerca de la naturaleza de un factor:

In [102]:
alturas$genero

In [103]:
levels(alturas$genero)

Cada valor del factor es una cadena que está restringida a ser "femenino", "masculino" o NA. Esta restricción se hace evidente si tratamos de agregar una cadena diferente a los géneros:

In [104]:
alturas$genero[1] <- "Femenino"

“invalid factor level, NA generated”

Las opciones *femenino* y *masculino* se llaman `niveles` del factor y se pueden recuperar con la función `levels()`:

In [105]:
alturas$genero
levels(alturas$genero)

El número de estos niveles (equivalente a la longitud de los niveles del factor) puede ser encontrados  con la función `nlevels()`:

In [106]:
nlevels(alturas$genero)

Además de su creación automática dentro de los datas frames, se  pueden  crear factores utilizando la función `factor`. El primer argumento (y sólo obligatorio) es un vector de caracteres:

In [107]:
help(factor)

In [108]:
# Ejemplo de repaso

x <- factor(c("Jessica", "Cesar", "Cesar", "Jessica"))
class(x)
levels(x)


In [109]:
# No puede utilizar l valores que no están en los niveles
x[2] <- "Python"
x

c(factor("Jessica"), factor("Cesar"))

“invalid factor level, NA generated”

In [110]:
 genero_caracter = c(
        "femenino", "masculino", "femenino", "masculino", "masculino",
        "femenino", "femenino", "masculino", "masculino", "femenino"
    )
(genero_fact <- factor(genero_caracter))
levels(genero_fact)

#### Cambiando los niveles de los factores

Podemos cambiar el orden de los niveles cuando se crea el factor especificando un argumento a  `levels`:

```
factor(genero_caracter, levels = c("masculino", "femenino"))
```

Si queremos cambiar el orden de los niveles de un factor después de su creación, volveremos  a usar la función `factor`, esta vez pasando en el mismo factor creado (en lugar de un vector de caracteres):

```
factor(genero_fact, levels = c("masculino", "femenino"))
```

In [111]:
# Ejemplo 

levels(genero_fact) <- c("masculino", "femenino")
genero_fact
levels(genero_fact)

La función `relevel` es una forma alternativa de cambiar el orden de los niveles de un factor. En este caso, sólo le permite especificar qué nivel viene primero. Esta función  puede ser útil para modelos de regresión donde se desea comparar diferentes categorías con una categoría de referencia. La mayor parte del tiempo será mejor llamar a `factor`  si desea establecer los niveles:

In [112]:
relevel(genero_fact, "masculino")
levels(genero_fact)

En el proceso de limpieza de un conjuntos de datos, se puede terminar eliminando todos los datos correspondientes a un nivel de factor. Considere este conjunto de datosde  tiempos para viajar al trabajo usando diferentes modos de transporte:


In [113]:
ir_al_trabajo <- data.frame(
    modo = c(
        "bicicleta", "carro", "bus", "carro", "caminar",
        "bicicleta", "carro", "bicicleta", "carrp", "carro"
    ),
    t_mins = c(25, 13, NA, 22, 65, 28, 15, 24, NA, 14)
)

No todos los tiempos se han grabado, por lo que nuestra primera tarea es eliminar las filas donde `t_mins` es `NA`:

In [114]:
(ir_al_trabajo  <- subset(ir_al_trabajo, !is.na(t_mins)))

Unnamed: 0,modo,t_mins
1,bicicleta,25
2,carro,13
4,carro,22
5,caminar,65
6,bicicleta,28
7,carro,15
8,bicicleta,24
10,carro,14


Mirando la columna  `modo`  sólo hay  tres valores diferentes, pero todavía tenemos los mismos cuatro niveles en el factor(). Podemos ver esto con la función `unique` (la función `levels`  también nos dirá los niveles del factor):

In [115]:
unique(ir_al_trabajo$modo)

Si queremos eliminar los niveles no utilizados del factor, podemos usar la función `droplevels`. Esta acepta un factor o un data frame. En este último caso, disminuye los niveles no utilizados en todos los factores de la entrada. Dado que sólo hay un factor en nuestro data frame  de ejemplo, las dos líneas de código en el siguiente ejemplo son equivalentes:

In [116]:
ir_al_trabajo$modo <- droplevels(ir_al_trabajo$modo)
ir_al_trabajo <- droplevels(ir_al_trabajo)
levels(ir_al_trabajo$modo)

#### Factores ordenados 

Algunos factores tienen niveles que son semánticamente superiores o inferiores a otros niveles. Esto es común con preguntas de encuesta de opción múltiple. Por ejemplo, a la pregunta : *¿Qué tan feliz eres?*,  podría tener las posibles respuestas *deprimido*, *gruñón*, *más o menos*, *alegre* y *emocionada*. La variable resultante es categórica, así que podemos crear un factor con las cinco opciones como niveles. Para esto generamos diez mil respuestas al azar usando la función `sample`:

In [117]:
feliz_eleccion <- c("deprimido", "grunon", "mas o menos", "alegre", "emocionada")
feliz_valores <- sample(
    feliz_eleccion,
    10000,
    replace = TRUE
)
feliz_fac <- factor(feliz_valores, feliz_eleccion)
head(feliz_fac)

In [118]:
levels(feliz_fac)

En este caso, las cinco opciones tienen un orden natural para ellos: *gruñón* es más feliz que *deprimido*, *más o menos* es más feliz que *gruñón*  y así sucesivamente. Esto significa que es mejor almacenar las respuestas en un `factor ordenado`. Podemos hacer esto utilizando la función `ordered` (o pasando el argumento `ordered = TRUE` a `factor`):

In [119]:
feliz_ord <- ordered(feliz_valores, feliz_eleccion)
head(feliz_ord)

In [120]:
levels(feliz_ord)

Un factor ordenado es un factor, pero  un factor normal no es ordenado:

In [121]:
is.factor(feliz_ord)

In [122]:
is.ordered(feliz_fac)

Una manera útil de resumir una variable numérica es contar cuántos valores caen en diferentes *intervalos*. La función `cut`divide  una variable numérica en partes devolviendo un factor. Esto utiliza comúnmente con la función `table` para obtener el recuento de números en diferentes grupos.

En el siguiente ejemplo, generamos aleatoriamente las edades de diez mil trabajadores (de 16 a 66, usando una distribución beta) y los colocamos en grupos de 10 años:

In [123]:
edad <- 16 + 50 * rbeta(10000, 2, 3)
grupos_edades <- cut(edad, seq.int(16, 66, 10))
head(grupos_edades)

In [124]:
levels(grupos_edades)

In [125]:
table(grupos_edades)

grupos_edades
(16,26] (26,36] (36,46] (46,56] (56,66] 
   1794    3492    2951    1489     274 

En este caso, la mayor parte de la mano de obra cae en las categorías 26 a 36 y 36 a 46 (como consecuencia directa de la forma de la distribución beta).

Observe que `edad` es una variable numérica y `grupos_edades` es un factor:

In [126]:
class(edad)

In [127]:
class(grupos_edades)

In [128]:
# Otros ejemplo

Leng <- c("C", "Python", "R")
Parad <- factor(Leng, levels = c("C", "I", "F"))

table(Leng)
table(Parad)

Leng
     C Python      R 
     1      1      1 

Parad
C I F 
1 0 0 

#### Convirtiendo variables categóricas a continuas


El caso inverso de convertir un factor en una variable numérica es muy útil durante la limpieza de datos. Si se tiene datos  en los que los números son mal escritos, R puede interpretarlos como cadenas y convertirlos en factores durante el proceso de importación. En este ejemplo siguiente, uno de los números tiene un doble decimal. Las funciones de importación, como `read.table()`,  fallarían al analizar tal cadena en formato numérico y por defecto convertir la columna en un vector de caracteres:

In [129]:
df_s <- data.frame(
    x = c("4.63", "1..96", "7.89")
)

Para convertir la columna `x` en numérica, la solución posible seria  llamar a `as.numeric`. Desafortunadamente, esta función da una respuesta equivocada:

In [130]:
as.numeric(df_s$x)

Llamar a `as.numeric` en un factor revela los códigos enteros subyacentes que el factor utiliza para almacenar sus datos. En general, un factor $f$ puede reconstruirse a partir de los `levels(f)[as.integer(f)]`.

Para convertir correctamente el factor en numérico, primero podemos recuperar los valores convirtiendo el factor en un vector de caracteres. El segundo valor es `NA` porque `4..56` no es un número genuino:

In [131]:
as.numeric(as.character(df_s$x))

“NAs introducidos por coerción”

Esto es un poco ineficiente, ya que los valores repetidos tienen que ser convertidos varias veces, por lo que es mejor convertir los niveles del factor a  valores numéricos y a continuación  reconstruir el factor como antes:

In [132]:
as.numeric(levels(df_s$x))[as.integer(df_s$x)]

“NAs introducidos por coerción”

Puesto que esto no es totalmente intuitivo y si se desea realizar esta tarea regularmente, puede envolverla en una función:

```
factor_to_numeric <- function(f)
{
    as.numeric(levels(f))[as.integer(f)]
}
```

#### Generando niveles de factores

Para  datos balanceados, donde hay un número igual de puntos de datos para cada nivel, se puede usar la función `gl` para generar un factor. En su forma más simple, la función toma un número entero para el número de niveles en el factor resultante y otro entero para cuántas veces debe repetirse cada nivel. 

Más comúnmente, pasando un vector de caracteres al argumento `labels` se puede establecer los nombres de los niveles.  Se pueden crear órdenes de nivel más complejos, como valores alternativos, pasando un argumento `length`:

In [133]:
help(gl)
gl(3, 2)


In [134]:
gl(3, 2, labels = c("C++", "R", "Python"))

In [135]:
gl(3, 1, 6, labels = c("C++", "R", "Python"))

Cuando tenemos múltiples variables categóricas, a veces es útil combinarlas en un solo factor, donde cada nivel consiste en las interacciones de las variables individuales, utilizando la función `interaction`:

In [136]:
help(interaction)

lenguaje <- gl(3, 2, labels = c("C++", "R", "Python"))
genero <- gl(2, 1, 6, labels = c("mujer", "hombre"))
interaction(lenguaje, genero)

In [137]:
# Otro ejemplo

x <- gl(2,4)
y <- gl(2,1,8)
interaction(x,y)
data.frame(x,y, int=interaction(x,y))

x,y,int
1,1,1.1
1,2,1.2
1,1,1.1
1,2,1.2
2,1,2.1
2,2,2.2
2,1,2.1
2,2,2.2


### Funciones usadas con factores

La función `tapply(x, f, g)`, tiene como argumentos un vector `x`, un factor `f` o una lista de factores  y `g` una función.  La operación llevada por  `tapply()` es dividir un vector `x`, en grupos, cada grupo correspondiente al nivel del factor `f`  (o a una combinación de niveles de los factores en el caso de múltiples factores) y  aplicarle  la función `g` a los subgrupos  de `x` .

In [138]:
help(tapply)

# Un vector
xt <- 1:20  
xt
length(xt)

# Un factor de la misma longitud, definiendo grupos
yt <- factor(rep(letters[1:5], each = 4))  
yt
length(yt)

# Sumemos  los valores de x en cada subgrupo definido por y
tapply(xt, yt, sum)  

In [139]:
# Un pequeño ejemplo

edad<- c(25,26,55,37,21,42)
af<- c("R", "D","D", "R", "U", "D")
tapply(edad,af, mean)

La función `tapply()` trata al vector `("R", "D","D", "R", "U", "D")` como un factor con niveles `"R" ,"D", "U"`. Se debe  notar que  en `"D"` ocurre en los índices `2, 3 y 6`,  `"R"` ocurre en los índices `1` y `4` y `"U"` ocurre en el índice `5`. 
Por conveniencia eso se refiere a tres vectores indexados `(2,3,6)`, `(1,4)`,`(5)`, como x, y, z respectivamente, entonces  `tapply()` calcula la media de `mean(u[x]), mean(u[y])` y `mean(u[z])` y retorna esas medias en tres elementos de un vector.

In [140]:
 # Mas ejemplo usando tapply

str(InsectSprays)
str(  split(InsectSprays$count, InsectSprays$spray)  )
tapply( InsectSprays$count, InsectSprays$spray,  mean )

'data.frame':	72 obs. of  2 variables:
 $ count: num  10 7 20 14 14 12 10 23 17 20 ...
 $ spray: Factor w/ 6 levels "A","B","C","D",..: 1 1 1 1 1 1 1 1 1 1 ...
List of 6
 $ A: num [1:12] 10 7 20 14 14 12 10 23 17 20 ...
 $ B: num [1:12] 11 17 21 11 16 14 17 17 19 21 ...
 $ C: num [1:12] 0 1 7 2 3 1 2 1 3 0 ...
 $ D: num [1:12] 3 5 12 6 4 3 5 5 5 5 ...
 $ E: num [1:12] 3 5 3 5 3 6 1 1 3 2 ...
 $ F: num [1:12] 11 9 15 22 15 16 13 10 26 26 ...


La función  `split()` que se escribe como  `split(x,f)` donde `x` es un factor o un data frame y `f` es un factor o una lista de factores  divide  `x` en grupos los cuales son retornados como una lista.

In [141]:
help(split)

In [142]:
library(datasets)
head(airquality)
s <- split(airquality, airquality$Month)
s
class(s)

Ozone,Solar.R,Wind,Temp,Month,Day
41.0,190.0,7.4,67,5,1
36.0,118.0,8.0,72,5,2
12.0,149.0,12.6,74,5,3
18.0,313.0,11.5,62,5,4
,,14.3,56,5,5
28.0,,14.9,66,5,6


Ozone,Solar.R,Wind,Temp,Month,Day
41.0,190.0,7.4,67,5,1
36.0,118.0,8.0,72,5,2
12.0,149.0,12.6,74,5,3
18.0,313.0,11.5,62,5,4
,,14.3,56,5,5
28.0,,14.9,66,5,6
23.0,299.0,8.6,65,5,7
19.0,99.0,13.8,59,5,8
8.0,19.0,20.1,61,5,9
,194.0,8.6,69,5,10

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
32,,286,8.6,78,6,1
33,,287,9.7,74,6,2
34,,242,16.1,67,6,3
35,,186,9.2,84,6,4
36,,220,8.6,85,6,5
37,,264,14.3,79,6,6
38,29.0,127,9.7,82,6,7
39,,273,6.9,87,6,8
40,71.0,291,13.8,90,6,9
41,39.0,323,11.5,87,6,10

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
62,135.0,269,4.1,84,7,1
63,49.0,248,9.2,85,7,2
64,32.0,236,9.2,81,7,3
65,,101,10.9,84,7,4
66,64.0,175,4.6,83,7,5
67,40.0,314,10.9,83,7,6
68,77.0,276,5.1,88,7,7
69,97.0,267,6.3,92,7,8
70,97.0,272,5.7,92,7,9
71,85.0,175,7.4,89,7,10

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
93,39.0,83.0,6.9,81,8,1
94,9.0,24.0,13.8,81,8,2
95,16.0,77.0,7.4,82,8,3
96,78.0,,6.9,86,8,4
97,35.0,,7.4,85,8,5
98,66.0,,4.6,87,8,6
99,122.0,255.0,4.0,89,8,7
100,89.0,229.0,10.3,90,8,8
101,110.0,207.0,8.0,90,8,9
102,,222.0,8.6,92,8,10

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
124,96.0,167,6.9,91,9,1
125,78.0,197,5.1,92,9,2
126,73.0,183,2.8,93,9,3
127,91.0,189,4.6,93,9,4
128,47.0,95,7.4,87,9,5
129,32.0,92,15.5,84,9,6
130,20.0,252,10.9,80,9,7
131,23.0,220,10.3,78,9,8
132,21.0,230,10.9,75,9,9
133,24.0,259,9.7,73,9,10


In [143]:
# Juntemos todo lo que hemos aprendido en el siguiente ejemplo

ffo <- rnorm(10)
ff1 <- gl(2, 5) 
ff2 <- gl(5, 2)  

str(ff1)
str(ff2)

# Calculamos un factor con 10 niveles

interaction(ff1, ff2)

str(split(ffo, list(ff1, ff2))) 

# Quitamos los niveles vacios

str(split(ffo, list(ff1, ff2), drop = TRUE))

 Factor w/ 2 levels "1","2": 1 1 1 1 1 2 2 2 2 2
 Factor w/ 5 levels "1","2","3","4",..: 1 1 2 2 3 3 4 4 5 5


List of 10
 $ 1.1: num [1:2] 0.559 0.355
 $ 2.1: num(0) 
 $ 1.2: num [1:2] -0.349 0.41
 $ 2.2: num(0) 
 $ 1.3: num -1.67
 $ 2.3: num 0.262
 $ 1.4: num(0) 
 $ 2.4: num [1:2] -0.0799 -0.5518
 $ 1.5: num(0) 
 $ 2.5: num [1:2] -1.65 -1.88
List of 6
 $ 1.1: num [1:2] 0.559 0.355
 $ 1.2: num [1:2] -0.349 0.41
 $ 1.3: num -1.67
 $ 2.3: num 0.262
 $ 2.4: num [1:2] -0.0799 -0.5518
 $ 2.5: num [1:2] -1.65 -1.88


A veces, cuando un data frame se lee directamente desde un archivo, una columna que deberia producir un vector numérico produce un factor. Esto es causado por un valor no numérico en la columna, a menudo un valor perdido codificado de una manera especial. Un plan es descubrir qué causó el problema  y arreglarlo  se puede utilizar el argumento `na.strings` de `read.csv()`:


In [144]:
arch1 <- read.csv(text = "valores\n12\n1\n.\n9")
typeof(arch1$valores)
as.double(arch1$valores)


In [145]:
class(arch1$valores)
as.double(as.character(arch1$valores))

“NAs introducidos por coerción”

In [146]:
arch2 <- read.csv(text = "valores\n12\n1\n.\n9", na.strings=".")
typeof(arch2$valores)
class(arch2$valores)
arch2$valores

La mayoría de las funciones de carga de datos en R convierten automáticamente vectores de caracteres a factores. Esto no es óptimo, porque no hay manera de que esas funciones sepan el conjunto de todos los niveles posibles o su orden óptimo.

Se utiliza  `stringsAsFactors = FALSE` para suprimir ese comportamiento.


In [147]:
enc_chr <- read.csv("datos_1.csv", stringsAsFactors=FALSE)

Entonces, cuando miramos el resultado de `str ()`  veremos que las columnas de factores  son ahora caracteres.

In [148]:
str(enc_chr)

'data.frame':	34786 obs. of  13 variables:
 $ id            : int  1 72 224 266 349 363 435 506 588 661 ...
 $ mes           : int  7 8 9 10 11 11 12 1 2 3 ...
 $ dia           : int  16 19 13 16 12 12 10 8 18 11 ...
 $ era           : int  1977 1977 1977 1977 1977 1977 1977 1978 1978 1978 ...
 $ p_id          : int  2 2 2 2 2 2 2 2 2 2 ...
 $ especies_id   : chr  "NL" "NL" "NL" "NL" ...
 $ sexo          : chr  "M" "M" "" "" ...
 $ long_posterior: int  32 31 NA NA NA NA NA NA NA NA ...
 $ ancho         : int  NA NA NA NA NA NA NA NA 218 NA ...
 $ genus         : chr  "Neotoma" "Neotoma" "Neotoma" "Neotoma" ...
 $ especies      : chr  "albigula" "albigula" "albigula" "albigula" ...
 $ taxa          : chr  "Rodent" "Rodent" "Rodent" "Rodent" ...
 $ tipo          : chr  "Control" "Control" "Control" "Control" ...


## Tablas 


In [149]:
# Empecemos con un ejemplo

uu <- c(22,8,33,6,8,29,-2)
fl <- list(c(5,12,13,12,13,5,13),c("m","ce","m","m","ce","m","m"))
tapply(uu,fl,length)

Unnamed: 0,ce,m
5,,2
12,1.0,1
13,1.0,2


El resultado anterior produce un resultado NA. En estadística, se dice que es una **tabla de contingencia**. La función `table()` resuelve el problema de las tablas de contingencia.

In [150]:
help(table)

In [151]:
table(fl)

    fl.2
fl.1 ce m
  5   0 2
  12  1 1
  13  1 2

El primer argumento en una llamada a `table()` es o bien un factor o una lista de factores. Los dos factores  aquí fueron  `(5,12,13,12,13,5,13)` y ("m", "ce", "m", "m", "ce", "m", "m") . En este caso, un objeto que es interpretado como un factor se cuenta como uno.

In [152]:
# Trabajando con data frames

vot <- read.table("votacion.dat",header=T)
vot

# Usemos table() para calcular la tabla de contingencia para estos datos

vot1 <- table(vot)
vot1

Vote.por..X,Vote.por..X.la.ultima.vez
Si,Si
Si,No
No,No
No estoy seguro,Si
No,No


                 Vote.por..X.la.ultima.vez
Vote.por..X       No Si
  No               2  0
  No estoy seguro  0  1
  Si               1  1

### Operaciones sobre Tablas

Operaciones que pueden ser usadas por los data frame, pueden ser usadas por las tablas.

In [153]:
class(vot1)
vot1[1,1]
vot1[1,]
vot1/5


                 Vote.por..X.la.ultima.vez
Vote.por..X        No  Si
  No              0.4 0.0
  No estoy seguro 0.0 0.2
  Si              0.2 0.2

In [154]:
apply(vot1, 1, sum)


In [155]:
help(addmargins) 
addmargins(vot1)

Unnamed: 0,No,Si,Sum
No,2,0,2
No estoy seguro,0,1,1
Si,1,1,2
Sum,3,2,5


In [156]:
dimnames(vot1)

In [157]:
datos_clinicos <-
    data.frame(pacientes = 1:100,
               edad = rnorm(100, mean = 60, sd = 6),
               treatment = gl(2, 50,
                 labels = c("Tratamientp", "Control")),
                 centro = sample(paste("Centro", LETTERS[1:5]), 100, replace = TRUE)) 
is.na(datos_clinicos$edad) <- sample(1:100, 20)
summary(datos_clinicos)

   pacientes           edad             treatment       centro  
 Min.   :  1.00   Min.   :48.57   Tratamientp:50   Centro A:17  
 1st Qu.: 25.75   1st Qu.:55.49   Control    :50   Centro B:17  
 Median : 50.50   Median :58.63                    Centro C:29  
 Mean   : 50.50   Mean   :59.75                    Centro D:23  
 3rd Qu.: 75.25   3rd Qu.:63.28                    Centro E:14  
 Max.   :100.00   Max.   :80.66                                 
                  NA's   :20                                    

In [158]:
# Queremos saber cuantos sujetos son anotados en cada centro

table(datos_clinicos$centro)


Centro A Centro B Centro C Centro D Centro E 
      17       17       29       23       14 

In [159]:
# pacientes menores de 60 años

table(datos_clinicos$edad < 60)


FALSE  TRUE 
   34    46 

In [160]:
# Mostramos los valores NA tambien

table(datos_clinicos$edad < 60, useNA = "always")


FALSE  TRUE  <NA> 
   34    46    20 

In [161]:
# Calculemos el numero de edades perdidas por centro

table(datos_clinicos$centro, is.na(datos_clinicos$edad))

          
           FALSE TRUE
  Centro A    11    6
  Centro B    15    2
  Centro C    24    5
  Centro D    18    5
  Centro E    12    2

In [162]:
# Los ordenamos de mayor a menor 

sort(table(datos_clinicos$centro, is.na(datos_clinicos$edad))[, 2],      
       decreasing = TRUE)