<img src="logo.png">

# Dataframes

Pasamos ahora a estudiar los objetos, probablemente, mas importantes de todo **R**. Los dataframes (cuadros de datos). Un data frame es, como su nombre lo indica, un arreglo rectangular de datos. Sirven para concentrar información de fenómenos naturales, encuestas, experimentos, etc.

Hasta ahora, ya sabemos que todos los elementos de un vector y de un array (en particular, todos los elementos de una matriz) deben ser del mismo tipo. Como los dataframes deben almacenar información muy variada en sus columnas, su principal diferencia respecto de las matrices **es que cada columna del data frame debe tener el mismo tipo de datos, pero el tipo de datos puede variar de columna a columna**.



## Creación de dataframes

Para crear un dataframe, utilizamos la función ``data.frame()``. Esta función tiene una sintaxis muy diferente a los arrays. En los dataframes, uno da explícitamente cada columna con su nombre (ojo: **nunca uses espacios en los nombres de las columnas de un dataframe**)

In [None]:
mi_dataframe  <- data.frame(pais = c("Portugal","Luxemburgo","España"),
                            poblacion = c(1029898,716122,878971),
                            playa = c(TRUE,FALSE,TRUE))

In [None]:
mi_dataframe

Por la manera en que los dataframes se construyen, es necesario que todas las columnas tengan la misma longitud.

La función ``str()`` nos permite ver cómo está estructurado un dataframe

In [None]:
str(mi_dataframe)

Como puedes observar, la columna **pais** es un vector de tipo factor. Los dataframes en **R** convierten las variables de tipo caracter a factores. Si no quieres que haga eso, añade el parámetro ``stringsAsFactors = FALSE`` en la definición del dataframe.

In [None]:
mi_dataframe  <- data.frame(pais = c("Portugal","Luxemburgo","España"),
                            poblacion = c(1029898,716122,878971),
                            playa = c(TRUE,FALSE,TRUE),
                           stringsAsFactors = FALSE)

In [None]:
str(mi_dataframe)

Otra propiedad importante que tienen los dataframes es que las filas también pueden tener un nombre. Para dar nombres a las filas podemos hacerlo desde la creación del dataframe con el comando ``row.names()``, o con la función ``row.names()``

In [None]:
row.names(mi_dataframe)

In [None]:
row.names(mi_dataframe) <- c("A","B","C")

In [None]:
mi_dataframe

In [None]:
mi_dataframe  <- data.frame(pais = c("Portugal","Luxemburgo","España"),
                            poblacion = c(1029898,716122,878971),
                            playa = c(TRUE,FALSE,TRUE),
                            row.names = c("U","V","W"),
                            stringsAsFactors = FALSE)

In [None]:
mi_dataframe

## Indexado y modificado de un dataframe

El indexado de un dataframe es muy parecido al de matrices. No obstante, también se puede utilizar el operador ``$`` para mandar a llamar sus columnas (una a la vez)

In [None]:
mi_dataframe$pais

In [None]:
mi_dataframe[,1]

In [None]:
mi_dataframe[c("U","W"),]

In [None]:
# Cambiar la población de Portugal a 100000
mi_dataframe[1,2]  <- 100000

In [None]:
mi_dataframe

## Expansión de dataframes

Hemos visto que con las matrices podemos utilizar las funciones ``cbind`` y ``rbind`` para combinarlas horizontal y verticalmente. Con dataframes también se pueden utilizar **con las debidas precauciones**. 



In [None]:
otro_dataframe <- data.frame(c("Francia","Alemania"),c(231213,87623),c(TRUE,TRUE))

In [None]:
otro_dataframe

In [None]:
rbind(mi_dataframe,otro_dataframe)

Como pudo observarse, al utilizar ``rbind`` es importante que ambos dataframes tengan los mismos nombres de columnas. Una manera de asegurarse de esto es cambiando los nombres del segundo dataframe.

In [None]:
colnames(otro_dataframe)

In [None]:
colnames(otro_dataframe) <- colnames(mi_dataframe)

In [None]:
colnames(otro_dataframe)

In [None]:
rbind(mi_dataframe,otro_dataframe)

Con ``cbind`` este problema no se presenta.

In [None]:
extra  <- data.frame(capital = c("Lisboa","Luxemburgo","Madrid"),mundial = c(TRUE,FALSE,NA))
extra

In [None]:
cbind(mi_dataframe,extra)

Para aumentar columnas a un dataframe, la notación ``$`` es útil.

In [None]:
mi_dataframe

In [None]:
mi_dataframe$capital  <- c("Lisboa","Luxemburgo","Madrid")

In [None]:
mi_dataframe

## Eliminado de elementos

Para eliminar filas o columnas de un dataframe, se utiliza el operador ``-``, no obstante también se cuenta con otra estrategia con el operador ``$``

In [None]:
mi_dataframe

In [None]:
mi_dataframe$poblacion  <- NULL

In [None]:
mi_dataframe