# Dataframes

Un _dataframe_ es la forma más común de almacenar datos en R y, en general, es la estructura de datos que se usa con más frecuencia para realiza tareas de análisis de datos. Básicamente, un _dataframe_ es una lista de vectores de igual longitud. Cada elemento de la lista se puede considerar como una columna y la longitud de cada elemento de la lista es el número de filas. Como resultado, los _dataframes_ pueden almacenar diferentes tipos de objetos (datos) en cada columna (es decir, numérico, carácter, factor). En esencia, la manera más fácil de pensar en un _dataframe_ es como una hoja de cálculo tipo _Excel_ que contiene columnas de diferentes tipos de datos, pero todas son filas de igual longitud. Esta estructura de datos nos permite tener varias informaciones de múltiples observaciones.


## Creación y guardado

Existen múltiples formas de construir un _dataframe_ a continuación describiremos las más usadas:

### Desde un archivo

No existe una función que nos permita cargar datos de cualquier formato de archivo, ya que como sabéis, cada tipo de archivo posee una estructura interna propia ( más o menos consistente) y por lo tanto necesitaremos funciones diseñadas para los diferentes formatos:

*texto*

 Para crear un _dataframe_ a partir de un fichero de texto simple que contenga una tabla de datos, usaremos la función `read.table`. Podemos aplicar esta función al nombre del fichero , si está en el directorio de trabajo de *R*, o a su _url_, si está en Internet; en ambos casos, entre comillas. Esta función `read.table` tiene algunos parámetros que evitan errores en la creación del _dataframe_

*csv*

Tenemos la función `read.csv` que necesita el _path_ del archivo como parámetro de entrada: `nombre_dataframe = read.csv(path/del/archivo/nombre.csv)`. Esta función tiene un gran nombre de parámetros para ajustarla a las características de cada fichero, por ejemplo si la primera fila se corresponde con el nombre de las columnas.

Podremos construir _dataframes_ a partir de otros formatos de archivo, como por ejemplo *json* mediante la instalación de librerías. Para más información podemos consultar la siguiente [referencia](https://www.tutorialspoint.com/r/r_json_files.htm).


### A partir de una colección de vectores

Supongamos que tenemos la siguiente colección de vectores con idéntica longitud:

```
temp = c(20.37, 18.56, 18.4, 21.96, 29.53, 28.16, 36.38, 36.62, 40.03, 27.59, 22.15, 19.85)
humedad = c(88, 86, 81, 79, 80, 78, 71, 69, 78, 82, 85, 83)
precipitaciones = c(72, 33.9, 37.5, 36.6, 31.0, 16.6, 1.2, 6.8, 36.8, 30.8, 38.5, 22.7)
mes = c("enero", "febrero", "marzo", "abril", "mayo", "junio", "julio", "agosto", "septiembre", "octubre", "noviembre", "diciembre")
```

Podemos transformarlos en un _dataframe_ usando la función `data.frame` de la siguiente manera:

```
meteo = data.frame(mes = mes, temperatura = temp, humedad = humedad, precipitaciones = precipitaciones)
```

El resultado que obtendremos tras ejecutar esta segunda operación es que habremos almacenado el dataframe en la variable `meteo`.

### Dataframes preconstruidos

También podemos hacer uso de los _dataframes_ de ejemplo que *R* nos proporciona, estos son muy útiles para realizar tareas de aprendizaje y pequeñas prácticas. Para buscarlos, puedes llamar a la función `data`. Una vez que hemos ejecutado esta función se abrirá una ventana con una lista de conjuntos de datos disponibles, si queremos usar el conjunto de datos _CO2_ deberemos ejecutar el siguiente código:

```
> data(CO2)
> CO2
```
Como resultado tendremos el _dataframe_ en la variable `CO2`.

Por otra parte, también será posible obtener conjuntos de datos externos mediante la función `data` aunque necesitaremos realizar algún paso previo para descargar los datos a nuestro ordenador, este paso típicamente consiste en la instalación de alguna libreria.

### Guardado

Para poder guardar un _dataframe_ en un fichero podemos usar la función `write.table` muy similar a la función `read.table`. Esta función recibe como mínimo 2 parámetros: el _dataframe_ a guardar y el nombre que tendrá el archivo ( un _string_). Si no queremos que este se guarde en la carpeta  predeterminada, podemos especificar el path (absoluto o relativo) antes del nombre del archivo como parte del _string_.

## Inspección básica


Cuando hemos cargado nuestros datos lo primero que hay que hacer es inspeccionarlo para poder comprobar que este se corresponde con aquello que esperamos, a continuación encontraremos una lista de las funciones que nos pueden ayudar a realizar esta tarea:

- *View*: recibe un _dataframe_ por parámetro, muestra el data frame al que se aplica en la ventana de ficheros.
- *str*: recibe un _dataframe_ por parámetro,  da la estructura global de un objeto de datos.
- *head*: recibe un _dataframe_ y un número _n_ como parámetros, nos muestra las n primeras filas del _dataframe_.
- *tail*: recibe un _dataframe_ y un número _n_ como parámetros, nos muestra las n últimas filas del _dataframe_.
- *names*: recibe un _dataframe_ por parámetro, sirve para obtener un vector con los nombres de las columnas de un _dataframe_, y también para modificar estos nombres.
- *dim*:  recibe un _dataframe_ por parámetro, proporciona el número de filas y el número de columnas de un _dataframe_.


### Ejercicios

1. Carga el dataset llamado `iris` que ya se encuentra en *R*.
2. Aplica la función `str`, ¿de qué tipo de datos son sus columnas?
3. ¿Cuántas columnas tiene? ¿Cuántas observaciones?
4. Muestra las tres últimas filas de este dataset.
---
1. Lee la descripción del conjunto de datos llamado _Faculty Salary Data_ [enlace](http://courses.washington.edu/b517/Datasets/datasets.html) y carga  en *R* su versión de texto (extensión .txt) en una variable con nombre `salary`.
2. Muestra los nombres de las columnas por pantalla. Luego tradúcelos al castellano.
3. Verifica que el cambio se ha realizado de forma correcta, aplicando la función `View` a este _dataframe_.
4. Guarda el _dataframe_ en tu carpeta de trabajo de la asignatura. Haz lo mismo, pero ahora guárdalo en el escritorio de tu ordenador.

## Indexación

La indexación de un _dataframe_ nos permite realizar selecciones de subconjuntos de este con el objetivo de trabajar o analizar con una parte datos más pequeña/especifica. De manera general podemos seleccionar una parte de un _dataframe_, especificando los índices de las filas y columnas que nos interesen entre corchetes. Pero como los individuos y las variables pueden tener nombres, también podemos usarlos para especificar filas y columnas.



### Selección de filas


### Selección de columnas

Para seleccionar una única columna lo podemos hacer de dos maneras


### Selección combinada



## Datos faltas



## Indexación avanzada



## Combinación de  dataframes


## Pivot



## Series temporales

