# Leyendo datos #

Existen varias funciones que nos permiten leer datos externos en R

- read.table, read.csv para leer datos tabulados
- readLines, para leer lineas de un archivo de texto
- source, para leer archivos R (dump permite escribirlos)
- dget, (dput)
- load, para leer workspaces guardados
- unserialize, para leer objetos de R guardados en binario

**read.table** es una de las funciones más usadas para leer datos. Usa los siguientes argumentos:

- file, el nombre del archivo
- header, valor lógico que indica si el archivo tiene un encabezado o no
- sep, un string que indica qué se usa para separar columnas
- colClasses, un vector de tipo "character" que indica el tipo de datos a usar en cada columna
- nrows, el número de filas del dataset
- comment.char, una cadena de texto que especifica como se indican los comentarios en el archivo
- skip, número de líneas que no se leeran desde el comienzo del archivo
- stringsAsFactors, valor lógico que indica si los datos character deben ser interpretados como factores

Para archivos pequeños, se puede usar read.table sin especificar ningún otro tipo de argumentos. R automáticamente
- saltará las líneas que empiecen con #
- determinará el número de líneas a leer
- deducirá el tipo de objeto en cada columna

read.csv es idéntico a read.table solo que el elemento usado para separar valores es la coma

In [3]:
provincias <- read.csv('data/ejemplo.csv')

"no fue posible abrir el archivo 'data/ejemplo': No such file or directory"

ERROR: Error in file(file, "rt"): no se puede abrir la conexión


## Leyendo grandes conjuntos de datos ##

Una de las características de R es que los datasets se guardan en la memoria. Por lo tanto un conjunto de datos demasiado grande requerirá mucha  RAM y puede ralentizar R. La ayuda de read.table contiene muchos consejos útiles sobre como leer datos eficazmente.

Es conveniente estimar la memoria que se usará. Por ejemplo, si nuestro conjunto de datos contiene 1500000 registros y 120 columnas de valores numericos (8 bytes), esto requerirá 1500000*120*8 bytes. Dividiendo entre 2^20 tendremos el número de MB que es aproximadamente 1.34GB

Además conviene especificar el tipo de datos con **colClasses**. Por ejemplo si todos los datos son de tipo númerico, deberiamos especifica **colClasses = 'numeric'**.

Establecer nrows. En Unix podemos usar wc para determinar el número de filas.

Un pequeño truco para determinar el tipo de clases de cada columna es el siguiente:

In [None]:
test <- read.table('datos.txt', nrows=100)
classes <- sapply(initial, class)
tabAll <- read.table('datos.txt', colClasses = classes)

## Textual Data Formats ##

## Interfaces with the outside world ##

Existen distintos interfaces de conexión para leer datos. El más común es el archivo.

- file, crea una conexión a un archivo
- gzfile, abre una conexión con un archivo comprimido con gzip
- bzfile, conexión con archivo bzip2
- url, abre una conexión con un sitio web.

En la práctica no necesitamos crear estos conexiones

In [None]:
con <- file('ejemplo.txt','r')
data <- read.csv(con)
close(con)

es equivalente a

In [None]:
data <- read.csv('ejemplo.txt')

In [5]:
# Esto puede tardar
con <- url('http://www.jhsph.edu','r')
x <- readLines(con)
head(x)