# Importación de datos ![](https://www.r-project.org/Rlogo.png)



# Importación

En la mayoría de casos los datos los encontraremos en diferentes formatos y provenientes
de diferentes fuentes de información. Las más habituales:
+ Ficheros de texto plano: csv, tsv,…
+ Excel
+ Otras herramientas estadísticas: SAS, STATA, SPSS
+ BD relacionales
…

Existen numerosas funciones y paquetes en R para cargar información. Algunos ejemplos:
+ Fichero de texto plano: `utils, readr, data.table`
+ Excel: `readxl, gdata, XLConnect`
+ SAS, STATA, SPSS: `haven, foreign`
+ BD relacionales: `RMySQL, RPostgreSQL, ROracle`

## Importación de Ficheros de Texto Plano

Dentro del paquete `utils` (el cual se carga por defecto al iniciar la sesión de R) existen varias
funciones para leer ficheros de texto plano y cargar su contenido en un data frame.

La función más importante del paquete es `read.table(fileName)`. Dicha función tiene una  enorme cantidad de parámetros que nos permitirán configurar la carga según el fichero. Los  más importantes:
+ `header`: para indicar si el fichero tiene cabeceras.
+ `sep`: para indicar el separador de nuestro fichero.
+ `stringsAsFactors`: para indicar si las cadenas de caracteres se convertirán en factores.

La ruta al fichero es relativa al directorio de trabajo.

In [1]:
#######################################
# Importación: fichero de texto plano #
#######################################

# Con read.table
mun_csv_1 <- read.table("dat/municipios1.csv",
                   header = TRUE, 
                   sep = ",", 
                   stringsAsFactors = FALSE)
str(mun_csv_1)

'data.frame':	8125 obs. of  2 variables:
 $ id_municipio        : int  1001 1002 1003 1004 1006 1008 1009 1010 1011 1013 ...
 $ unidades_catastrales: int  3543 12407 2185 311 668 2054 3188 564 1084 2177 ...


In [2]:
# Con read.table
mun_tsv_1 <- read.table("dat/municipios2.tsv",
                   header = TRUE, 
                   sep = "\t", 
                   stringsAsFactors = FALSE,
                   dec = ",",
                   quote = "")
str(mun_tsv_1)

'data.frame':	8122 obs. of  11 variables:
 $ id_municipio           : int  1001 1002 1003 1004 1006 1008 1009 1010 1011 1013 ...
 $ municipio              : chr  "Alegr\xeda-Dulantzi" "Amurrio" "Aramaio" "Artziniega" ...
 $ id_provincia           : int  1 1 1 1 1 1 1 1 1 1 ...
 $ provincia              : chr  "Araba/\xc1lava" "Araba/\xc1lava" "Araba/\xc1lava" "Araba/\xc1lava" ...
 $ id_comunidad           : int  16 16 16 16 16 16 16 16 16 16 ...
 $ comunidad              : chr  "Pa\xeds Vasco" "Pa\xeds Vasco" "Pa\xeds Vasco" "Pa\xeds Vasco" ...
 $ es_capital_de_provincia: int  0 0 0 0 0 0 0 0 0 0 ...
 $ es_capital_de_comunidad: int  0 0 0 0 0 0 0 0 0 0 ...
 $ latitud                : num  42.8 43.1 43.1 43.1 42.7 ...
 $ longitud               : num  -2.51 -3 -2.57 -3.13 -2.87 ...
 $ poblacion              : int  2870 10139 1491 1832 237 981 1671 2935 323 924 ...


Existen otras funciones para leer directamente ficheros csv (**coma como separador**) o tsv
(**tabulador como separador**):

+ Con punto como separador decimal
    + csv: `read.csv`
    + tsv: `read.delim`

In [3]:
# Con read.csv
mun_csv_2 <- read.csv("dat/municipios1.csv", stringsAsFactors = FALSE)
str(mun_csv_2)

'data.frame':	8125 obs. of  2 variables:
 $ id_municipio        : int  1001 1002 1003 1004 1006 1008 1009 1010 1011 1013 ...
 $ unidades_catastrales: int  3543 12407 2185 311 668 2054 3188 564 1084 2177 ...


+ Con coma como separador decimal
    + csv: `read.csv2`
    + tsv: `read.delim2`

Son variantes de `read.table` pero con distintos valores por defecto.

In [4]:
# Con read.delim2
mun_tsv_2 <- read.delim2("dat/municipios2.tsv", stringsAsFactors = FALSE)
str(mun_tsv_2)

'data.frame':	8122 obs. of  11 variables:
 $ id_municipio           : int  1001 1002 1003 1004 1006 1008 1009 1010 1011 1013 ...
 $ municipio              : chr  "Alegr\xeda-Dulantzi" "Amurrio" "Aramaio" "Artziniega" ...
 $ id_provincia           : int  1 1 1 1 1 1 1 1 1 1 ...
 $ provincia              : chr  "Araba/\xc1lava" "Araba/\xc1lava" "Araba/\xc1lava" "Araba/\xc1lava" ...
 $ id_comunidad           : int  16 16 16 16 16 16 16 16 16 16 ...
 $ comunidad              : chr  "Pa\xeds Vasco" "Pa\xeds Vasco" "Pa\xeds Vasco" "Pa\xeds Vasco" ...
 $ es_capital_de_provincia: int  0 0 0 0 0 0 0 0 0 0 ...
 $ es_capital_de_comunidad: int  0 0 0 0 0 0 0 0 0 0 ...
 $ latitud                : num  42.8 43.1 43.1 43.1 42.7 ...
 $ longitud               : num  -2.51 -3 -2.57 -3.13 -2.87 ...
 $ poblacion              : int  2870 10139 1491 1832 237 981 1671 2935 323 924 ...


In [5]:
# Con read.table
mun_tsv_1 <- read.table("dat/municipios2.tsv",
                   header = TRUE, 
                   sep = "\t", 
                   stringsAsFactors = FALSE,
                   dec = ",",
                   quote = "")
str(mun_tsv_1)

'data.frame':	8122 obs. of  11 variables:
 $ id_municipio           : int  1001 1002 1003 1004 1006 1008 1009 1010 1011 1013 ...
 $ municipio              : chr  "Alegr\xeda-Dulantzi" "Amurrio" "Aramaio" "Artziniega" ...
 $ id_provincia           : int  1 1 1 1 1 1 1 1 1 1 ...
 $ provincia              : chr  "Araba/\xc1lava" "Araba/\xc1lava" "Araba/\xc1lava" "Araba/\xc1lava" ...
 $ id_comunidad           : int  16 16 16 16 16 16 16 16 16 16 ...
 $ comunidad              : chr  "Pa\xeds Vasco" "Pa\xeds Vasco" "Pa\xeds Vasco" "Pa\xeds Vasco" ...
 $ es_capital_de_provincia: int  0 0 0 0 0 0 0 0 0 0 ...
 $ es_capital_de_comunidad: int  0 0 0 0 0 0 0 0 0 0 ...
 $ latitud                : num  42.8 43.1 43.1 43.1 42.7 ...
 $ longitud               : num  -2.51 -3 -2.57 -3.13 -2.87 ...
 $ poblacion              : int  2870 10139 1491 1832 237 981 1671 2935 323 924 ...


## Alternativas al paquete `utils`

![import_table.png](imgs/08_01.png)

### `readr`

Paquete desarrollado por Hadley  Wickham (creador de varios paquetes famosos de  R como `ggplot2`).

Es más rápido cargando datos que el paquete utils.

Por defecto, no convierte las cadenas de  caracteres en factores.

In [10]:
# Con readr
library(readr)

In [11]:
mun_csv_3 <- read_delim("dat/municipios1.csv",
                     delim = ",",
                     col_types = "ci") #c: characters, d: double, i: integer, l: logical, _: ignore
str(mun_csv_3)

Classes ‘tbl_df’, ‘tbl’ and 'data.frame':	8125 obs. of  2 variables:
 $ id_municipio        : chr  "01001" "01002" "01003" "01004" ...
 $ unidades_catastrales: int  3543 12407 2185 311 668 2054 3188 564 1084 2177 ...
 - attr(*, "spec")=List of 2
  ..$ cols   :List of 2
  .. ..$ id_municipio        : list()
  .. .. ..- attr(*, "class")= chr  "collector_character" "collector"
  .. ..$ unidades_catastrales: list()
  .. .. ..- attr(*, "class")= chr  "collector_integer" "collector"
  ..$ default: list()
  .. ..- attr(*, "class")= chr  "collector_guess" "collector"
  ..- attr(*, "class")= chr "col_spec"


In [None]:
mun_tsv_3 <- read_tsv("dat/municipios2.tsv", col_types = "cccccciiddi", 
                      locale = locale("es", decimal_mark = ","))
str(mun_tsv_3)

### **`data.table`**

Paquete para manipulación de datos en R (no está creado exclusivamente  para leer ficheros).

`fread` infiere los tipos de las columnas y los separadores.

Extremadamente rápido.

In [12]:
# Con fread
# install.packages("data.table", repos ="https://cloud.r-project.org")

library(data.table)

ERROR: Error in library(data.table): there is no package called ‘data.table’


In [None]:
mun_csv_4 <- fread("dat/municipios1.csv")
str(mun_csv_4)

## Importación de Ficheros Excel

El paquete más simple para cargar datos desde Excel es `readxl`. 

Lee ficheros con extensión `xls` y `xlsx`. Muy similar a `readr` (mismo creador, Hadley Wickham).

Para leer los archivos de Excel nos apoyaremos en dos funciones:

+ `excel_sheets()`: devuelve la lista de hojas disponibles en el archivo.

+ `read_excel()`: realiza la carga. Algunos parámetros:
    + `sheet`: para indicar el número de hoja a cargar.
    + `col_names`: para indicar si la tabla tiene cabeceras.
    + `col_types`: para indicar el tipo básico de las columnas (también se pueden omitir)
    + `skip`: para omitir las primeras filas del fichero.

Otros paquetes: `gdata` y `XLConnect`.

In [None]:
#######################################
# Importación: fichero Excel          #
#######################################

In [14]:
install.packages("readxl", repos ="https://cloud.r-project.org")

also installing the dependencies ‘rematch’, ‘prettyunits’, ‘cellranger’, ‘progress’

“installation of package ‘readxl’ had non-zero exit status”Updating HTML index of packages in '.Library'
Making 'packages.html' ... done


In [15]:
library(readxl)
excel_sheets("dat/municipios.xlsx")

mun_xlsx <- read_excel("dat/municipios.xlsx")

ERROR: Error in library(readxl): there is no package called ‘readxl’


In [None]:
mun_xlsx

### Importación desde BBDD Relacionales



Existen diversos paquetes en R para conectar a base de datos. Estos paquetes son
específicos para cada software de base de datos.
+ MySQL: `RMySQL`
+ PostgresSQL: `RPostgresSQL`
+ Oracle: `ROracle`
+ SQL Server: `RODBC`
+ Otros paquetes: `DBI`

En particular, `RODBC` es un paquete universal para conectar a las bases de datos que admiten el estándar Open Data Base Conector.

El procedimiento de trabajo es análogo al de otros lenguajes de programación
+ Establecer conexión.
+ Ejecutar la consulta para obtener los datos.
+ Traer los resultados (todo el resultset de una vez o fila a fila).
+ Cerrar conexión.

Hacer consultas a una base de datos nos permite extraer la información de manera  selectiva.

In [None]:
# install.packages("RODBC", repos ="https://cloud.r-project.org")
library(RODBC)

In [None]:
userName <- ""
passwd <- ""
hive_schema <- "schema_name"
dataSourceName <- "Cloudera Hive 64-bit"


hiveConn <- odbcConnect(dataSourceName, uid=userName, pwd=passwd)
odbcGetInfo(hiveConn)

In [None]:
sqlQuery(hiveConn,"")

bdm_agentes <- sqlQuery(hiveConn,"SELECT * FROM TABLA_1;")