# Procesos ETVL usando R -- 3 -- Extracción de datos
Notas de clase sobre la extracción, transformación, visualización y carga de datos usando R

**Juan David Velásquez Henao**   
jdvelasq@unal.edu.co  
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia  

[Licencia](https://github.com/jdvelasq/ETVL-R/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/ETVL-R/blob/master/Readme.md)

**Software utilizado**.

> Este es un documento interactivo escrito como un notebook de [Jupyter](http://jupyter.org), en el cual se presenta un tutorial sobre la extracción, transformación, visualización y carga de datos usando **R** en el contexto de la ciencia de los datos. Los notebooks de Jupyter permiten incoporar simultáneamente código, texto, gráficos y ecuaciones. El código presentado en este notebook puede ejecutarse en los sistemas operativos Linux y OS X.

> Haga click [aquí](https://github.com/jdvelasq/guias-de-instalacion) para obtener instrucciones detalladas sobre como instalar Jupyter en Windows y Mac OS X.

> Haga clic [aquí](http://nbviewer.jupyter.org/github/jdvelasq/ETVL-R/blob/master/ETVL-R-3-extraccion.ipynb) para ver la última versión de este documento en nbviewer.

> Descargue la última versión de este documento a su disco duro; luego, carguelo y ejecutelo en línea en [Try Jupyter!](https://try.jupyter.org)

#### Contenido

> 
  * [Lectura y escritura de archivos de texto](#Lectura-y-escritura-de-archivos-de-texto)
  * [Formato nativo de R   ](#Formato-nativo-de-R)
  * [Feather R/Python interchange format](#Feather-R/Python-interchange-format)
  * [CSV](#CSV)
  * [CSV2](#CSV2)
  * [TXT con formato libre](#TXT-con-formato-libre)
  * [TXT como tablas de texto](#TXT-como-tablas-de-texto)
  * [TXT con formato de ancho fijo](#TXT-con-formato-de-ancho-fijo)
  * [JSON](#JSON)
  * [HTML](#HTML)
  * [Excel](#Excel)
  * [HDF5](#HDF5)
  * [STATA](#STATA)
  * [SAS](#SAS)
  * [XBASE](#XBASE)
  * [MySQL y MariaDB](#MySQL-y-MariaDB)
  * [XML](#XML)
  * [ARFF Weka](#ARFF-Weka)
  * [MPT minitab portable worksheet  ](#MPT-minitab-portable-worksheet)
  * [PDF](#PDF)
  * [Octave & Matlab](#Octave-&-Matlab)
  * [SPSS](#SPSS)
  * [Systat](#Systat)
  * [Mongo DB](#Mongo-DB)
  * [Spark](#Spark)

**Bibliografía**.

> [An introduction to R](https://cran.r-project.org/doc/manuals/R-intro.pdf) by W. N. Venables, D. M. Smith and the R Core Team

**Material complementario.**
> Webinar RStudio [Getting your data into R](https://www.rstudio.com/resources/webinars/getting-your-data-into-r/) 

---

**Datos de ejemplo**.  
> 
[`Constants {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/Constants.html)  
[`Uniform {stats}`](https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Uniform.html)  


In [1]:
## crea un dataframe de prueba
df <- data.frame(index = 1:5,
                 name = LETTERS[1:5],
                 value = round(runif(5)*10, 2))
print(df)                

  index name value
1     1    A  6.44
2     2    B  5.42
3     3    C  8.42
4     4    D  3.82
5     5    E  7.82


In [1]:
runif(5)

In [2]:
## crea un texto de prueba en formato libre (obtenido de wikipedia)
## los cambios de línea introducen caracteres de retorno de carro '\n'
txt = "R is a programming language and software environment for statistical computing 
and graphics supported by the R Foundation for Statistical Computing.[3] The R language 
is widely used among statisticians and data miners for developing statistical software[4] 
and data analysis.[5] Polls, surveys of data miners, and studies of scholarly literature 
databases show that R's popularity has increased substantially in recent years.[6]"

In [3]:
print(txt)

[1] "R is a programming language and software environment for statistical computing \nand graphics supported by the R Foundation for Statistical Computing.[3] The R language \nis widely used among statisticians and data miners for developing statistical software[4] \nand data analysis.[5] Polls, surveys of data miners, and studies of scholarly literature \ndatabases show that R's popularity has increased substantially in recent years.[6]"


In [4]:
## escribe el archivo en disco
cat(txt, file = 'files/wikipedia.txt')

---

# Lectura y escritura de archivos de texto

[Contenido](#Contenido)

> [`readLines {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/readLines.html)  
[`writeLines {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/writeLines.html)  
[`scan {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/scan.html)

In [2]:
# escribe el contenido del vector de strings al archivo
writeLines(text = sprintf('linea %d', seq(5)), # genera el vector de strings
           con = 'out.1',  # nombre del archivo
           sep = '\n')     # separador entre strings (retorno de carro)

In [6]:
readLines(con = 'out.1',
          n= -1L)

In [26]:
# lee el contenido total o parcial del archivo
readLines(con = 'out.1',  # nombre del archivo
          n = -1L)        # la totalidad del archivo

In [27]:
# lee el contenido total o parcial del archivo
readLines(con = 'out.1',  # nombre del archivo
          n = 3)          # las primeras 3 lineas

In [7]:
readLines('out.1')

In [30]:
writeLines(text = as.character(seq(10)), # genera una secuencia de enteros 1, ..., 10
           con = 'out.1',                # nombre del archivo
           sep = '\n')                   # separador entre strings (retorno de carro)

In [20]:
# imprime las lineas, una a una
cat("linea 1\n", file='out.1')
cat("linea 2\n", file='out.1', append=TRUE)
cat("linea 3\n", file='out.1', append=TRUE)
readLines('out.1')

In [48]:
cat("", file='out.1') # crea un archivo vacío
print(readLines('out.1'))

character(0)


En el siguiente ejemplo se realiza la concatenación del contenido de archivos.

In [36]:
# se crean tres archivos
cat(sprintf('linea %d', seq(from=1, to=3)), sep='\n', file='out.1')
cat(sprintf('linea %d', seq(from=4, to=6)), sep='\n', file='out.2')
cat(sprintf('linea %d', seq(from=7, to=9)), sep='\n', file='out.3')

In [37]:
x <- readLines('out.1')       # inicializa la variable con el contenido de `out.1`. 
x <- c(x, readLines('out.2')) # agrega el contenido de `out.2` a x
x <- c(x, readLines('out.3')) # agrega el contenido de `out.3` a x
cat(x, sep='\n')

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7
linea 8
linea 9


In [9]:
# se leen las tres primeras lineas del archivo
cat(sprintf('linea %d', seq(10)), sep='\n', file='out.1') # crea el archivo
readLines('out.1', ok=TRUE, n=3)  

In [10]:
# se leen las tres primeras lineas del archivo
cat(sprintf('linea %d', seq(10)), file='out.1', sep='\n') # crea el archivo
readLines('out.1', ok=TRUE, n=3)  

In [7]:
cat("linea 1", "linea 2", "linea 3", # cadenas de texto (strings)
    sep='\n',                        # separador entre strings
    file='out.1')                    # nombre del archivo 

In [21]:
readLines('out.1') # lee el archivo

In [39]:
# se leen las tres últimas lineas del archivo
x <- readLines('out.1', ok=TRUE)
x[(length(x)-2):length(x)]

In [41]:
# se todas las lineas del archivo, exceptuando las cuatro primeras.
x <- readLines('out.1', ok=TRUE)
x[-(1:4)]

In [42]:
# cuenta la cantidad de líneas del archivo
length(readLines('out.1'))

In [44]:
# divide el contenido del archivo en palabras
x <- readLines('out.1')
print(strsplit(x, split=' '))

[[1]]
[1] "linea" "1"    

[[2]]
[1] "linea" "2"    

[[3]]
[1] "linea" "3"    

[[4]]
[1] "linea" "4"    

[[5]]
[1] "linea" "5"    

[[6]]
[1] "linea" "6"    

[[7]]
[1] "linea" "7"    

[[8]]
[1] "linea" "8"    

[[9]]
[1] "linea" "9"    

[[10]]
[1] "linea" "10"   



In [46]:
# cuenta la cantidad de palabras del archivo
x <- readLines('out.1')
x <- paste(x, sep='', collapse=' ')  # pega todas las líneas en un solo string
x <- strsplit(x, split=' ')[[1]]
length(x)

In [12]:
# cuenta la cantidad de caracteres de un archivo
x <- readLines('out.1')
x <- paste(x, sep='', collapse=' ')
x <- strsplit(x, split=' ')[[1]]
sum(nchar(x))

In [13]:
# cuenta la cantidad de caracteres de un archivo
x <- readLines('out.1')
x <- paste(x, sep='', collapse=' ')
x <- strsplit(x, split=' ')[[1]]
sum(nchar(x))

La función `scan()` permite la escritura directa a archivos en disco duro.

In [34]:
scan('out.1') # lee el contenido del archivo y lo convierte en vector

In [33]:
scan(text='1.2.3.4.5.6.7.8.9.10', sep='.') # tambien puede leer de strings

# Formato nativo de R   

[Contenido](#Contenido)

> [`save {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/save.html)  
[`load {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/load.html)  
[`readRDS {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/readRDS.html)  
[`saveRDS {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/readRDS.html)  

In [5]:
## Salva el dataframe. se pueden salvar varios objetos simultáneamente
save(df, file='files/data.RData') 

In [6]:
## Se listan las variables existentes en el entorno.
ls()

In [14]:
ls()

In [7]:
## remueve el dataframe.
rm(df)
ls()

In [8]:
## recupera el dataset `df` del archivo.
load(file='files/data.RData' )
print(df)

  index name value
1     1    A  6.44
2     2    B  5.42
3     3    C  8.42
4     4    D  3.82
5     5    E  7.82


In [9]:
saveRDS(df, "files/data.rds")

In [10]:
print(readRDS("files/data.rds"))

  index name value
1     1    A  6.44
2     2    B  5.42
3     3    C  8.42
4     4    D  3.82
5     5    E  7.82


# Feather R/Python interchange format

[Contenido](#Contenido)

> 
[`read_feather {feather}`](https://cran.r-project.org/web/packages/feather/index.html)  
[`write_feather {feather}`](https://cran.r-project.org/web/packages/feather/index.html)

> Instalación:
```
devtools::install_github("wesm/feather/R")
```

In [11]:
library(feather)
write_feather(df, 'files/data.feather')

In [12]:
x <- read_feather('files/data.feather')
print(x)

Source: local data frame [5 x 3]

  index   name value
  <int> <fctr> <dbl>
1     1      A  6.44
2     2      B  5.42
3     3      C  8.42
4     4      D  3.82
5     5      E  7.82


# CSV

[Contenido](#Contenido)

> [`write.csv {utils}`](https://stat.ethz.ch/R-manual/R-devel/library/utils/html/write.table.html)  
[`read.csv {utils}`](https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html)  

In [13]:
## lo escribe con formato csv.
write.csv(x = df, 
          file = 'files/data.csv',  # archivo
          row.names = FALSE)        # imprime los nombres de las filas?

## imprime el contenido del archivo
x <- readLines(con = 'files/data.csv', n = -1L)
cat(x , sep = '\n')

"index","name","value"
1,"A",6.44
2,"B",5.42
3,"C",8.42
4,"D",3.82
5,"E",7.82


In [14]:
## graba el dataset 'iris' para usarlo en el tutorial de python
write.csv(x = iris, 
          file = 'files/iris.csv',  # archivo
          row.names = FALSE)        # imprime los nombres de las filas?

In [15]:
## lectura
x <- read.csv(file = 'files/data.csv', # nombre del archivo
              header = TRUE,           # nombres de columnas
              sep = ",",               # separador de campos
              dec = ".")               # separador de decimales
print(x)

  index name value
1     1    A  6.44
2     2    B  5.42
3     3    C  8.42
4     4    D  3.82
5     5    E  7.82


In [24]:
writeLines(text = sprintf('linea %d', seq(5)), con = 'hola', sep= '\n')
r<- readLines(con= 'hola', n=-1L)
cat(r, sep='\n')

linea 1
linea 2
linea 3
linea 4
linea 5


In [25]:
write.csv(x= r, file='hola.csv', row.names= FALSE)

rcsv<- readLines(con= 'hola.csv', n=-1L)
cat(rcsv, sep='\n')

"x"
"linea 1"
"linea 2"
"linea 3"
"linea 4"
"linea 5"


# CSV2

[Contenido](#Contenido)

> [`write.csv2 {utils}`](https://stat.ethz.ch/R-manual/R-devel/library/utils/html/write.table.html)  
[`read.csv2 {utils}`](https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html) 

In [16]:
## ';' para campos y ',' para decimales.
write.csv2(x = df, 
           file = 'files/data.csv2',  # archivo
           row.names = FALSE)         # imprime los nombres de las filas?

## imprime el contenido del archivo
cat(readLines(con = 'files/data.csv2', n = -1L), sep = '\n')

"index";"name";"value"
1;"A";6,44
2;"B";5,42
3;"C";8,42
4;"D";3,82
5;"E";7,82


In [17]:
## lectura
x <- read.csv(file='files/data.csv2', # nombre del archivo
              header=TRUE,            # nombres de columnas
              sep = ";",              # separador de campos
              dec = ",")              # separador de decimales
print(x)

  index name value
1     1    A  6.44
2     2    B  5.42
3     3    C  8.42
4     4    D  3.82
5     5    E  7.82


# TXT con formato libre

[Contenido](#Contenido)

> [`scan {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/scan.html)

In [18]:
## separa el contenido del archivo por palabra 
## (strings delimitados por espacios en blanco)
print(scan(file = 'files/wikipedia.txt',  # nombre del archivo
           what = character(0)))          # tipo de dato          

 [1] "R"             "is"            "a"             "programming"  
 [5] "language"      "and"           "software"      "environment"  
 [9] "for"           "statistical"   "computing"     "and"          
[13] "graphics"      "supported"     "by"            "the"          
[17] "R"             "Foundation"    "for"           "Statistical"  
[21] "Computing.[3]" "The"           "R"             "language"     
[25] "is"            "widely"        "used"          "among"        
[29] "statisticians" "and"           "data"          "miners"       
[33] "for"           "developing"    "statistical"   "software[4]"  
[37] "and"           "data"          "analysis.[5]"  "Polls,"       
[41] "surveys"       "of"            "data"          "miners,"      
[45] "and"           "studies"       "of"            "scholarly"    
[49] "literature"    "databases"     "show"          "that"         
[53] "R's"           "popularity"    "has"           "increased"    
[57] "substantially" "in"         

In [19]:
## separa el contenido del archivo por renglon y frase
print(scan(file = 'files/wikipedia.txt',   #
           what = character(0),            #
           quote='',                       # 
           sep='.'))                       # caracter de separación 

[1] "R is a programming language and software environment for statistical computing "           
[2] "and graphics supported by the R Foundation for Statistical Computing"                      
[3] "[3] The R language "                                                                       
[4] "is widely used among statisticians and data miners for developing statistical software[4] "
[5] "and data analysis"                                                                         
[6] "[5] Polls, surveys of data miners, and studies of scholarly literature "                   
[7] "databases show that R's popularity has increased substantially in recent years"            
[8] "[6]"                                                                                       


# TXT como tablas de texto

[Contenido](#Contenido)

> [`write.table {utils}`](https://stat.ethz.ch/R-manual/R-devel/library/utils/html/write.table.html)  
[`read.table {utils}`](https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html)  

In [20]:
## escribe el archivo en forma de tabla 
write.table(x = df,                   # el dataframe
            file = 'files/data.txt',  # archivo
            append = FALSE,           # lo agrega al final del archivo? 
            sep = ' ',                # caracter de separcion entre campos
            quote = FALSE,            # delimitador
            row.names = FALSE,        # imprime los nombres de las filas?
            col.names = TRUE)         # imprime los nombres de las columnas?

## imprime el contenido del archivo
cat(readLines(con = 'files/data.txt', n = -1L), sep = '\n')

index name value
1 A 6.44
2 B 5.42
3 C 8.42
4 D 3.82
5 E 7.82


In [21]:
x <- read.table(file = 'files/data.txt', 
                header = TRUE, 
                sep = "", 
                quote = "\"'")     
print(x)

  index name value
1     1    A  6.44
2     2    B  5.42
3     3    C  8.42
4     4    D  3.82
5     5    E  7.82


# TXT con formato de ancho fijo

[Contenido](#Contenido)

> [`read.fwf {utils}`](https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.fwf.html)  
[`write.fwf {gdata}`](http://svitsrv25.epfl.ch/R-doc/library/gdata/html/write.fwf.html)

In [22]:
# crea un archivo separado por multiples espacios en blanco.
# los nombres de las columnas están separados por comas.
cat("index,names,values,codes",
    "00001john wick002.1310",
    "00002mark twin003.1411",
    "00003louis ng 004.3412",
    "00004dan brown002.3113",
    "00005ann marie004.9814", sep = '\n', file = 'files/data.fwf')

In [23]:
x <- read.fwf(file='files/data.fwf',    # nombre del archivo
              widths=c(5,9,6,2),        # anchos de los campos
              header = TRUE,            # nombres de columnas
              sep = ",")                # separador de los nombres de columnas

print(x)

  index     names values codes
1     1 john wick   2.13    10
2     2 mark twin   3.14    11
3     3 louis ng    4.34    12
4     4 dan brown   2.31    13
5     5 ann marie   4.98    14


# JSON

[Contenido](#Contenido)

> [`toJSON {jsonlite}`](https://cran.r-project.org/web/packages/jsonlite/index.html)  
[`fromJSON {jsonlite}`](https://cran.r-project.org/web/packages/jsonlite/index.html) 

> [`toJSON {rjson}`](https://cran.r-project.org/web/packages/rjson/index.html)  
[`fromJSON {rjson}`](https://cran.r-project.org/web/packages/rjson/index.html)

> JSON en [Wikipedia](https://es.wikipedia.org/wiki/JSON)  

In [24]:
# carga las librerias
library(jsonlite)
library(rjson)


Attaching package: 'rjson'

The following objects are masked from 'package:jsonlite':

    fromJSON, toJSON



In [25]:
## convierte a JSON
jsonlite::toJSON(df, pretty = TRUE)

[
  {
    "index": 1,
    "name": "A",
    "value": 6.44
  },
  {
    "index": 2,
    "name": "B",
    "value": 5.42
  },
  {
    "index": 3,
    "name": "C",
    "value": 8.42
  },
  {
    "index": 4,
    "name": "D",
    "value": 3.82
  },
  {
    "index": 5,
    "name": "E",
    "value": 7.82
  }
] 

In [26]:
jsonlite::fromJSON(jsonlite::toJSON(df))
print(x)

Unnamed: 0,index,name,value
1,1,A,6.44
2,2,B,5.42
3,3,C,8.42
4,4,D,3.82
5,5,E,7.82


  index     names values codes
1     1 john wick   2.13    10
2     2 mark twin   3.14    11
3     3 louis ng    4.34    12
4     4 dan brown   2.31    13
5     5 ann marie   4.98    14


In [27]:
x <- rjson::fromJSON(file = "files/data.json" )
x

# HTML

[Contenido](#Contenido)

> [`rio` Package](https://cran.r-project.org/web/packages/rio/index.html): : A Swiss-Army Knife for Data I/O

In [1]:
library(rio)
export(df, 'files/data.html')

# imprime el archivo creado
cat(readLines(con = 'files/data.html', n = -1L), sep = '\n')

ERROR: Error in library(rio): there is no package called ‘rio’


# Excel

[Contenido](#Contenido)

> 
[`WriteXLS {WriteXLS}`](https://cran.r-project.org/web/packages/WriteXLS/)

> [`read.xls {gdata}`](http://svitsrv25.epfl.ch/R-doc/library/gdata/html/read.xls.html)  
[`read_excel {readxl}`](https://cran.r-project.org/web/packages/readxl/)  
[`read.xlsx {xlsx}`](https://cran.r-project.org/web/packages/xlsx/)  
[`loadWorkbook {XLConnect}`](https://cran.r-project.org/web/packages/XLConnect/)  
[`readWorksheet {XLConnect}`](https://cran.r-project.org/web/packages/XLConnect/)  

In [29]:
## convierte el data.frame a Excel
library(WriteXLS)
WriteXLS(x = df, ExcelFileName = "files/data.xls")

In [30]:
library(gdata)                   # contiene la función read.xls
x <- read.xls(xls='files/data.xls',   # nombre del archivo
              sheet=1)                # indice de la hoja a leer.
print(x)

gdata: read.xls support for 'XLS' (Excel 97-2004) files ENABLED.

gdata: read.xls support for 'XLSX' (Excel 2007+) files ENABLED.

Attaching package: 'gdata'

The following object is masked from 'package:stats':

    nobs

The following object is masked from 'package:utils':

    object.size

The following object is masked from 'package:base':

    startsWith



  index name value
1     1    A  6.44
2     2    B  5.42
3     3    C  8.42
4     4    D  3.82
5     5    E  7.82


In [31]:
library(XLConnectJars)
library(XLConnect) 
x <- readWorksheet(loadWorkbook("files/data.xlsx"),  # carga el libro
                   sheet=1)                          # lee la hoja 1
print(x)

XLConnect 0.2-11 by Mirai Solutions GmbH [aut],
  Martin Studer [cre],
  The Apache Software Foundation [ctb, cph] (Apache POI, Apache Commons
    Codec),
  Stephen Colebourne [ctb, cph] (Joda-Time Java library)
http://www.mirai-solutions.com ,
http://miraisolutions.wordpress.com


  index name value
1     1    A  9.48
2     2    B  8.21
3     3    C  6.79
4     4    D  3.41
5     5    E  5.19


In [32]:
library(readxl)  # debe instalar el paquete readxl
x <- read_excel("files/data.xls")
print(x)

Source: local data frame [5 x 2]

  index  name
  <dbl> <chr>
1     1     A
2     2     B
3     3     C
4     4     D
5     5     E


In [33]:
library(xlsx)  
x <- read.xlsx('files/data.xlsx',  # el archivo
               sheetIndex = 1,     # la hoja
               header = TRUE)      # la tabla tiene cabeceras?
print(x)

Loading required package: rJava
Loading required package: xlsxjars

Attaching package: 'xlsx'

The following objects are masked from 'package:XLConnect':

    createFreezePane, createSheet, createSplitPane, getCellStyle,
    getSheets, loadWorkbook, removeSheet, saveWorkbook, setCellStyle,
    setColumnWidth, setRowHeight



  index name value
1     1    A  9.48
2     2    B  8.21
3     3    C  6.79
4     4    D  3.41
5     5    E  5.19


# HDF5

[Contenido](#Contenido)

> Para la manipulación de modelos de datos en HDF5 se usa el paquete `hdf5` disponible en bioconductor. Para instalarlo, ejecute los siguientes comandos en el prompt de comandos del IDLE de R.
```
> source("http://bioconductor.org/biocLite.R")  # bioconductor installer
> biocLite("rhdf5")                             # instalador del paquete
```
El manual de usuario se puede obtener [aquí](http://www.bioconductor.org/packages/release/bioc/vignettes/rhdf5/inst/doc/rhdf5.pdf).

In [34]:
# si el archivo ya existe lo borra
if (file.exists('files/data.h5')) {
    file.remove('files/data.h5')
}

library(rhdf5)
h5createFile("files/data.h5")                # crea el archivo
h5createGroup("files/data.h5","myGroup1")    # crea un grupo
h5createGroup("files/data.h5","myGroup2")    # crea otro grupo
h5createGroup("files/data.h5","myGroup3")    # y otro grupo
h5ls("files/data.h5")                        # lista los grupos en el archivo

Unnamed: 0,group,name,otype,dclass,dim
0,/,myGroup1,H5I_GROUP,,
1,/,myGroup2,H5I_GROUP,,
2,/,myGroup3,H5I_GROUP,,


In [35]:
# se crean varios datos de diferentes tipos 
a = matrix(1:10,nr=5,nc=2)
b = c(1, 2, 3, 4, 5)
c = 'holamundo'

In [36]:
# se escriben los contenidos de las variables al archivo 
h5write(a,  "files/data.h5","myGroup1/a")
h5write(b,  "files/data.h5","myGroup1/b")
h5write(c,  "files/data.h5","myGroup1/c")
h5write(df, "files/data.h5","myGroup1/df")
x <- h5ls("files/data.h5")
H5close()

print(x)

      group     name       otype   dclass   dim
0         / myGroup1   H5I_GROUP               
1 /myGroup1        a H5I_DATASET  INTEGER 5 x 2
2 /myGroup1        b H5I_DATASET    FLOAT     5
3 /myGroup1        c H5I_DATASET   STRING     1
4 /myGroup1       df H5I_DATASET COMPOUND     5
5         / myGroup2   H5I_GROUP               
6         / myGroup3   H5I_GROUP               


In [37]:
# lectura del archivo
h5f = H5Fopen("files/data.h5")
h5f

HDF5 FILE
        name /
    filename 

      name     otype dclass dim
0 myGroup1 H5I_GROUP           
1 myGroup2 H5I_GROUP           
2 myGroup3 H5I_GROUP           

In [38]:
h5f$myGroup1

0,1
1,6
2,7
3,8
4,9
5,10

Unnamed: 0,index,name,value
1,1.0,1.0,6.44
2,2.0,2.0,5.42
3,3.0,3.0,8.42
4,4.0,4.0,3.82
5,5.0,5.0,7.82


In [39]:
H5close() # cierre de la conexión al archivo.

# STATA

[Contenido](#Contenido)

> 
[`read.dta {foreign}`](http://www.inside-r.org/r-doc/foreign/read.dta)  
[`write.dta {foreign}`](http://www.inside-r.org/r-doc/foreign/write.dta)

In [40]:
library(foreign)
write.dta(df, 'files/data.dta')

In [41]:
x <- read.dta('files/data.dta')
print(x)

  index name value
1     1    A  6.44
2     2    B  5.42
3     3    C  8.42
4     4    D  3.82
5     5    E  7.82


# SAS

[Contenido](#Contenido)

> no hay info disponible

In [42]:
#
# pendiente
#

# XBASE

[Contenido](#Contenido)

> 
[`read.dbf {foreign}`](http://www.inside-r.org/r-doc/foreign/read.dbf)  
[`write.dbf {foreign}`](http://www.inside-r.org/r-doc/foreign/write.dbf)

In [43]:
library(foreign)
write.dbf(df, 'files/data.dbf')

In [44]:
read.dbf('files/data.dbf')

Unnamed: 0,index,name,value
1,1,A,6.44
2,2,B,5.42
3,3,C,8.42
4,4,D,3.82
5,5,E,7.82


# MySQL y MariaDB

[Contenido](#Contenido)

> Para estos ejemplos, la máquina local debe tener instalada la herramienta. Visite http://dev.mysql.com/downloads/ para más información.

> **Nota.** A continuación se describe el proceso de instalación de MySQL.

> 1. Descague el instalador y ejecutelo. Durante la instalación el sistema le suministrará un username y un password inicial. En mi caso: root@localhost y gxnM*y;_x7Vi
2. Cuando finalice la instalación, vaya el prompt de comandos y ejecute MySQL. En OS X la ruta es `/usr/local/mysql/bin`.
3. Como resultado se abrirá consola de comandos de MySQL.
4. En la consola, el primer paso es reiniciar el password. Para ello, ejecute el siguiente comando en la consola:  
`ALTER USER 'root'@'localhost' IDENTIFIED BY 'xxx';`
5. Cree una base de datos de prueba:  
      `CREATE DATABASE test;`
6. Salga de MySQL con `quit`.

In [45]:
# crea una conexión a la base de datos
library(RMySQL)
con_mysql <- dbConnect(RMySQL::MySQL(), 
                       user="root", 
                       password="xxx", 
                       dbname='test')

Loading required package: DBI


In [46]:
# crea una tabla llamada 'mtcars' y graba el dataframe `mtcars` en ella.
dbSendQuery(con_mysql, 'drop table if exists mtcars')   # borra la tabla si existe
dbWriteTable(conn=con_mysql, name = 'mtcars', value = mtcars) # crea la tabla

<MySQLResult:1852270963,0,0>

In [47]:
# lista las tablas existentes en la base de datos actual.
# 'mtcars'  es la tabla que se acabo de crear
dbListTables(con_mysql)

In [48]:
# obtiene los registros con mpg > 30 de la tabla.
result = dbSendQuery(con_mysql, "select * from mtcars where mpg > 30")
df = fetch(result)
df

Unnamed: 0,row_names,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
1,Fiat 128,32.4,4,78.7,66,4.08,2.2,19.47,1,1,4,1
2,Honda Civic,30.4,4,75.7,52,4.93,1.615,18.52,1,1,4,2
3,Toyota Corolla,33.9,4,71.1,65,4.22,1.835,19.9,1,1,4,1
4,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2


In [49]:
dbDisconnect(con_mysql)

: Closing open result sets

# XML

[Contenido](#Contenido)

> 
[`XML` Package](https://cran.r-project.org/web/packages/XML/index.html)  
[`rio` Package](https://cran.r-project.org/web/packages/rio/index.html): : A Swiss-Army Knife for Data I/O

> XML en [Wikipedia](https://en.wikipedia.org/wiki/XML)  

In [50]:
library(rio)
export(df, 'files/data.xml')

In [51]:
library(XML)

## lee el archivo en formato XML
xmlfile <- xmlTreeParse("files/data.xml")

##
topxml <- xmlRoot(xmlfile)
topxml <- xmlSApply(topxml, function(x) xmlSApply(x, xmlValue))

##
print(topxml)

          Observation Observation   Observation      Observation   
row_names "Fiat 128"  "Honda Civic" "Toyota Corolla" "Lotus Europa"
mpg       "32.4"      "30.4"        "33.9"           "30.4"        
cyl       "4"         "4"           "4"              "4"           
disp      "78.7"      "75.7"        "71.1"           "95.1"        
hp        "66"        "52"          "65"             "113"         
drat      "4.08"      "4.93"        "4.22"           "3.77"        
wt        "2.2"       "1.615"       "1.835"          "1.513"       
qsec      "19.47"     "18.52"       "19.9"           "16.9"        
vs        "1"         "1"           "1"              "1"           
am        "1"         "1"           "1"              "1"           
gear      "4"         "4"           "4"              "5"           
carb      "1"         "2"           "1"              "2"           


In [52]:
xml_df <- data.frame(t(topxml),
                     row.names=NULL)
print(xml_df)

       row_names  mpg cyl disp  hp drat    wt  qsec vs am gear carb
1       Fiat 128 32.4   4 78.7  66 4.08   2.2 19.47  1  1    4    1
2    Honda Civic 30.4   4 75.7  52 4.93 1.615 18.52  1  1    4    2
3 Toyota Corolla 33.9   4 71.1  65 4.22 1.835  19.9  1  1    4    1
4   Lotus Europa 30.4   4 95.1 113 3.77 1.513  16.9  1  1    5    2


In [53]:
# otra forma
print(xmlToDataFrame('files/data.xml'))

       row_names  mpg cyl disp  hp drat    wt  qsec vs am gear carb
1       Fiat 128 32.4   4 78.7  66 4.08   2.2 19.47  1  1    4    1
2    Honda Civic 30.4   4 75.7  52 4.93 1.615 18.52  1  1    4    2
3 Toyota Corolla 33.9   4 71.1  65 4.22 1.835  19.9  1  1    4    1
4   Lotus Europa 30.4   4 95.1 113 3.77 1.513  16.9  1  1    5    2


# ARFF Weka

[Contenido](#Contenido)

> 
[`read.arff {foreign}`](http://www.inside-r.org/r-doc/foreign/read.arff)  
[`write.arff {foreign}`](http://www.inside-r.org/r-doc/foreign/write.arff)

In [54]:
## no es compatible con la librería de Python
library(foreign)
write.arff(x = df,
           file = 'files/data.arff')

In [55]:
x <- read.arff(file = 'files/data.arff')
print(x)

       row_names  mpg cyl disp  hp drat    wt  qsec vs am gear carb
1       Fiat 128 32.4   4 78.7  66 4.08 2.200 19.47  1  1    4    1
2    Honda Civic 30.4   4 75.7  52 4.93 1.615 18.52  1  1    4    2
3 Toyota Corolla 33.9   4 71.1  65 4.22 1.835 19.90  1  1    4    1
4   Lotus Europa 30.4   4 95.1 113 3.77 1.513 16.90  1  1    5    2


# MPT minitab portable worksheet  

[Contenido](#Contenido)

> 
[`read.mtp {foreign}`](http://www.inside-r.org/r-doc/foreign/read.mtp)

In [1]:
library(foreign)
# read.mpt('data/data.mtp')

# PDF

[Contenido](#Contenido)

> Para leer pdfs debe tener instalado el paquete tm (text mining). El paquete `tm` usa la función `pdftotext` del sistema Unix. Para instalarla (en Unix) use homebrew.
```
brew install poppler
```

In [57]:
# Para este ejemplo se creó un archivo pdf que contiene el texto del ejemplo anterior.
library(NLP)
library(tm)
pdf_reader <- readPDF(control = list(text = "-layout"))      # crea la función para leer el documento
pdf_docs <- pdf_reader(elem = list(uri = 'files/data.pdf'),  # nombre del archivo
                       language = "en")                      # idioma
names(pdf_docs)

In [58]:
# metadatos
pdf_docs$meta

  author       : character(0)
  datetimestamp: 2016-06-04 23:28:43
  description  : character(0)
  heading      : demo
  id           : data.pdf
  language     : en
  origin       : TextEdit

In [59]:
# contenido
pdf_docs$content

# Octave & Matlab

[Contenido](#Contenido)

> 
[`read.octave {foreign}`](http://www.inside-r.org/r-doc/foreign/read.octave)  

In [2]:
# pendiente -- no es compatible con python sio
# read.octave('files/data.mat')

# SPSS

[Contenido](#Contenido)

> 
[`read.spss {foreign}`](http://www.inside-r.org/r-doc/foreign/read.spss)

In [61]:
#
# pendiente
#

# Systat

[Contenido](#Contenido)

> [`read.systat {foreign}`](http://www.inside-r.org/r-doc/foreign/read.systat)

In [62]:
# read.systat(system.file("files/Iris.syd", package="foreign")

ERROR: Error in parse(text = x, srcfile = src): <text>:2:0: unexpected end of input
1:  read.systat(system.file("files/Iris.syd", package="foreign")
   ^


# Mongo DB

[Contenido](#Contenido)

> Sin información disponilble

In [3]:
#
# pendiente
#

# Spark

[Contenido](#Contenido)

>  Sin información disponible

In [4]:
#
# pendiente
# 

---

[Contenido](#Contenido)

<a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/"><img alt="Licencia de Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-nd/4.0/88x31.png" /></a><br />Este obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/">licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional</a>.