# <center> **Lectura de datos en R** 

## Lectura de datos

> **Archivos más comunes:**

- read.csv() 
- read.csv2()
- read.delim()
- read_excel()
- Lectura de archivos JSON
- Lectura de archivos XML
- Lectura de tablas HTML

> **Lectura de otros formatos:**

- Lectura de archivos SPSS
- Lectura de archivos SAS
- Lectura de archivos Minitab

> ### read_csv()

In [49]:
df1 <- read.csv('./datasets/iris.csv')
head(df1)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5.0,3.6,1.4,0.2,setosa
6,5.4,3.9,1.7,0.4,setosa


> Por defecto al leer un archivo supone que tiene encabezados, sino es el caso podemos especificar en la función <span style="color:blue"> read.csv() </span> los encabezados agregando el algumento <span style="color:blue"> header=FALSE</span>.

In [92]:
df2 <- read.csv('./datasets/iris.csv', header=TRUE)
head(df2)


Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,6.3,3.3,6.0,2.5,virginica
2,5.8,2.7,5.1,1.9,virginica
3,7.1,3.0,5.9,2.1,virginica
4,6.3,2.9,5.6,1.8,virginica
5,6.5,3.0,5.8,2.2,virginica
6,7.6,3.0,6.6,2.1,virginica


> Si queremos especificar los nombres de encabezados podemos utilizar el argumento <span style="color:blue"> col.names </span>.

In [93]:
df3 <- read.csv('./datasets/iris.csv', 
                header=TRUE, 
                col.names=c('Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species'))
head(df3)

Unnamed: 0_level_0,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,6.3,3.3,6.0,2.5,virginica
2,5.8,2.7,5.1,1.9,virginica
3,7.1,3.0,5.9,2.1,virginica
4,6.3,2.9,5.6,1.8,virginica
5,6.5,3.0,5.8,2.2,virginica
6,7.6,3.0,6.6,2.1,virginica


> Para guardar en formato csv empleamos la función <span style="color:blue"> write.csv() </span>, indicando el objeto a guardar y la ruta con el nombre del archivo.

In [10]:
write.csv(df3, './datasets/iris2.csv', row.names=FALSE)

> ### read_csv2()

In [94]:
# csv separado por ;
df4 <- read.csv('./datasets/iris2.csv', sep=";")
head(df4)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5.0,3.6,1.4,0.2,setosa
6,5.4,3.9,1.7,0.4,setosa


In [96]:
# csv separado por "-"
df5 <- read.csv('./datasets/iris3.csv', sep="-")
head(df5)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5.0,3.6,1.4,0.2,setosa
6,5.4,3.9,1.7,0.4,setosa


> ### read_excel()

In [97]:
library("readxl")

> Por defecto al leer un archivo de excel nos lee únicamente la primera hoja.

In [109]:
df6 <- read_excel("./datasets/iris.xlsx")
head(df6)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
<dbl>,<dbl>,<dbl>,<dbl>,<chr>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


> Si deseamos consolidar todas las hojas de un archivo de excel en un único data frame, podemos emplear lo aprendido sobre programación para automatizar esa tarea.

In [112]:
# código para consolidar varias hojas de excel en un sólo data frame
sheets = 1:3

for(i in 1:length(sheets)){
    if(i == 1){
        df_iris_1 <- read_excel("./datasets/iris.xlsx", sheet=i)
    }else{
        df_iris_n <- read_excel("./datasets/iris.xlsx", sheet=i)
        df_iris_1 <- rbind(df_iris_1, df_iris_n)
    }
}

In [114]:
head(df_iris_1)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
<dbl>,<dbl>,<dbl>,<dbl>,<chr>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


In [118]:
dim(df_iris_1)

> ### Read from the web (Datos de COVID-19 México)

La información se encuentra disponible en la siguiente liga:  <a href="https://www.gob.mx/salud/documentos/datos-abiertos-152127">https://www.gob.mx/salud/documentos/datos-abiertos-152127</a>.

In [89]:
# creación de un archivo temporal
temp <- tempfile()
# descargar archivo .zip al archivo temporal
download.file("http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip",temp)
# lectura del archivo .csv deltro del .zip
covid_mex <- read.csv(unz(temp,'210705COVID19MEXICO.csv'))
# remueve archivos temporales
unlink(temp)

In [90]:
head(covid_mex)

Unnamed: 0_level_0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,OTRO_CASO,TOMA_MUESTRA_LAB,RESULTADO_LAB,TOMA_MUESTRA_ANTIGENO,RESULTADO_ANTIGENO,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
Unnamed: 0_level_1,<chr>,<chr>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,...,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<chr>,<chr>,<int>
1,2021-07-05,z482b8,1,12,9,2,9,9,12,1,...,2,2,97,2,97,1,99,MÃ©xico,97,97
2,2021-07-05,z49a69,1,12,23,1,23,23,4,2,...,1,2,97,2,97,2,99,MÃ©xico,97,1
3,2021-07-05,z23d9d,1,12,22,2,24,22,9,1,...,2,2,97,2,97,6,99,MÃ©xico,97,97
4,2021-07-05,z24953,1,12,9,1,9,9,10,1,...,1,1,2,2,97,7,99,MÃ©xico,97,97
5,2021-07-05,zz8e77,1,12,9,2,9,9,2,1,...,2,2,97,2,97,6,99,MÃ©xico,97,97
6,2021-07-05,z1b0d1,1,12,1,1,1,1,3,1,...,99,1,4,2,97,5,99,MÃ©xico,97,97
