## Importar Datos en R
0. Preliminares
  
La importación de datos es un proceso en el cual accedemos a data sets en diferentes formatos para utilizarlos en R.
Algunos de los formatos que vamos a leer en esta unidad son: .csv, .txt, .xls y dta.
Asimismo, podemos importar datos de numerosas fuentes: paquetes estadísticos, ficheros de texto, bases de datos, hojas de cálculo, etc.
  
Antes de importar datos, debemos fijar el directorio de trabajo ("working ditectory")

In [1]:
#choose.files()
#setwd("E:/ADMIN/Documents/ImportaDatosR")

In [2]:
# Recuerda que los datos que importemos deben de estar en tu "wd" y los datos que exportemos se almacenarán en dicho directorio.
# Asimismo, recuerda cambiar "\" por "/", para que no tengas problemas.
#file.choose()

1. Importar datos
  
1.1. Función read.table()

Lee un archivo en formato de tabla y crea un data frame  a partir de él.
Para leer un data frame directamente, el archivo externo generalmente debe tener una forma especial:

- La primera línea del archivo debe tener un "nombre" para cada variable en el data frame.

- Cada línea adicional del archivo tiene como primer elemento una etiqueta de fila y los valores para cada variable.

OBS: Esta funciónn tiene varias opciones de lectura, las cuales tendremos que especificar para importar los datos correctamente.
      Estas opciones son:


-  read.csv()   : Están destinados a leer archivos de valores separados por comas (.csv)


-  read.csv2()  : Es la variante utilizada en países que usan una coma como punto decimal y un punto y coma como separador de campo.


-  read.delim() : Es para leer archivos delimitados, por defecto al carácter TAB para el delimitador.


-  read.delim2(): Similar a read.delim().
  
  
Primer ejemplo: Importando un data set "con nombre" para cada variable.

In [None]:
file.choose()                               # Utilizamos para buscarla ruta en la que importaremos/exportaremos la data.
setwd("E:/ADMIN/Documents/ImportaDatosR")   # Fijamos la ruta como directorio de trabajo
getwd()

data01 <- read.table("libertad_prensa.txt")
head(data01)

In [None]:
# Importamos considerando los detalles de la data
  
data01 <- read.table("libertad_prensa.txt", header = TRUE, sep = ",", dec = ".")
head(data01)

Segundo ejemplo: Importando un data set "sin nombre" para cada variable.

In [None]:
data02 <- read.table("libertad_prensa_sinnombre.txt", header = FALSE, sep = ",", dec = ".")
head(data02)

Importante:
  
- read.table()  : importa datos a partir de un archivo original y lo convierte en una base de datos (data frame).
- header = TRUE : indica que la primera fila de la data corresponde a los nombres o etiquetas de las variables.
- sep = ","     : indica que la separación entre valores en una fila es una coma (",").
- dec = "."     : indica que el caracter usado para marcar decimales es un punto (".").

In [None]:
# Bonus Extra: Colocamos nombres a las variables de una data importada "sin nombre".
  
  names(data02) <- c("codigo", "pais", "anio", "linf", "lsup")
  head(data02)

1.2. Importar datos con la función readr()
  
- Podemos usar:

read_csv():   lee archivos con la coma "," como separador de datos.


read_csv2():  lee archivos con punto y coma ";" como separador de datos.


read_tsv():   lee archivos con tabulador ("\t") como separador de datos.


read_delim( ,sep = "|"): lee archivos con separador distinto como "|" 

In [None]:
setwd("E:/ADMIN/Documents/ImportaDatosR")
getwd()

install.packages("readr") # instalamos la paquete readr
library(readr)   # Lo activamos
misdatos <- read_csv("E:/ADMIN/Documents/ImportaDatosR/gapminder.csv")

In [None]:
# Otra forma usando la función file.choose() dentro de readr()
misdatos01 <- read_csv(file.choose())

In [None]:
# De forma similar, podemos leer data sets "con nombre,"sin nombre" y un caso especial con la función readr()
  
# Para el caso en el cual NO tenemos "nombre" (sin encabezado)
misdatos01.1 <- read_csv(file.choose(), skip = 0, col_names = FALSE) 

In [None]:
# Para el caso en el cual SI tenemos "nombre" (con encabezado)
misdatos01.2 <- read_csv(file.choose(), skip = 0, col_names = TRUE)

In [None]:
# Para el caso en el cual SI tenemos "nombre" (con encabezado) pero en una posición diferente al inicio (caso especial)
misdatos01.3 <- read_csv(file.choose(), skip = 3, col_names = TRUE) 
# El argumento skip nos permite elegir desde que "fila" se va a leer los datos
# El argumento col_names nos permite indicar a R si el data set tiene o no encabezados (nombre de las columnas)

1.3. Importar datos con la función readxl()

In [None]:
setwd("E:/ADMIN/Documents/ImportaDatosR")
getwd()

install.packages("readxl")
library(readxl)

# Importamos archivos excel colocando el nombre de la hoja que quieres leer
# misdatos <- read_excel(file.choose(), sheet = "nombre de la hoja que quieres leer")

misdatos02 <- read_excel(file.choose(), sheet = "primerahoja")
misdatos03 <- read_excel(file.choose(), sheet = "segundahoja")

In [None]:
# 1.4. Importar datos desde la RED de INTERNET
  
setwd("E:/ADMIN/Documents/ImportaDatosR")

# Primero debemos descargar los archivos (data set) de internet.
# https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data             (UCI Machine Learning Repository)

download.file(url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data",
            destfile = "data.iris")

# - download.file(): nos permite descargar un archivo de internet. Nos pide como argumento la "url" del sitio.
# - destfile       : es el argumento de la funciónn download.file() que nos permite asignar un nombre a nuestra archivo
#                    y almacenarlo en la memoria de R.

In [None]:
# Una vez cargado, vamos a crear nuestro data set
  
# Usando función read.table()
datos.iris01 <- read.table(file = "data.iris", header = FALSE, sep = ",", dec = ".")    

# Usando la función read_csv() del paquete readr
library(readr)
datos.iris02 <- read_csv(file = "data.iris", skip = 0, col_names = FALSE)              

# Nota1: No se olvide de activar el paquete "readr" antes de usar la función read_csv().
# Nota2: Luego de cargado el data set de internet, usted puede agregar los nombres a las variables con la función names().