# Importación de Datos

Existen varios formatos que contienen las bases de datos, R puede trabajar con el 95% de las extensiones de archivo existentes: archivo de texto, stata, spss, matlab, minitab, excel, exportado desde sas, etc. Realizaremos el ejercicio con las extensiones más comunes.

Antes de empezar a trabajar es necesario seleccionar el directorio de trabajo, esto se hace con la orden setwd(). La linea de comandos quedaría de la siguiente forma:

`setwd("~/GitHub/importacion")`

En este caso, estamos moviéndonos en un subdirectorio con profundidad de segundo nivel dentro del directorio original de trabajo. Si se quiere cambiar por completo la ubicación del directorio de trabajo es necesario escribir la ruta completa. Por ejemplo, si queremos movernos a un directorio llamado "llaves" ubicado en la partición "D" se escribe:

`setwd("~D:/llaves")`

Lo anterior se usa cuando se quiere que mediante el script se ubique el directorio de trabajo. Si el usuario quiere hacerlo manualmente puede recurrir en el menú contextual a la opción Archivo/Cambia dir...

Veamos ahora las extensiones de archivo que, comúnmente nos encontramos.

## Archivos de Texto

Los archivos de texto son los que se guardan en documentos tipo block de notas. Su extensión es `*.txt`. Son comunes a todos los sistemas operativos y no poseen propietario por lo que es posible trabajar con ellos sin inconvenientes de compatibilidad o licencia. El comando para realizar al importación es `read.table()` . Para saber cuáles son los argumentos completos se puede emplear `args(read.table)` y podremos ver cómo se define el comando. Los elementos que encontramos son:

`Nombre con el que se identifica el conjunto de datos<- read.table("nombre del archivo.txt", header=TRUE, sep="\t", na.strings="NA", dec=".", strip.white=TRUE)`

Es decir, si queremos cargar un conjunto de datos al que llamaremos **Texto** usando un archivo denominado `datos.txt` la línea de comandos queda:

In [1]:
Texto <- read.table("datos.txt", header=TRUE, sep="\t", na.strings="NA", dec=".", strip.white=TRUE)

Si queremos saber cómo quedan configurados los datos podemos escribir

In [2]:
head(Texto)

Unnamed: 0_level_0,country,country.isocode,year,POP,ppp,cgnp
Unnamed: 0_level_1,<chr>,<chr>,<int>,<dbl>,<dbl>,<dbl>
1,France,FRA,2000,61136.52,0.9140463,101.373
2,France,FRA,2001,61479.3,0.9103722,101.1844
3,France,FRA,2002,61828.99,0.9105602,100.2736
4,France,FRA,2003,62171.39,0.907951,100.6268
5,France,FRA,2004,62534.16,0.8972155,100.7924
6,France,FRA,2005,62911.52,0.8858009,100.6463


## Archivos de SPSS

Otro tipo de archivo que es factible encontrar son los generados mediante SPSS. Su extensión es `*.sav`. Para importarlo, necesitamos una librería llamada `heaving`, (Si la librería no está disponible hay que proceder a instalarla. En la clase se explicará cómo instalar una librería) para emplearla se escribe:

In [4]:
library(haven)
spss <- read_sav("DatosSPSS.sav")
colnames(spss) <- tolower(colnames(spss))

Es decir, hemos creado un conjunto de datos llamado `spss` y le hemos asignado a las columnas el mismo nombre que el archivo original llamado `DatosSPSS.sav`. Del mismo modo, si queremos conocer la conformación del conjunto de datos podemos escribir:

In [5]:
head(spss)

nom,eda,alt,pes,sex,bday
<chr>,<dbl>,<dbl>,<dbl>,<dbl+lbl>,<date>
Laura,25,167,65,2,1989-11-12
Maria,21,160,57,2,1990-01-01
Pedro,23,178,83,1,1996-02-29
Josep,29,170,69,1,1981-03-02
Martha,23,163,65,2,1984-12-31
Jordi,19,185,90,1,1967-02-22


## Archivos de STATA

Otro tipo de archivo que podemos encontrar son los de STATA. Su extensión es `*.dat`. Para importarlo, necesitamos también la librería llamada foreign. Similar al caso de Texto y SPSS, para importar los datos escribimos

In [6]:
stata <- read_stata("datosStata.dta")

In [7]:
head(stata)

pers,postrem,treat,gender,priori
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,2492.1555,0,0,0.19019672
2,2871.1895,0,0,0.16711207
3,2370.7405,0,0,0.15091535
4,3726.5693,0,0,0.09395168
5,859.6276,0,0,0.05056068
6,3705.2524,0,0,0.06708307


## Archivos de EXCEL

Finalmente, tenemos los archivos de EXCEL. Son los más comunes. Para importarlo, necesitamos de nuevo la librería `readxl`. Continuando con la dinámica de los casos anteriores escribimos

In [13]:
library(readxl)
excel <- read_excel('datos.xlsx')
head(excel)

country,country isocode,year,POP,ppp,cgnp
<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>
France,FRA,2000,61136.52,0.9140463,101.373
France,FRA,2001,61479.3,0.9103722,101.1844
France,FRA,2002,61828.99,0.9105602,100.2736
France,FRA,2003,62171.39,0.907951,100.6268
France,FRA,2004,62534.16,0.8972155,100.7924
France,FRA,2005,62911.52,0.8858009,100.6463


## Ejercicios

Con los archivos suministrados mediante el enlace realice la actividad de importación

Enlace: https://www.dropbox.com/sh/1gxpj6s6q1k9iqc/AACuejTbXPoLZ8iiYgF877joa?dl=0

También se puede consultar: https://github.com/karlosmantilla/importacion